Probabilidade a posteriori

Estatística
  • v
  • d
  • e

Em estatística bayesiana, a probabilidade a posteriori de um evento aleatório ou uma proposição incerta é a probabilidade condicionada que é atribuída depois que evidências ou planos de fundo relevantes são levados em conta. De forma semelhante, a distribuição de probabilidade a posteriori é a distribuição de probabilidade de uma quantidade incerta, tratada como uma variável aleatória, condicional sobre a evidência obtida de um experimento ou survey. Neste contexto, "a posteriori" significa depois de levar em conta evidências relevantes relativas ao caso particular sendo examinado.[1]

Definição

A probabilidade a posteriori é a probabilidade dos parâmetros θ {\displaystyle \theta } dada a evidência X {\displaystyle X} : p ( θ | X ) {\displaystyle p(\theta |X)} .

Contrasta com a função de verossimilhança, que é a probabilidade da evidência dados os parâmetros: p ( X | θ ) {\displaystyle p(X|\theta )} .

Estes dois conceitos se relacionam como descrito abaixo.

Considere que temos uma crença a priori de que a função distribuição de probabilidade é p ( θ ) {\displaystyle p(\theta )} e as observações são x {\displaystyle x} com a verossimilhança p ( x | θ ) {\displaystyle p(x|\theta )} . Então, a probabilidade a posteriori é definida como:

p ( θ | x ) = p ( x | θ ) p ( θ ) p ( x ) . {\displaystyle p(\theta |x)={\frac {p(x|\theta )p(\theta )}{p(x)}}.}

A probabilidade a posteriori pode ser escrita de forma memorizável como:

Probabilidade a posteriori Verossimilhanca × Probabilidade a priori . {\displaystyle {\text{Probabilidade a posteriori}}\propto {\text{Verossimilhanca}}\times {\text{Probabilidade a priori}}.} [2]

Exemplo

Suponha que há uma escola mista e que 60% de seus alunos são meninos e 40% de seus alunos são meninas. As meninas usam calças ou saias em números iguais. Todos os meninos usam calças. Um observador vê um estudante (aleatório) a distância. Tudo o que o observador pode ver é que este estudante está vestindo calças. Qual é a probabilidade de que este estudante seja uma menina? A resposta correta pode ser computada usando o teorema de Bayes.

O evento G {\displaystyle G} é aquele em que o estudante observado é uma menina e o evento T {\displaystyle T} é aquele em que o estudante observado está vestindo calças. Para computar a probabilidade a posteriori P ( G | T ) {\displaystyle P(G|T)} , precisamos primeiramente saber:

  • P ( G ) {\displaystyle P(G)} , que é a probabilidade de que o estudante seja uma menina, independentemente de qualquer outra informação. Já que o observador vê um estudante aleatório, o que quer dizer que todos os estudantes têm a mesma probabilidade de ser observados, e a porcentagem de meninas entre os estudantes é 40 % {\displaystyle 40\%} , esta probabilidade é igual a 0 , 4 {\displaystyle 0,4} .
  • P ( B ) {\displaystyle P(B)} , que é a probabilidade de que o estudante não seja uma menina, isto é, um menino, independentemente de qualquer outra informação ( B {\displaystyle B} é o evento complementar a G {\displaystyle G} ). Esta é igual a 60 % {\displaystyle 60\%} ou 0 , 6 {\displaystyle 0,6} .
  • P ( T | G ) {\displaystyle P(T|G)} , que é a probabilidade de que o estudante esteja vestindo calças, sendo o estudante uma menina. Como elas têm a mesma probabilidade de vestir saias ou calças, esta é igual 0 , 5 {\displaystyle 0,5} .
  • P ( T | B ) {\displaystyle P(T|B)} , que é a probabilidade de que o estudante esteja vestindo calças, sendo o estudante um menino. Esta é igual a 1 {\displaystyle 1} .
  • P ( T ) {\displaystyle P(T)} , que é a probabilidade de que um estudante (aleatoriamente selecionado) esteja vestindo calças, independentemente de qualquer outra informação. Já que P ( T ) = P ( T | G ) P ( G ) + P ( T | B ) P ( B ) {\displaystyle P(T)=P(T|G)P(G)+P(T|B)P(B)} (pela lei da probabilidade total), esta é igual a P ( T ) = 0 , 5 × 0 , 4 + 1 × 0 , 6 = 0 , 8 {\displaystyle P(T)=0,5\times 0,4+1\times 0,6=0,8} .

Dadas todas estas informações, a probabilidade a posteriori do observador ter visto uma menina, dado que o estudante observado estava vestindo calças, pode ser computada ao substituir estes valores na fórmula:

P ( G | T ) = P ( T | G ) P ( G ) P ( T ) = 0 , 5 × 0 , 4 0 , 8 = 0 , 25. {\displaystyle P(G|T)={\frac {P(T|G)P(G)}{P(T)}}={\frac {0,5\times 0,4}{0,8}}=0,25.}

A intuição deste resultado é que, a cada 100 estudantes (60 meninos e 40 meninas), se observarmos calças, o estudante é um de 80 estudantes que vestem calças (60 meninos e 20 meninas). Já que 20 / 80 = 1 / 4 {\displaystyle 20/80=1/4} dos estudantes que vestem calças são meninas, a probabilidade de que o estudante vestindo calças seja uma menina é igual 1 / 4 {\displaystyle 1/4} .[3]

Cálculo

A distribuição de probabilidade a posteriori de uma variável aleatória dado o valor de outra pode ser calculada com o teorema de Bayes, ao multiplicar a distribuição de probabilidade a priori pela função de verossimilhança e, em seguida, dividir pela constante de normalização, como segue:

f X Y = y ( x ) = f X ( x ) L X Y = y ( x ) f X ( u ) L X Y = y ( u ) d u , {\displaystyle f_{X\mid Y=y}(x)={f_{X}(x)L_{X\mid Y=y}(x) \over {\int _{-\infty }^{\infty }f_{X}(u)L_{X\mid Y=y}(u)du}},}

que dá a função densidade de probabilidade a posteriori para um variável aleatória X {\displaystyle X} , levando em conta os dados Y = y {\displaystyle Y=y} , em que:

  • f X ( x ) {\displaystyle f_{X}(x)} é a densidade a priori de X {\displaystyle X} ,
  • L X Y = y ( x ) = f Y X = x ( y ) {\displaystyle L_{X\mid Y=y}(x)=f_{Y\mid X=x}(y)} é a função de verossimilhança como uma função de x {\displaystyle x} ,
  • f X ( u ) L X Y = y ( u ) d u {\displaystyle \int _{-\infty }^{\infty }f_{X}(u)L_{X\mid Y=y}(u)du} é a constante de normalização e
  • f X Y = y ( x ) {\displaystyle f_{X\mid Y=y}(x)} é a densidade a posteriori de X {\displaystyle X} , levando em conta os dados Y = y {\displaystyle Y=y} .[4]

Intervalo de credibilidade

A probabilidade a posteriori é a probabilidade condicional condicionada sobre dados aleatoriamente observados, logo, é uma variável aleatória. Sendo uma variável aleatória, é importante resumir sua quantidade de incerteza. Uma forma de atingir este objetivo é providenciar um intervalo de credibilidade da probabilidade a posteriori.[5]

Classificação

Em classificação, as probabilidades a posteriori refletem a incerteza de inserir uma observação em uma classe particular. Enquanto métodos de classificação estatística por definição geram probabilidades a posteriori, as máquinas aprendizes usualmente oferecem valores de associação que não incluem qualquer confiança probabilística. É desejável transformar ou reescalonar valores de associação em probabilidades de associação de classe, já que são comparáveis e adicionalmente mais facilmente aplicáveis para o pós-processamento.[6]

Ver também

Referências

  1. Hayes, Andy (2017). Bayes Theorem: A Quick-start Beginner's Guide (em inglês). North Charleston, South Carolina: CreateSpace Independent Publishing Platform. ISBN 9781542493598. Consultado em 5 de março de 2018 
  2. Lee, Peter M. (2004). Bayesian statistics: an introduction 3rd ed. London: Arnold. ISBN 9780340814055. OCLC 54888001. Consultado em 5 de março de 2018 
  3. Hartshorn, Scott (2016). Bayes Theorem Examples (em inglês). Morrisville, Carolina do Norte, EUA: Lulu Press, Inc. ISBN 9781329854123. Consultado em 5 de março de 2018 
  4. Ehlers, Ricardo; Justiniano, Paulo (2003). «Teorema de Bayes». Laboratório de Estatística e Geoinformação da Universidade Federal do Paraná. Consultado em 5 de março de 2018 
  5. Swinburne, Richard (2005). Bayes's Theorem (em inglês). Oxford: Oxford University Press/British Academy. ISBN 9780197263419. Consultado em 5 de março de 2018 
  6. Bishop, Christopher M. (2006). Pattern recognition and machine learning. New York: Springer. ISBN 9780387310732. OCLC 71008143. Consultado em 5 de março de 2018 
  • Portal de probabilidade e estatística