venres, 14 de febreiro de 2025

Xogando co teorema central do límite

Eu saín da Facultade de Matemáticas no ano 1990. O plan de estudos vixente naquela altura consistía en cursar 4 materias anuais Das que 3 eran fixas: Álxebra, Análise e Topoloxía/Xeometría. A cuarta materia, que para min significou sempre un horror,  era Física (en 1º), Cálculo Numérico (en 2º) e Estatística (en 3º). A partir de aquí había dúas vías para os dous últimos cursos, unha delas era Estatística e a outra Matemáticas Xerais. Esta última consistía nunha longa lista de materias con distintos niveis de optatividade. 

Sendo así as cousas eu só tiven unha materia de Estatística en toda a carreira,..e non a aproveitei moito. Creo recordar que no departamento axustaban a nota en función dos resultados. Como normalmente as notas eran bastante malas, o aprobado acababa baixando a un valor arredor do 4. Eu agarrábame a iso para transitar pola materia co menor dano posible. O triste do conto foi cando me chegou o momento de ter que explicar o teorema central do límite... e claro, eu non tiña nin idea de que trataba o asunto. 

A cousa non acabou en desastre total grazas a un libro, Matemática moderna aplicada. Probabilidades, estadística e investigación operativa (Alianza Universidad 1993), de J. C. Turner. A partir de aquí vou seguir a Turner, case letra a letra. Nun dos capítulos explica o que son as distribucións mostrais. Comeza co seguinte exemplo:

Tíranse 50 veces catro dados equilibrados. Apúntanse de cada vez os números obtidos. Despois calcúlase a media de cada mostra deses catro números. Un exemplo dun deses resultados sería:

Mostra: 1, 5, 6, 4

Media: $\overline{X}=4$

Antes de comezar a estudar a proposta, lembremos en que consiste a distribución orixinal, a do lanzamento dun dado. É ben simple, hai 6 posibles resultados e cada un deles ten a mesma probabilidade $\frac{1}{6}$. A media desta variable aleatoria discreta é $\mu=3'5$ e o seu desvío padrón é $\sigma=1'7078$. Por suposto, este estudo xa o temos feito na clase desde hai tempo.

A función $\overline{X}=\frac{X_{1}+X_{2}+X_{3}+X_{4}}{4}$ é un estatístico mostral. Cada vez que tomamos unha mostra podemos calcular o seu valor. Pero $\overline{X}$ é tamén unha variable aleatoria. A cuestión consiste en deducir como é a distribución mostral das medias $\overline{X}$ a partir dos valores mostrais. Agora é cando cobra sentido realizar o experimento moitas veces (50 no noso exemplo). Que é o que observamos?

Como na entrada anterior, podemos xogar coa seguinte folla de cálculo que simula o proceso. Hai dúas alternativas para traballar coa seguinte ferramenta. Marcadas en amarelo aparecen as medias de cada lanzamento de catro dados.

  • A mellor é descargar a folla de cálculo. Se queremos recalcular os datos basta premer F9
  • Podemos facelo on-line. Nese caso debemos recargar de novo a páxina ou, o que é o mesmo premer Maíuscula+F5



A distribución mostral das medias, $\overline{X}$, é moi diferente á poboación orixinal (lanzamento dun dado). Pensemos que resultará moi improbable obter resultados extremos para $\overline{X}$. Para que $\overline{X}$ tome o valor $1$ só hai unha mostra posible: $(1,1,1,1)$. Porén para obter un resultado intermedio para $\overline{X}$ como $3$ temos moitas posibilidades: $(3,3,3,3)$, $(2,3,4,3)$, $(3,1,6,2)$, $(3,1,2,6)$,... (Unha boa cuestión sería averiguar cantas tiradas distintas terán $3$ de media). Por esta razón a distribución $\overline{X}$ tomará valores no centro da distribución orixinal con máis frecuencia. Ademáis é bastante plausible que o centro da distribución $\overline{X}$ coincida coa media da distribución base, $\mu=3'5$, que é unha distribución discreta que xa estudamos máis arriba, na que a cada un dos posibles resultados lle asignamos unha probabilidade de $1/6$. Se pensamos o que sucedería se no canto de lanzar catro dados, lanzamos seis, pronto nos convenceriamos de que aumentaría a concentración de $\overline{X}$ arredor do centro. A dispersión de $\overline{X}$ diminuirá ao aumentar o tamaño da mostra $n$. 
Que máis podemos dicir sobre a relación entre a distribución orixinal e a distribución mostral das medias? Se observamos o diagrama obtido nas mostras de catro datos (e podemos facelo repetidamente varias veces usando a folla de cálculo) veremos que as frecuencias relativas caen rapidamente a ambos lados da media $\mu$. Aínda que feblemente, a gráfica ten un aire coa curva normal teórica coa mesma media e cun desvío padron $\frac{\sigma}{\sqrt{n}}$. Se $n$ é o suficientemente grande a distribución $\overline{X}$ pódese axustar por esta curva normal. Convén fixarse en que a distribución orixinal é un rectángulo, moi distinta da forma da distribución $\overline{X}$. Isto que acabamos de explicar é o teorema central do límite. Podémolo enunciar, con algo máis de pompa, deste xeito:

Teorema Central do Límite. Dada unha variable aleatoria $X$ calquera, consideremos mostras de tamaño $n$ desta distribución $\left( X_{1},X_{2},...,X_{n} \right)$. A distribución mostral das medias $\overline{X}=\frac{\sum_{i=1}^{n}X_{i}}{n}$ aproxímase a unha variable aleatoria normal $N\left( \mu,\frac{\sigma}{\sqrt{n}} \right)$

É difícil determinar cal debe ser o valor de $n$ para ter un bo axuste. Con todo, para mostras ben pequenas, de tamaño 4, xa vimos que $\overline{X}$ vai collendo un aire. Para mostras de tamaño $n\ge 30$ poderemos aplicar o teorema sen medo.

Ningún comentario:

Publicar un comentario