venres, 14 de febreiro de 2025

Xogando co teorema central do límite

Eu saín da Facultade de Matemáticas no ano 1990. O plan de estudos vixente naquela altura consistía en cursar 4 materias anuais Das que 3 eran fixas: Álxebra, Análise e Topoloxía/Xeometría. A cuarta materia, que para min significou sempre un horror,  era Física (en 1º), Cálculo Numérico (en 2º) e Estatística (en 3º). A partir de aquí había dúas vías para os dous últimos cursos, unha delas era Estatística e a outra Matemáticas Xerais. Esta última consistía nunha longa lista de materias con distintos niveis de optatividade. 

Sendo así as cousas eu só tiven unha materia de Estatística en toda a carreira,..e non a aproveitei moito. Creo recordar que no departamento axustaban a nota en función dos resultados. Como normalmente as notas eran bastante malas, o aprobado acababa baixando a un valor arredor do 4. Eu agarrábame a iso para transitar pola materia co menor dano posible. O triste do conto foi cando me chegou o momento de ter que explicar o teorema central do límite... e claro, eu non tiña nin idea de que trataba o asunto. 

A cousa non acabou en desastre total grazas a un libro, Matemática moderna aplicada. Probabilidades, estadística e investigación operativa (Alianza Universidad 1993), de J. C. Turner. A partir de aquí vou seguir a Turner, case letra a letra. Nun dos capítulos explica o que son as distribucións mostrais. Comeza co seguinte exemplo:

Tíranse 50 veces catro dados equilibrados. Apúntanse de cada vez os números obtidos. Despois calcúlase a media de cada mostra deses catro números. Un exemplo dun deses resultados sería:

Mostra: 1, 5, 6, 4

Media: X=4

Antes de comezar a estudar a proposta, lembremos en que consiste a distribución orixinal, a do lanzamento dun dado. É ben simple, hai 6 posibles resultados e cada un deles ten a mesma probabilidade 16. A media desta variable aleatoria discreta é μ=35 e o seu desvío padrón é σ=17078. Por suposto, este estudo xa o temos feito na clase desde hai tempo.

A función X=X1+X2+X3+X44 é un estatístico mostral. Cada vez que tomamos unha mostra podemos calcular o seu valor. Pero X é tamén unha variable aleatoria. A cuestión consiste en deducir como é a distribución mostral das medias X a partir dos valores mostrais. Agora é cando cobra sentido realizar o experimento moitas veces (50 no noso exemplo). Que é o que observamos?

Como na entrada anterior, podemos xogar coa seguinte folla de cálculo que simula o proceso. Hai dúas alternativas para traballar coa seguinte ferramenta. Marcadas en amarelo aparecen as medias de cada lanzamento de catro dados.

  • A mellor é descargar a folla de cálculo. Se queremos recalcular os datos basta premer F9
  • Podemos facelo on-line. Nese caso debemos recargar de novo a páxina ou, o que é o mesmo premer Maíuscula+F5



A distribución mostral das medias, X, é moi diferente á poboación orixinal (lanzamento dun dado). Pensemos que resultará moi improbable obter resultados extremos para X. Para que X tome o valor 1 só hai unha mostra posible: (1,1,1,1). Porén para obter un resultado intermedio para X como 3 temos moitas posibilidades: (3,3,3,3), (2,3,4,3), (3,1,6,2), (3,1,2,6),... (Unha boa cuestión sería averiguar cantas tiradas distintas terán 3 de media). Por esta razón a distribución X tomará valores no centro da distribución orixinal con máis frecuencia. Ademáis é bastante plausible que o centro da distribución X coincida coa media da distribución base, μ=35, que é unha distribución discreta que xa estudamos máis arriba, na que a cada un dos posibles resultados lle asignamos unha probabilidade de 1/6. Se pensamos o que sucedería se no canto de lanzar catro dados, lanzamos seis, pronto nos convenceriamos de que aumentaría a concentración de X arredor do centro. A dispersión de X diminuirá ao aumentar o tamaño da mostra n
Que máis podemos dicir sobre a relación entre a distribución orixinal e a distribución mostral das medias? Se observamos o diagrama obtido nas mostras de catro datos (e podemos facelo repetidamente varias veces usando a folla de cálculo) veremos que as frecuencias relativas caen rapidamente a ambos lados da media μ. Aínda que feblemente, a gráfica ten un aire coa curva normal teórica coa mesma media e cun desvío padron σn. Se n é o suficientemente grande a distribución X pódese axustar por esta curva normal. Convén fixarse en que a distribución orixinal é un rectángulo, moi distinta da forma da distribución X. Isto que acabamos de explicar é o teorema central do límite. Podémolo enunciar, con algo máis de pompa, deste xeito:

Teorema Central do Límite. Dada unha variable aleatoria X calquera, consideremos mostras de tamaño n desta distribución (X1,X2,...,Xn). A distribución mostral das medias X=i=1nXin aproxímase a unha variable aleatoria normal N(μ,σn)

É difícil determinar cal debe ser o valor de n para ter un bo axuste. Con todo, para mostras ben pequenas, de tamaño 4, xa vimos que X vai collendo un aire. Para mostras de tamaño n30 poderemos aplicar o teorema sen medo.

Ningún comentario:

Publicar un comentario