venres, 14 de febreiro de 2025

Xogando co teorema central do límite

Eu saín da Facultade de Matemáticas no ano 1990. O plan de estudos vixente naquela altura consistía en cursar 4 materias anuais Das que 3 eran fixas: Álxebra, Análise e Topoloxía/Xeometría. A cuarta materia, que para min significou sempre un horror,  era Física (en 1º), Cálculo Numérico (en 2º) e Estatística (en 3º). A partir de aquí había dúas vías para os dous últimos cursos, unha delas era Estatística e a outra Matemáticas Xerais. Esta última consistía nunha longa lista de materias con distintos niveis de optatividade. 

Sendo así as cousas eu só tiven unha materia de Estatística en toda a carreira,..e non a aproveitei moito. Creo recordar que no departamento axustaban a nota en función dos resultados. Como normalmente as notas eran bastante malas, o aprobado acababa baixando a un valor arredor do 4. Eu agarrábame a iso para transitar pola materia co menor dano posible. O triste do conto foi cando me chegou o momento de ter que explicar o teorema central do límite... e claro, eu non tiña nin idea de que trataba o asunto. 

A cousa non acabou en desastre total grazas a un libro, Matemática moderna aplicada. Probabilidades, estadística e investigación operativa (Alianza Universidad 1993), de J. C. Turner. A partir de aquí vou seguir a Turner, case letra a letra. Nun dos capítulos explica o que son as distribucións mostrais. Comeza co seguinte exemplo:

Tíranse 50 veces catro dados equilibrados. Apúntanse de cada vez os números obtidos. Despois calcúlase a media de cada mostra deses catro números. Un exemplo dun deses resultados sería:

Mostra: 1, 5, 6, 4

Media: $\overline{X}=4$

Antes de comezar a estudar a proposta, lembremos en que consiste a distribución orixinal, a do lanzamento dun dado. É ben simple, hai 6 posibles resultados e cada un deles ten a mesma probabilidade $\frac{1}{6}$. A media desta variable aleatoria discreta é $\mu=3'5$ e o seu desvío padrón é $\sigma=1'7078$. Por suposto, este estudo xa o temos feito na clase desde hai tempo.

A función $\overline{X}=\frac{X_{1}+X_{2}+X_{3}+X_{4}}{4}$ é un estatístico mostral. Cada vez que tomamos unha mostra podemos calcular o seu valor. Pero $\overline{X}$ é tamén unha variable aleatoria. A cuestión consiste en deducir como é a distribución mostral das medias $\overline{X}$ a partir dos valores mostrais. Agora é cando cobra sentido realizar o experimento moitas veces (50 no noso exemplo). Que é o que observamos?

Como na entrada anterior, podemos xogar coa seguinte folla de cálculo que simula o proceso. Hai dúas alternativas para traballar coa seguinte ferramenta. Marcadas en amarelo aparecen as medias de cada lanzamento de catro dados.

  • A mellor é descargar a folla de cálculo. Se queremos recalcular os datos basta premer F9
  • Podemos facelo on-line. Nese caso debemos recargar de novo a páxina ou, o que é o mesmo premer Maíuscula+F5



A distribución mostral das medias, $\overline{X}$, é moi diferente á poboación orixinal (lanzamento dun dado). Pensemos que resultará moi improbable obter resultados extremos para $\overline{X}$. Para que $\overline{X}$ tome o valor $1$ só hai unha mostra posible: $(1,1,1,1)$. Porén para obter un resultado intermedio para $\overline{X}$ como $3$ temos moitas posibilidades: $(3,3,3,3)$, $(2,3,4,3)$, $(3,1,6,2)$, $(3,1,2,6)$,... (Unha boa cuestión sería averiguar cantas tiradas distintas terán $3$ de media). Por esta razón a distribución $\overline{X}$ tomará valores no centro da distribución orixinal con máis frecuencia. Ademáis é bastante plausible que o centro da distribución $\overline{X}$ coincida coa media da distribución base, $\mu=3'5$, que é unha distribución discreta que xa estudamos máis arriba, na que a cada un dos posibles resultados lle asignamos unha probabilidade de $1/6$. Se pensamos o que sucedería se no canto de lanzar catro dados, lanzamos seis, pronto nos convenceriamos de que aumentaría a concentración de $\overline{X}$ arredor do centro. A dispersión de $\overline{X}$ diminuirá ao aumentar o tamaño da mostra $n$. 
Que máis podemos dicir sobre a relación entre a distribución orixinal e a distribución mostral das medias? Se observamos o diagrama obtido nas mostras de catro datos (e podemos facelo repetidamente varias veces usando a folla de cálculo) veremos que as frecuencias relativas caen rapidamente a ambos lados da media $\mu$. Aínda que feblemente, a gráfica ten un aire coa curva normal teórica coa mesma media e cun desvío padron $\frac{\sigma}{\sqrt{n}}$. Se $n$ é o suficientemente grande a distribución $\overline{X}$ pódese axustar por esta curva normal. Convén fixarse en que a distribución orixinal é un rectángulo, moi distinta da forma da distribución $\overline{X}$. Isto que acabamos de explicar é o teorema central do límite. Podémolo enunciar, con algo máis de pompa, deste xeito:

Teorema Central do Límite. Dada unha variable aleatoria $X$ calquera, consideremos mostras de tamaño $n$ desta distribución $\left( X_{1},X_{2},...,X_{n} \right)$. A distribución mostral das medias $\overline{X}=\frac{\sum_{i=1}^{n}X_{i}}{n}$ aproxímase a unha variable aleatoria normal $N\left( \mu,\frac{\sigma}{\sqrt{n}} \right)$

É difícil determinar cal debe ser o valor de $n$ para ter un bo axuste. Con todo, para mostras ben pequenas, de tamaño 4, xa vimos que $\overline{X}$ vai collendo un aire. Para mostras de tamaño $n\ge 30$ poderemos aplicar o teorema sen medo.

venres, 7 de febreiro de 2025

Xogando coa lei dos grandes números

Lembro que desde bastante novo tiven a ilusión de ser profesor de matemáticas. Quizais por esa razón recordo moi vívidamente as clases de matemáticas que me impartiron, sobre todo durante a época do instituto. Daquela a probabilidade e a estatística apenas estaba presente no temario que se impartía. En consecuencia, nos meus tempos de estudante só recibín unha definición de probabilidade e precisamente por iso resultaba algo estraña. Era a chamada definición de probabilidade de Laplace: se A é un suceso a súa probabilidade $P(A)$ vén dada por $$P(A)=\frac{número\quad de\quad casos\quad favorables\quad a\quad A }{número\quad de\quad casos\quad posibles}$$

Evidentemente, se recibía esa denominación é que tiña que haber outras definicións. E se as había era por que a dada por Laplace tiña un problema: só tiña sentido cando se trataba de sucesos equiprobables. Esta definición non é aplicable ao caso dun dado trucado ou ao lanzamento dunha determinada clase de chinchetas (aquí os sucesos serían caer punta arriba ou coa punta apoiada na mesa). Hoxe en día, nas aulas de Secundaria, ofrécense normalmente dúas alternativas para definir a probabilidade. Unha delas é difícil de explicar. É a definición hilbertiana, a axiomática, atribuída a Kolmogorov. Para entendela en profundidade cómpre saber en que consiste un sistema axiomático e, nesa altura o alumnado non está afeito a ese tipo de referentes. Diremos que $P$ é unha medida de probabilidade se verifica os seguintes axiomas aplicados a un espazo mostral $E$ no que consideraremos sucesos $A$ e $B$:

1. $P\left( A \right)\ge 0$

2. $P\left( E \right)=1$

3. Se $A$ e $B$ son incompatibles ($A\cap B=\emptyset $), entón $P\left( A\cup B \right)=p\left( A \right)+P\left( B \right)$

Aínda hai unha terceira alternativa para explicar en que consiste a probabilidade. Xurdida dos traballos de Jacob Bernouilli, é a coñecida como lei dos grandes números. Neste caso a idea é bastante intuitiva e non cómpre ningunha bagaxe cultural. Se realizamos un experimento moitas veces a probabilidade dun determinado suceso poderá aproximarse pola súa frecuencia relativa. Cantas máis veces fagamos o experimento mellor. De aí que se lle chamamos $n$ ao número de veces que realizamos o experimento, a probabilidade dun suceso $A$ virá dada por

$P(A)=\displaystyle\lim_{n \to \infty } \frac{nº\  de\  veces\ que\  sucede\ A}{n}$

Con todo, esta explicación non está exenta de dificultades. Teño comprobado, unha e outra vez, que tan pronto se lle presenta ao alumnado esta última liña, toda a claridade expositiva anterior parece esvaerse. Por iso intentei buscar unha alternativa para que lles permitira practicar coa lei. Acheina en Teching Statistics (Cambridge Uneversity Press 2018) de Darren Macey e Will Hornby. O único que fixen foi seguir as súas indicacións, paso a paso. Trátase de elaborar unha folla de cálculo que simule o lanzamento dunha moeda. Para iso xeramos unha restra de números aleatorios, 0s ou 1s, onde identificaremos o 1 con "sacar cara". Na seguinte folla de cálculo fanse simulacións de 15, 150 e 1500 lanzamentos. O mellor é xogar con ela para observar o que pasa. Ao final de cada experimento obtemos un valor aproximado para a probabilidade. 

Hai dúas alternativas para traballar coa seguinte ferramenta.

  • A mellor é descargar a folla de cálculo. Se queremos recalcular os datos basta premer F9
  • Podemos facelo on-line. Nese caso debemos recargar de novo a páxina ou, o que é o mesmo premer Maíuscula+F5
O efecto paréceme hipnótico