Il mondo della probabilità: le variabili aleatorie

Dove eravamo rimasti? Nel precedente articolo ci eravamo soffermati sulla definizione di probabilità e da buoni matematici abbiamo deciso di affidarci agli assiomi di Kolmogorov. Per farlo però abbiamo bisogno di chiarire alcuni concetti, uno su tutti la $\sigma$-algebra. Si noti prima di tutto che quello che ha fatto il matematico russo è di pilatesca memoria, in quanto la sua definizione sostanzialmente ci dice questo: “Bene, volete sapere cos’è la probabilità? Basta che rispetti queste due proprietà, però non vi dico in nessun modo come assegnare una probabilità. Questo è un problema vostro”. Certo, magari il buon Andrej non ha detto esattamente così, anzi con una serie di risultati successivi ha scritto pagine e pagine di calcolo delle probabilità. Però chi legge per la prima volta questa definizione può restare spiazzato, in quanto dice tutto senza aver detto niente. Le precedenti tre definizioni, invece, cercavano un modo operativo per assegnare una probabilità ad un generico evento $E$. Questa sarà un articolo più teorico degli altri, ma è assolutamente necessario per poter parlare di esempi molto pratici e poi passare ai processi stocastici.

Definizione ($\sigma$-algebra):

Dato un insieme $\Omega$, che in probabilità è detto spazio campionario, si definisce $\sigma$-algebra la famiglia $\mathcal{F} \subseteq \mathcal{P}(\Omega)$, cioè sottoinsieme dell’insieme delle parti, tale che essa è chiusa per complementari e per unioni numerabili. Ossia:

  • $\Omega \in \mathcal{F}$
  • $A \in \mathcal{F} \implies A^C \in \mathcal{F}$
  • $A_{1}, A_{2}, \ldots \in \mathcal{F} \implies \bigcup A_{i} \in \mathcal{F}$

dove con $A^C$ indichiamo il complementare di $A$, ossia $A^C = \Omega \setminus A$. Questa definizione implica che la $\sigma$-algebra è chiusa anche per intersezioni – basta sfruttare la complementarità e le leggi di De Morgan. Quindi la nostra $\mathcal{F}$ è in pratica un set di informazioni che ci interessa probabilizzare. La terna $(\Omega, \mathcal{F}, \mathbb{P})$ è detta spazio di probabilità.

Esempio 1: i dadi

Si supponga di voler analizzare la probabilità di ottenere un numero pari lanciando un dado. È uno dei primi casi che si incontra in qualsiasi corso di probabilità, in quanto è molto semplice e ci dà una rappresentazione chiara di $\Omega$ e della sua $\sigma$-algebra. In molti in questo caso direbbero che $\Omega=\{ 1,2,3,4,5,6\}$, in quanto assegnano già alla faccia del dado, il numero naturale corrispondente. In realtà questo è un salto logico che viene fatto dalle variabili aleatorie di cui parleremo tra pochissimo – scusate lo spoiler – mentre $\Omega$ è composto esattamente dalle facce del dado. E di seguito vi propongo un’immagine ad altissima definizione, realizzata con i potentissimi mezzi della grafica digitale che oggigiorno tutti possiamo permetterci:

A questo punto da cosa è composta la nostra $\mathcal{F}$? Innanzitutto avremo $\Omega$ e per la proprietà 2 anche il suo complementare, ossia $\emptyset$. Inoltre deve avere l’insieme che ci interessa probabilizzare, cioè l’insieme dei dadi pari, per cui avrà l’insieme $A=\{ 2,4,6 \}$ – anche in questo caso dovrei mettere le facce del dado, e non i numeri. Inoltre deve starci anche il suo complementare, ossia $A^C=\{ 1,3,5 \}$. Per cui $\mathcal{F}= \{ \Omega, \emptyset, A, A^C \}$. Quindi la $\sigma$-algebra la andiamo costruendo di caso in caso. Alcuni autori preferiscono definire, nel caso di insiemi $\Omega$ finiti, come $\sigma$-algebra tutto l’insieme delle parti $\mathcal{P}(\Omega)$. Spero sia chiaro comunque che $\Omega$ non è, in generale, un insieme numerico.

Come vi ho promesso qualche paragrafo fa, è l’ora di parlare di variabili aleatorie. Prima di farlo vorrei chiarire che non parleremo soltanto di dadi, nonostante il termine alea in latino significhi proprio questo – famosissima la frase attribuita a Giulio Cesare “Alea iacta est”, ossia “Il dado è tratto”. Si chiamano aleatorie in quanto appunto i dadi racchiudono dentro di sé tutta la casualità. Alcuni, per evitare di usare parole complicate, le definiscono variabili casuali.

Definizione (Variabile aleatoria)

Dato uno spazio di probabilità $(\Omega, \mathcal{F}, \mathbb{P})$ e $(E, \mathcal{E})$ un insieme numerico con la sua $\sigma$-algebra, si definisce variabile aleatoria una qualsiasi funzione $X: (\Omega, \mathcal{F}) \to (E, \mathcal{E})$ misurabile, ossia:

\[ \forall A \in \mathcal{E} \quad X^{-1}(A) \in \mathcal{F} \]

dove $X^{-1}(A)=\{ \omega \in \Omega : X(\omega) \in A\} $. Insomma, ci sta dicendo che per dare una probabilità ad un insieme in $\mathcal{E}$, lo ributto indietro tramite la contro immagine e guardo quanto vale la probabilità dell’insieme che sta in $\mathcal{F}$ . $X$ inoltre trasforma le facce del dado nei relativi numeri. In probabilità, solitamente l’insieme $X^{-1}(A)$ si indica con $\{ X \in A \}$.

Vi starete chiedendo: ma perché non lavoriamo direttamente su $\Omega$ e facciamo tutto questo giro? Semplice: $\Omega$ non è un insieme numerico. Come faccio a sommare le facce di un dado se prima non assegno ad ogni faccia un numero? Come faccio a contare quante teste ho ottenuto in otto lanci? A questo punto possiamo definire anche una funzione di probabilità direttamente in $(E, \mathcal{E})$ e renderlo spazio di probabilità. Definiamo la probabilità $\mu_{X}$ nella maniera più naturale che possiamo pensare: dato un evento $A \in \mathcal{E}$, allora

\[ \mu_{X}(A)=\mathbb{P}(\{X \in A\})=\mathbb{P}(B) \]

infatti essendo $X$ misurabile, esisterà questo insieme $B$ tale che $X^{-1}(A)=B$. La misura $\mu_{X}$ si serve della $\mathbb{P}$ su $\Omega$, ed è quindi facile verificare che rispetta ancora gli assiomi di Kolmogorov. Per cui $(E, \mathcal{E}, \mu_X)$ è uno spazio di probabilità. Semplice. Non proprio.

A questo punto infatti si deve fare un ulteriore salto logico – ancora?? – che da $\mu_{X}$ mi porta a quelle che sono definite densità di probabilità. Cosa sono? Dobbiamo fare una distinzione tra insiemi discreti e continui.

Definizione (Densità discreta)

Consideriamo $E$ della cardinalità di $\mathbb{N}$: allora si definisce densità discreta la funzione $p_X: E \to [0,1]$ tale che:

\[ k \mapsto p_{X}(k)= \mu_{X}(\{k\})=\mathbb{P}(X^{-1}(k))=\mathbb{P}(X=k) \]

Perché è utile quest’ultimo passaggio? Perché è quello che ci permette di assegnare ad una variabile aleatoria una densità e quindi una vera e propria probabilità, cioè una legge che regola il fenomeno. A questo punto banalmente diventa:

\[ \mu_{X}(A)=\sum_{k \in A} p_{X}(k) \]

e non mi serve nient’altro. Adesso ho davvero probabilizzato il mio insieme, quindi ho un modo semplice per analizzare vari problemi – per il momento discreti, ma la generalizzazione al caso continuo è altrettanto semplice, basterà integrare anziché sommare. Si noti che in questo caso $p_{X}$ è quasi ovunque nulla tramite in un insieme al più numerabile, e che, sia $E=\{x_{1}, x_{2}, \ldots \}$, allora:

\[ \sum_{i=1}^{\infty} p_{X}(x_{i}) = 1 \]

Adesso diamo un’ultimissima definizione che ci permette ancora di più di calcolare qualsiasi cosa ci vada di fare.

Definizione (Funzione di ripartizione)

Data una variabile aleatoria $X$, si definisce funzione di ripartizione l’applicazione $F_{X}: \mathbb{R} \to [0,1]$ tale che:

\[ x \mapsto F_{X}(x)=\mathbb{P}(\{ \omega \in \Omega: X(\omega) \leq x\})=\mathbb{P}(X \leq x) \]

La potenza di questa definizione è chiara: innanzitutto è definita su tutto $\mathbb{R}$, anche se abbiamo una variabile aleatoria discreta. Inoltre da $F$ posso passare a $p$ e viceversa: infatti, sia nota la densità discreta, allora $F_{X}(x)= \sum_{k \leq x} p_{X}(k)$ – nel caso continuo banalmente la somma diventa l’integrale su $(-\infty, x]$. Si vede facilmente che dunque $F$ nel caso discreto è una funzione a scala. Inoltre in ogni caso è cadlag, ossia continua a destra e limitata a sinistra e vale che:

\[ \lim_{x \to -\infty} F_{X}(x) = 0 \qquad \lim_{x \to +\infty} F_{X}(x) = 1\]

Nel caso assolutamente continuo, allora prima si definisce la funzione di ripartizione e in seguito si passa alla densità. Infatti non ha senso definire la probabilità di un singolo punto, quindi la densità non sarà più, come in questo caso, la probabilità di un numero. Facciamo un parallelo con la fisica: nel caso discreto, è come se la massa fosse concentrata su singoli punti mentre altrove fosse ovunque nulla. Nel caso continuo invece la massa è distribuita, in qualche modo, su tutto lo spazio. La densità mi dice appunto come si distribuisce questa massa, ma il singolo punto ha massa nulla ovviamente. Allora la definiremo così:

\[f_{X}(x)= \frac{d}{dx} F_{X}(x)\]

O, alternativamente, diremo che $X$ è assolutamente continua se esiste una densità $f_{X}: \mathbb{R} \to [0,+\infty)$ tale per cui, dato un intervallo $I$, si ha che $\mathbb{P}(X \in I)=\int_{I} f_{X}(x) dx$. Si noti che NON abbiamo detto che $f_{X}(x)=\mathbb{P}(X=x)$, ed è assolutamente sbagliato pensarlo in questo caso. Infatti banalmente nel caso continuo, ripetiamo, $\mathbb{P}(X=x)=0$ sempre e $f_{X}$ non va nemmeno in $[0,1]$. L’unica altra similarità con la densità discreta è che:

\[ \int_{\mathbb{R}} f_{X}(x) dx=1 \]

Esistono tantissime funzioni di probabilità discrete e continue conosciute in letteratura, ognuna utilizzata per analizzare casi diversi: bernoulliana, binomiale, multinomiale, geometrica, esponenziale, normale o gaussiana – forse la più nota – e poi Gamma, Beta, di Cauchy, eccetera eccetera, eccetera. Vediamo insieme un esempio per chiudere questa seconda puntata, così introduciamo anche il concetto di indipendenza.

Esempio 2: il lancio di moneta

Si, lo so, sono banale. Ho parlato di probabilità e ho fatto i soliti due casi di dadi e monete. Ma sono i più chiari e quelli che permettono di introdurre tantissimi concetti. Quindi si abbia una moneta con testa e croce e la si lanci $n$ volte. Vogliamo capire qual è la probabilità di ottenere $k$ teste. Definiamo prima di tutto per ogni singolo lancio la variabile aleatoria $X_{i}: \Omega \to \{0,1\}$, dove $\Omega=\{ T, C \}$. Siccome ci interessano le teste, mappiamo $T$ in $1$ e $C$ in $0$. La probabilità che esca testa è $p$, con $p \in (0,1)$ e di conseguenza la probabilità che esca croce è $1-p$. Questa variabile aleatoria è detta bernoulliana e si indica con $X_{i} \sim \mathrm{Ber}(p)$La sua densità è:

\[ p(x)=p^x(1-p)^{1-x} \qquad x=\{0,1\} \]

È naturale pensare che i lanci non si influenzino a vicenda in questo caso, se prima è uscito testa questo non dà nessuna informazione su cosa uscirà adesso. Allora si parla di eventi indipendenti. Due eventi sono indipendenti se $P(A \cap B)=P(A)P(B)$. Consideriamo due lanci, qual è la probabilità che escano due teste? Allora è la probabilità che al primo lancio esca testa e al secondo lancio esca ancora testa. Cioè $\mathbb{P}({(T,T)})=\mathbb{P}(T)\mathbb{P}(T)=p^2$. Basta moltiplicare. Ed è anche naturale farlo se ci pensate. Inoltre è facile vedere che ci siamo serviti delle due bernoulliane per definire la probabilità sul vettore $(T,T)$. Generalizziamo allora.

Sia $X$ la variabile aleatoria “numero di teste in $n$ lanci”. Per cui in questo caso $\Omega^{‘}$ ha dentro tutti i vettori $n$-dimensionali ed ognuna delle entrate è una testa o una croce. Quindi $E’$ in questo caso sarà ${0,1,2,\dots, n}$, ossia ad ogni $\omega \in \Omega^{‘}$ è associato il numero di teste. È facile verificare che $X(\omega)=X_{1}(\omega_1)+X_{2}(\omega_2)+\dots+X_{n}(\omega_n)$, con $\omega=(\omega_1, \omega_2, \dots, \omega_n)$. Cioè basta sommare i singoli lanci per contare quante teste sono uscite.

Voglio trovare la probabilità che in $n$ lanci escano $k$ teste. Per esempio una sequenza valida è che escano all’inizio $k$ teste e poi le restanti $n-k$ siano croci. Per l’indipendenza allora:

\[ \mathbb{P}((T,T,\dots, T, C,\dots,C))=
\overbrace{p\cdot p \cdot \ldots \cdot p}^{k} \cdot \overbrace{(1-p) \cdot (1-p) \cdot \ldots \cdot (1-p)}^{n-k} = p^k (1-p)^{n-k}\]

Ma a me l’ordine non interessa: basta avere $k$ teste e $n-k$ croci. Quindi tutte le possibili combinazioni che mi portano allo stesso risultato devono essere sommate tra di loro. Perché sommate? Ogni vettore è incompatibile con gli altri! Se pensiamo $n=3$, allora $(T,T,C)$ è incompatibile con $(T,C,T)$ ma entrambi hanno due teste. Per gli assiomi di Kolmogorov sono due eventi disgiunti, quindi la probabilità della loro unione è la somma delle loro probabilità. Per farlo dunque mi servo del coefficiente binomiale. Per cui la densità sarà:

\[ p_{X}(k)=\mathbb{P}(X=k)= \binom{n}{k} p^{k}(1-p)^{n-k} \qquad k=0,1,\dots, n. \]

Questa variabile aleatoria è detta binomiale e si indica con $X \sim \mathrm{Bin}(n,p)$. Abbiamo visto che può essere definita come la somma di variabili aleatorie bernoulliane indipendenti.

Con questo vi saluto. È stata una puntata per alcuni di ripasso, per altri di introduzione al mondo delle probabilità in maniera schematica e sintetica, di sicuro più rigorosa del classico “conto i casi favorevoli e quelli totali” che si incontra alle superiori. Dalla prossima volta ci possiamo addentrare in alcuni problemi che sono analizzabili tramite le variabili aleatorie.

Un saluto, Federico!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.