Il mondo della probabilità: le variabili aleatorie

Dove eravamo rimasti? Nel precedente articolo ci eravamo soffermati sulla definizione di probabilità e da buoni matematici abbiamo deciso di affidarci agli assiomi di Kolmogorov. Per farlo però abbiamo bisogno di chiarire alcuni concetti, uno su tutti la $\sigma$-algebra. Si noti prima di tutto che quello che ha fatto il matematico russo è di pilatesca memoria, in quanto la sua definizione sostanzialmente ci dice questo: “Bene, volete sapere cos’è la probabilità? Basta che rispetti queste due proprietà, però non vi dico in nessun modo come assegnare una probabilità. Questo è un problema vostro”. Certo, magari il buon Andrej non ha detto esattamente così, anzi con una serie di risultati successivi ha scritto pagine e pagine di calcolo delle probabilità. Però chi legge per la prima volta questa definizione può restare spiazzato, in quanto dice tutto senza aver detto niente. Le precedenti tre definizioni, invece, cercavano un modo operativo per assegnare una probabilità ad un generico evento $E$. Questa sarà un articolo più teorico degli altri, ma è assolutamente necessario per poter parlare di esempi molto pratici e poi passare ai processi stocastici.

Definizione ($\sigma$-algebra):

Dato un insieme $\Omega$, che in probabilità è detto spazio campionario, si definisce $\sigma$-algebra la famiglia $\mathcal{F} \subseteq \mathcal{P}(\Omega)$, cioè sottoinsieme dell’insieme delle parti, tale che essa è chiusa per complementari e per unioni numerabili. Ossia:

  • $\Omega \in \mathcal{F}$
  • $A \in \mathcal{F} \implies A^C \in \mathcal{F}$
  • $A_{1}, A_{2}, \ldots \in \mathcal{F} \implies \bigcup A_{i} \in \mathcal{F}$

dove con $A^C$ indichiamo il complementare di $A$, ossia $A^C = \Omega \setminus A$. Questa definizione implica che la $\sigma$-algebra è chiusa anche per intersezioni – basta sfruttare la complementarità e le leggi di De Morgan. Quindi la nostra $\mathcal{F}$ è in pratica un set di informazioni che ci interessa probabilizzare. La terna $(\Omega, \mathcal{F}, \mathbb{P})$ è detta spazio di probabilità.

Esempio 1: i dadi

Si supponga di voler analizzare la probabilità di ottenere un numero pari lanciando un dado. È uno dei primi casi che si incontra in qualsiasi corso di probabilità, in quanto è molto semplice e ci dà una rappresentazione chiara di $\Omega$ e della sua $\sigma$-algebra. In molti in questo caso direbbero che $\Omega=\{ 1,2,3,4,5,6\}$, in quanto assegnano già alla faccia del dado, il numero naturale corrispondente. In realtà questo è un salto logico che viene fatto dalle variabili aleatorie di cui parleremo tra pochissimo – scusate lo spoiler – mentre $\Omega$ è composto esattamente dalle facce del dado. E di seguito vi propongo un’immagine ad altissima definizione, realizzata con i potentissimi mezzi della grafica digitale che oggigiorno tutti possiamo permetterci:

A questo punto da cosa è composta la nostra $\mathcal{F}$? Innanzitutto avremo $\Omega$ e per la proprietà 2 anche il suo complementare, ossia $\emptyset$. Inoltre deve avere l’insieme che ci interessa probabilizzare, cioè l’insieme dei dadi pari, per cui avrà l’insieme $A=\{ 2,4,6 \}$ – anche in questo caso dovrei mettere le facce del dado, e non i numeri. Inoltre deve starci anche il suo complementare, ossia $A^C=\{ 1,3,5 \}$. Per cui $\mathcal{F}= \{ \Omega, \emptyset, A, A^C \}$. Quindi la $\sigma$-algebra la andiamo costruendo di caso in caso. Alcuni autori preferiscono definire, nel caso di insiemi $\Omega$ finiti, come $\sigma$-algebra tutto l’insieme delle parti $\mathcal{P}(\Omega)$. Spero sia chiaro comunque che $\Omega$ non è, in generale, un insieme numerico.

Come vi ho promesso qualche paragrafo fa, è l’ora di parlare di variabili aleatorie. Prima di farlo vorrei chiarire che non parleremo soltanto di dadi, nonostante il termine alea in latino significhi proprio questo – famosissima la frase attribuita a Giulio Cesare “Alea iacta est”, ossia “Il dado è tratto”. Si chiamano aleatorie in quanto appunto i dadi racchiudono dentro di sé tutta la casualità. Alcuni, per evitare di usare parole complicate, le definiscono variabili casuali.

Definizione (Variabile aleatoria)

Dato uno spazio di probabilità $(\Omega, \mathcal{F}, \mathbb{P})$ e $(E, \mathcal{E})$ un insieme numerico con la sua $\sigma$-algebra, si definisce variabile aleatoria una qualsiasi funzione $X: (\Omega, \mathcal{F}) \to (E, \mathcal{E})$ misurabile, ossia:

\[ \forall A \in \mathcal{E} \quad X^{-1}(A) \in \mathcal{F} \]

dove $X^{-1}(A)=\{ \omega \in \Omega : X(\omega) \in A\} $. Insomma, ci sta dicendo che per dare una probabilità ad un insieme in $\mathcal{E}$, lo ributto indietro tramite la contro immagine e guardo quanto vale la probabilità dell’insieme che sta in $\mathcal{F}$ . $X$ inoltre trasforma le facce del dado nei relativi numeri. In probabilità, solitamente l’insieme $X^{-1}(A)$ si indica con $\{ X \in A \}$.

Vi starete chiedendo: ma perché non lavoriamo direttamente su $\Omega$ e facciamo tutto questo giro? Semplice: $\Omega$ non è un insieme numerico. Come faccio a sommare le facce di un dado se prima non assegno ad ogni faccia un numero? Come faccio a contare quante teste ho ottenuto in otto lanci? A questo punto possiamo definire anche una funzione di probabilità direttamente in $(E, \mathcal{E})$ e renderlo spazio di probabilità. Definiamo la probabilità $\mu_{X}$ nella maniera più naturale che possiamo pensare: dato un evento $A \in \mathcal{E}$, allora

\[ \mu_{X}(A)=\mathbb{P}(\{X \in A\})=\mathbb{P}(B) \]

infatti essendo $X$ misurabile, esisterà questo insieme $B$ tale che $X^{-1}(A)=B$. La misura $\mu_{X}$ si serve della $\mathbb{P}$ su $\Omega$, ed è quindi facile verificare che rispetta ancora gli assiomi di Kolmogorov. Per cui $(E, \mathcal{E}, \mu_X)$ è uno spazio di probabilità. Semplice. Non proprio.

A questo punto infatti si deve fare un ulteriore salto logico – ancora?? – che da $\mu_{X}$ mi porta a quelle che sono definite densità di probabilità. Cosa sono? Dobbiamo fare una distinzione tra insiemi discreti e continui.

Definizione (Densità discreta)

Consideriamo $E$ della cardinalità di $\mathbb{N}$: allora si definisce densità discreta la funzione $p_X: E \to [0,1]$ tale che:

\[ k \mapsto p_{X}(k)= \mu_{X}(\{k\})=\mathbb{P}(X^{-1}(k))=\mathbb{P}(X=k) \]

Perché è utile quest’ultimo passaggio? Perché è quello che ci permette di assegnare ad una variabile aleatoria una densità e quindi una vera e propria probabilità, cioè una legge che regola il fenomeno. A questo punto banalmente diventa:

\[ \mu_{X}(A)=\sum_{k \in A} p_{X}(k) \]

e non mi serve nient’altro. Adesso ho davvero probabilizzato il mio insieme, quindi ho un modo semplice per analizzare vari problemi – per il momento discreti, ma la generalizzazione al caso continuo è altrettanto semplice, basterà integrare anziché sommare. Si noti che in questo caso $p_{X}$ è quasi ovunque nulla tramite in un insieme al più numerabile, e che, sia $E=\{x_{1}, x_{2}, \ldots \}$, allora:

\[ \sum_{i=1}^{\infty} p_{X}(x_{i}) = 1 \]

Adesso diamo un’ultimissima definizione che ci permette ancora di più di calcolare qualsiasi cosa ci vada di fare.

Definizione (Funzione di ripartizione)

Data una variabile aleatoria $X$, si definisce funzione di ripartizione l’applicazione $F_{X}: \mathbb{R} \to [0,1]$ tale che:

\[ x \mapsto F_{X}(x)=\mathbb{P}(\{ \omega \in \Omega: X(\omega) \leq x\})=\mathbb{P}(X \leq x) \]

La potenza di questa definizione è chiara: innanzitutto è definita su tutto $\mathbb{R}$, anche se abbiamo una variabile aleatoria discreta. Inoltre da $F$ posso passare a $p$ e viceversa: infatti, sia nota la densità discreta, allora $F_{X}(x)= \sum_{k \leq x} p_{X}(k)$ – nel caso continuo banalmente la somma diventa l’integrale su $(-\infty, x]$. Si vede facilmente che dunque $F$ nel caso discreto è una funzione a scala. Inoltre in ogni caso è cadlag, ossia continua a destra e limitata a sinistra e vale che:

\[ \lim_{x \to -\infty} F_{X}(x) = 0 \qquad \lim_{x \to +\infty} F_{X}(x) = 1\]

Nel caso assolutamente continuo, allora prima si definisce la funzione di ripartizione e in seguito si passa alla densità. Infatti non ha senso definire la probabilità di un singolo punto, quindi la densità non sarà più, come in questo caso, la probabilità di un numero. Facciamo un parallelo con la fisica: nel caso discreto, è come se la massa fosse concentrata su singoli punti mentre altrove fosse ovunque nulla. Nel caso continuo invece la massa è distribuita, in qualche modo, su tutto lo spazio. La densità mi dice appunto come si distribuisce questa massa, ma il singolo punto ha massa nulla ovviamente. Allora la definiremo così:

\[f_{X}(x)= \frac{d}{dx} F_{X}(x)\]

O, alternativamente, diremo che $X$ è assolutamente continua se esiste una densità $f_{X}: \mathbb{R} \to [0,+\infty)$ tale per cui, dato un intervallo $I$, si ha che $\mathbb{P}(X \in I)=\int_{I} f_{X}(x) dx$. Si noti che NON abbiamo detto che $f_{X}(x)=\mathbb{P}(X=x)$, ed è assolutamente sbagliato pensarlo in questo caso. Infatti banalmente nel caso continuo, ripetiamo, $\mathbb{P}(X=x)=0$ sempre e $f_{X}$ non va nemmeno in $[0,1]$. L’unica altra similarità con la densità discreta è che:

\[ \int_{\mathbb{R}} f_{X}(x) dx=1 \]

Esistono tantissime funzioni di probabilità discrete e continue conosciute in letteratura, ognuna utilizzata per analizzare casi diversi: bernoulliana, binomiale, multinomiale, geometrica, esponenziale, normale o gaussiana – forse la più nota – e poi Gamma, Beta, di Cauchy, eccetera eccetera, eccetera. Vediamo insieme un esempio per chiudere questa seconda puntata, così introduciamo anche il concetto di indipendenza.

Esempio 2: il lancio di moneta

Si, lo so, sono banale. Ho parlato di probabilità e ho fatto i soliti due casi di dadi e monete. Ma sono i più chiari e quelli che permettono di introdurre tantissimi concetti. Quindi si abbia una moneta con testa e croce e la si lanci $n$ volte. Vogliamo capire qual è la probabilità di ottenere $k$ teste. Definiamo prima di tutto per ogni singolo lancio la variabile aleatoria $X_{i}: \Omega \to \{0,1\}$, dove $\Omega=\{ T, C \}$. Siccome ci interessano le teste, mappiamo $T$ in $1$ e $C$ in $0$. La probabilità che esca testa è $p$, con $p \in (0,1)$ e di conseguenza la probabilità che esca croce è $1-p$. Questa variabile aleatoria è detta bernoulliana e si indica con $X_{i} \sim \mathrm{Ber}(p)$La sua densità è:

\[ p(x)=p^x(1-p)^{1-x} \qquad x=\{0,1\} \]

È naturale pensare che i lanci non si influenzino a vicenda in questo caso, se prima è uscito testa questo non dà nessuna informazione su cosa uscirà adesso. Allora si parla di eventi indipendenti. Due eventi sono indipendenti se $P(A \cap B)=P(A)P(B)$. Consideriamo due lanci, qual è la probabilità che escano due teste? Allora è la probabilità che al primo lancio esca testa e al secondo lancio esca ancora testa. Cioè $\mathbb{P}({(T,T)})=\mathbb{P}(T)\mathbb{P}(T)=p^2$. Basta moltiplicare. Ed è anche naturale farlo se ci pensate. Inoltre è facile vedere che ci siamo serviti delle due bernoulliane per definire la probabilità sul vettore $(T,T)$. Generalizziamo allora.

Sia $X$ la variabile aleatoria “numero di teste in $n$ lanci”. Per cui in questo caso $\Omega^{‘}$ ha dentro tutti i vettori $n$-dimensionali ed ognuna delle entrate è una testa o una croce. Quindi $E’$ in questo caso sarà ${0,1,2,\dots, n}$, ossia ad ogni $\omega \in \Omega^{‘}$ è associato il numero di teste. È facile verificare che $X(\omega)=X_{1}(\omega_1)+X_{2}(\omega_2)+\dots+X_{n}(\omega_n)$, con $\omega=(\omega_1, \omega_2, \dots, \omega_n)$. Cioè basta sommare i singoli lanci per contare quante teste sono uscite.

Voglio trovare la probabilità che in $n$ lanci escano $k$ teste. Per esempio una sequenza valida è che escano all’inizio $k$ teste e poi le restanti $n-k$ siano croci. Per l’indipendenza allora:

\[ \mathbb{P}((T,T,\dots, T, C,\dots,C))=
\overbrace{p\cdot p \cdot \ldots \cdot p}^{k} \cdot \overbrace{(1-p) \cdot (1-p) \cdot \ldots \cdot (1-p)}^{n-k} = p^k (1-p)^{n-k}\]

Ma a me l’ordine non interessa: basta avere $k$ teste e $n-k$ croci. Quindi tutte le possibili combinazioni che mi portano allo stesso risultato devono essere sommate tra di loro. Perché sommate? Ogni vettore è incompatibile con gli altri! Se pensiamo $n=3$, allora $(T,T,C)$ è incompatibile con $(T,C,T)$ ma entrambi hanno due teste. Per gli assiomi di Kolmogorov sono due eventi disgiunti, quindi la probabilità della loro unione è la somma delle loro probabilità. Per farlo dunque mi servo del coefficiente binomiale. Per cui la densità sarà:

\[ p_{X}(k)=\mathbb{P}(X=k)= \binom{n}{k} p^{k}(1-p)^{n-k} \qquad k=0,1,\dots, n. \]

Questa variabile aleatoria è detta binomiale e si indica con $X \sim \mathrm{Bin}(n,p)$. Abbiamo visto che può essere definita come la somma di variabili aleatorie bernoulliane indipendenti.

Con questo vi saluto. È stata una puntata per alcuni di ripasso, per altri di introduzione al mondo delle probabilità in maniera schematica e sintetica, di sicuro più rigorosa del classico “conto i casi favorevoli e quelli totali” che si incontra alle superiori. Dalla prossima volta ci possiamo addentrare in alcuni problemi che sono analizzabili tramite le variabili aleatorie.

Un saluto, Federico!

Il mondo della probabilità: il caso esiste?

Sin dall’antichità gli uomini sono stati affascinati dal mondo del gioco d’azzardo, del betting e di tutto ciò che sembra imprevedibile e sul quale vale la pena scommettere per avere quel brivido dato dalla speranza che un evento avvenga. Su come sia nata la probabilità ve ne avevamo già parlato in questo articolo molto interessante, ma adesso vogliamo andare un po’ oltre e chiederci: ma la probabilità esiste? Ossia, il caso (quindi la fortuna) governa questo mondo? Se lo dovessimo chiedere a Woody Allen, avremmo già la risposta nell’incipit del suo film “Match Point”.

Ma chiaramente questo non è un articolo di cinema, quindi andiamo ad analizzare velocemente i due rami filosofici che hanno caratterizzato il pensiero umano dagli antichi greci in poi. Sostanzialmente ci si può riferire a due filoni diversi: per primi ci sono quelli che pensano che il caso non esista e dunque quello che comunemente viene definito come tale è soltanto “ignoranza” sul fenomeno in analisi. Cioè si attribuisce una probabilità ad eventi che aleatori non sono semplicemente perché non si può fare di meglio con gli strumenti che si hanno a disposizione. Si parla quindi di probabilità epistemica.

Questo atteggiamento è adottato dalla filosofia cristiana, secondo cui tutto sta nel disegno della Provvidenza, e da altri filosofi quali Spinosa ad esempio. Ma anche gli scettici, che pensavano che la verità assoluta fosse irraggiungibile, assumevano una posizione di questo tipo – detta probabilismo gnoseologico. Dunque sospettiamo che un evento sia casuale, ma approfondiamo la conoscenza per arrivare il più possibile alla verità.

Se vi sembra un atteggiamento banale, ricordiamo che inizialmente i fenomeni meteorologici erano considerati totalmente casuali, mentre oggi sappiamo che le leggi che lo governano sono caotiche e deterministiche – e della differenza tra caos e caso già vi abbiamo detto qui.

Il secondo filone risponde che sì, il caso esiste perché non vi è nessuna legge deterministica (di tipo lineare) che governa il fenomeno in analisi. Ossia il caso è insito nell’essenza dell’evento che stiamo studiando, per questo parliamo di probabilismo ontico. Dunque non ha senso andarne ad analizzare il suo carattere dinamico – o perché non vi è niente di deterministico sotto o piuttosto perché le leggi che lo governano sono troppo intricate – piuttosto accettiamo di studiarlo soltanto dal punto di vista stocastico/probabilistico. Questo ramo è quello che ha preso maggiormente largo grazie alla meccanica quantica, dove alcuni fenomeni sono fisicamente stocastici.

Per fare un esempio pratico, è inutile studiare le leggi che governano il lancio di una monetina – a seconda di come viene lanciata, del peso, ecc. – piuttosto accettiamo di assegnare una probabilità agli eventi testa e croce.

L’ultima frase ci permette di spostarci dal campo filosofico a quello matematico: che cosa significa “assegnare una probabilità”? Cos’è la probabilità? Allora diamo velocemente le quattro diverse definizioni di probabilità che hanno preso piede dal 1600 fino ad oggi. Iniziamo con la definizione classica:

Definizione 1 (Probabilità Classica)

Si definisce probabilità di un evento $E$ il rapporto fra i casi favorevoli in cui si verifica $E$, diciamo $m$, e il numero di casi totali che indicheremo con $n$, con la condizione che tutti i casi siano equiprobabili. Ossia:

\[ \mathbb{P}(E)=\frac{m}{n} \]

dove con $\mathbb{P}(E)$ stiamo indicando la probabilità dell’evento E. Dunque, in un esempio, se il caso in analisi è il lancio di una moneta e $E$ è l’evento testa , allora $m=1$ e $n=2$, in quanto i casi totali sono testa e croce. Per cui $\mathbb{P}(E)=\frac{1}{2}$, che è effettivamente la probabilità naturale che diamo alle facce di una moneta. La definizione però ha enormi pecche: innanzitutto dobbiamo sapere quanti sono i casi che fanno sì che si verifichi $E$, si applica solo al caso discreto ma soprattutto tutti i casi devono essere equiprobabili. Ma che significa equiprobabili se ho appena definito la probabilità? Insomma, la definizione è circolare e non può essere utilizzata. Viene anche detta probabilità a priori in quanto assegno un numero ad ogni evento prima che questo si verifichi.

Definizione 2 (Probabilità Frequentista)

Si supponga di poter svolgere $n$ prove tutte nelle stesse condizioni e indipendenti. Si definisce probabilità di un evento $E$ il rapporto tra le prove in cui l’evento $E$ si è verificato, che indichiamo con $m$ e le prove che sono state effettuate, che facciamo tendere ad infinito. Ossia:

\[ \mathbb{P}(E)=\lim_{n \to +\infty} \frac{m}{n} \]

Per cui, facendo un esempio, per valutare la probabilità dell’evento testa in un lancio di moneta, farò un numero elevato di prove e segnerò tutte le volte in cui è effettivamente uscito testa. La probabilità classica e quella frequentista vanno a coincidere nei casi in cui sono entrambe calcolabili. Anche in questo caso abbiamo un problema: non è sempre possibile svolgere $n$ esperimenti – se vogliamo calcolare la probabilità che un determinato asteroide colpisca la Terra, evidentemente non possiamo farlo. Questa viene definita anche probabilità a posteriori in quanto assegno una probabilità agli eventi dopo che essi si sono verificati. Ora stiamo per dare la definizione probabilmente meno matematica che abbiate mai visto – eppure molto più efficace delle due precedenti.

Definizione 3 (Probabilità Soggettiva)

Si definisce probabilità di un evento $E$ il grado di fiducia che un individuo razionale pone al realizzarsi di quell’evento, date le conoscenze che possiede in quel momento. Per grado di fiducia si intende un prezzo $p \in [0,1]$ che si è disposti a pagare per ricevere $1$ nel caso in cui $E$ si realizzi.

Facciamo un esempio pratico: quanto siete disposti a pagare per ricevere un euro nel caso in cui, lanciando una moneta, esca testa? Poiché l’individuo è razionale, con le conoscenze che ha dirà ovviamente 50 centesimi, cosicché se esce testa vince 50 centesimi mentre se esce croce ha perso quelli della scommessa. Questo però si applica anche a casi in cui gli eventi non siano bilanciati né di tipo dicotomico – ossia due soli eventi.

La prospettiva è totalmente rivoltata: la probabilità è dentro di noi, non fuori. Quanto volete scommettere per ricevere un euro nel caso in cui la Juventus riesca a battere il Chievo? Qualcuno dirà 90 centesimi, qualcun altro 85, a seconda delle informazioni che hanno e del grado di fiducia. Per una partita di calcio, le altre due definizioni non erano applicabili – posso dire che vittoria, pareggio e sconfitta siano equiprobabili in Real Madrid-Pergolettese? Né posso far giocare mille e mille volte la stessa partita nelle stesse condizioni. E arriviamo finalmente alla definizione che viene attualmente utilizzata e che racchiude le tre precedenti.

Definizione 4 (Probabilità Assiomatica di Kolmogorov)

Sia $\Omega$ l’insieme degli eventi elementari del fenomeno in analisi e sia $\mathcal{F}$ la $\sigma$-algebra costruita su $\Omega$, ossia una famiglia di sottoinsieme delle informazioni – o eventi composti. Allora definiamo probabilità una funzione $\mathbb{P}: (\Omega, \mathcal{F}) \to [0,1]$ tale per cui

  1. $\mathbb{P}(\Omega)=1$
  2. Siano $A,B \in \mathcal{F}$ due eventi incompatibili (ossia $A  \cap B= \emptyset  $), allora \[
    \mathbb{P} (A \cup B)= \mathbb{P}(A)+\mathbb{P}(B) \]

Questa definizione, una volta capiti cosa siano $\Omega$ e una $\sigma$-algebra, è di sicuro la più rigorosa dal punto di vista matematico nonché quella più applicabile. Per capirla bene, però, vi rimandiamo ai prossimi appuntamenti in cui parleremo anche di processi stocastici – un esempio, la rovina del giocatore.

Se ti è piaciuto il mio primo articolo su Mathone, fammelo sapere così possiamo andare avanti con questi nostri incontri. Fammi sapere anche se ti interessa il campo probabilistico-statistico, un ramo della matematica che ultimamente trova tantissime richieste in ambito lavorativo e tantissima attenzione anche nell’opinione pubblica, e se vorresti qualche approfondimento particolare o qualche curiosità!

Alla prossima da Federico!