Archivi tag: Probabilità

Il mondo della probabilità: le variabili aleatorie

Dove eravamo rimasti? Nel precedente articolo ci eravamo soffermati sulla definizione di probabilità e da buoni matematici abbiamo deciso di affidarci agli assiomi di Kolmogorov. Per farlo però abbiamo bisogno di chiarire alcuni concetti, uno su tutti la $\sigma$-algebra. Si noti prima di tutto che quello che ha fatto il matematico russo è di pilatesca memoria, in quanto la sua definizione sostanzialmente ci dice questo: “Bene, volete sapere cos’è la probabilità? Basta che rispetti queste due proprietà, però non vi dico in nessun modo come assegnare una probabilità. Questo è un problema vostro”. Certo, magari il buon Andrej non ha detto esattamente così, anzi con una serie di risultati successivi ha scritto pagine e pagine di calcolo delle probabilità. Però chi legge per la prima volta questa definizione può restare spiazzato, in quanto dice tutto senza aver detto niente. Le precedenti tre definizioni, invece, cercavano un modo operativo per assegnare una probabilità ad un generico evento $E$. Questa sarà un articolo più teorico degli altri, ma è assolutamente necessario per poter parlare di esempi molto pratici e poi passare ai processi stocastici.

Definizione ($\sigma$-algebra):

Dato un insieme $\Omega$, che in probabilità è detto spazio campionario, si definisce $\sigma$-algebra la famiglia $\mathcal{F} \subseteq \mathcal{P}(\Omega)$, cioè sottoinsieme dell’insieme delle parti, tale che essa è chiusa per complementari e per unioni numerabili. Ossia:

  • $\Omega \in \mathcal{F}$
  • $A \in \mathcal{F} \implies A^C \in \mathcal{F}$
  • $A_{1}, A_{2}, \ldots \in \mathcal{F} \implies \bigcup A_{i} \in \mathcal{F}$

dove con $A^C$ indichiamo il complementare di $A$, ossia $A^C = \Omega \setminus A$. Questa definizione implica che la $\sigma$-algebra è chiusa anche per intersezioni – basta sfruttare la complementarità e le leggi di De Morgan. Quindi la nostra $\mathcal{F}$ è in pratica un set di informazioni che ci interessa probabilizzare. La terna $(\Omega, \mathcal{F}, \mathbb{P})$ è detta spazio di probabilità.

Esempio 1: i dadi

Si supponga di voler analizzare la probabilità di ottenere un numero pari lanciando un dado. È uno dei primi casi che si incontra in qualsiasi corso di probabilità, in quanto è molto semplice e ci dà una rappresentazione chiara di $\Omega$ e della sua $\sigma$-algebra. In molti in questo caso direbbero che $\Omega=\{ 1,2,3,4,5,6\}$, in quanto assegnano già alla faccia del dado, il numero naturale corrispondente. In realtà questo è un salto logico che viene fatto dalle variabili aleatorie di cui parleremo tra pochissimo – scusate lo spoiler – mentre $\Omega$ è composto esattamente dalle facce del dado. E di seguito vi propongo un’immagine ad altissima definizione, realizzata con i potentissimi mezzi della grafica digitale che oggigiorno tutti possiamo permetterci:

A questo punto da cosa è composta la nostra $\mathcal{F}$? Innanzitutto avremo $\Omega$ e per la proprietà 2 anche il suo complementare, ossia $\emptyset$. Inoltre deve avere l’insieme che ci interessa probabilizzare, cioè l’insieme dei dadi pari, per cui avrà l’insieme $A=\{ 2,4,6 \}$ – anche in questo caso dovrei mettere le facce del dado, e non i numeri. Inoltre deve starci anche il suo complementare, ossia $A^C=\{ 1,3,5 \}$. Per cui $\mathcal{F}= \{ \Omega, \emptyset, A, A^C \}$. Quindi la $\sigma$-algebra la andiamo costruendo di caso in caso. Alcuni autori preferiscono definire, nel caso di insiemi $\Omega$ finiti, come $\sigma$-algebra tutto l’insieme delle parti $\mathcal{P}(\Omega)$. Spero sia chiaro comunque che $\Omega$ non è, in generale, un insieme numerico.

Come vi ho promesso qualche paragrafo fa, è l’ora di parlare di variabili aleatorie. Prima di farlo vorrei chiarire che non parleremo soltanto di dadi, nonostante il termine alea in latino significhi proprio questo – famosissima la frase attribuita a Giulio Cesare “Alea iacta est”, ossia “Il dado è tratto”. Si chiamano aleatorie in quanto appunto i dadi racchiudono dentro di sé tutta la casualità. Alcuni, per evitare di usare parole complicate, le definiscono variabili casuali.

Definizione (Variabile aleatoria)

Dato uno spazio di probabilità $(\Omega, \mathcal{F}, \mathbb{P})$ e $(E, \mathcal{E})$ un insieme numerico con la sua $\sigma$-algebra, si definisce variabile aleatoria una qualsiasi funzione $X: (\Omega, \mathcal{F}) \to (E, \mathcal{E})$ misurabile, ossia:

\[ \forall A \in \mathcal{E} \quad X^{-1}(A) \in \mathcal{F} \]

dove $X^{-1}(A)=\{ \omega \in \Omega : X(\omega) \in A\} $. Insomma, ci sta dicendo che per dare una probabilità ad un insieme in $\mathcal{E}$, lo ributto indietro tramite la contro immagine e guardo quanto vale la probabilità dell’insieme che sta in $\mathcal{F}$ . $X$ inoltre trasforma le facce del dado nei relativi numeri. In probabilità, solitamente l’insieme $X^{-1}(A)$ si indica con $\{ X \in A \}$.

Vi starete chiedendo: ma perché non lavoriamo direttamente su $\Omega$ e facciamo tutto questo giro? Semplice: $\Omega$ non è un insieme numerico. Come faccio a sommare le facce di un dado se prima non assegno ad ogni faccia un numero? Come faccio a contare quante teste ho ottenuto in otto lanci? A questo punto possiamo definire anche una funzione di probabilità direttamente in $(E, \mathcal{E})$ e renderlo spazio di probabilità. Definiamo la probabilità $\mu_{X}$ nella maniera più naturale che possiamo pensare: dato un evento $A \in \mathcal{E}$, allora

\[ \mu_{X}(A)=\mathbb{P}(\{X \in A\})=\mathbb{P}(B) \]

infatti essendo $X$ misurabile, esisterà questo insieme $B$ tale che $X^{-1}(A)=B$. La misura $\mu_{X}$ si serve della $\mathbb{P}$ su $\Omega$, ed è quindi facile verificare che rispetta ancora gli assiomi di Kolmogorov. Per cui $(E, \mathcal{E}, \mu_X)$ è uno spazio di probabilità. Semplice. Non proprio.

A questo punto infatti si deve fare un ulteriore salto logico – ancora?? – che da $\mu_{X}$ mi porta a quelle che sono definite densità di probabilità. Cosa sono? Dobbiamo fare una distinzione tra insiemi discreti e continui.

Definizione (Densità discreta)

Consideriamo $E$ della cardinalità di $\mathbb{N}$: allora si definisce densità discreta la funzione $p_X: E \to [0,1]$ tale che:

\[ k \mapsto p_{X}(k)= \mu_{X}(\{k\})=\mathbb{P}(X^{-1}(k))=\mathbb{P}(X=k) \]

Perché è utile quest’ultimo passaggio? Perché è quello che ci permette di assegnare ad una variabile aleatoria una densità e quindi una vera e propria probabilità, cioè una legge che regola il fenomeno. A questo punto banalmente diventa:

\[ \mu_{X}(A)=\sum_{k \in A} p_{X}(k) \]

e non mi serve nient’altro. Adesso ho davvero probabilizzato il mio insieme, quindi ho un modo semplice per analizzare vari problemi – per il momento discreti, ma la generalizzazione al caso continuo è altrettanto semplice, basterà integrare anziché sommare. Si noti che in questo caso $p_{X}$ è quasi ovunque nulla tramite in un insieme al più numerabile, e che, sia $E=\{x_{1}, x_{2}, \ldots \}$, allora:

\[ \sum_{i=1}^{\infty} p_{X}(x_{i}) = 1 \]

Adesso diamo un’ultimissima definizione che ci permette ancora di più di calcolare qualsiasi cosa ci vada di fare.

Definizione (Funzione di ripartizione)

Data una variabile aleatoria $X$, si definisce funzione di ripartizione l’applicazione $F_{X}: \mathbb{R} \to [0,1]$ tale che:

\[ x \mapsto F_{X}(x)=\mathbb{P}(\{ \omega \in \Omega: X(\omega) \leq x\})=\mathbb{P}(X \leq x) \]

La potenza di questa definizione è chiara: innanzitutto è definita su tutto $\mathbb{R}$, anche se abbiamo una variabile aleatoria discreta. Inoltre da $F$ posso passare a $p$ e viceversa: infatti, sia nota la densità discreta, allora $F_{X}(x)= \sum_{k \leq x} p_{X}(k)$ – nel caso continuo banalmente la somma diventa l’integrale su $(-\infty, x]$. Si vede facilmente che dunque $F$ nel caso discreto è una funzione a scala. Inoltre in ogni caso è cadlag, ossia continua a destra e limitata a sinistra e vale che:

\[ \lim_{x \to -\infty} F_{X}(x) = 0 \qquad \lim_{x \to +\infty} F_{X}(x) = 1\]

Nel caso assolutamente continuo, allora prima si definisce la funzione di ripartizione e in seguito si passa alla densità. Infatti non ha senso definire la probabilità di un singolo punto, quindi la densità non sarà più, come in questo caso, la probabilità di un numero. Facciamo un parallelo con la fisica: nel caso discreto, è come se la massa fosse concentrata su singoli punti mentre altrove fosse ovunque nulla. Nel caso continuo invece la massa è distribuita, in qualche modo, su tutto lo spazio. La densità mi dice appunto come si distribuisce questa massa, ma il singolo punto ha massa nulla ovviamente. Allora la definiremo così:

\[f_{X}(x)= \frac{d}{dx} F_{X}(x)\]

O, alternativamente, diremo che $X$ è assolutamente continua se esiste una densità $f_{X}: \mathbb{R} \to [0,+\infty)$ tale per cui, dato un intervallo $I$, si ha che $\mathbb{P}(X \in I)=\int_{I} f_{X}(x) dx$. Si noti che NON abbiamo detto che $f_{X}(x)=\mathbb{P}(X=x)$, ed è assolutamente sbagliato pensarlo in questo caso. Infatti banalmente nel caso continuo, ripetiamo, $\mathbb{P}(X=x)=0$ sempre e $f_{X}$ non va nemmeno in $[0,1]$. L’unica altra similarità con la densità discreta è che:

\[ \int_{\mathbb{R}} f_{X}(x) dx=1 \]

Esistono tantissime funzioni di probabilità discrete e continue conosciute in letteratura, ognuna utilizzata per analizzare casi diversi: bernoulliana, binomiale, multinomiale, geometrica, esponenziale, normale o gaussiana – forse la più nota – e poi Gamma, Beta, di Cauchy, eccetera eccetera, eccetera. Vediamo insieme un esempio per chiudere questa seconda puntata, così introduciamo anche il concetto di indipendenza.

Esempio 2: il lancio di moneta

Si, lo so, sono banale. Ho parlato di probabilità e ho fatto i soliti due casi di dadi e monete. Ma sono i più chiari e quelli che permettono di introdurre tantissimi concetti. Quindi si abbia una moneta con testa e croce e la si lanci $n$ volte. Vogliamo capire qual è la probabilità di ottenere $k$ teste. Definiamo prima di tutto per ogni singolo lancio la variabile aleatoria $X_{i}: \Omega \to \{0,1\}$, dove $\Omega=\{ T, C \}$. Siccome ci interessano le teste, mappiamo $T$ in $1$ e $C$ in $0$. La probabilità che esca testa è $p$, con $p \in (0,1)$ e di conseguenza la probabilità che esca croce è $1-p$. Questa variabile aleatoria è detta bernoulliana e si indica con $X_{i} \sim \mathrm{Ber}(p)$La sua densità è:

\[ p(x)=p^x(1-p)^{1-x} \qquad x=\{0,1\} \]

È naturale pensare che i lanci non si influenzino a vicenda in questo caso, se prima è uscito testa questo non dà nessuna informazione su cosa uscirà adesso. Allora si parla di eventi indipendenti. Due eventi sono indipendenti se $P(A \cap B)=P(A)P(B)$. Consideriamo due lanci, qual è la probabilità che escano due teste? Allora è la probabilità che al primo lancio esca testa e al secondo lancio esca ancora testa. Cioè $\mathbb{P}({(T,T)})=\mathbb{P}(T)\mathbb{P}(T)=p^2$. Basta moltiplicare. Ed è anche naturale farlo se ci pensate. Inoltre è facile vedere che ci siamo serviti delle due bernoulliane per definire la probabilità sul vettore $(T,T)$. Generalizziamo allora.

Sia $X$ la variabile aleatoria “numero di teste in $n$ lanci”. Per cui in questo caso $\Omega^{‘}$ ha dentro tutti i vettori $n$-dimensionali ed ognuna delle entrate è una testa o una croce. Quindi $E’$ in questo caso sarà ${0,1,2,\dots, n}$, ossia ad ogni $\omega \in \Omega^{‘}$ è associato il numero di teste. È facile verificare che $X(\omega)=X_{1}(\omega_1)+X_{2}(\omega_2)+\dots+X_{n}(\omega_n)$, con $\omega=(\omega_1, \omega_2, \dots, \omega_n)$. Cioè basta sommare i singoli lanci per contare quante teste sono uscite.

Voglio trovare la probabilità che in $n$ lanci escano $k$ teste. Per esempio una sequenza valida è che escano all’inizio $k$ teste e poi le restanti $n-k$ siano croci. Per l’indipendenza allora:

\[ \mathbb{P}((T,T,\dots, T, C,\dots,C))=
\overbrace{p\cdot p \cdot \ldots \cdot p}^{k} \cdot \overbrace{(1-p) \cdot (1-p) \cdot \ldots \cdot (1-p)}^{n-k} = p^k (1-p)^{n-k}\]

Ma a me l’ordine non interessa: basta avere $k$ teste e $n-k$ croci. Quindi tutte le possibili combinazioni che mi portano allo stesso risultato devono essere sommate tra di loro. Perché sommate? Ogni vettore è incompatibile con gli altri! Se pensiamo $n=3$, allora $(T,T,C)$ è incompatibile con $(T,C,T)$ ma entrambi hanno due teste. Per gli assiomi di Kolmogorov sono due eventi disgiunti, quindi la probabilità della loro unione è la somma delle loro probabilità. Per farlo dunque mi servo del coefficiente binomiale. Per cui la densità sarà:

\[ p_{X}(k)=\mathbb{P}(X=k)= \binom{n}{k} p^{k}(1-p)^{n-k} \qquad k=0,1,\dots, n. \]

Questa variabile aleatoria è detta binomiale e si indica con $X \sim \mathrm{Bin}(n,p)$. Abbiamo visto che può essere definita come la somma di variabili aleatorie bernoulliane indipendenti.

Con questo vi saluto. È stata una puntata per alcuni di ripasso, per altri di introduzione al mondo delle probabilità in maniera schematica e sintetica, di sicuro più rigorosa del classico “conto i casi favorevoli e quelli totali” che si incontra alle superiori. Dalla prossima volta ci possiamo addentrare in alcuni problemi che sono analizzabili tramite le variabili aleatorie.

Un saluto, Federico!

Il mondo della probabilità: il caso esiste?

Sin dall’antichità gli uomini sono stati affascinati dal mondo del gioco d’azzardo, del betting e di tutto ciò che sembra imprevedibile e sul quale vale la pena scommettere per avere quel brivido dato dalla speranza che un evento avvenga. Su come sia nata la probabilità ve ne avevamo già parlato in questo articolo molto interessante, ma adesso vogliamo andare un po’ oltre e chiederci: ma la probabilità esiste? Ossia, il caso (quindi la fortuna) governa questo mondo? Se lo dovessimo chiedere a Woody Allen, avremmo già la risposta nell’incipit del suo film “Match Point”.

Ma chiaramente questo non è un articolo di cinema, quindi andiamo ad analizzare velocemente i due rami filosofici che hanno caratterizzato il pensiero umano dagli antichi greci in poi. Sostanzialmente ci si può riferire a due filoni diversi: per primi ci sono quelli che pensano che il caso non esista e dunque quello che comunemente viene definito come tale è soltanto “ignoranza” sul fenomeno in analisi. Cioè si attribuisce una probabilità ad eventi che aleatori non sono semplicemente perché non si può fare di meglio con gli strumenti che si hanno a disposizione. Si parla quindi di probabilità epistemica.

Questo atteggiamento è adottato dalla filosofia cristiana, secondo cui tutto sta nel disegno della Provvidenza, e da altri filosofi quali Spinosa ad esempio. Ma anche gli scettici, che pensavano che la verità assoluta fosse irraggiungibile, assumevano una posizione di questo tipo – detta probabilismo gnoseologico. Dunque sospettiamo che un evento sia casuale, ma approfondiamo la conoscenza per arrivare il più possibile alla verità.

Se vi sembra un atteggiamento banale, ricordiamo che inizialmente i fenomeni meteorologici erano considerati totalmente casuali, mentre oggi sappiamo che le leggi che lo governano sono caotiche e deterministiche – e della differenza tra caos e caso già vi abbiamo detto qui.

Il secondo filone risponde che sì, il caso esiste perché non vi è nessuna legge deterministica (di tipo lineare) che governa il fenomeno in analisi. Ossia il caso è insito nell’essenza dell’evento che stiamo studiando, per questo parliamo di probabilismo ontico. Dunque non ha senso andarne ad analizzare il suo carattere dinamico – o perché non vi è niente di deterministico sotto o piuttosto perché le leggi che lo governano sono troppo intricate – piuttosto accettiamo di studiarlo soltanto dal punto di vista stocastico/probabilistico. Questo ramo è quello che ha preso maggiormente largo grazie alla meccanica quantica, dove alcuni fenomeni sono fisicamente stocastici.

Per fare un esempio pratico, è inutile studiare le leggi che governano il lancio di una monetina – a seconda di come viene lanciata, del peso, ecc. – piuttosto accettiamo di assegnare una probabilità agli eventi testa e croce.

L’ultima frase ci permette di spostarci dal campo filosofico a quello matematico: che cosa significa “assegnare una probabilità”? Cos’è la probabilità? Allora diamo velocemente le quattro diverse definizioni di probabilità che hanno preso piede dal 1600 fino ad oggi. Iniziamo con la definizione classica:

Definizione 1 (Probabilità Classica)

Si definisce probabilità di un evento $E$ il rapporto fra i casi favorevoli in cui si verifica $E$, diciamo $m$, e il numero di casi totali che indicheremo con $n$, con la condizione che tutti i casi siano equiprobabili. Ossia:

\[ \mathbb{P}(E)=\frac{m}{n} \]

dove con $\mathbb{P}(E)$ stiamo indicando la probabilità dell’evento E. Dunque, in un esempio, se il caso in analisi è il lancio di una moneta e $E$ è l’evento testa , allora $m=1$ e $n=2$, in quanto i casi totali sono testa e croce. Per cui $\mathbb{P}(E)=\frac{1}{2}$, che è effettivamente la probabilità naturale che diamo alle facce di una moneta. La definizione però ha enormi pecche: innanzitutto dobbiamo sapere quanti sono i casi che fanno sì che si verifichi $E$, si applica solo al caso discreto ma soprattutto tutti i casi devono essere equiprobabili. Ma che significa equiprobabili se ho appena definito la probabilità? Insomma, la definizione è circolare e non può essere utilizzata. Viene anche detta probabilità a priori in quanto assegno un numero ad ogni evento prima che questo si verifichi.

Definizione 2 (Probabilità Frequentista)

Si supponga di poter svolgere $n$ prove tutte nelle stesse condizioni e indipendenti. Si definisce probabilità di un evento $E$ il rapporto tra le prove in cui l’evento $E$ si è verificato, che indichiamo con $m$ e le prove che sono state effettuate, che facciamo tendere ad infinito. Ossia:

\[ \mathbb{P}(E)=\lim_{n \to +\infty} \frac{m}{n} \]

Per cui, facendo un esempio, per valutare la probabilità dell’evento testa in un lancio di moneta, farò un numero elevato di prove e segnerò tutte le volte in cui è effettivamente uscito testa. La probabilità classica e quella frequentista vanno a coincidere nei casi in cui sono entrambe calcolabili. Anche in questo caso abbiamo un problema: non è sempre possibile svolgere $n$ esperimenti – se vogliamo calcolare la probabilità che un determinato asteroide colpisca la Terra, evidentemente non possiamo farlo. Questa viene definita anche probabilità a posteriori in quanto assegno una probabilità agli eventi dopo che essi si sono verificati. Ora stiamo per dare la definizione probabilmente meno matematica che abbiate mai visto – eppure molto più efficace delle due precedenti.

Definizione 3 (Probabilità Soggettiva)

Si definisce probabilità di un evento $E$ il grado di fiducia che un individuo razionale pone al realizzarsi di quell’evento, date le conoscenze che possiede in quel momento. Per grado di fiducia si intende un prezzo $p \in [0,1]$ che si è disposti a pagare per ricevere $1$ nel caso in cui $E$ si realizzi.

Facciamo un esempio pratico: quanto siete disposti a pagare per ricevere un euro nel caso in cui, lanciando una moneta, esca testa? Poiché l’individuo è razionale, con le conoscenze che ha dirà ovviamente 50 centesimi, cosicché se esce testa vince 50 centesimi mentre se esce croce ha perso quelli della scommessa. Questo però si applica anche a casi in cui gli eventi non siano bilanciati né di tipo dicotomico – ossia due soli eventi.

La prospettiva è totalmente rivoltata: la probabilità è dentro di noi, non fuori. Quanto volete scommettere per ricevere un euro nel caso in cui la Juventus riesca a battere il Chievo? Qualcuno dirà 90 centesimi, qualcun altro 85, a seconda delle informazioni che hanno e del grado di fiducia. Per una partita di calcio, le altre due definizioni non erano applicabili – posso dire che vittoria, pareggio e sconfitta siano equiprobabili in Real Madrid-Pergolettese? Né posso far giocare mille e mille volte la stessa partita nelle stesse condizioni. E arriviamo finalmente alla definizione che viene attualmente utilizzata e che racchiude le tre precedenti.

Definizione 4 (Probabilità Assiomatica di Kolmogorov)

Sia $\Omega$ l’insieme degli eventi elementari del fenomeno in analisi e sia $\mathcal{F}$ la $\sigma$-algebra costruita su $\Omega$, ossia una famiglia di sottoinsieme delle informazioni – o eventi composti. Allora definiamo probabilità una funzione $\mathbb{P}: (\Omega, \mathcal{F}) \to [0,1]$ tale per cui

  1. $\mathbb{P}(\Omega)=1$
  2. Siano $A,B \in \mathcal{F}$ due eventi incompatibili (ossia $A  \cap B= \emptyset  $), allora \[
    \mathbb{P} (A \cup B)= \mathbb{P}(A)+\mathbb{P}(B) \]

Questa definizione, una volta capiti cosa siano $\Omega$ e una $\sigma$-algebra, è di sicuro la più rigorosa dal punto di vista matematico nonché quella più applicabile. Per capirla bene, però, vi rimandiamo ai prossimi appuntamenti in cui parleremo anche di processi stocastici – un esempio, la rovina del giocatore.

Se ti è piaciuto il mio primo articolo su Mathone, fammelo sapere così possiamo andare avanti con questi nostri incontri. Fammi sapere anche se ti interessa il campo probabilistico-statistico, un ramo della matematica che ultimamente trova tantissime richieste in ambito lavorativo e tantissima attenzione anche nell’opinione pubblica, e se vorresti qualche approfondimento particolare o qualche curiosità!

Alla prossima da Federico!

Caffè Matematico n°1 – Paradossi Probabilistici

Il titolo affiancato dal numero 1 fa intuire che qualcosa di nuovo si sta muovendo. 

Eccoci al primo episodio del “Caffè Matematico”! Questa nostra nuova rubrica ha l’intento di accompagnarvi nelle brevi pause giornaliere con delle piccole chicche matematiche.

I testi (speriamo 🙂 ) saranno coincisi e chiari, mentre la scadenza sarà settimanale.

Pronti, partenza…via!

La teoria delle probabilità è in fondo soltanto senso comune ridotto a calcolo.

 

Pierre Simon Laplace, Teoria analitica delle probabilità , 1812

Dopo aver letto questa frase mi sono perso ad apprezzarne la veridicità e allo stesso tempo l’essenziale semplicità. Poi però mi sono chiesto… allora perché esistono dei paradossi probabilistici?

In questo breve articolo cercheremo di dare una risposta a questa domanda e scoprire quali sono i paradossi più famosi della teoria della probabilità.

Cos’è un paradosso? E perché Laplace si “sbagliava”?

La parola paradosso deriva dall’unione delle parole greche παρά (contro) e δόξα (opinione). Un paradosso è infatti un fatto che appare inaccettabile in quanto in contrasto con il senso comune. L’esistenza di queste stranezze, nel mondo probabilistico, va in parte a “dare torto” all’affermazione di Laplace (le virgolette sono d’obbligo ogni volta che contraddico parzialmente il grande matematico! 🙂 ).

A mio parere la presenza di questi fatti mette in luce la profonda bellezza e forza della matematica: quando il senso comune cade in errore il rigore del linguaggio matematico capta la stranezza e tramite il suo formalismo la spiega e ne motiva la presenza.

Quello che faremo da ora in poi sarà appunto questo. Prima ci faremo ingannare dell’intuizione fornendo risposte sbagliate ai paradossi, poi ci armeremo di qualche proprietà matematica per correggere il tiro.

 

Il paradosso delle tre carte

Supponiamo di avere tre carte che per semplicità chiameremo A, B e C. La prima carta è bianca su entrambe le sue facce. La seconda è rossa su entrambi i lati. La terza infine ha una faccia rossa e una bianca.

Immaginiamo ora di inserire A, B e C in una scatola, di estrarre una carta e di porla sul tavolo con solo una faccia visibile. Siamo quindi in grado di vedere il colore di questa che ipotizziamo sia il rosso. Ci chiediamo che probabilità ha l’altra faccia di essere rossa?

Risposta di pancia…   ! Visto che la carta in questione da una parte è rossa può essere soltanto B o C. Abbiamo quindi una possibilità su due che la faccia coperta sia rossa.

Purtroppo però l’istinto ci inganna e dobbiamo chiamare la ragione per riportarci sulla giusta strada.

Risoluzione del paradosso delle tre carte

La nostra prima supposizione che la carta in questione possa essere solamente B o C era ovviamente corretta, ma dobbiamo fare attenzione ad un particolare. Definiamo B come (R1B, B2B) indicando che il lato uno è rosso e il lato due è bianco e C come (R1C, R2C).

Detto questo il lato sopra il tavolo potrebbe essere R1B ,R1C o R2C . Se  il lato è R1B allora l’altro sarà bianco, ma se è R1C o R2C  allora in entrambi i casi l’altra faccia sarà rossa.

Abbiamo dunque 2 casi favorevoli su 3 e la probabilità cercata è quindi    e non    come supposto inizialmente!

 

Il paradosso del secondo figlio

Andiamo dritti al problema come è stato proposto da Martin Gardner sulle pagine del Scientific American:

“Il signor Smith ha due bambini. Almeno uno dei due è un maschio. Qual è la probabilità che entrambi i bambini siano maschi?”

La risposta data al volo è ancora   , ossia potrebbe essere maschio (primo caso favorevole) o femmina (secondo caso sfavorevole).

Anche questa volta sbagliamo!

La soluzione corretta è analoga a quella di prima, ma ormai la nostra pausa caffè sta per finire. E’ ora di rimettersi al lavoro e  rimandare al prossimo espresso una nuova carica di paradossi (dobbiamo ancora parlare di Monty Hall e dei compleanni!).

Vi lascio soltanto un aiuto dando una seconda formulazione del problema che appare meno ambigua. ( Se non riesci a risolverlo chiedi pure nei commenti 🙂 )

Il signor Smith ha due bambini. Non sono due femmine. Qual è la probabilità che entrambi i bambini siano maschi?

 

Questo è il nostro primo esperimento di articolo breve nel formato compatibile con quasi tutte le macchinette per il caffè in commercio ( 😉 ).

Se l’idea ti piace e avresti voglia di leggere altri piccoli spunti matematici faccelo sapere che ci impegneremo per scrivere il più possibile!

 

D’altronde, come mi ha detto una volta Davide citando Paul Erdös,  “Un matematico è una macchina che trasforma caffè in teoremi”!

 

Ci rileggiamo presto!

 

Marco

Come è nata la probabilità – Il dilemma di De Méré (e una semplice risoluzione)

La probabilità è forse una delle branche della matematica più affascinanti e con i risvolti pratici più interessanti. L’idea alla base di questa disciplina è stimolante: indagare il caos e dargli una sorta di ordine, racchiuderlo tra le raffinate cornici matematiche per riuscire ad ammirarlo e tentare di comprenderlo.

La probabilità nella vita quotidiana

Oggi il calcolo delle probabilità ci pervade in molti contesti del nostro vivere quotidiano. Il meteo che controlliamo la mattina prima di uscire ci dà delle previsioni usando un linguaggio probabilistico. La distribuzione delle carte da gioco, così come delle tessere iniziali del Ruzzle con cui giochiamo nei nostri telefonini (o forse è ormai un gioco fuori moda?) sono calcolate usando strumenti probabilistici.

Le applicazioni ovviamente non si fermano qui, infatti anche lo studio dei mercati (come per esempio i famosi test Montecarlo), molti test ingegneristici e l’analisi di quelli che ultimamente ci piace chiamare Big Data si fondano sulla probabilità.

L’alba del calcolo probabilistico

Una delle peculiarità di questa materia è che possiamo determinare la sua nascita con un anno preciso, il 1654. Fu proprio in questa data che Antoine Gombaud Cavalier de Méré, un nobile francese, nonché accanito giocatore d’azzardo scrisse una lettera a due dei più grandi matematici del tempo per cercare di comprendere il motivo delle sue continue perdite nel gioco dei dadi.

I due matematici in questione erano Blaise Pascal e Pierre de Fermat (famoso anche per il suo celebre Ultimo Teorema). Il problema in questione, invece, era il seguente: lanciando un paio di dadi 24 volte si hanno più possibilità di vincita scommettendo a favore o contro il verificarsi di almeno un doppio sei?

(Provate pure a cercare una soluzione, prima di concludere l’articolo faremo un tentativo assieme!)

Con un modo di dire, in questo caso molto azzeccato, possiamo affermare che ormai “i dadi erano tratti”. Ricevuto l’input, i due pensatori iniziarono una corrispondenza sul tema che rapidamente si allargò ad altri matematici facendo sì che l’argomento diventasse molto dibattuto.

Quello che contraddistinse questo avvenimento dagli studi precedenti su problemi analoghi fu che, oltre a risolvere il problema nel suo caso particolare, si andarono a ricercare delle caratteristiche che accomunavano i vari problemi introducendo così i primi formalismi e le basi teoriche del calcolo della probabilità.

Sviluppi successivi 

Personalmente mi piace vedere la lettera di de Méré come un sasso lanciato in uno stagno. Inizialmente vediamo solamente una piccola pietra, ma in un batter d’occhio da quel punto si iniziano a formare una miriade di onde circolari.

A seguito del primo scambio epistolare tra il nobile francese e i due matematici gli sviluppi della materia avvennero, come le increspature d’acqua nello stagno, in tutte le direzione e per mano di numerosi (e grandissimi) matematici. Non potendo racchiudere in un articolo un enorme capitolo della storia della matematica mi limiterò a citarvi alcuni dei passaggi più importanti.

Inizialmente facciamo un piccolo passo avanti nel 1657 quando viene pubblicato “Tractatus de ratiociniis in ludo aleae”. Un’opera, scritta da Christiaan Huygens, che presenta la risoluzione formale del problema dei dadi e altri dilemmi come la ‘divisione delle parti’  e la ‘rovina del giocatore’ (non mi dilungo nella spiegazione di questi ultimi problemi, ma se ti incuriosiscono chiedi pure nei commenti. Il secondo è uno dei miei preferiti).

Successivamente, agli inizi del Settecento, Jakob Bernoulli enuncia e dimostra la ‘Legge Empirica del Caso’ o più comunemente detta ‘Legge dei Grandi Numeri’. Tralasciando l’enunciato formale diciamo volgarmente (perdonatemi formalisti 🙂 ) che questo è il teorema che ci assicura che se lanciassimo una moneta non truccata un numero elevato di volte la percentuale delle teste sarebbe molto simile a quella delle croci.

A questo punto ci avviciniamo all’Ottocento e immancabilmente arriva lui, Friedrich Carl Gauss (per capire meglio il mio immancabilmente clicca qui). Il matematico tedesco definisce la distribuzione normale, soprannominata anche distribuzione a campana per la sua forma caratteristica. Questa particolare distribuzione permette di dare una buona approssimazione di fenomeni casuali a valori reali concentrati intorno ad un singolo valore medio. Per questa sua caratteristica è usatissima in fisica ed è alla base della teoria degli errori.

Concludiamo infine il nostro piccolo viaggio con Kolmogorov che, nel 1933, diede alla probabilità una formulazione assiomatica definitiva. La stessa che si studia ancora oggi nei vari corsi universitari.

Risoluzione del problema di de Mèrè

Prima di lasciarvi volevo, come promesso, mettere con voi le mani in pasta e provare a capire come risolvere il problema dei dadi di de Méré (non sia mai che torni utile in qualche giocata con gli amici).

Per prima cosa enunciamo tre fatti basilari che ci permetteranno di risolvere il dilemma:

  1. La probabilità che un certo avvento accada si può calcolare semplicemente come rapporto tra i casi favorevoli e i casi totali. Come si può intuire questo valore è compreso tra 0 (nessuna possibilità) e 1 (evento certo).
  2. Se la probabilità che un evento A si verifichi è P(A), allora l’eventualità che A non accada è 1-P(A). Questo fatto si può facilmente intuire pensando che i casi totali sono dati dalla somma dei casi favorevoli e quelli sfavorevoli. Quindi 1-P(A) = (casi totali – casi a favore)/(casi totali) = (casi a sfavore)/(casi totali)
  3. La probabilità che due eventi non dipendenti tra di loro avvengano contemporaneamente è data dal prodotto di tali probabilità o, più formalmente, dati A e B indipendenti tra loro si ha P(A ∩ B) = P(A)*P(B)

Detto questo passiamo alla pratica!

Lanciando due dadi i possibili scenari sono (1,1); (1,2);..(4,1);(4,2)…(6,6) in tutto 36. Quindi la probabilità di ottenere un doppio 6 è 1/36 e di conseguenza la probabilità di non ottenerlo è 1 – 1/36 = 35/36.

Per ora abbiamo usato soltanto i primi due principi, non ci resta che usare l’ultimo e andare dritti alla soluzione.

Considerando che ogni lancio dei dadi non dipende da quelli precedenti (in gergo si dice infatti che il dado “non ha memoria”) possiamo misurare la probabilità di ottenere una coppia diversa da (6,6) in 24 lanci successivi come (35/36)^24.

Fatto questo abbiamo ottenuto il contrario di quello che volevamo, ma per sistemare le cose basta usare nuovamente la seconda proprietà: 1 – (35/36)^24 = 0.491404.

Scommettere sul doppio sei potrebbe costarci caro!

 

Questo è il mio primo articolo qui su MathOne. Ho deciso di iniziare con un tema a me caro e spero che il risultato ti sia piaciuto. Se hai qualche consiglio o vuoi chiedermi qualche approfondimento non esitare.

Il bello del blog è proprio la condivisione!

Marco