Teoria della Probabilità


L’aggettivo aleatorio deriva dal latino alea: dado, l’oggetto casuale per eccellenza.

Prima di riprendere alcuni concetti fondamentali legati alla teoria della probabilità, è opportuno parlare di densità spettrale di potenza.

Elementi Fondamentali

Lo spazio campione Ω\Omega è insieme di tutti i possibili risultati di un esperimento aleatorio. I suoi elementi sono gli ωi,  i=1,\omega_i,\;i=1,\dots e possono essere di numero finito o infinito numerabile.

Un evento è un sottoinsieme dello spazio campione che soddisfa le condizioni:

  1. dato un evento A, anche il suo complemento A\overline{A} è un evento rispetto Ω\Omega,
  2. dati gli eventi A e B, anche la loro unione è un evento.

Dato un evento A, l’insieme AAΩA \cup\overline{A} \equiv \Omega è detto evento certo. L’insieme AAA \cap\overline{A} \equiv \empty è detto evento impossibile.

Gli eventi di uno spazio campione formano la classe degli eventi S. La descrizione della legge di probabilità Pr()\text{Pr}( \cdot ) associa ad ogni evento un valore della sua probabilità di accadere. Lo spazio di probabilità è la terna (Ω,S,Pr())(\Omega,\,S,\,\text{Pr}( \cdot )).

Ne derivano alcuni assiomi e le conseguenti proprietà:

  • Pr(A)0,  Pr(A)=1Pr(A)\text{Pr}(A) \geq 0, \; \text{Pr}(\overline{A}) = 1-\text{Pr}(A)
  • Pr(Ω)=1\text{Pr}( \Omega )=1, assioma di normalizzazione
  • AB=    Pr(AB)=Pr(A)+Pr(B)A\cap B=\empty \implies \text{Pr}(A \cup B) = \text{Pr}(A)+\text{Pr}(B)
  • Pr(AB)=Pr(A)+Pr(B)+Pr(AB)\text{Pr}(A \cup B)=\text{Pr}(A)+\text{Pr}(B)+\text{Pr}(A \cap B)

Si osservi che Pr(AB)Pr(A+B)\text{Pr}(A \cup B) \equiv \text{Pr}(A+B) e Pr(AB)Pr(AB)\text{Pr}(A \cap B) \equiv \text{Pr}(AB).

Dato Pr(B)0\text{Pr}(B)\neq 0, la probabilità del verificarsi di A condizionata al verificarsi dell’evento B è definita dalla formula di Bayes:

Pr(AB):=Pr(AB)Pr(B)=Pr(BA)Pr(B)\text{Pr}(A|B) := \frac{\text{Pr}(AB)}{\text{Pr}(B)} = \frac{\text{Pr}(B|A)}{\text{Pr}(B)}

Ne consegue che A e B sono eventi indipendenti se Pr(A)=Pr(AB)\text{Pr}(A) = \text{Pr}(A|B), ovvero se Pr(AB)=Pr(A)Pr(B)\text{Pr}(AB)=\text{Pr}(A)\cdot\text{Pr}(B)

Costruendo una partizione di Ω\Omega con N eventi BkB_k di SS si ha BiBk se ikB_i\cap B_k \neq \empty \text{ se } i \neq k e:

k=1NBk=Ω\Large \bigcup_{k = 1}^{N} B_k = \Omega

Si può quindi enunciare il teorema della probabilità totale:

Pr(A)=i=1NPr(ABk)Pr(Bk)\text{Pr}(A) = \sum_{i = 1}^N \text{Pr}(A|B_k) \text{Pr}(B_k)

Esempio: Si definisca un esperimento aleatorio che modelli il lancio di un dado a sole 3 facce (per brevità). Lo spazio campione è dato dai risultati possibili:

Ω={ω1,ω2,ω3}\Omega = \{\omega_1, \omega_2, \omega_3\}

con ωi\omega_i che rappresenta la riuscita dell’esperimento con il dado posto sulla i-esima faccia. La classe degli eventi S è data da tutti i sottoinsiemi di Ω\Omega compreso l’insieme vuoto \empty e l’insieme stesso. Gli elementi della classe degli eventi sono 23=82^3=8:

S={  ;{ω1}  ;{ω2}  ;{ω3}  ;{ω1,ω2}  ;{ω2,ω3}  ;{ω1,ω3}  ;{ω1,ω2,ω3}}\eq{ S=\bigg\{ & \emptyset \; ; \{\omega_1\}\; ; \{\omega_2\}\; ; \{\omega_3\}\; ;\{\omega_1,\omega_2\}\; ; \{\omega_2,\omega_3\}\; ; \{\omega_1,\omega_3\}\; ;\{\omega_1, \omega_2, \omega_3\} \bigg\}}

Si può affermare che ogni faccia abbia la stessa probabilità di essere il risultato di un lancio:

Pr({ω1})=Pr({ω2})=Pr({ω3})=1/3\text{Pr}( \{ \omega_1 \} )=\text{Pr}( \{ \omega_2 \} )=\text{Pr}( \{ \omega_3 \} )=1/3

Dato l’evento A ={=\{ la faccia del dado è dispari }\}, la sua probabilità è:

Pr(A)=Pr({ω1}{ω3})==Pr({ω1})+Pr({ω3})==13+13=23\eq{ \text{Pr}(A) &= \text{Pr}( \{ \omega_1 \} \cup \{\omega_3\}) =\\ &= \text{Pr}( \{ \omega_1 \} ) + \text{Pr}( \{ \omega_3 \} ) =\\ &= \frac{1}{3}+\frac{1}{3} = \frac{2}{3} }

Esperimento Composto

Considerando due diversi esperimenti aleatori caratterizzati da differenti spazi campione Ω1\Omega_1 e Ω2\Omega_2, si può definire un esperimento composto: i risultati sono formati da una coppia ordinata dei risultati dei singoli esperimenti aleatori. Lo spazio campione dell’esperimento composto è il prodotto cartesiano Ω=Ω1×Ω2\Omega = \Omega_1 \times \Omega_2. Dato un evento A1A_1 definito in Ω1\Omega_1, un evento A2A_2 definito in Ω2\Omega_2, date le corrispondenti leggi di probabilità Pr1()\text{Pr}_{1}(\cdot) e Pr2()\text{Pr}_{2}(\cdot), allora:

A=A1×A2    Pr(A)=Pr1(A1)Pr2(A2)A=A_1\times A_2\implies\text{Pr}(A)=\text{Pr}_{1}(A_1)\cdot\text{Pr}_{2}(A_2)

Prove di Bernulli

Le prove di Bernulli sono note anche come prove ripetute e indipendenti. L’esperimento composto è dato da n esperimenti identici ed indipendenti aventi ognuno uno spazio campione costituito da due soli elementi.

Ωi={ω0;  ω1}i=1,,n    Ω=Ω1××Ωn\eq{ \Omega_i = \{\omega_0;\;\omega_1\} \quad i = 1,\,\dots\,,\,n \implies \Omega & = \Omega_1 \times\dots\times\Omega_n }

Date le probabilità p=Pr({ω0})p=\text{Pr}( \{ \omega_0 \} ) ed il suo complemento q=Pr({ω1})=1pq=\text{Pr}( \{ \omega_1 \} ) = 1-p. Definito l’evento A come: ω0\omega_0 si presenta k volte in n prove ripetute. Ne consegue la formula di Bernulli, o binomiale:

Pr(A)=(nk)pkqnk=n!k!(nk)!pkqnk0kn\text{Pr}(A) = \binom{n}{k}p^k q^{n-k}=\frac{n!}{k!(n-k)!}\cdot p^k q^{n-k}\quad 0 \leq k\leq n

L’operatore fattoriale di un generico m è definito come la produttoria di tutti i numeri da 11 ad m:

m!:=i=1mi\large m! := \prod_{i = 1}^{m}i

Dati i valori iniziali 0!=10!=1 ed 1!=11!=1 che fungono da exit conditions si può anche definire la “versione” ricorsiva di tale operatore:

m!=m(m1)!\large m! = m \cdot (m-1)!

Variabile Aleatoria

Dato lo spazio di probabilità (Ω,S,Pr())(\Omega,\,S,\,\text{Pr}( \cdot )) con Pr()\text{Pr}( \cdot ) numerabile. La corrispondenza X(ωi)X(\omega_i) che associa ad ogni ωi\omega_i ad un numero univoco e reale è una variabile aleatoria e se l’insieme per i quali è verificata X(ω)aX(\omega)\leq a è un evento. Si può omettere la dipendenza da ω\omega (omega) in modo da rendere più snelle le notazioni: X(ωi)XX(\omega_i) \longrightarrow X.

Risulta significativo calcolare la probabilità che i valori di tale variabile aleatoria siano racchiusi in un intervallo come a<Xba<X\leq b. Ciò equivale ad identificare tutti e soli gli elementi di Ω\Omega compresi tra a e b che forniscono valori della variabile aleatoria. Questo insieme di risultati è a sua volta un evento a cui si può associare una probabilità.

Distribuzione di probabilità

Dato un generico xRx \in \R si definisce la funzione distribuzione di probabilità (detta anche di ripartizione) di una variabile aleatoria:

FX(x):=Pr({Xx})F_X(x):=\text{Pr}(\{X \leq x\})

La quale gode delle seguenti probabilità:

  1. limitata in [0,1][0,\,1], ovvero 0FX(x)10\leq F_X(x) \leq 1
  2. il suo limite per xx \to \infty vale 1, ovvero FX(+)=1F_X(+\infty)=1
  3. il suo limite per xx \to -\infty vale 0, ovvero FX()=0F_X(-\infty)=0
  4. è monotona non decrescente, ovvero x1<x2    FX(x1)FX(x2)x_1<x_2 \implies F_X(x_1) \leq F_X(x_2)
  5. è continua da destra

Densità di probabilità

La derivata della funzione distribuzione di probabilità è detta funzione densità di probabilità:

fX(x):=dFX(x)dxf_X(x) := \frac{d F_X(x)}{dx}

Da cui derivano le seguenti proprietà:

fX(x)0Pr({a<Xb})=FX(b)FX(a)=abfX(x)dxfX(x)dx=1probabilita’ evento certo\eq { & f_X(x) \geq 0 \\ & \text{Pr}(\{a<X\leq b\}) = F_X(b)-F_X(a)=\int_a^b f_X(x)dx \\ & \int_{-\infty}^\infty f_X(x)dx = 1 \longrightarrow \text{probabilita' evento certo} }

Per una variabile aleatoria tempo-discreto la probabilità non è distribuita in maniera continua, bensì è discretizzata negli xkRx_k \in \R. Grazie alla formulazione seguente si può evitare di enunciare due diverse formule per la densità di probabilità:

fX(x)=kpkδ(xxk)f_X(x)=\sum_k p_k \delta(x-x_k)

A margine del paragrafo è opportuno parlare del teorema fondamentale per la trasformazione di una variabile aleatoria. Data la trasformazione Y=g(X)Y=g(X), la sua distribuzione di probabilità è:

fY(y)=ifX(xi)g(xi)\large f_Y(y) = \sum_i \frac{f_X(x_i)}{|g'(x_i)|}

Indici caratteristici

Non è sempre possibile conoscere la funzione distribuzione di probabilità di una variabile aleatoria, la cui conoscenza permetterebbe uno studio completo sul comportamento statistico dei valori assunti dalla variabile in oggetto. Si devono quindi prendere in esame degli indici caratteristici (parametri statistici semplificati) relativi alla distribuzione di probabilità.

Valore atteso

Il valore atteso (speranza o attesa) di una variabile aleatoria è definito con la lettera greca eta avente X in pedice:

ηX:=+xfX(x)dx=E{X}\eta_X := \int_{-\infty}^{+\infty} x f_X(x)dx=E\{X\}

Se la variabile è discreta, l’integrale viene sostituito da una sommatoria ed il valore atteso diventa:

ηX=+xkpkδ(xxk)=kpkxk\eta_X = \int_{-\infty}^{+\infty} x \sum_k p_k \delta(x-x_k) = \sum_k p_k x_k

La stima del valore atteso è essa stessa una variabile aleatoria.

Valore medio

Quando si deve gestire la trasformazione di una variabile aleatoria Y=g(X)Y=g(X) si utilizza l’operatore di valore medio:

E{g(X)}:=+g(x)fX(x)dx    ηX=E{X}E\{g(X)\}:= \int_{-\infty}^{+\infty} g(x) f_X(x)dx \implies \eta_X=E\{X\}

Tale operatore gode della proprietà di linearità:

E{αg(X)+βh(X)}=αE{g(X)}+βE{h(X)}α,βE\{\alpha\cdot g(X)+\beta \cdot h(X)\}=\alpha\cdot E\{g(X)\}+\beta\cdot E\{h(X)\}\quad \forall \alpha, \beta

Il valore atteso e il valore medio coincidono.

Deviazione Standard & Varianza

La deviazione standard σX\sigma_X (sigma) è una misura della dispersione che la variabile aleatoria presenta attorno al suo valore medio E{X}E\{X\}.

Il suo quadrato è detto varianza:

σX2:=E{(XηX)2}=+(xηX)2fX(x)dx\sigma_X^2 := E\{(X-\eta_X)^2\} = \int_{-\infty}^{+\infty} (x-\eta_X)^2 f_X(x)dx

Una variabile aleatoria con una varianza nulla, ovvero con valori che non si disperdono attorno al suo valore medio, presenta una densità di probabilità:

fX(x):=δ(xηX)f_X(x) := \delta(x-\eta_X)

La variabile aleatoria “decade” in un valore deterministico.

La deviazione standard viene spesso utilizzata al posto della varianza perché è dimensionalmente coerente con la variabile aleatoria che si sta valutando.

Valore quadratico medio

Si definisce infine l’operatore di valore quadratico medio (o potenza):

mX2:=E{X2}=+x2fX(x)dxm_X^2 := E\{X^2\} =\int_{-\infty}^{+\infty} x^2 f_X(x)dx

Poiché l’operatore di valore medio gode della proprietà di linearità:

σX2=mX2ηX2\sigma_X^2 = m_X^2-\eta_X^2

Altri Indici caratteristici

Media Aritmetica

Riprendendo il concetto che la stima del valore atteso è essa stessa una variabile aleatoria. Se si hanno N realizzazioni della variabile aleatoria X, si può stimare il valore atteso mediante la media aritmetica:

ηX^=E^{X}=1N[i=1Nxi]\widehat{\eta_X} = \widehat{E}\{X\} = \frac{1}{N}\bigg[ \sum_{i=1}^N x_i \bigg]

Varianza Empirica

Se si hanno N realizzazioni della variabile aleatoria X, si può stimare la varianza mediante la varianza empirica:

Var^{X}=σX2^=1N1[i=1N(xiηX^)2]\widehat{\text{Var}}\{X\} =\widehat{\sigma_X^2} = \frac{1}{N-1}\bigg[ \sum_{i=1}^N \Big(x_i-\widehat{\eta_X}\Big)^2 \bigg]

La deviazione standard è la radice quadrata della positiva della varianza (in questo caso empirica):

σX^=Var^{X}=1N1[i=1N(xiηX^)2]\widehat{\sigma_X} = \sqrt{\widehat{\text{Var}}\{X\}} =\sqrt{\frac{1}{N-1}\bigg[ \sum_{i=1}^N \Big(x_i-\widehat{\eta_X}\Big)^2 \bigg]}

Variabile aleatoria Gaussiana

Una variabile aleatoria è Gaussiana o normale se la sua funzione densità di probabilità è:

fX(x)=12πσX2e(xηX)22σX2\Large f_X(x) = \frac{1}{\sqrt{2\pi\sigma_X^2}}e^{-\frac{(x-\eta_X)^2}{2\sigma_X^2}}

Per indicare i valori di varianza e valore atteso, si può scrivere in modo sintetico:

XN(ηX,σX2)X \in \mathcal{N}(\eta_X, \sigma_X^2)

Una variabile NN(0,1)N \in \mathcal{N}(0,1) è detta variabile normale standard:

fN(n)=12πe  n2/2\Large f_N(n)= \frac{1}{\sqrt{2\pi}}e^{-\;n^2/2}

Si definisce la funzione di distribuzione Φ(x)\Phi(x) per una variabile aleatoria normale standard:

Φ(x):=FN(x)=x12πe  n2/2dn\Phi(x) := F_N(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\;n^2/2} dn

Da questa definizione si può ricavare la formula per FX(x)F_X(x) relativa ad X:

FX(x)=Φ(xηXσX)F_X(x) = \Phi\bigg(\frac{x-\eta_X}{\sigma_X}\bigg)

Correlazione e Covarianza

Una coppia di variabili aleatorie (X,Y)(X,Y) può essere caratterizzata da alcuni parametri che ne fanno comprendere il comportamento statistico congiunto.

La densità di probabilità congiunta è:

fXY(x,y)=y(x(FXY(x,y)))2FXY(x,y)xyf_{XY}(x,y) = \frac{\partial}{\partial y}\bigg( \frac{\partial}{\partial x}\Big( F_{XY}(x,y) \Big)\bigg) \frac{\partial^2 F_{XY}(x,y)}{\partial x \partial y}

La distribuzione di probabilità congiunta è:

FXY(x,y)=PrXY{Xx,  Yy}==xyfXY(x,y)dxdy\eq{ F_{XY}(x,y) &= \text{Pr}_{XY}\{X \leq x, \; Y \leq y\} =\\ &= \int_{-\infty}^x \int_{-\infty}^y f_{XY}(x,y)dxdy }

La correlazione tra X e Y è:

rXY:=E{XY}=++xyfXY(x,y)  dx  dyr_{XY} :=E\{XY\} = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}x y f_{XY}(x,y)\;dx\;dy

La covarianza tra X e Y è:

cXY:=E{(XηX)(YηY)}==++(xηX)(yηY)fXY(x,y)  dx  dy\eq { c_{XY} &:= E\{(X-\eta_X)\cdot(Y-\eta_Y)\} = \\ & = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} (x-\eta_X)(y-\eta_Y) f_{XY}(x,y)\;dx\;dy }

Tali indici sono legati dalla relazione:

cXY=rXYηXηYc_{XY} = r_{XY}-\eta_X \eta_Y

La covarianza determina se tra due variabili aleatorie esiste una relazione di dipendenza lineare. Questo indice misura la tendenza di variazione congiunta (co-varianza, per l’appunto) delle due variabili.

Se cXY=0c_{XY}=0, le variabili sono dette incorrelate. Se cXY=±1c_{XY}=\pm 1, le variabili sono pienamente correlate.

Allo stesso modo, si può usare il coefficiente di correlazione:

ρXY:=E{XηXσXYηYσY}==(rXYηXηY)σXσY==cXYσXσY\eq{ \rho_{XY} &:= E\bigg\{\frac{X-\eta_X}{\sigma_X}\cdot\frac{Y-\eta_Y}{\sigma_Y} \bigg\}=\\ &= \frac{(r_{XY}-\eta_X \eta_Y)}{\sigma_X \sigma_Y}=\\ &= \frac{c_{XY}}{\sigma_X \sigma_Y}\\ }

Perché la deviazione standard σX\sigma_X è una misura della dispersione che la variabile aleatoria presenta attorno al proprio valore medio.

Quando le variabili aleatorie X e Y sono indipendenti:

rXY=E{XY}=ηXηYcXY=0\eq{ r_{XY} &= E\{XY\} = \eta_X \eta_Y \\ c_{XY} &= 0 }

Dunque l’indipendenza implica incorrelazione, ma non viceversa.


La covarianza può essere stimata avendo N coppie di realizzazioni di X ed Y.

cXY^=1N1i=1N[(xiηX^)(yiηY^)]\widehat{c_{XY}} = \frac{1}{N-1} \sum_{i=1}^N \bigg[\Big(x_i-\widehat{\eta_X}\Big) \cdot \Big(y_i-\widehat{\eta_Y}\Big) \bigg]

Sistemi di n variabili aleatorie

Dato un sistema di n variabili aleatorie, si ottene una variabile aleatoria n-dimensionale. Si può dunque definire la funzione distribuzione di probabilità congiunta:

FX1,,Xn(x1,,xn):=Pr({X1x1,,Xnxn})\Large F_{X_1,\,\dots,\,X_n}(x_1,\,\dots,\,x_n) := \text{Pr}(\{X_1 \leq x_1,\,\dots,\,X_n \leq x_n\})

Assieme alla relativa funzione densità di probabilità congiunta:

fX1,,Xn(x1,,xn):=nFX1,,Xn(x1,,xn)x1,,xn\Large f_{X_1,\,\dots,\,X_n}(x_1,\,\dots,\,x_n) := \frac{\partial^n F_{X_1,\,\dots,\,X_n}(x_1,\,\dots,\,x_n)}{\partial x_1,\,\dots,\,x_n}

Grazie a questa funzione, come facilmente intuibile, si può ricavare la densità marginale di ciascuna variabile o le densità congiunte di un sottoinsieme del sistema.

Dato l’operatore di trasposizione []T[\cdot]^T, si può introdurre la notazione di vettore aleatorio X\bold{X} (in grassetto):

X=[X1X2Xn]=[X1,  X2,  ,  Xn]T\bold{X}=\begin{bmatrix}X_1\\X_2\\\vdots\\X_n\end{bmatrix}=[X_1,\; X_2,\;\dots,\; X_n]^T

Per semplicità di notazione, tutti gli indici caratteristici di un sistema di n variabili aleatorie possono essere rappresentate in notazione vettoriale.

ηX:=E{X}=[ηX1,,ηXn]TFX(x):=Pr({X1x1,,Xnxn})fX(x):=nFX(x)x\large \eq{ \eta_{\bold{X}} & := E\{\bold{X}\} = [\eta_{X_1},\,\dots,\,\eta_{X_n}]^T \\ \\ F_{\bold{X}}&(\bold{x}) := \text{Pr}(\{X_1 \leq x_1,\,\dots,\,X_n \leq x_n\}) \\ \\ f_{\bold{X}}&(\bold{x}) := \frac{\partial^n F_{\bold{X}}(\bold{x})}{\partial \bold{x}} }

Matrice di correlazione

Le correlazioni tra tutte le variabili aleatorie possono essere raccolte nella matrice di correlazione:

RX:=E{XXT}=[rX1X1rX1X2rX1XnrX2X1rX2X2rX2XnrXnX1rXnX2rXnXn]\bold{R}_{\bold{X}} := E\Big\{\bold{XX}^T\Big\} = \begin{bmatrix} r_{X_1 X_1} & r_{X_1 X_2} & \dots & r_{X_1 X_n} \\ r_{X_2 X_1} & r_{X_2 X_2} & \dots & r_{X_2 X_n} \\ \vdots & \vdots & \ddots & \vdots \\ r_{X_n X_1} & r_{X_n X_2} & \dots & r_{X_n X_n} \\ \end{bmatrix}

Sulla diagonale maggiore di tale matrice quadrata sono posti i valori quadratici medi delle variabili aleatorie che compongono il sistema: mXi2=rXiXi=E{XiXi}m_{X_i}^2 = r_{X_i X_i} = E\{X_i X_i\}

Matrice di covarianza

In modo analogo è costituita anche la matrice di covarianza. Si osserva che sulla diagonale maggiore di tale matrice quadrata sono posti i valori delle varianze σXi2\sigma_{X_i}^2:

CX:=E{(XηX)(XηX)T}==[cX1X1cX1X2cX1XncX2X1cX1X2cX2XncXnX1cXnX2cXnXn]==[σX12cX1X2cX1XncX2X1σX22cX2XncXnX1cXnX2σXn2]==RXηXηXT\eq{ \bold{C}_{\bold{X}} &:= E\Big\{(\bold{X}-\eta_{\bold{X}})(\bold{X}-\eta_{\bold{X}})^T\Big\} =\\ \\ &=\begin{bmatrix} c_{X_1 X_1} & c_{X_1 X_2} & \dots & c_{X_1 X_n} \\ c_{X_2 X_1} & c_{X_1 X_2} & \dots & c_{X_2 X_n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{X_n X_1} & c_{X_n X_2} & \dots & c_{X_n X_n} \\ \end{bmatrix} = \\ \\ &=\begin{bmatrix} \sigma_{X_1}^2 & c_{X_1 X_2} & \dots & c_{X_1 X_n} \\ c_{X_2 X_1} & \sigma_{X_2}^2 & \dots & c_{X_2 X_n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{X_n X_1} & c_{X_n X_2} & \dots & \sigma_{X_n}^2 \\ \end{bmatrix}=\\ \\ &= \bold{R}_{\bold{X}} - \eta_{X}\cdot \eta_{X}^T }