Pit + Teoria della Probabilità

1/20/2023

L’aggettivo aleatorio deriva dal latino alea: dado, l’oggetto casuale per eccellenza.

Prima di riprendere alcuni concetti fondamentali legati alla teoria della probabilità, è opportuno parlare di densità spettrale di potenza.

Elementi Fondamentali

Lo spazio campione $\Omega$ è insieme di tutti i possibili risultati di un esperimento aleatorio. I suoi elementi sono gli $\omega_i,\;i=1,\dots$ e possono essere di numero finito o infinito numerabile.

Un evento è un sottoinsieme dello spazio campione che soddisfa le condizioni:

dato un evento A, anche il suo complemento $\overline{A}$ è un evento rispetto $\Omega$ ,
dati gli eventi A e B, anche la loro unione è un evento.

Dato un evento A, l’insieme $A \cup\overline{A} \equiv \Omega$ è detto evento certo. L’insieme $A \cap\overline{A} \equiv \empty$ è detto evento impossibile.

Gli eventi di uno spazio campione formano la classe degli eventi S. La descrizione della legge di probabilità $\text{Pr}( \cdot )$ associa ad ogni evento un valore della sua probabilità di accadere. Lo spazio di probabilità è la terna $(\Omega,\,S,\,\text{Pr}( \cdot ))$ .

Ne derivano alcuni assiomi e le conseguenti proprietà:

$\text{Pr}(A) \geq 0, \; \text{Pr}(\overline{A}) = 1-\text{Pr}(A)$
$\text{Pr}( \Omega )=1$ , assioma di normalizzazione
$A\cap B=\empty \implies \text{Pr}(A \cup B) = \text{Pr}(A)+\text{Pr}(B)$
$\text{Pr}(A \cup B)=\text{Pr}(A)+\text{Pr}(B)+\text{Pr}(A \cap B)$

Si osservi che $\text{Pr}(A \cup B) \equiv \text{Pr}(A+B)$ e $\text{Pr}(A \cap B) \equiv \text{Pr}(AB)$ .

Dato $\text{Pr}(B)\neq 0$ , la probabilità del verificarsi di A condizionata al verificarsi dell’evento B è definita dalla formula di Bayes:

\text{Pr}(A|B) := \frac{\text{Pr}(AB)}{\text{Pr}(B)} = \frac{\text{Pr}(B|A)}{\text{Pr}(B)}

Ne consegue che A e B sono eventi indipendenti se $\text{Pr}(A) = \text{Pr}(A|B)$ , ovvero se $\text{Pr}(AB)=\text{Pr}(A)\cdot\text{Pr}(B)$

Costruendo una partizione di $\Omega$ con N eventi $B_k$ di $S$ si ha $B_i\cap B_k \neq \empty \text{ se } i \neq k$ e:

\Large \bigcup_{k = 1}^{N} B_k = \Omega

Si può quindi enunciare il teorema della probabilità totale:

\text{Pr}(A) = \sum_{i = 1}^N \text{Pr}(A|B_k) \text{Pr}(B_k)

Esempio: Si definisca un esperimento aleatorio che modelli il lancio di un dado a sole 3 facce (per brevità). Lo spazio campione è dato dai risultati possibili:

\Omega = \{\omega_1, \omega_2, \omega_3\}

con $\omega_i$ che rappresenta la riuscita dell’esperimento con il dado posto sulla i-esima faccia. La classe degli eventi S è data da tutti i sottoinsiemi di $\Omega$ compreso l’insieme vuoto $\empty$ e l’insieme stesso. Gli elementi della classe degli eventi sono $2^3=8$ :

\eq{ S=\bigg\{ & \emptyset \; ; \{\omega_1\}\; ; \{\omega_2\}\; ; \{\omega_3\}\; ;\{\omega_1,\omega_2\}\; ; \{\omega_2,\omega_3\}\; ; \{\omega_1,\omega_3\}\; ;\{\omega_1, \omega_2, \omega_3\} \bigg\}}

Si può affermare che ogni faccia abbia la stessa probabilità di essere il risultato di un lancio:

\text{Pr}( \{ \omega_1 \} )=\text{Pr}( \{ \omega_2 \} )=\text{Pr}( \{ \omega_3 \} )=1/3

Dato l’evento A $=\{$ la faccia del dado è dispari $\}$ , la sua probabilità è:

\eq{ \text{Pr}(A) &= \text{Pr}( \{ \omega_1 \} \cup \{\omega_3\}) =\\ &= \text{Pr}( \{ \omega_1 \} ) + \text{Pr}( \{ \omega_3 \} ) =\\ &= \frac{1}{3}+\frac{1}{3} = \frac{2}{3} }

Esperimento Composto

Considerando due diversi esperimenti aleatori caratterizzati da differenti spazi campione $\Omega_1$ e $\Omega_2$ , si può definire un esperimento composto: i risultati sono formati da una coppia ordinata dei risultati dei singoli esperimenti aleatori. Lo spazio campione dell’esperimento composto è il prodotto cartesiano $\Omega = \Omega_1 \times \Omega_2$ . Dato un evento $A_1$ definito in $\Omega_1$ , un evento $A_2$ definito in $\Omega_2$ , date le corrispondenti leggi di probabilità $\text{Pr}_{1}(\cdot)$ e $\text{Pr}_{2}(\cdot)$ , allora:

A=A_1\times A_2\implies\text{Pr}(A)=\text{Pr}_{1}(A_1)\cdot\text{Pr}_{2}(A_2)

Prove di Bernulli

Le prove di Bernulli sono note anche come prove ripetute e indipendenti. L’esperimento composto è dato da n esperimenti identici ed indipendenti aventi ognuno uno spazio campione costituito da due soli elementi.

\eq{ \Omega_i = \{\omega_0;\;\omega_1\} \quad i = 1,\,\dots\,,\,n \implies \Omega & = \Omega_1 \times\dots\times\Omega_n }

Date le probabilità $p=\text{Pr}( \{ \omega_0 \} )$ ed il suo complemento $q=\text{Pr}( \{ \omega_1 \} ) = 1-p$ . Definito l’evento A come: $\omega_0$ si presenta k volte in n prove ripetute. Ne consegue la formula di Bernulli, o binomiale:

\text{Pr}(A) = \binom{n}{k}p^k q^{n-k}=\frac{n!}{k!(n-k)!}\cdot p^k q^{n-k}\quad 0 \leq k\leq n

L’operatore fattoriale di un generico m è definito come la produttoria di tutti i numeri da $1$ ad m:

\large m! := \prod_{i = 1}^{m}i

Dati i valori iniziali $0!=1$ ed $1!=1$ che fungono da exit conditions si può anche definire la “versione” ricorsiva di tale operatore:

\large m! = m \cdot (m-1)!

Variabile Aleatoria

Dato lo spazio di probabilità $(\Omega,\,S,\,\text{Pr}( \cdot ))$ con $\text{Pr}( \cdot )$ numerabile. La corrispondenza $X(\omega_i)$ che associa ad ogni $\omega_i$ ad un numero univoco e reale è una variabile aleatoria e se l’insieme per i quali è verificata $X(\omega)\leq a$ è un evento. Si può omettere la dipendenza da $\omega$ (omega) in modo da rendere più snelle le notazioni: $X(\omega_i) \longrightarrow X$ .

Risulta significativo calcolare la probabilità che i valori di tale variabile aleatoria siano racchiusi in un intervallo come $a<X\leq b$ . Ciò equivale ad identificare tutti e soli gli elementi di $\Omega$ compresi tra a e b che forniscono valori della variabile aleatoria. Questo insieme di risultati è a sua volta un evento a cui si può associare una probabilità.

Distribuzione di probabilità

Dato un generico $x \in \R$ si definisce la funzione distribuzione di probabilità (detta anche di ripartizione) di una variabile aleatoria:

F_X(x):=\text{Pr}(\{X \leq x\})

La quale gode delle seguenti probabilità:

limitata in $[0,\,1]$ , ovvero $0\leq F_X(x) \leq 1$
il suo limite per $x \to \infty$ vale 1, ovvero $F_X(+\infty)=1$
il suo limite per $x \to -\infty$ vale 0, ovvero $F_X(-\infty)=0$
è monotona non decrescente, ovvero $x_1<x_2 \implies F_X(x_1) \leq F_X(x_2)$
è continua da destra

Densità di probabilità

La derivata della funzione distribuzione di probabilità è detta funzione densità di probabilità:

f_X(x) := \frac{d F_X(x)}{dx}

Da cui derivano le seguenti proprietà:

\eq { & f_X(x) \geq 0 \\ & \text{Pr}(\{a<X\leq b\}) = F_X(b)-F_X(a)=\int_a^b f_X(x)dx \\ & \int_{-\infty}^\infty f_X(x)dx = 1 \longrightarrow \text{probabilita' evento certo} }

Per una variabile aleatoria tempo-discreto la probabilità non è distribuita in maniera continua, bensì è discretizzata negli $x_k \in \R$ . Grazie alla formulazione seguente si può evitare di enunciare due diverse formule per la densità di probabilità:

f_X(x)=\sum_k p_k \delta(x-x_k)

A margine del paragrafo è opportuno parlare del teorema fondamentale per la trasformazione di una variabile aleatoria. Data la trasformazione $Y=g(X)$ , la sua distribuzione di probabilità è:

\large f_Y(y) = \sum_i \frac{f_X(x_i)}{|g'(x_i)|}

Indici caratteristici

Non è sempre possibile conoscere la funzione distribuzione di probabilità di una variabile aleatoria, la cui conoscenza permetterebbe uno studio completo sul comportamento statistico dei valori assunti dalla variabile in oggetto. Si devono quindi prendere in esame degli indici caratteristici (parametri statistici semplificati) relativi alla distribuzione di probabilità.

Valore atteso

Il valore atteso (speranza o attesa) di una variabile aleatoria è definito con la lettera greca eta avente X in pedice:

\eta_X := \int_{-\infty}^{+\infty} x f_X(x)dx=E\{X\}

Se la variabile è discreta, l’integrale viene sostituito da una sommatoria ed il valore atteso diventa:

\eta_X = \int_{-\infty}^{+\infty} x \sum_k p_k \delta(x-x_k) = \sum_k p_k x_k

La stima del valore atteso è essa stessa una variabile aleatoria.

Valore medio

Quando si deve gestire la trasformazione di una variabile aleatoria $Y=g(X)$ si utilizza l’operatore di valore medio:

E\{g(X)\}:= \int_{-\infty}^{+\infty} g(x) f_X(x)dx \implies \eta_X=E\{X\}

Tale operatore gode della proprietà di linearità:

E\{\alpha\cdot g(X)+\beta \cdot h(X)\}=\alpha\cdot E\{g(X)\}+\beta\cdot E\{h(X)\}\quad \forall \alpha, \beta

Il valore atteso e il valore medio coincidono.

Deviazione Standard & Varianza

La deviazione standard $\sigma_X$ (sigma) è una misura della dispersione che la variabile aleatoria presenta attorno al suo valore medio $E\{X\}$ .

Il suo quadrato è detto varianza:

\sigma_X^2 := E\{(X-\eta_X)^2\} = \int_{-\infty}^{+\infty} (x-\eta_X)^2 f_X(x)dx

Una variabile aleatoria con una varianza nulla, ovvero con valori che non si disperdono attorno al suo valore medio, presenta una densità di probabilità:

f_X(x) := \delta(x-\eta_X)

La variabile aleatoria “decade” in un valore deterministico.

La deviazione standard viene spesso utilizzata al posto della varianza perché è dimensionalmente coerente con la variabile aleatoria che si sta valutando.

Valore quadratico medio

Si definisce infine l’operatore di valore quadratico medio (o potenza):

m_X^2 := E\{X^2\} =\int_{-\infty}^{+\infty} x^2 f_X(x)dx

Poiché l’operatore di valore medio gode della proprietà di linearità:

\sigma_X^2 = m_X^2-\eta_X^2

Altri Indici caratteristici

Media Aritmetica

Riprendendo il concetto che la stima del valore atteso è essa stessa una variabile aleatoria. Se si hanno N realizzazioni della variabile aleatoria X, si può stimare il valore atteso mediante la media aritmetica:

\widehat{\eta_X} = \widehat{E}\{X\} = \frac{1}{N}\bigg[ \sum_{i=1}^N x_i \bigg]

Varianza Empirica

Se si hanno N realizzazioni della variabile aleatoria X, si può stimare la varianza mediante la varianza empirica:

\widehat{\text{Var}}\{X\} =\widehat{\sigma_X^2} = \frac{1}{N-1}\bigg[ \sum_{i=1}^N \Big(x_i-\widehat{\eta_X}\Big)^2 \bigg]

La deviazione standard è la radice quadrata della positiva della varianza (in questo caso empirica):

\widehat{\sigma_X} = \sqrt{\widehat{\text{Var}}\{X\}} =\sqrt{\frac{1}{N-1}\bigg[ \sum_{i=1}^N \Big(x_i-\widehat{\eta_X}\Big)^2 \bigg]}

Variabile aleatoria Gaussiana

Una variabile aleatoria è Gaussiana o normale se la sua funzione densità di probabilità è:

\Large f_X(x) = \frac{1}{\sqrt{2\pi\sigma_X^2}}e^{-\frac{(x-\eta_X)^2}{2\sigma_X^2}}

Per indicare i valori di varianza e valore atteso, si può scrivere in modo sintetico:

X \in \mathcal{N}(\eta_X, \sigma_X^2)

Una variabile $N \in \mathcal{N}(0,1)$ è detta variabile normale standard:

\Large f_N(n)= \frac{1}{\sqrt{2\pi}}e^{-\;n^2/2}

Si definisce la funzione di distribuzione $\Phi(x)$ per una variabile aleatoria normale standard:

\Phi(x) := F_N(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\;n^2/2} dn

Da questa definizione si può ricavare la formula per $F_X(x)$ relativa ad X:

F_X(x) = \Phi\bigg(\frac{x-\eta_X}{\sigma_X}\bigg)

Correlazione e Covarianza

Una coppia di variabili aleatorie $(X,Y)$ può essere caratterizzata da alcuni parametri che ne fanno comprendere il comportamento statistico congiunto.

La densità di probabilità congiunta è:

f_{XY}(x,y) = \frac{\partial}{\partial y}\bigg( \frac{\partial}{\partial x}\Big( F_{XY}(x,y) \Big)\bigg) \frac{\partial^2 F_{XY}(x,y)}{\partial x \partial y}

La distribuzione di probabilità congiunta è:

\eq{ F_{XY}(x,y) &= \text{Pr}_{XY}\{X \leq x, \; Y \leq y\} =\\ &= \int_{-\infty}^x \int_{-\infty}^y f_{XY}(x,y)dxdy }

La correlazione tra X e Y è:

r_{XY} :=E\{XY\} = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}x y f_{XY}(x,y)\;dx\;dy

La covarianza tra X e Y è:

\eq { c_{XY} &:= E\{(X-\eta_X)\cdot(Y-\eta_Y)\} = \\ & = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} (x-\eta_X)(y-\eta_Y) f_{XY}(x,y)\;dx\;dy }

Tali indici sono legati dalla relazione:

c_{XY} = r_{XY}-\eta_X \eta_Y

La covarianza determina se tra due variabili aleatorie esiste una relazione di dipendenza lineare. Questo indice misura la tendenza di variazione congiunta (co-varianza, per l’appunto) delle due variabili.

Se $c_{XY}=0$ , le variabili sono dette incorrelate. Se $c_{XY}=\pm 1$ , le variabili sono pienamente correlate.

Allo stesso modo, si può usare il coefficiente di correlazione:

\eq{ \rho_{XY} &:= E\bigg\{\frac{X-\eta_X}{\sigma_X}\cdot\frac{Y-\eta_Y}{\sigma_Y} \bigg\}=\\ &= \frac{(r_{XY}-\eta_X \eta_Y)}{\sigma_X \sigma_Y}=\\ &= \frac{c_{XY}}{\sigma_X \sigma_Y}\\ }

Perché la deviazione standard $\sigma_X$ è una misura della dispersione che la variabile aleatoria presenta attorno al proprio valore medio.

Quando le variabili aleatorie X e Y sono indipendenti:

\eq{ r_{XY} &= E\{XY\} = \eta_X \eta_Y \\ c_{XY} &= 0 }

Dunque l’indipendenza implica incorrelazione, ma non viceversa.

La covarianza può essere stimata avendo N coppie di realizzazioni di X ed Y.

\widehat{c_{XY}} = \frac{1}{N-1} \sum_{i=1}^N \bigg[\Big(x_i-\widehat{\eta_X}\Big) \cdot \Big(y_i-\widehat{\eta_Y}\Big) \bigg]

Sistemi di n variabili aleatorie

Dato un sistema di n variabili aleatorie, si ottene una variabile aleatoria n-dimensionale. Si può dunque definire la funzione distribuzione di probabilità congiunta:

\Large F_{X_1,\,\dots,\,X_n}(x_1,\,\dots,\,x_n) := \text{Pr}(\{X_1 \leq x_1,\,\dots,\,X_n \leq x_n\})

Assieme alla relativa funzione densità di probabilità congiunta:

\Large f_{X_1,\,\dots,\,X_n}(x_1,\,\dots,\,x_n) := \frac{\partial^n F_{X_1,\,\dots,\,X_n}(x_1,\,\dots,\,x_n)}{\partial x_1,\,\dots,\,x_n}

Grazie a questa funzione, come facilmente intuibile, si può ricavare la densità marginale di ciascuna variabile o le densità congiunte di un sottoinsieme del sistema.

Dato l’operatore di trasposizione $[\cdot]^T$ , si può introdurre la notazione di vettore aleatorio $\bold{X}$ (in grassetto):

\bold{X}=\begin{bmatrix}X_1\\X_2\\\vdots\\X_n\end{bmatrix}=[X_1,\; X_2,\;\dots,\; X_n]^T

Per semplicità di notazione, tutti gli indici caratteristici di un sistema di n variabili aleatorie possono essere rappresentate in notazione vettoriale.

\large \eq{ \eta_{\bold{X}} & := E\{\bold{X}\} = [\eta_{X_1},\,\dots,\,\eta_{X_n}]^T \\ \\ F_{\bold{X}}&(\bold{x}) := \text{Pr}(\{X_1 \leq x_1,\,\dots,\,X_n \leq x_n\}) \\ \\ f_{\bold{X}}&(\bold{x}) := \frac{\partial^n F_{\bold{X}}(\bold{x})}{\partial \bold{x}} }

Matrice di correlazione

Le correlazioni tra tutte le variabili aleatorie possono essere raccolte nella matrice di correlazione:

\bold{R}_{\bold{X}} := E\Big\{\bold{XX}^T\Big\} = \begin{bmatrix} r_{X_1 X_1} & r_{X_1 X_2} & \dots & r_{X_1 X_n} \\ r_{X_2 X_1} & r_{X_2 X_2} & \dots & r_{X_2 X_n} \\ \vdots & \vdots & \ddots & \vdots \\ r_{X_n X_1} & r_{X_n X_2} & \dots & r_{X_n X_n} \\ \end{bmatrix}

Sulla diagonale maggiore di tale matrice quadrata sono posti i valori quadratici medi delle variabili aleatorie che compongono il sistema: $m_{X_i}^2 = r_{X_i X_i} = E\{X_i X_i\}$

Matrice di covarianza

In modo analogo è costituita anche la matrice di covarianza. Si osserva che sulla diagonale maggiore di tale matrice quadrata sono posti i valori delle varianze $\sigma_{X_i}^2$ :

\eq{ \bold{C}_{\bold{X}} &:= E\Big\{(\bold{X}-\eta_{\bold{X}})(\bold{X}-\eta_{\bold{X}})^T\Big\} =\\ \\ &=\begin{bmatrix} c_{X_1 X_1} & c_{X_1 X_2} & \dots & c_{X_1 X_n} \\ c_{X_2 X_1} & c_{X_1 X_2} & \dots & c_{X_2 X_n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{X_n X_1} & c_{X_n X_2} & \dots & c_{X_n X_n} \\ \end{bmatrix} = \\ \\ &=\begin{bmatrix} \sigma_{X_1}^2 & c_{X_1 X_2} & \dots & c_{X_1 X_n} \\ c_{X_2 X_1} & \sigma_{X_2}^2 & \dots & c_{X_2 X_n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{X_n X_1} & c_{X_n X_2} & \dots & \sigma_{X_n}^2 \\ \end{bmatrix}=\\ \\ &= \bold{R}_{\bold{X}} - \eta_{X}\cdot \eta_{X}^T }