# Kapitel 2: Statistische Datenanalyse I – Wahrscheinlichkeiten (Teil 2)

## Wahrscheinlichkeitsverteilungen in einer Dimension
In diesem Abschnitt besteht das Lernziel darin, die wichtigsten diskreten und kontinuierlichen Wahrscheinlichkeitsverteilungen kennenzulernen, die in physikalischen Prozessen eine Rolle spielen. Zu jeder Verteilung gehören die Lokalisierungs- und Skalierungsparameter der Verteilungen und deren Einfluss auf die Form der Verteilung sowie charakteristische Eigenschaften wie Erwartungswert und Varianz. Für Interessierte finden sich Anwendungen in der Physik sowie die zugehörigen mathematischen Beweise als Zusatzinformationen.


### Gleichverteilung
Eine Gleichverteilung in einem Wahrscheinlichkeitsraum mit $n$ möglichen Ergebnissen $x_i$ besitzt die Wahrscheinlichkeitsfunktion (engl.: probability mass function, PMF)
$$
P_X(x_i) = \frac{1}{n}.
$$
Damit ist die Verteilung auf Eins normiert, denn $\sum_{i=1}{n} P_X(x_i) = 1$. Mit der Definition des Erwartungswerts für diskrete Verteilungen ergibt sich
$$
\mathsf{E}[x] = \frac{1}{n}\sum\limits_{i=1}^{n} x_i.
$$
Ein Beispiel einer solchen Wahrscheinlichkeitsverteilung ist die Wahrscheinlichkeit mit einem Würfel eine bestimmte Augenzahl zu würfeln, siehe das folgende Codebeispiel. Der Erwartungswert der Augenzahl ist 3.5, beim Würfel liefert das Lagemaß Erwartungswert also keine besonders nützliche Information über die Verteilung.

In [None]:
"""Probability mass function for discrete measurement results: example of dice"""

import numpy as np
import matplotlib.pyplot as plt

# number of faces on dice
n = 6

# for probability: array with exactly one entry for each number
throws = np.arange( 1, n+1 )

# probability mass function generated "by hand"
pmf = 1/n * np.ones( n )

fig, ax = plt.subplots()

# alternative representation using histograms
#ax.hist( throws, bins=np.linspace( 0.5, 6.5, 7 ), density=True )

# representation with bar charts
ax.bar( throws, pmf )
ax.set_xlabel( "Number")
ax.set_ylabel( "Probability Mass Function")

plt.show()

Für eine kontinuierliche Gleichverteilung im Intervall $[a,b]\in\mathbb{R}$ lautet die Wahrscheinlichkeitsdichtefunktion (engl.: probability density function, PDF)
$$
f(x;a,b) = 
\begin{cases}
\frac{1}{b-a} & a \leq x \leq b,\\
0 & \textsf{sonst}.
\end{cases}
$$
Dabei ist der Faktor $1/(b-a)$ so gewählt, dass die PDF auf Eins normiert ist. Wie leicht anhand der Eigenschaften von Erwartungswert und Varianz nachgerechnet werden kann, entspricht der Erwartungswert der Verteilung dem Mittelpunkt des Intervalls,
$$
\mathsf{E}[x]= \frac{a+b}{2},
$$
und ihre Varianz ist gegeben durch
$$
\mathsf{V}[x] = \sigma^2 = \frac{(b-a)^2}{12}.
$$

>**Anwendung in der Physik: Ortsauflösung von Teilchendetektoren**
>
>Die Gleichverteilung wird in der Physik unter anderem verwendet, um die Ortsauflösung von Teilchendetektoren zu beschreiben. Teilchendetektoren werden zum Nachweis der kleinsten Teilchen verwendet. Um die Bahn eines geladenen Teilchens, z. B. eines Protons, in einem Magnetfeld zu rekonstruieren, werden positionsempfindliche Detektoren in mehreren Lagen hintereinander angeordnet. Mit den Detektoren werden die Durchstoßpunkte der Teilchenbahnen gemessen und dann im Computer kombiniert (Spurfindung, engl.: tracking). Zum Einsatz kommen häufig Halbleiterdetektoren, z. B. Silizium-Mikrostreifendetektoren. Diese haben einige Zentimeter lange Streifen mit einer Breite von 50 bis 100 µm. Dies wird mit einer Gleichverteilung z. B. mit $a=-50$ µm und $b=50$ µm beschrieben. Als Position des Durchstoßpunkt von Teilchenbahnen verwenden wir den Erwartungswert $\mathsf{E}[x]= (a+b)/2=0$ µm, also die Mitte des Streifens.
Die Ortsauflösung des Detektors ist damit ein Maß für die mittlere Abweichung von der Mitte des Streifens, diese entspricht der Standardabweichung $\sigma=(b-a)/\sqrt{12}\approx 29$ µm. 

Im folgenden Beispiel werden drei verschiedene Gleichverteilungen mit ihrem Erwartungswert (als vertikale Linie) und ihrer Standardabweichung (als transparentes Rechteck der Breite $2\sigma$ um die vertikale Line) gezeigt.

In [None]:
"""PDF of uniform distribution: easily displayed using scipy.stats"""

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
from scipy.stats import uniform

# range of x values
x = np.linspace( -0.5, 10.5, 440 )

fig, ax = plt.subplots()

# uniform distributions in for different intervals
intervals = [ [0,1], [3,6], [2.5,9], [8.5,10] ]
for a, b in intervals:
	pdf = uniform.pdf( x, loc=a, scale=b-a )
	line, = ax.plot( x, pdf )

	# compute maximum of PDF, expected value and standard deviation
	max = 1/(b-a)
	E  = 0.5*(a+b)
	sd = (b-a)/np.sqrt(12)

	# plot vertical line at expected value
	ax.vlines( E, 0, max )

	# plot transparent rectangle covering +/- one standard deviation around expected value
	rect = mpatches.Rectangle( ( E-sd, 0 ), width=2*sd, height=max, color=line.get_color(), alpha=0.3 )
	ax.add_patch( rect )

ax.set_xlabel( "$x$")
ax.set_ylabel( "Probability Density Functions" )
ax.set_ylim( 0, 1.1 )

plt.show()

>**Nebenrechnung: Erwartungswert und Varianz der Gleichverteilung**
>
>Der Erwartungswert der Gleichverteilung berechnet sich wie folgt:
>$$
\begin{align}
\nonumber \mathsf{E}[x] &= \int_{-\infty}^{\infty} x\cdot f(x)\,\mathsf{d}x 
= \int_a^b \frac{x}{b-a}\,\mathsf{d}x\\
\nonumber &= \frac{1}{2}\frac{1}{b-a} \left[ x^2 \right]_a^b =
\frac{1}{2}\frac{b^2 - a^2}{b-a} = 
\frac{1}{2}\frac{(b-a)(b+a)}{b-a} = 
\frac{a+b}{2}
\end{align}
>$$
> 
>Für die Berechnung der Varianz wird noch benötigt:
>$$
\begin{align}
\nonumber \mathsf{E}[x^2] &= \int_{-\infty}^{\infty} x^2\cdot f(x)\,\mathsf{d}x 
= \int_a^b \frac{x^2}{b-a}\,\mathsf{d}x\\
\nonumber &= \frac{1}{3}\frac{1}{b-a} \left[ x^3 \right]_a^b =
\frac{1}{3}\frac{b^3 - a^3}{b-a} = 
\frac{1}{3}\frac{(b - a)(b+a)^2}{b-a} = 
\frac{a^2 + ab + b^2}{3}
\end{align}
>$$
> Damit ergibt sich für die Varianz (unter Verwendung des Verschiebungssatzes)
>$$
\begin{align}
\nonumber \mathsf{V}[x] &= \mathsf{E}[x]^2 - \mathsf{E}[x^2] \\
\nonumber &= \frac{a^2+2ab+b^2}{4} - \frac{a^2 + ab + b^2}{3} = 
\frac{b^2 - 2ab + a^2}{12} = \frac{(b-a)^2}{12}
\end{align}
>$$

### Binomialverteilung
Mit der **Binomialverteilung** wird die Wahrscheinlichkeit beschrieben, bei bekannter Erfolgswahrscheinlichkeit $p$ für ein Ereignis in $N$ Versuchen $n$ "Erfolge" zu erzielen. Dies wird im folgenden schrittweise motiviert, beginnend mit $N=1$:

Ein Spezialfall der Binomialverteilung für $N=1$ ist die **Bernoulliverteilung**. Die Wahrscheinlichkeit für den Erfolg ist $p$, damit ist die Wahrscheinlichkeit für den Misserfolg $1-p$. Beide Ergebnisse sind voneinander unabhängig, daher müssen ihre Wahrscheinlichkeiten multipliziert werden: 
$$
P_\mathsf{Bernoulli}(p)=p\cdot(1-p).
$$

Für $N>1$ ergeben sich $n$ Erfolge und $N-n$ Misserfolge, ebenfalls unabhängig voneinander. Damit ist die Wahrscheinlichkeit für eine *feste Abfolge* von Erfolgen und Misserfolgen gegeben durch das Produkt
$$
P(n;N,p)=p^n\cdot(1-p)^{N-n}.
$$
Schließlich muss noch berücksichtigt erden, dass es *mehrere unterschiedliche Abfolgen* von Erfolgen und Misserfolgen gibt, die für eine bestimmtes $n$ möglich sind. Die Zahl der möglichen Abfolgen ist gegeben durch den **Binomialkoeffizienten**
$$
\begin{pmatrix}
N\\
n
\end{pmatrix}
\equiv \frac{N!}{n!\cdot(N-n)!}.
$$
Damit ergibt sich insgesamt für die **Binomialverteilung**:
$$
P_\mathsf{Binomial}(n;N,p) = 
\begin{pmatrix}
N\\
n
\end{pmatrix}\cdot
p^n\cdot(1-p)^{N-n}.
$$
Durch Nachrechnen kann gezeigt werden, dass Erwartungswert und Varianz der Binomialverteilung gegeben sind durch:
$$
\mathsf{E}[x] = N\cdot p, \quad
\mathsf{V}[x] = N\cdot p \cdot (1-p).
$$

Ein Beispiel für die Anwendung der Binomialverteilung ist die Frage nach der Wahrscheinlichkeit, mit einem Würfel in $N=40$ Würfen $n=4$ mal (egal in welchen der Würfe) die "sechs" zu würfeln. Für einen Würfel ist die Erfolgswahrscheinlichkeit für eine gegebene Augenzahl $p=1/6$ und damit $P_\mathsf{Binomial}(4;10,1/6)=0.0995$. Im folgenden Codebeispiel sind vier verschiedene Binomialverteilungen gezeigt:

In [None]:
"""PMF of binomial distribution: easily displayed using scipy.stats"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom

fig, axes = plt.subplots( 2, 2, figsize=([12,7]) )
fig.subplots_adjust( hspace=0.3, wspace=0.3 )

n = np.arange( 0, 11 )

# four sets of parameters N, p for binomial distribution
parameter = [ [5,0.3], [5,0.7], [10,0.3], [10,0.7] ]

# loop over four sub plots and four parameter sets in one go using zip
for ax, par in zip( axes.flatten(), parameter ):
	binomial = binom.pmf( n, par[0], par[1] )
	ax.bar( n, binomial, label="$N=%d, p=%3.1f$" % ( par[0], par[1] ) )
	ax.set_xlabel( "$n$")
	ax.set_ylabel( "$P(n;N,p)$")
	ax.legend()

plt.show()

>**Anwendung in der Physik: Effizienz**
>
>In Naturwissenschaften und Technik ist die **Effizienz** (engl.: efficiency) eines Prozesses oder Produkts eine wesentliche Kennzahl. Eine Effizienz ist definiert das Verhältnis der Anzahl der Erfolge zur Anzahl der Versuche insgesamt, also der Summe der Anzahl Erfolge und der Misserfolge. Bei bekannter Erfolgswahrscheinlichkeit $p$ ist die erwartete Anzahl von Erfolgen bei $N$ Versuchen durch den Erwartungswert der **Binomialverteilung** gegeben
>$$
    N_p = \mathsf{E[x]} = N\cdot p.
>$$
>Die erwartete Effizienz ist damit (wenig überraschend) direkt gegeben durch die Erfolgswahrscheinlichkeit:
>$$
    \varepsilon = \frac{N_p}{N} = p
>$$
>Ein Beispiel für eine Effizienz aus der Covid19-Pandemie ist die Frage, wie häufig ein Corona-Schnelltest bei infizierten Personen einen Verdacht aufzeigt. Dies wird auch "Sensitivität" des Tests, genannt, typische Werte liegen bei ca. 95%. Später in diesem Kapitel werden wir auf die Schätzung von Effizienzen und vor allem deren Unsicherheit zurückkommen. Dafür wird es wichtig zu beachten, dass $\varepsilon$ binomialverteilt ist und dass der Zähler von $\varepsilon$ eine Untermenge des Nenners ist.

>**Nebenrechnung: Erwartungswert und Varianz der Binomialverteilung**
>
> Wie oben eingeführt, ergibt sich eine Binomialverteilung aus einer Reihe unabhängiger Bernoulli-Experimente, jeweils mit Erfolg oder Misserfolg. Daher ist auch der **Erwartungswert** der Binomialverteilung der eine Summe von Bernoulli-Verteilungen $P_\mathsf{Bernoulli}(p)$ mit einer Erfolgswahrscheinlichkeit von $p$. Der Erwartungswert ergibt direkt aus der Definition von $\mathsf{E}[x_i]$ mit $x_1 = 0$ für einen Misserfolg und $x_2 = 1$ für einen Erfolg:
>$$
\mathsf{E}[x_\mathsf{Bernoulli}]= \sum_i x_i \cdot P_\mathsf{Bernoulli}(x_i) = 0 \cdot (1-p) + 1 \cdot p = p
>$$
>Für die Summe aus $N$ Bernoulli-Experimenten verwenden wir die Linearität des Erwartungswerts:
>$$
\mathsf{E}[x_\mathsf{bin}] = 
\mathsf{E}[x_{\mathsf{Bernoulli},1} + \dots + x_{\mathsf{Bernoulli},N}] =
\mathsf{E}[x_{\mathsf{Bernoulli},1}] + \dots + \mathsf{E}[x_{\mathsf{Bernoulli},N}] = N\cdot p.
>$$
>
> Mit einen analogen Ansatz ergibt sich die **Varianz** der Binomialverteilung aus der Varianz der Bernoulli-Verteilung. Dazu wird nach dem Verschiebungssatz noch $\mathsf{E}[(x-\mathsf{E}[x])^2] = \mathsf{E}[x^2] - \mathsf{E}[x]^2$  benötigt:
>$$
\mathsf{E}[x_\mathsf{Bernoulli}^2]= \sum_i x_{\mathsf{Bernoulli},i}^2 \cdot P_\mathsf{Bernoulli}(x_i) = 0^2 \cdot (1-p) + 1^2 \cdot p = p,
>$$
>und damit
>$$
\mathsf{V}[x_\mathsf{Bernoulli}] = p - p^2 = p\cdot(1-p).
>$$
>Für die Summe aus $N$ Bernoulli-Experimenten verwenden wir die Tatsache, dass sich unabhängige Varianzen addieren:
>$$
\mathsf{V}[x_\mathsf{Binomial}] = 
\mathsf{V}[x_{\mathsf{Bernoulli},1} + \dots + x_{\mathsf{Bernoulli},N}] =
\mathsf{V}[x_{\mathsf{Bernoulli},1}] + \dots + \mathsf{V}[x_{\mathsf{Bernoulli},N}] = N\cdot p\cdot(1-p).
>$$
> Diese Beweise finden sich z. B. in J. Soch et al., [The Book of Statistical Proofs](https://zenodo.org/doi/10.5281/zenodo.4305949).

### Poissonverteilung
Die Poissonverteilung (nach Siméon Denis Poisson, 1781-1840) lässt sich aus der Binomialverteilung ableiten für den Grenzfall, dass die Zahl der Versuche $N$ gegen unendlich geht, wobei gleichzeitig die Erfolgswahrscheinlichkeit in jedem Einzelversuch gegen 0 geht. Dabei muss aber das Produkt der beiden, $\nu\equiv N\cdot p$ endlich bleiben. Die Größe $\nu>0$ ist demnach die Gesamtzahl der Erfolge in sehr vielen Versuchen mit jeweils sehr kleiner Erfolgswahrscheinlichkeit und der einzige Parameter der Poissonverteilung
$$
P(n;\nu)= \frac{\nu^n}{n!} e^{-\nu}.
$$ 
Wiederum durch Nachrechnen kann gezeigt werden, dass Erwartungswert und Varianz gegeben sind durch:
$$
\mathsf{E}[x] = \nu, \quad
\mathsf{V}[x] = \nu.
$$
Mit dieser Varianz ist die Standardabweichung der Poissonverteilung $\sigma=\sqrt{\nu}$.


Im folgenden Codebeispiel sind vier verschiedene Poissonverteilungen gezeigt:

In [None]:
"""PMF of Poisson distribution: easily displayed using scipy.stats"""
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import poisson

fig, axes = plt.subplots( 2, 2, figsize=([12,7]) )
fig.subplots_adjust( hspace=0.3, wspace=0.3 )

n = np.arange( 0, 21 )

# four choices of parameter nu
nu = [ 0.5, 5.0, 2.0, 10.0 ]

# loop over four sub plots and four nu values in one go using zip
for ax, par in zip( axes.flatten(), nu ):
	pois = poisson.pmf( n, par )
	ax.bar( n, pois, label=r"$\nu=%3.1f$" % par )
	ax.set_xlabel( "$n$")
	ax.set_ylabel( r"$P(n;\nu)$")
	ax.legend()

plt.show()

>**Anwendung in der Physik: Zählexperimente**
>
>Die Poissonverteilung ist anwendbar auf viele Prozesse, bei denen Ereignisse mit kleiner Einzelwahrscheinlichkeit gezählt werden, z. B.:
>- Zahl der Ereignisse eines Prozesses mit fester Ereignisrate in festem Zeitintervall, z. B. Nachweis von Radioaktivität mit Geiger-Müller-Zählrohr. 
>- Näherungsweise: Zahl der Einträge im Bin eines Histogramms mit vielen Bins.
>- Kurioses Beispiel: Zahl der "durch Schlag eines Pferdes im preußischen Heere Getöteter" (siehe unten).
>
> In (physikalischen) Experimenten, in denen nur die Zahl $n$ der Beobachtungen einer Ereignisklasse gezählt wird ("Zählexperimente"), ist die Standardabweichung $\sigma=\sqrt{\nu}$ demnach ein Maß für die Unsicherheit. Im Vorgriff auf später: Wenn aus Daten ein Schätzwert für $\sigma$ benötigt wird, wird die Wurzel der Zahl der Beobachtungen verwendet: $\hat\sigma=\sqrt{n}$. Aufgrund der Fluktuation der Daten um den wahren Wert $\nu$ kann das zur Über- oder Unterschätzung der Unsicherheiten führen. 


>**Poisson-Verteilung angewandt** 
>
>Weil das Beispiel des preußischen Heeres so skurril erscheint, hier noch einmal die Details, wie sie Ladislaus von Bortkewitsch für sein Buch "Das Gesetz der kleinen Zahlen" von 1898 ausgearbeitet hat. Das Heer war in 14 Corps aufgeteilt, von denen er vier ausschließt, die nicht der normalen Größe von 20 Escadronen mit jeweils ca. 150 Pferden entsprechen. Mit den Zahlen von 20 Jahren (1875 bis 1894) für 10 Corps bekommt er 200 Datenpunkte:
>
><img src="img/horses.png" width=50%>
>
>Die Verteilung entspricht ungefähr einer Poissonverteilung mit $\nu=0.61$. Dies ist in folgende Codebeispiel aufgetragen.

In [None]:
"""Prussian army members killed by horse kick (L. von Bortkewitsch, 1898)"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import poisson

n = np.arange( 5 )
# data based on 10 army corps with 20 troops ("escadrons") 
# with about 150 hourses each over 20 years
k = np.array( [109, 65, 22, 3, 1] )
N = np.sum( k )

# Poisson expectation for nu = 0.61
nu = 0.61
pois = N*poisson.pmf( n, nu )

fig, ax = plt.subplots()
ax.bar( n-0.20, pois, width=0.4, label=r"Poisson, $\nu=%4.2f$" % nu )
ax.bar( n+0.20, k, width=0.4, label="Data" )
ax.set_xlabel( "Number of Army Members Killed per Year" )
ax.set_ylabel( "Frequency" )
ax.legend()

plt.show()

>**Nebenrechnung: Erwartungswert und Varianz der Poissonverteilung**
>
> Der **Erwartungswert** der Poissonverteilung ist definiert als
>$$
\mathsf{E}[n] = \sum_{n=1}^\infty n\cdot P(n;\nu) = \sum_{i=1}^\infty n\cdot\frac{\nu^n}{n!} e^{-\nu}.
>$$
>Wir kürzen nun $n$ im Zähler mit $n!$ im Nenner und ziehen konstante Faktoren sowie eine Potenz von $\nu$ vor die Summe:
>$$
\mathsf{E}[n] = \nu \cdot e^{-\nu}\cdot\sum_{n=1}^\infty \cdot\frac{\nu^{n-1}}{(n-1)!}.
>$$
>Nun substituieren wir $m = n-1$:
>$$
\mathsf{E}[n] = \nu \cdot e^{-\nu}\cdot\sum_{m=0}^\infty \cdot\frac{\nu^{m}}{m!}.
>$$
>Die verbleibende Summe entspricht jetzt der Potenzreihenentwicklung der Exponentialfunktion und es ergibt sich
>$$
\mathsf{E}[n] = \nu \cdot e^{-\nu} \cdot e^\nu = \nu.
>$$
>
> Zur Berechnung der **Varianz** der Poissonverteilung nutzen wir den Verschiebungssatz $\mathsf{V}[x]=\mathsf{E}[x^2]-\mathsf{E}[x]^2$. Um die Summen später wieder auf die Potenzreihendarstellung der Exponentialfunktion zurückführen, berechnen wir folgenden Erwartungswert:
>$$
\mathsf{E}[n^2-n] = \sum_{n=1}^\infty (n^2 - n)\cdot P(n;\nu) = \sum_{i=1}^\infty n(n-1)\cdot\frac{\nu^n}{n!} e^{-\nu}.
>$$
>Wir kürzen nun die letzten beiden Faktoren der Fakultät mit $n(n-1)$ im Zähler und ziehen zwei Potenzen von $\nu$ vor die Summe:
>$$
\mathsf{E}[n^2-n] = 
\nu^2 \cdot e^{-\nu} \sum_{i=2}^\infty \frac{\nu^{n-2}}{(n-2)!}.
>$$
>Mit $m=n-2$ ergibt sich wieder die Potenzreihe der Exponentialfunktion und mit der Linearität des Erwartungswerts ergibt sich:
>$$
\mathsf{E}[n^2-n] = \mathsf{E}[n^2] - \mathsf{E}[n]= \nu^2 \cdot e^{-\nu} \cdot e^\nu = \nu^2
>$$
>und damit
>$$
\mathsf{E}[n^2] =  \nu^2 + \nu.
>$$
>Wenn wir jetzt den Verschiebungssatz verwenden, bekommen wir:
>$$
\mathsf{V}[n]=\mathsf{E}[n^2]-\mathsf{E}(n)^2 = \nu^2 + \nu - \nu^2 = \nu.
>$$
>
> Diese Beweise finden sich z. B. in J. Soch et al., [The Book of Statistical Proofs](https://zenodo.org/doi/10.5281/zenodo.4305949).

### Exponentialverteilung
Viele natürliche Prozesse sind exponentiell verteilt. Um aus der Exponentialfunktion eine **Exponentialverteilung** zu bekommen, muss sie noch auf ein Integral von eins normiert werden:
$$
f(t;\tau) = \frac{1}{\tau}\cdot\exp\left[-\frac{t}{\tau}\right].
$$
Hier entspricht der **Skalierungsparameter** $\tau$ demjenigen Wert von $t$, bei dem $f(t;\tau)$ auf den Faktor $1/e$ (mit $e$ eulersche Zahl) des Ursprungswerts bei $t=0$ abgefallen ist. Damit besitzt $\tau$ dieselbe Einheit wie $t$. Wenn $t$ (wie der Name suggeriert) eine Zeit ist, dann wird $\tau$ auch als **mittlere Lebensdauer** bezeichnet. Erwartungswert und Varianz der Exponentialverteilung ergeben sich durch Nachrechnen:
$$
\mathsf{E}[t] = \tau, \quad
\mathsf{V}[t] = \tau^2.
$$
Alternativ kann die PDF auch mit einer **Zerfallskonstante** $\lambda\equiv 1/\tau$ formuliert werden:
$$
f(t;\lambda) = \lambda\cdot\exp[-\lambda\cdot t].
$$


Im folgenden Codebeispiel sind Exponentialverteilung für vier unterschiedliche Werte von $\tau$ eingezeichnet, jeweils mit ihren Erwartungswerten als gestrichelte vertikale Linien.

In [None]:
"""PDF of exponential distribution: easily displayed using scipy.stats"""
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import expon

# range of t values
t = np.linspace( 0, 6, 200 )

# loop over array of different tau values
taus = [ 0.5, 1.0, 2.0, 5.0 ]
for tau in taus:
	pdf = expon.pdf( t, scale=tau )

	# plot PDF
	line, = plt.plot( t, pdf, label=r"$\tau$ = %3.1f" % tau  )

	# plot dashed vertical lines at expected value
	plt.vlines( tau, 0, expon.pdf(tau, scale=tau), linestyles='dashed',color=line.get_color() )

plt.xlim(0,6)
plt.ylim(0,1)
plt.xlabel( "$t$")
plt.ylabel( r"$f(t;\tau)$" )
plt.legend()

plt.show()

>**Anwendungen in der Physik**
>
> Zu den zahlreichen physikalischen Prozessen, die einer Exponentialverteilung folgen, gehören u. a.:
>- Energieverteilung in der Thermodynamik (drittes Fachsemester) mit dem "Boltzmann-Faktor" $\exp[-E/k_B T]$ (mit $E$ Energie, $T$ absolute Temperatur und $k_B$ Boltzmann-Konstante),
>- Zahl der Zerfälle in radioaktivem Material als Funktion der Zeit, mit mittlerer Lebensdauer $\tau$ bzw. Zerfallskonstante $\lambda$,
>- Absorption von elektromagnetischen Wellen im Medium: für deren Intensität gilt $I(x)=I_0\exp[-\lambda x]$ mit der Absorptionskonstante (manchmal auch: Extinktionskoeffizient) $\lambda$.



> **Bemerkung:  Zusammenhang zwischen Exponential- und Poissonverteilung**
>
>Ein interessanter Zusammenhang ergibt sich auch zwischen der Exponentialverteilung und der Poissonverteilung: Als Poissonprozesse werden grob gesprochen Prozesse bezeichnet, für die Ereignisse selten auftreten und unabhängig voneinander sind, mit einer konstanten Anzahl pro Einheitsintervall. Die Anzahl dieser Ereignisse folgt einer Poissonverteilung und die Zeitdifferenz zwischen zwei Ereignissen folgt einer Exponentialverteilung. Damit ergibt sich das exponentielle radioaktive Zerfallsgesetz direkt aus den Poisson-Eigenschaften des radioaktiven Zerfalls.
>


>**Bemerkung**: Anpassungen einer Exponentialverteilung an Daten zur Bestimmung des Parameters (Kapitel 4) verhalten sich unterschiedlich, wenn die PDF mit $\tau$ oder mit $\lambda$ parametrisiert wird.

>**Nebenrechnung: Erwartungswert und Varianz der Exponentialverteilung**
>
> Den **Erwartungswert** der Exponentialverteilung erhalten wir direkt über Einsetzen in die Definition und Lösen des Integrals, wobei zu beachten ist, dass der Wertebereich von $t$ nur positive reelle Zahlen und die Null enthält:
>$$
\mathsf{E}[t]= 
\int_0^\infty t \cdot f(t;\tau)\,\mathsf{d}t = 
\int_0^\infty\frac{t}{\tau}\cdot\exp\left[-\frac{t}{\tau}\right]\,\mathsf{d}t.
>$$
>Dieses Integral lässt sich mit partieller Integration lösen mit
>$$
\begin{split}
u = t \quad &\to \quad  u^\prime = 1 \\
v^\prime = \exp\left[-\frac{t}{\tau}\right]\quad &\to \quad  v = -\tau \exp\left[-\frac{t}{\tau}\right]\\
\end{split}
>$$
>und folglich
>$$
\begin{split}
\mathsf{E}[t] 
&= \frac{1}{\tau} \left( 
\left[ -t \cdot \tau \exp\left[-\frac{t}{\tau}\right] \right]_{0}^\infty
-\int_0^\infty 1\cdot \left(-\tau \exp\left[-\frac{t}{\tau}\right] \right) \, \mathsf{d}t 
\right) \\
&= \frac{1}{\tau} \left( 0 - \left[ \tau^2 \exp\left[-\frac{t}{\tau}\right] \right]_0^\infty \right)\\
&=\frac{\tau^2}{\tau} \\
&= \tau.
\end{split}
>$$
> Analog lässt sich zur Berechnung der **Varianz** der Exponentialverteilung das Integral zur Berechnung von $\mathsf{E}[t^2]$ mit zweifacher partieller Integration lösen:
>$$
\mathsf{E}[t^2]= 
\int_0^\infty t^2 \cdot f(t;\tau)\,\mathsf{d}t = 
\int_0^\infty\frac{t^2}{\tau}\cdot\exp\left[-\frac{t}{\tau}\right]\,\mathsf{d}t =
\dots = 2\tau^2
>$$
>Damit ergibt sich nach dem Verschiebungssatz für die Varianz:
>$$
\mathsf{V}[t]= \mathsf{E}[t^2] - \mathsf{E}[t]^2 = 2 \tau^2 - \tau^2 = \tau^2.
>$$
>
> Diese Beweise finden sich z. B. in J. Soch et al., [The Book of Statistical Proofs](https://zenodo.org/doi/10.5281/zenodo.4305949).

### Normalverteilung
Die **Normalverteilung** (auch: Gaußverteilung, nach Carl Friedrich Gauß, 1777-1855) wurde in diesen Kurs schon mehrfach verwendet. Ihre PDF lautet:
$$
f(x;\mu,\sigma) \equiv N(x;\mu,\sigma) = \frac{1}{\sqrt{2\pi}\sigma}
\exp\left[ 
-\frac{(x-\mu)^2}{2\sigma^2}
\right].
$$
Dabei ist der Parameter $\mu$ die **Lokalisierung** und $\sigma$ ein Maß für die **Streuung**, was direkt aus Erwartungswert und Varianz der Normalverteilung ersichtlich ist (Beweis durch Nachrechnen):
$$
\mathsf{E}[x] = \mu, \quad
\mathsf{V}[x] = \sigma^2.
$$
Für die Parameterwahl $\mu=0$ und $\sigma=1$ ergibt sich die **Standardnormalverteilung**
$$
\varphi(x) = \frac{1}{\sqrt{2\pi}}
\exp\left[ 
-\frac{x^2}{2}
\right].
$$
Das folgende Codebeispiel stellt Normalverteilungen für unterschiedliche $\mu$ und $\sigma$ dar:

In [None]:
"""Plot normal (Gaussian) distributions with different parameter choices"""
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# create normal PDFs for array of parameters mu and sigma
param = np.array( [ [ 0., 1.] , [-1., 0.5], [ 0., 2. ] ] )
x = np.linspace( -5, 5, 200 )
pdf  = [ norm.pdf( x, loc=l, scale=s ) for l, s in param ]

ymin, ymax = 0, 1.1*np.amax(pdf)

for p, par in zip( pdf, param ):
	# plot normal distributions and add entry in legend
	plot = plt.plot( x, p, label=r"$\mu = %3.1f,\,\sigma = %3.1f$" % (par[0],par[1]) )

	# get minimum/maximum x values for line
	sigmin, sigmax = par[0]-par[1], par[0]+par[1]

	# get y value from evaluating PDF at sigmax
	ysig = norm.pdf( sigmax, loc=par[0], scale=par[1] )

	# draw dashed line from x=sigmin to x=sigmax at y=ysig
	plt.hlines( ysig, sigmin, sigmax, color=plot[-1].get_color(), linestyle="dashed" )
	
plt.ylim( ymin, ymax )
plt.xlabel( "$x$")
plt.ylabel( "Probability Density Function" )
plt.legend()

plt.show()

>**Bedeutung der Normalverteilung** 
>
>Die Normalverteilung, historisch auch "gaußsche Glockenkurve" oder kurz "Gaußkurve" genannt, hat in der Wissenschaft eine besondere Bedeutung. 
>- Die Normalverteilung ist die **Grenzverteilung**, gegen die viele andere Verteilungen bei einer großen Anzahl von Zufallsereignissen konvergieren. Der Zentrale Grenzwertsatz (später) besagt grob gesprochen, dass die Summe von hinreichend vielen Zufallszahlen näherungsweise normalverteilt ist. Vorsicht: oft wird implizit angenommen, dass Größen normalverteilt sind – diese Annahme ist nicht immer korrekt!
>- Die Quantile der Normalverteilung werden in vielen wissenschaftlichen Disziplinen zur **Bewertung von Wahrscheinlichkeiten** (Medizin, empirische Geisteswissenschaften, Qualitätskontrolle, …) sowie zur **Quantifizierung von Messunsicherheiten** in den Natur- und Ingenieurwissenschaften eingesetzt.
>- Die Normalverteilung tritt als **fundamentale Verteilung** in physikalischen Gesetzen auf, z. B. in der Heisenbergschen Unschärferelation der Quantenmechanik oder der brownschen Bewegung.
>
>Die Verteilung samt PDF war zwischen 1991 und 2001 auf der Vorderseite des 10-DM-Scheins (DM: Deutsche Mark, damalige Währung der Bundesrepublik Deutschland) abgebildet (Quelle: Deutsche Bundesbank, gemeinfrei):
>
><img src="https://www.bundesbank.de/resource/blob/646484/26eb6287c09eb598cabd7ed0d924b845/mL/0010-1999-vs-data.jpg" width=50%>


Die Bedeutung der Normalverteilung als **Grenzverteilung** ist u. a. daran ersichtlich, dass sie den Limes sowohl für die Binomialverteilung 
$$
P(n;N,p) = 
\begin{pmatrix}
N\\
n
\end{pmatrix}\cdot
p^n\cdot(1-p)^{N-n}.
$$ 
als auch für die Poissonverteilung 
$$
P(n;\nu)= \frac{\nu^n}{n!} e^{-\nu}
$$
bildet:
- Die Binomialverteilung geht für große $N$ in eine Normalverteilung mit $\mu=Np$ und $\sigma^2=Np(1-p)$ über.
- Die Poissonverteilung geht für große $\nu$ in eine Normalverteilung mit $\mu=\nu$ und $\sigma^2=\nu$ über.

Dies zeigt folgender Vergleich der drei Verteilungen für $N=100$, $p=0.1$ und $\nu=10$:

In [None]:
"""illustration of normal distribution as limiting distribution of binomial and Poisson distributions"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom, poisson, norm

# ranges
n = np.arange( 0, 21 )
x = np.linspace( 0, 20, 200 )

# parameters of binomial distribution
N, p = 100, 0.1
bin = binom.pmf( n, N, p )

# parameters of Poisson distribution
nu = 10.
pois = poisson.pmf( n, nu )

#parameters of normal distribution, derived from Poisson
mu, sigma = nu, np.sqrt(nu)
normal = norm.pdf( x, mu, sigma )

# plot all three in the same plot, bar charts slightly shifted for visibility
plt.bar( n-0.2, bin, width=0.4, label=r"Binomial, $N=100,p=0.1$" )
plt.bar( n+0.2, pois, width=0.4, label=r"Poisson, $\nu=10$" )
plt.plot( x, normal, "g", label=r"Normal, $\mu=\sigma^2=10$" )
plt.legend()

plt.show()

Die **Verteilungsfunktion** der Normalverteilung wird in der Regel in Integralform angegeben, da sich die auftretenden Integrale nicht analytisch lösen lassen. In der Literatur sind dabei folgende Formen gebräuchlich: 
1. CDF der Standardnormalverteilung:
$$
\Phi(x) = \frac{1}{\sqrt{2\pi}}
\int_{-\infty}^{x}
\exp\left[ 
-\frac{u^2}{2}
\right]
\mathsf{d}u.
$$
2. Fehlerfunktion (engl.: error function):
$$
\mathsf{erf}(x) = \frac{2}{\sqrt{\pi}}
\int_{0}^{x}
\exp\left[ 
-v^2
\right]
\mathsf{d}v 
= 2\cdot\Phi(\sqrt{2}\cdot x) - 1.
$$


>**Bemerkung: S-Kurve**
>
>Die CDF der Normalverteilung wird in den Natur- und Ingenieurswissenschaften gern zur Beschreibung von Einschaltprozessen verwendet und trägt dann häufig wegen ihrer Form den Namen "S-Kurve" (engl.: S curve). Wie folgendes Codebeispiel zeigt, ist die Fehlerfunktion im Vergleich zur CDF der Standardnormalverteilung in $x$ um einen Faktor $\sqrt{2}$ gestaucht, in $y$ um den Faktor zwei gestreckt und um eins nach unten verschoben, so dass sie punktsymmetrisch um den Ursprung ist.

In [None]:
"""CDF of normal distribution and error function: easily displayed using scipy.stats"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
from scipy.special import erf

# x values within 0.1% and 99.9% percentiles
amin, amax = 0.001, 0.999
x = np.linspace( norm.ppf(amin), norm.ppf(amax), 200 )

fig, ax = plt.subplots()# 2, 1, figsize=([7,10]) )

ax.plot( x, norm.cdf(x), label=r"$\Phi(x)$" )
ax.plot( x, erf(x), label=r"$\mathsf{erf}(x)$" )
ax.set_xlabel( "$x$")
ax.set_ylabel( "Cumulative Distribution Function" )
ax.grid()
ax.legend()

plt.show()

>**Nebenrechnung: Erwartungswert und Varianz der Normalverteilung**
>
> Der **Erwartungswert** der Normalverteilung durch folgendes Integral gegeben:
>$$
\mathsf{E}(x) =
\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{+\infty} x \cdot \exp \left[ -\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2 \right] \, \mathrm{d}x.
>$$
>Wir substituieren nun $u = x - \mu$:
>$$
\begin{split}
\mathsf{E}(x) &=
\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty-\mu}^{+\infty-\mu} (u + \mu) \cdot \exp \left[ -\frac{1}{2} \left( \frac{u}{\sigma} \right)^2 \right] \, \mathsf{d}(u+ \mu) \\
&= \frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{+\infty} (u + \mu) \cdot \exp \left[ -\frac{1}{2} \left( \frac{u}{\sigma} \right)^2 \right] \, \mathsf{d}u \\
&= \frac{1}{\sqrt{2 \pi} \sigma} \left( \int_{-\infty}^{+\infty} u \cdot \exp \left[ -\frac{1}{2 \sigma^2} \cdot u^2 \right] \, \mathrm{d}u + \mu \int_{-\infty}^{+\infty} \exp \left[ -\frac{1}{2 \sigma^2} \cdot u^2 \right] \, \mathrm{d}u \right) \, .
\end{split}
>$$
>Wir erkennen nun, dass der Integrand im ersten Summanden bis auf Vorfaktoren die Ableitung von $\exp[-u^2]$ und der zweite Summand bis auf Vorfaktoren der Fehlerfunktion entspricht. Im Grenzwert für $u=\pm\infty$ verschwindet somit das erste Integral und das zweite liefert bis auf Vorfaktoren die Werte der Fehlerfunktion bei $u \to\pm\infty$, $-1$ bzw. $+1$. Damit ergibt sich:
>$$
\begin{split}
\mathsf{E}(x) &=
\frac{1}{\sqrt{2 \pi} \sigma} \left( \left[ -\sigma^2 \cdot \exp \left[ -\frac{1}{2 \sigma^2} \cdot u^2 \right] \right]_{-\infty}^{+\infty} + \mu \left[ \sqrt{\frac{\pi}{2}} \sigma \cdot \mathsf{erf} \left[ \frac{1}{\sqrt{2} \sigma} u \right] \right]_{-\infty}^{+\infty} \right) \\
&= \frac{1}{\sqrt{2 \pi} \sigma} \left( 0 + \mu \left[ \sqrt{\frac{\pi}{2}} \sigma - \left(- \sqrt{\frac{\pi}{2}} \sigma \right) \right] \right) \\
&= \mu.
\end{split}
>$$
>
>Für die **Varianz** verwenden wir das Ergebnis von oben und setzen es in die Definition der Varianz ein:
>$$
\mathsf{V}(x) = 
\int_{-\infty}^{+\infty} (x - \mu)^2 \cdot \frac{1}{\sqrt{2 \pi} \sigma} \cdot \exp \left[ -\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2 \right] \, \mathsf{d}x. \\
>$$
> Wir substituieren bis auf das Vorzeichen das Argument der Exponentialfunktion $u^2 = (x-\mu)^2/2\sigma^2$:
>$$
\mathsf{V}(x)
= \frac{1}{\sqrt{2 \pi} \sigma} \cdot 2 \sigma^2 \cdot \sqrt{2} \sigma \int_{-\infty}^{+\infty} u^2 \cdot \exp \left[ -u^2 \right] \, \mathsf{d}u 
= \frac{2 \sigma^2}{\sqrt{\pi}} \int_{-\infty}^{+\infty} u^2 \cdot \exp[-u^2] \, \mathsf{d}u.
>$$
>Dieses bestimmte Integral ist bekannt: aufgrund der Symmetrie des Integranden bei Spiegelung an der Ordinate ist es zweimal das Integral von 0 bis $\infty$ und kann dann mit der Substitution $t = \sqrt{u}$ auf die Definition der Gamma-Funktion (siehe auch weiter unter bei der $\chi^2$-Verteilung)
>$$
\Gamma(x) \equiv \int_0^\infty t^{x-1}\exp[-t]\,\mathsf{d}t.
>$$
>zurückgeführt werden. Es ergibt sich
>$$
\mathsf{V}(x)
= \frac{2 \sigma^2}{\sqrt{\pi}} \cdot 2\cdot \int_{0}^{+\infty} u^2 \cdot \exp[-u^2] \, \mathsf{d}u
= \frac{2 \sigma^2}{\sqrt{\pi}} \cdot 2\cdot \frac{\sqrt{\pi}}{4} = \sigma^2.
>$$
>
> Diese Beweise finden sich z. B. in J. Soch et al., [The Book of Statistical Proofs](https://zenodo.org/doi/10.5281/zenodo.4305949).



Da die Quantile der Normalverteilung in der Physik häufig zur Angaben von Konfidenzintervallen verwendet werden, gibt folgendes Codebeispiel eine Tabelle der Abdeckung für $n\sigma$ aus. Für numerische Werte nah an Eins wird die Differenz zu Eins angegeben, da ansonsten die numerische Genauigkeit ggf. nicht ausreicht zur Darstellung.

In [None]:
"""Print probability coverage of normal (Gaussian) distribution"""
from scipy.stats import norm

# print 1 to 5 sigma coverage
nsig = range(1,6)

print( "n: -n sigma, +n sigma, mu +/- n sigma" )
for n in nsig:  
    minus = norm.cdf(-n)
    plus  = norm.cdf(n)
    if minus > 0.01:
        print( "%d: %6.4f, %6.4f, %6.4f" % ( n, minus, plus, plus-minus ) )
    else: #if
        print( "%d: %5.3e, 1 - %5.3e, 1 - %5.3e" % ( n, minus, 1.-plus, 1.-plus+minus ) )


### Zentraler Grenzwertsatz
Der Zentrale Grenzwertsatz (engl.: central limit theorem) soll hier kurz und mit wenig mathematisch Grundlagen und Beweisen eingeführt werden. Seine Aussage ist in etwa:
> **Zentrale Grenzwertsatz**: Im Grenzfall großer $n$ ist die Summe von $n$ unabhängigen Zufallsvariablen eine Zufallsvariable, die einer Normalverteilung folgt.

Eine etwas genauere Formulierung des Zentralen Grenzwertsatzes lautet: 
> **Zentrale Grenzwertsatz**: Betrachte $n$ Zufallsvariablen ("Verteilungen") $x_i$. Die $x_{i}$ folgen dabei einer beliebigen Wahrscheinichkeitsverteilung mit endlichem Erwartungswert $\mathsf{E}[x_i] = \mu_i$  und endlicher Varianz $\mathsf{V}[x_i] = \sigma_i^2$. Dann konvergiert die Größe
>$$
z_n = \frac{\sum_{i=1}^n (x_i - \mu_i)}{\sqrt{\sum_{i=1}^n \sigma_i^2}}
>$$
>für $n\to\infty$ gegen eine Standardnormalverteilung.

Die genauen Bedingungen, unter denen der Zentrale Grenzwertsatz gilt, finden sich in der statistischen Fachliteratur ("Ljapunov-Bedingung").

Empirisch lässt sich der Zentrale Grenzwertsatz mit Zufallszahlen verdeutlichen. Dazu werden für $n=1000$ Exponentialverteilungen jeweils unterschiedliche Lokalisierungsparameter $\tau$ aus einer Gleichverteilung gewürfelt. Für jede dieser 1000 unterschiedlichen Exponentialverteilungen werden dann $N=10000$ Zufallszahlen gezogen und am Ende $z_n$ gebildet und grafisch dargestellt. Die Verteilung von $z_n$ ist eine Standardnormalverteilung, wie der Vergleich mit der ebenfalls eingezeichneten PDF zeigt.

In [None]:
"""demonstration of central limit theorem with random numbers"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# initialize random number generator with a seed
rng = np.random.default_rng( 42 )

# prepare plot
fig, ax = plt.subplots()

# generate n=1000 exponential distributions of N=10000 entries each
# each distribution gets a different random tau from uniform distribution
N = 10000
n = 1000
tau = rng.uniform( 0, 10, size=n )
tau = np.repeat(tau,N).reshape(n,N)
expo = rng.exponential( scale=tau )

# exponential distribution: expected value and standard deviation = tau
mu  = tau
std = tau

# NumPy style summation
normalization = 1. / (np.sqrt(N)*std) 
sume = np.sum( ( expo - mu ) * normalization, axis=1 )

# remark 1: instead of the NumPy one-line, an enumeration would work, too
# for i, u in enumerate( uniform ):
#	sume[i] = np.sum( ( expo - mu ) * normalization )
	
# remark 2: this can als be achieve in one line using list comprehension
# sume = [ np.sum( ( e - mu ) * normalization ) for e in expo ]

# remark: an explicit iterator for numpy arrays would also be possible
# for e, it in zip( expo, np.nditer( sume, op_flags=['writeonly']) ):
#	it[...] = np.sum( ( e - mu ) * normalization )

# histogram of sums
bins = np.linspace( -5, 5, 51 ) # bin width: 0.2
ax.hist( sume, bins )
ax.set_xlabel( "$x$")
ax.set_ylabel( "Frequency" )

# normal distribution for comparison
x = np.linspace( -5, 5, 200 )
pdfnorm = n*0.2 # proper normalization: entries * bin width
ax.plot( x, pdfnorm*norm.pdf(x) )

plt.show()

### Residuenquadrate und $\chi^2$-Verteilung
Für normalverteilte Ergebnisse $x_i$ eines Zufallsexperiment ist die Methode der kleinsten Quadrate (engl.: least squares method, LS) eine gängige Methode der Parameterschätzung. Der Namensgeber dieser Methode sind die Residuenquadrate $(x_i-\mu)^2$, also die quadratische Abweichung der $x_i$ von ihrem Erwartungswert $\mu$. Jedes Residuenquadrat wird auf seine Varianz $\sigma_i^2$ normiert und aufsummiert:
$$
S \equiv \sum_{i=1}^{n} \frac{(x_i - \mu)^2}{\sigma_i^2}.
$$
Es kann gezeigt werden, dass diese Summe der Residuenquadrate einer $\chi^2$-Verteilung (chi-Quadrat, engl.: chi square, Aussprache "kai") folgt. Die $\chi^2$-Verteilung besitzt einen Parameter $n$, genannt Zahl der Freiheitsgrade (engl.: degrees of freedom). $S$ folgt einer $\chi^2$-Verteilung mit $n$ Freiheitsgraden:
$$
\chi^2(S;n) = \frac{S^{\frac{n}{2}-1}}
{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}
\exp\left[-\frac{S}{2}\right].
$$
Aus diesem Grund wird $S$ in der Literatur auch häufig selbst als $\chi^2$ und die Methode der kleinsten Quadrate als $\chi^2$-Methode bezeichnet. In diesem Skript bleiben wir im Sinne einer eindeutigen Namensgebung bei $S$.

>**Gamma-Funktion**: In obiger Gleichung ist $\Gamma$ die Gamma-Funktion, die Verallgemeinerung der Fakultät, die nur für natürliche Zahlen definiert ist. Für natürliche Zahlen $n\in\mathbb{N}$ ist $\Gamma(n) = (n-1)!$, für reelle $x\in\mathbb{R}$ lautet die Definition
>$$
\Gamma(x) \equiv \int_0^\infty t^{x-1}\exp[-t]\,\mathsf{d}t.
>$$

Durch Nachrechnen kann gezeigt werden, dass Erwartungswert und Varianz der $\chi^2$-Verteilung gegeben sind durch
$$
\mathsf{E}[x] = n, \quad
\mathsf{V}[x] = 2n.
$$
Der folgende Beispielcode zeigt  $\chi^2$-Verteilungen für vier unterschiedliche Werte von $n$:

In [None]:
"""Plot PDF of chi-square distribution for different numbers of degrees of freedom"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import chi2

S  = np.linspace( 0, 20, 200 )

# plot PDF for an array of four values for n (number of degrees for freedom)
ns = [ 1, 2, 5, 10 ]
for n in ns:
	pdf = chi2.pdf( S, df=n )
	plt.plot( S, pdf, label=r"$n$ = %d" % n  )

plt.xlim(0,20)
plt.ylim(0,1)
plt.xlabel( "$S$")
plt.ylabel( r"$\chi^2(S)$" )
plt.legend()

plt.show()

### Cauchyverteilung (optional)
Die **Cauchyverteilung** (nach Augustin-Louis Cauchy, 1789-1857) besitzt die PDF
$$
f(x; x_0, \Gamma) = \frac{1}{\pi}\cdot \frac{\Gamma}{(x-x_0)^2 + \Gamma^2}.
$$
Dabei ist $x_0$ der Lokalisierungsparameter, er entspricht dem Median und Modus der Verteilung. Der Parameter $\Gamma$ ist ein Maß für die Streuung und wird **Halbwertsbreite** (engl.: full width at half maximum, FWHM) genannt. Die Besonderheit der Cauchyverteilung ist, dass für sie weder Erwartungswert und Varianz noch höhere Momente existieren. Der Grund dafür ist, dass die definierenden Integrale  nicht endlich sind.

Der folgende Beispielcode zeigt drei Cauchyverteilung mit unterschiedlichen Werten für $x_0$ und $\Gamma$:

In [None]:
"""Plot PDF of Cauchy distribution with different parameter choices"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import cauchy

# create Cauchy PDFs for array of parameters x0 and Gamma
param = np.array( [ [ 0., 1.] , [-1., 0.5], [ 0., 2. ] ] )
x = np.linspace( -5, 5, 200 )
pdf  = [ cauchy.pdf( x, loc=l, scale=s ) for l, s in param ]

ymin, ymax = 0, 1.1*np.amax(pdf)

for p, par in zip( pdf, param ):
	# plot Cauchy distributions and add entry in legend
	plot = plt.plot( x, p, label=r"$x_{0} = %3.1f,\,\Gamma = %3.1f$" % (par[0],par[1])  )

	# get minimum/maximum x values for line
	sigmin, sigmax = par[0]-par[1], par[0]+par[1]

	# get y value from evaluating PDF at sigmax
	ysig = cauchy.pdf( sigmax, loc=par[0], scale=par[1] )

	# draw dashed line from x=sigmin to x=sigmax at y=ysig
	plt.hlines( ysig, sigmin, sigmax, color=plot[-1].get_color(), linestyle="dashed" )
	
plt.ylim( ymin, ymax )
plt.xlabel( "$x$")
plt.ylabel( "Probability Density Function" )
plt.legend()

plt.show()


>**Anwendung in der Physik: Resonanzkurven**
>
>In der klassischen Physik beschreibt die Cauchyverteilung einen Grenzfalls der Resonanzkurven bei erzwungenen Schwingungen, z. B. in mechanischen Systemen oder elektrischen Schwingkreisen. Der vollständige Ausdruck für die Resonanzkurve, die auch als **Lorentzkurve** (nach Hendrik Antoon Lorentz, 1853-1928) bezeichnet und wie folgt parametrisiert wird, lautet:
>$$
f_L(\omega;\omega_0,\gamma) = \frac{1}{\sqrt{(\omega^2-\omega_0^2)^2+4\gamma^2\omega^2}}.
>$$
>In der Näherung $\omega\approx\omega_0$ und $\gamma\ll\omega_0$ entspricht sie der Cauchyverteilung:
>$$
f_C(\omega;\omega_0,\gamma) = \frac{1}{4\omega_0^2}\frac{1}{(\omega-\omega_0)^2+\gamma^2/4}.
>$$
>Auch die **Breit-Wigner-Verteilung** (Gregory Breit, Eugene Wigner, 1936) für die Breite von (relativistischen) quantenmechanischen Zuständen ist mit der Cauchyverteilung verwandt.
>
>In der **Statistik** beschreibt die Cauchy-Verteilung die Wahrscheinlichkeitsverteilung für das Verhältnis zweier standardnormalverteilter Zufallsvariablen.


### Weitere Wahrscheinlichkeitsverteilungen
Es gibt noch viele weitere Wahrscheinlichkeitsverteilungen mit Relevanz für Naturwissenschaft und Technik, unter anderem: 
- Logarithmische Normalverteilung (Log-Normalverteilung, vergleiche Beispiel zu Lokalisierungsparametern): $f(x) = 1/(\sqrt{2\pi} x)\exp\left[-\ln(x)^2/2\right]$, beschreibt Produkt aus vielen Zufallszahlen, z. B. Verweildauer von Usern auf Online-Nachrichten.
- Skellamverteilung: Differenz von zwei poissonverteilten Zufallszahlen (nicht poisson- oder normalverteilt!).
- Landauverteilung: Energiedeposition geladener Teilchen in dünnen Schichten, z. B. in ortsauflösenden Siliziumdetektoren.
- Weibullverteilung: Ausfallhäufigkeit von elektronischen Bauteilen.

## Mehrdimensionale Wahrscheinlichkeitsverteilungen
In vielen Fällen hängen physikalischen Prozesse von mehr als einer Variable ab, die ggf. untereinander abhängig sind. Das statistische Werkzeug zur Behandlung dieser Prozesse beinhaltet Wahrscheinlichkeitsverteilungen, die von mehr als einer Zufallsvariable abhängen und als **multivariate Verteilungen** (engl.: multivariate distributions) bezeichnet werden. Wir beschränken uns in der Diskussion auf kontinuierliche multivariate Verteilungen.

### Verteilungsfunktion und Wahrscheinlichkeitsdichtefunktion
Im folgenden sollen einige Eigenschaften multivariater Verteilungen mit einem zweidimensionalen (2D-) Beispiel mit folgender Wahrscheinlichkeitsdichtefunktion (PDF) illustriert werden, die auf $(x,y)\in\mathbb{R}^2$ definiert ist:
$$
f(x,y) = A\,\exp[-x/5]\,N( x+y; 7, 2)
$$
mit der Normalverteilung $N(x;\mu,\sigma)$ und einem Normierungsfaktor $A$, so dass die PDF wie folgt normiert ist:
$$
\int_{-\infty}^\infty \int_{-\infty}^\infty f(x,y)\, \mathsf{d} x\, \mathsf{d} y = 1.
$$

Die 2D-**Verteilungsfunktion** (CDF) $F(x_0, y_0)$ gibt die Wahrscheinlichkeit an, dass *gleichzeitig* die Bedingungen $x\leq x_0$ und $y\leq y_0$ gelten:
$$
F(x_0, y_0) = \int_{-\infty}^{x_0} \int_{-\infty}^{y_0} f(x,y)\, \mathsf{d} x\, \mathsf{d} y. 
$$

Analog zum eindimensionalen Fall wird die Wahrscheinlichkeitsdichte wie folgt interpretiert:
$$
f(x_0,y_0)\,\mathsf{d}x\,\mathsf{d}y
$$
ist die Wahrscheinlichkeit, **gleichzeitig** die Zufallsvariable $x$ im Intervall $[x_0, x_0 + \mathsf{d}x]$ und die Zufallsvariable $y$ im Intervall $[y_0, y_0 + \mathsf{d}y]$ zu finden.



### Grafische Darstellung von multivariaten Verteilungen
Der folgende Beispielcode zeigt verschiedene Möglichkeiten multivariate Verteilung grafisch darzustellen:
- In einem **Konturdiagram** (engl.: contour plot) werden die Funktionswerte $f(x,y)$ in der 2D-Ebene farblich kodiert. Die Farbskala (eng.: color scale) sollte dabei immer als Farbbalken (engl.: color bar) neben dem Diagramm eingezeichnet werden.
- In einem **Oberflächendiagramm** (engl.: surface plot) werden die Funktionswerte $f(x,y)$ in der dritten Dimension dargestellt und ggf. zusätzlich farblich kodiert.
- In einem **Streudiagramm** (engl.: scatter plot) werden die Funktionswert in eine Dichte zufälliger Punkte in der 2D-Ebene übersetzt.
- In einem **2D-Histogramm** sind die Werte von $x$ und $y$ in 2D-Bins diskretisiert und ein Farbcode stellt die Häufigkeit in jedem Bin dar.
- In einem **Profildiagramm** (engl.: profile plot) wird eine der Variablen in Bins eingeteilt und für die andere Variable wird für jedes Bin ein Maß für Lage und Streuung der Verteilung in diesem Bin dargestellt. In einem $y$-Profil werden hier Mittelwert und Stichprobenstandardabweichung der $y$-Verteilung für jedes Bin in $x$ dargestellt. Vorsicht: hier steht der Unsicherheitsbalken für die Streung und *nicht* für die Unsicherheit des Mittelwerts!

>**Bemerkung:** Achten Sie bei Farbskalen im Sinne der Inklusion auf eine Darstellung, die auch für Personen mit Sehschwächen geeignet ist. Je nach Einsatz der Abbildung sollten Sie auch darauf achten, ob sich die Farben auch in Graustufen gut unterscheiden lassen (für den Schwarzweißdruck) oder ob die Farben auf Projektoren ("Beamern") gut dargestellt werden. Weitere Informationen: [Farbskalen in Matplotlib](https://matplotlib.org/stable/users/explain/colors/colormaps.html).

In [None]:
""" 
Example plots for two-dimensional PDFs
based on https://matplotlib.org/3.1.1/gallery/lines_bars_and_markers/scatter_hist.html#sphx-glr-gallery-lines-bars-and-markers-scatter-hist-py
"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

def function( x, y ):
	"""Example function: product of an exponential and a normal distribution"""
	return np.exp(-0.2*x) * norm.pdf( x+y, loc=7, scale=2 )

# interval in x and y
xmin, xmax = 0, 10

# generate a 2D grid to evaluate the PDF 
x = np.linspace( xmin, xmax, num=101 )
y = np.linspace( xmin, xmax, num=101 )
X, Y = np.meshgrid( x, y )
Z = function( X, Y )
	
# sample N random data points (x,y) from function 
N, n = 1000000, 1000  
rng = np.random.default_rng( 42 )
xyrand = rng.uniform( xmin, xmax, size=(N,2) )
	
# evaluate function and normalize to unit integral
func = function( xyrand[:,0], xyrand[:,1] )
prob = func/np.sum(func)

# for scatter plot: pick n data points with a probability corresponding to the value of the function
scatter = rng.choice( xyrand, n, replace=False, p=prob )
	
fig = plt.figure( figsize=[12,7] ) 
ax1 = fig.add_subplot( 221 )
ax2 = fig.add_subplot( 222 )
ax3 = fig.add_subplot( 223, projection='3d' ) # ax needs special preparation for 3D plotting
ax4 = fig.add_subplot( 224 )

# 2D contour plot using color map
cont = ax1.contourf( X, Y, Z, cmap='RdBu' )
cbar = fig.colorbar( cont, ax=ax1 )	
ax1.set_xlabel( "$x$")
ax1.set_ylabel( "$y$")
	
# 3D surface
cont3d = ax3.plot_surface( X, Y, Z, cmap='RdBu', linewidth=0 )
cbar3d = fig.colorbar( cont3d, ax=ax3 )
ax3.set_xlabel( "$x$")
ax3.set_ylabel( "$y$")

# scatter plot
ax2.scatter( scatter[:,0], scatter[:,1], s=1 )
ax2.set_xlabel( "$x$")
ax2.set_ylabel( "$y$")
ax2.set_xlim( xmin, xmax )
ax2.set_ylim( xmin, xmax )
	
# 2d histograms
nbins = 11
bins = np.linspace( xmin, xmax, nbins )
centers = 0.5*( bins[1:] + bins[:-1] )
XC, YC = np.meshgrid( centers, centers )
h, xedges, yedges, img = ax4.hist2d( scatter[:,0], scatter[:,1], bins=bins )
	
# first way to compute profile: by hand using histograms
"""
mean value of histogram = weighted mean of bin centers (weight = number of entries)
standard deviation = weighted standard deviation of bin centers (weight = number of entries)
both are simple but not very transparent one-liner in NumPy
	mean = np.average( YC, weights=h, axis=0 ) 
below: implementation "by hand"
"""
mean = np.zeros( len(centers) )
std  = np.zeros( len(centers) )	
for i, col in enumerate( h ):
	sum = np.sum(col)
	mean[i] = np.sum(col*centers)/sum
	std[i]  = np.sqrt( np.sum( col*centers**2 )/(sum-1) - mean[i]**2 )

# display with error bars
ax4.errorbar( centers, mean, yerr=std, fmt='wo' )
ax4.set_xlabel( "$x$")
ax4.set_ylabel( "$y$")
ax4.set_xlim( xmin, xmax )
ax4.set_ylim( xmin, xmax )	
	
# second way to compute profile: unbinned, directly from data
# np.digitize: create array of entries' bin indexes 
idx = np.digitize( scatter, bins )

# array of mean values (using list comprehension)
unbinned_mean = [ np.mean(scatter[ idx[:,0] == i ], axis=0 )[1] for i in np.arange( 1, nbins ) ]

# array of sample standard deviations (using list comprehension)
unbinned_std = [ np.std(scatter[ idx[:,0] == i ], axis=0, ddof=1 )[1] for i in np.arange( 1, nbins ) ]

# display with error bars
ax2.errorbar( centers, unbinned_mean, yerr=unbinned_std, fmt='bo' )
ax2.set_xlim( xmin, xmax )
ax2.set_ylim( xmin, xmax )	

plt.show()

### Randverteilungen
Neben Profilen, also eindimensionalen Schnitten der 2D-PDF entlang einer der Achsen, sind auch die **Projektionen** der 2D-PDF auf die Achsen von Interesse. Diese werden als **Randverteilungen** (engl: marginal distributions) bezeichnet. Dabei kann sowohl eine Rand-CDF als auch eine Rand-PDF angegeben werden. Die Verteilungsfunktion für die Randverteilung ist in der Projektion auf die $x$-Achse lautet:
$$
F_x(x_0) = \int\limits_{-\infty}^{x_0} \int\limits_{-\infty}^{\infty} f(x,y)\, \mathsf{d}x\,\mathsf{d}y.
$$
Dabei wird also über alle $y$ integriert und dann eine Verteilungsfunktion der resultierenden Randverteilung gebildet. Dies lässt sich  mit der Definition
$$
f_x(x) \equiv \int_{-\infty}^{\infty} f(x,y) \,\mathsf{d}y
$$
umschreiben in
$$
F_x(x_0) = \int\limits_{-\infty}^{x_0} f_x(x)\, \mathsf{d}x.
$$
Aus dieser Schreibweise wird direkt ersichtlich, dass $f_x(x)$ die PDF der Randverteilung darstellt. Analog ergibt sich für die Projektion auf $y$-Achse durch Integration über alle $x$:
$$
F_y(y_0) = 
\int\limits_{-\infty}^{\infty} \int\limits_{-\infty}^{y_0} f(x,y)\, \mathsf{d}x\,\mathsf{d}y = \int\limits_{-\infty}^{y_0} f_y(y)\, \mathsf{d}y
\quad\textsf{mit}\quad
f_y(y) \equiv \int_{-\infty}^{\infty} f(x,y) \,\mathsf{d}x.
$$
Folgender Beispielcode stellt die Beispielfunktion und ihre Rand-PDFs grafisch dar:

In [None]:
"""marginal distributions"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
from scipy.integrate import quad

def function( x, y ):
	"""Example function: product of an exponential and a normal distribution"""
	return np.exp(-0.2*x) * norm.pdf( x+y, loc=7, scale=2 )

# interval in x and y
xmin, xmax = 0, 10

# generate a 2D grid to evaluate the PDF 
x = np.linspace( xmin, xmax, num=101 )
y = np.linspace( xmin, xmax, num=101 )
X, Y = np.meshgrid( x, y )
Z = function( X, Y )
	
# sample N random data points from function 
N, n = 1000000, 1000  
rng = np.random.default_rng( 42 )
xyrand = rng.uniform( xmin, xmax, size=(N,2) )
	
# evaluate function and normalize to unit integral
func = function( xyrand[:,0], xyrand[:,1] )
prob = func/np.sum(func)
	
# compute marginal distributions by integration
# condition: independent variable must be first argument -> solved with lambda functions
func_x = lambda x, y: function( x, y )
func_y = lambda x, y: function( y, x )

# integration of marginal distribution using scipy.integrate.quad (adaptive quadrature methods)
# only use first return variable (value)
marginal_x = lambda x: quad( func_y, xmin, xmax, args=(x,) )[0]
marginal_y = lambda y: quad( func_x, xmin, xmax, args=(y,) )[0]
	
fig, ax = plt.subplots( 2, 2, figsize=([10,10]) )

# 2D contour plot using color map
cont = ax[1][0].contourf( X, Y, Z, cmap='RdBu' )
#cbar = fig.colorbar( cont, ax=ax[1][0] )	
ax[1][0].set_ylabel( "$y$")

xmarg = list( map( marginal_x, x ) )
ymarg = list( map( marginal_y, y ) )
	
ax[0][0].plot( x, xmarg )
ax[0][0].set_xlim( xmin, xmax )
ax[0][0].set_xlabel( "$x$")
ax[0][0].set_ylabel( "$f_y(x)$")

ax[1][1].plot( ymarg, y )
ax[1][1].set_ylim( xmin, xmax )
ax[1][1].set_ylabel( "$y$")
ax[1][1].set_xlabel( "$f_x(y)$")

ax[0][1].set_axis_off()
		
plt.show()

### Bedingte Wahrscheinlichkeiten (optional) 
Bedingte Wahrscheinlichkeitenwurden bereits im Abschnitt über Wahrscheinlichkeitstheorie eingeführt. Aus den Kolmogorov-Axiomen folgt für  die Wahrscheinlichkeit dafür, dass Ereignis $A$ eintritt falls Ereignis $B$ ebenfalls eintritt und umgekehrt:
$$
P(A|B) = \frac{P(A\cap B)}{P(B)} \textsf{ und }
P(B|A) = \frac{P(A\cap B)}{P(A)}.
$$
Für zwei Zufallsvariable $x$ und $y$ lassen sich die Ereignisse $A$ und $B$ wie folgt definieren:
- Ereignis $A$ tritt ein, wenn für beliebige Werte von $y$ die Zufallsvariable $x$ im Intervall $[x_0, x_0+\mathsf{d}x]$ liegt. Die Wahrscheinlichkeit wird also über alle Werte von $y$ integriert – dies entspricht der Rand-PDF $f_x(x)$.
$$
P(A) \equiv 
\int_{x_0}^{x_0+\mathsf{d}x} \int_{-\infty}^{\infty} f(x,y)\, \mathsf{d}x\,\mathsf{d}y =
\int_{x_0}^{x_0+\mathsf{d}x} f_x(x)\, \mathsf{d}x.
$$
- Ereignis $B$ tritt ein, wenn für beliebige Werte von $x$ die Zufallsvariable $y$ im Intervall $[y_0, y_0+\mathsf{d}y]$ liegt:
$$
P(B) \equiv 
\int_{-\infty}^{\infty} \int_{y_0}^{y_0+\mathsf{d}y} f(x,y)\, \mathsf{d}x\,\mathsf{d}y =
\int_{y_0}^{y_0+\mathsf{d}y} f_y(y)\, \mathsf{d}y.
$$
- Die Wahrscheinlichkeit, dass *sowohl $A$ als auch $B$* eintreten, entspricht dann dem Fall, in dem $x$ im Intervall  $[x_0, x_0+\mathsf{d}x]$ und *gleichzeitig* $y$ im Intervall $[y_0, y_0+\mathsf{d}y]$ liegt:
$$
P(A\cap B) \equiv\int_{x_0}^{x_0+\mathsf{d}x}\int_{y_0}^{y_0+\mathsf{d}y} f(x,y)\, \mathsf{d}x\,\mathsf{d}y.
$$

Mit diesen Vorüberlegung lässt sich damit die **bedingte Wahrscheinlichkeit** (engl.: conditional probability) einführen. Die bedingte Wahrscheinlichkeit für den Eintritt von Ereignis $B$, gegeben, dass Ereignis $A$ ebenfalls eintritt, lautet
$$
P(B|A) = 
\frac{P(A\cap B)}{P(A)} = 
\frac{
\int_{x_0}^{x_0+\mathsf{d}x}\int_{y_0}^{y_0+\mathsf{d}y} f(x,y)\, \mathsf{d}x\,\mathsf{d}y
}{
\int_{x_0}^{x_0+\mathsf{d}x} f_x(x)\, \mathsf{d}x
}.
$$
Aus den Integranden in Zähler und Nenner lässt sich folgender Ausdruck einer **bedingte Wahrscheinlichkeitsdichte** (engl.: conditional PDF) ablesen:
$$
h(y|x_0) =
\frac{
f(x_0,y)}{
f_x(x_0)
}.
$$
Diese PDF ist eine Funktion ausschließlich von $y$, für einen **festen** Wert von $x=x_0$. Anschaulich entspricht $h(y|x_0)\, \mathsf{d}x$ der Projektion eines infinitesimal dünnen Bandes in $x$ für $x = x_0$. Es wird projiziert auf die $y$-Achse und normiert auf Randverteilung, siehe folgendes Codebeispiel.


In [None]:
"""marginal and conditional probability distributions"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
from scipy.integrate import quad

def function( x, y ):
	"""Example function: product of an exponential and a normal distribution"""
	return np.exp(-0.2*x) * norm.pdf( x+y, loc=7, scale=2 )

# interval in x and y
xmin, xmax = 0, 10

# generate a 2D grid to evaluate the PDF 
x = np.linspace( xmin, xmax, num=101 )
y = np.linspace( xmin, xmax, num=101 )
X, Y = np.meshgrid( x, y )
Z = function( X, Y )
	
# sample N random data points from function 
N, n = 1000000, 1000  
rng = np.random.default_rng( 42 )
xyrand = rng.uniform( xmin, xmax, size=(N,2) )
	
# evaluate function and normalize to unit integral
func = function( xyrand[:,0], xyrand[:,1] )
prob = func/np.sum(func)
	
# construct marginal PDF in x
func_y = lambda x, y: function( y, x )
marginal_x = lambda x: quad( func_y, xmin, xmax, args=(x,) )[0]

# conditional probabilities for two example values of x0
x0 = [ 2, 6 ]
fx0 = [ function( xi, y ) for xi in x0 ]
x0marg = list( map ( marginal_x, x0 ) )

fig, ax = plt.subplots( 1, 2, figsize=([12,6]) )

# 2D contour plot using color map
cont = ax[0].contourf( X, Y, Z, cmap='RdBu' )
cbar = fig.colorbar( cont, ax=ax[0] )	
ax[0].set_xlabel( "$x$")
ax[0].set_ylabel( "$y$")

cols = []
for x, f, m in zip( x0, fx0, x0marg ):
	line, = ax[1].plot( f/m, y, label=r"$f(y|x_{0} = %d)$" % x )
	cols.append( line.get_color() )

ax[1].set_xlabel( r"$h(y|x_{0})$")
ax[1].set_ylabel( r"$y$")
ax[1].legend()

# vertical lines at x0 values
ax[0].vlines( x0, xmin, xmax, colors=cols )

plt.show()

Die bedingten Wahrscheinlichkeiten erlauben es nun zu definieren, wann zwei Zufallsvariablen **unabhängig** voneinander sind. Obiger Ausdruck für $h(y|x_0)$ für beliebiges $x=x_0$ und aufgelöst nach $f(x,y)$ ergibt: 
$$
f(x,y) = h(y|x)\cdot f_x(x) = h(x|y)\cdot f_y(y). 
$$
Damit lässt sich jetzt formulieren: zwei Zufallsvariablen $x$ und $y$ sind **unabhängig** voneinander, wenn gleichzeitig folgendes gilt:
- $h(y|x)=f_y(y)$: damit ist $h(y|x)$ unabhängig von $x$ 
- $h(x|y)=f_x(x)$: damit ist $h(x|y)$ unabhängig von $y$. 

Die 2D-PDF ist dann das Produkt der beiden Rand-PDFs:
$$
f(x,y) = f_x(x) \cdot f_y(y).
$$
Im obigen Codebeispiel ist $h(y|x_0)$ *nicht* unabhängig von $x_0$, damit sind $x$ und $y$ nicht unabhängig voneinander. Im folgenden Beispiel einer zweidimensionalen Normalverteilung (genauer eingeführt im folgenden Abschnitt) sind  $x$ und $y$ unabhängig voneinander, ihre PDF $f(x,y)$ entspricht gerade dem Produkt der Rand-PDFs $f_x(x)$ und $f_y(y)$.

In [None]:
"""PDFs of two-dimensional normal (Gaussian) distributions"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import multivariate_normal

# generate a 2D grid to evaluate the PDF 
xmin, xmax = -4, 4
x = np.linspace( xmin, xmax, num=101 )
y = np.linspace( xmin, xmax, num=101 )
X, Y = np.meshgrid( x, y )
pos = np.dstack( (X,Y) )

# mean and diagonal covariance matrix
mean = [ 0, 0 ]
cov  = [ [1,0], [0,5] ]

# use scipy.stats class for multivariate normal distributions
Z = multivariate_normal.pdf( pos, mean=mean, cov=cov )

fig, ax = plt.subplots()

# contour plot with color code
cont = ax.contourf( X, Y, Z, 20, cmap='RdBu' )
cbar = fig.colorbar( cont, ax=ax )	
ax.set_xlabel( "$x$")
ax.set_ylabel( "$y$" )

plt.show()


## Kovarianz und Korrelation

### Was ist Korrelation?
Auch ohne Durcharbeiten des obigen optionalen Abschnitts über bedingte Wahrscheinlichkeiten lässt sich anschaulich gut motivieren, wann zwei Zufallsvariablen **unabhängig** voneinander sind, nämlich genau dann, wenn sich ihre zweidimensionale Wahrscheinlichkeitsdichte $f(x,y)$ als **Produkt der Randwahrscheinlichenkeitsdichten** $f_x(x)$ und $f_y(y)$ schreiben lässt:
$$
f(x,y) = f_x(x) \cdot f_y(y).
$$
Zwei Ereignisse sind demnach unabhängig, wenn sich ihre Wahrscheinlichkeitsdichten multiplizieren, analog zum Ausdruck, der aus dem Kolmogorov-Axiomen hergeleitet wurde:
$$
P(A\cap B) = P(A) \cdot P(B).
$$

Wenn diese Gleichung nicht erfüllt ist, hängen  $x$ und $y$ voneinander ab, sie sind **korreliert**. Wie in unten stehender Erweiterung des obigen Codebeispiels einer multivariaten Normalverteilung gezeigt, gibt es zwei Möglichkeiten der Korrelation:
- **Positive Korrelation** (links): wenn $x$ und $y$ miteinander (positiv) korreliert sind, dann ist die Wahrscheinlichkeit größer, für $y$ einen Wert oberhalb seines Erwartungswerts zu finden, also $y>\mathsf{E}[y]$, wenn auch für $x$ gilt $x>\mathsf{E}[x]$ (und analog für $y<\mathsf{E}[y]$ und $x<\mathsf{E}[x]$).
- **Negative Korrelation** (auch: **Antikorrelation**, rechts): wenn $x$ und $y$ miteinander negativ korreliert (auch: antikorreliert) sind, dann ist die Wahrscheinlichkeit größer, für $y$ einen Wert $y>\mathsf{E}[y]$ zu finden, wenn für $x$ im Gegenteil gilt $x<\mathsf{E}[x]$ (und analog für $y<\mathsf{E}[y]$ und $x>\mathsf{E}[x]$).


In [None]:
"""PDFs of two-dimensional normal (Gaussian) distributions"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import multivariate_normal

# function to build covariance matrix from variances and correlation coefficient
def build_cov( varx, vary, corr ):
    covxy = corr * np.sqrt( varx*vary )
    return np.array( [ [varx, covxy], [covxy, vary] ] )

# generate a 2D grid to evaluate the PDF 
xmin, xmax = -4, 4
x = np.linspace( xmin, xmax, num=101 )
y = np.linspace( xmin, xmax, num=101 )
X, Y = np.meshgrid( x, y )
pos = np.dstack( (X,Y) )

# start from variances and correlation coefficient, construct covariance matrix
varx1, vary1, corr1 = 2, 2, 0.4
varx2, vary2, corr2 = 2, 2, -0.25

# use scipy.stats class for multivariate normal distributions
Z = []
Z.append( multivariate_normal.pdf( pos, mean=[ 0, 0 ], cov=build_cov( varx1, vary1, corr1 ) ) )
Z.append( multivariate_normal.pdf( pos, mean=[ 0, 0 ], cov=build_cov( varx2, vary2, corr2 ) ) )
fig, ax = plt.subplots( 1, 2, figsize=([12,5]) )

# contour plot with color code
for a, z in zip( ax, Z ):
    cont = a.contourf( X, Y, z, 20, cmap='RdBu' )
    cbar = fig.colorbar( cont, ax=a )
    a.set_xlabel( "$x$")
    a.set_ylabel( "$y$" )

plt.show()

### Kovarianz und Korrelationskoeffizient
Um den Begriff der Korrelation *quantitativ* zu beschreiben, wird der bereits eingeführte Begriff der Varianz, der sich auf eine einzige Zufallsvariable bezieht, auf mehrere Zufallsvariable zu erweitern. Die Varianz ist definiert als der Erwartungswert der quadratischen Abweichung der Zufallsvariable $x$ von ihrem Erwartungswert:
$$
\mathsf{V}[x] \equiv \sigma_x^2 = \mathsf{E}[(x - \mathsf{E}[x])^2] 
$$
und durch kurze Rechnung lässt sich zeigen, dass $\mathsf{V}[x] = \mathsf{E}[x^2] - \mathsf{E}[x]^2$ (Verschiebungssatz).

Die **Kovarianz** (engl.: covariance) wird analog definiert als Erwartungswert des Produktes der Abweichungen der Zufallsvariablen $x$ und $y$ von ihren Erwartungswerten:
$$
\mathsf{Cov}(x,y) \equiv \sigma_{xy} \equiv \mathsf{E}\left[(x - \mathsf{E}[x])(y - \mathsf{E}[y])\right]. 
$$
Damit lässt sich die Varianz zurückführen auf die Kovarianz einer Variable mit sich selbst:
$$
\mathsf{Cov}(x,x) = \mathsf{V}[x] \equiv\sigma_x^2, \quad
\mathsf{Cov}(y,y) = \mathsf{V}[y] \equiv\sigma_y^2.
$$
Durch kurze Rechnung lässt sich analog zur Varianz zeigen, dass 
$$
\mathsf{Cov}(x,y) = \mathsf{E[xy]} - \mathsf{E}[x]\cdot\mathsf{E}[y].
$$

Anschaulicher als durch die Kovarianz lässt sich die Korrelation zweier Zufallsvariablen $x$ und $y$ durch den Pearsonschen **Korrelationskoeffizienten** (nach Karl Pearson, 1857-1936, engl.: Pearson correlation coefficient, auch: linearer Korrelationskoeffizient) beschreiben. Dazu wird die Kovarianz durch das Produkt der Standardabweichungen $\sqrt{\mathsf{V}[x]}\equiv\sigma_x$ und $\sqrt{\mathsf{V}[y]}\equiv\sigma_y$ normiert:
$$
\rho_{xy} \equiv \frac{\mathsf{Cov}(x,y)}{\sigma_x \cdot\sigma_y}.
$$
Der Korrelationskoeffizient nimmt Werte zwischen $-1$ und $1$ an, so dass:
- $\rho_{xy} = 0$: $x$ und $y$ sind (linear) unkorreliert,
- $\rho_{xy} = +1$:  $x$ und $y$ sind 100% positiv (linear) korreliert,
- $\rho_{xy} = -1$:  $x$ und $y$ sind 100% negativ (linear) korreliert (auch: 100% antikorreliert).

Im obigen Codebeispiel sind multivariate Normalverteilungen mit festen Korrelationskoeffizienten konstruiert worden, mit einer positiven Korrelation $\rho_{xy} = 0.4$ (links) und einer etwas geringeren Antikorrelation $\rho_{xy} = -0.25$ (rechts). Im Codebeispiel davor war der Korrelationskoeffizient auf $\rho_{xy} = 0$ gesetzt worden, hier sind $x$ und $y$ unkorreliert. In der oben schon mehrfach verwendete Beispielfunktion für zweidimensionale Verteilungen (Produkt aus Exponentialfunktion und Normalverteilung) sind $x$ und $y$ antikorreliert mit  $\rho_{xy} \approx -0.66$. 



### Korrelation und (Un-)Abhängigkeit
Die Beziehung zwischen **Korrelation und (Un-)Abhängigkeit** zweier Zufallsvariablen $x$ und $y$ soll an dieser Stelle noch einmal präzisiert werden:
- Die Aussagen "$\rho_{xy} = 0$" und "$x$ und $y$ sind (linear) unkorreliert" sind **äquivalent**.
- Sind zwei Zufallsvariablen **unabhängig**, also $f(x,y) = f_x(x) \cdot f_y(y)$, dann sind sie auch **unkorreliert**, d. h. es gilt immer $\rho_{xy} = 0$.
- Die **umgekehrte Aussage gilt nicht**: unkorrelierte Zufallsvariablen können voneinander abhängig sein!
 
Das folgende Codebeispiel zeigt eine 2D-Verteilung, deren linearer Korrelationskoeffizient verschwindet, bei der $x$ und $y$ aber nicht unabhängig sind:
$$
f(x,y) = \varphi(2 - 0.2 x^2 - y)
$$
mit der Standardnormalverteilung $\varphi$.

In [None]:
"""PDF of parabola times normal distribution"""

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

def function( x, y ):
	"""normal distribution along a parabola y=p(x): use p(x)-y as argument of normal PDF"""
	return norm.pdf( 2. - 0.2*x**2 - y )

# create 2D grid to evaluate 2D function
xmin, xmax = -5, 5
x = np.linspace( xmin, xmax, num=101 )
y = np.linspace( xmin, xmax, num=101 )
X, Y = np.meshgrid( x, y )

Z = function( X, Y )

fig, ax = plt.subplots(1,1,figsize=([10,7]) )

# contour plot with color bar for values
cont = ax.contourf( X, Y, Z, 20, cmap='RdBu' )	
cbar = fig.colorbar( cont, ax=ax )	
ax.set_xlabel( "$x$")
ax.set_ylabel( "$y$" )

plt.show()

### Korrelation und Kausalität
In vielen Bereichen der öffentlichen Diskussion können Sie gelegentlich einen logischen Fehlschluss beobachten. Dieser wird mit dem Begriff **Scheinkorrelation** oder auch mit dem lateinischen Ausdruck *cum hoc ergo propter hoc* ("mit diesem, folglich deswegen") bezeichnet. Dieser Fehlschluss folgert aus einer Korrelation zwischen zwei Zufallsvariablen $x$ und $y$ ($\rho_{xy}\neq 0$) einen direkten kausalen Zusammenhang, der aber nicht zwangsläufig existiert.  In Wirklichkeit gibt es mehrere Möglichkeiten des Zusammenhangs:
- (Echter) **kausaler Zusammenhang**: $x$ ist der Grund für $y$ oder umgekehrt.
- **Zufällige** Korrelation: $x$ und $y$ sind ohne jeden Zusammenhang.
- **Indirekte** Korrelation: $x$ und $y$ besitzen eine gemeinsame Ursache.

>**Scheinkorrelationen**: 
>
> Es gibt eine Reihe kurioser Beispiele für Scheinkorrelationen, z. B.: 
>- Die Aussage "Bier verursacht Sonnenbrand" deutet auf eine indirekte Korrelation über eine gemeinsame Ursache hin: Sonnenschein könnte sowohl zu erhöhtem Bierkonsum und zu Sonnenbrand führen.
>- Das "Mierscheid-Gesetz" – benannt nach dem fiktiven SPD-Bundestagsabgeordneten Jakob Maria Mierscheid – besagt, dass der Stimmenanteil der SPD bei der Bundestagswahl der Rohstahlproduktion in alten Bundesländern in Millionen Tonnen entspricht. Dies dürfte eine zufällige Korrelation sein. Die Zahlen für Gesamtdeutschland für das Jahr 2024 von 37.2 Millionen Tonnen (Quelle: [Wirtschaftsvereinigung Stahl](https://www.wvstahl.de/pressemitteilungen/rohstahlproduktion-in-deutschland-auch-2024-endet-auf-rezessionsniveau/)) und der Ausgang der Bundestagswahl 2025 entsprechen dem Mierschied-Gesetz ebenfalls nicht.
>
>Die Webseite [correlated.org](https://www.correlated.org) listet täglich eine Scheinkorrelation.

### Kovarianzmatrix
Varianzen und Kovarianzen für zwei oder mehr Zufallsvariable lassen sich kompakt in Matrixform zusammenfassen. Diese **Kovarianzmatrix** ist die Verallgemeinerung der Varianz für mehr als eine Zufallsvariable. Die Kovarianzmatrix fasst Information über die Zusammenhänge zwischen Paaren von Zufallsvariablen zusammen und stellt damit ein wichtiges Konzept in der multivariaten Parameterschätzung dar. Für zwei Zufallsvariablen $x$ und $y$ ist sie gegeben durch:
$$
\mathbf{V} \equiv \begin{pmatrix}
\mathsf{V}[x] & \mathsf{Cov}(x,y) \\
\mathsf{Cov}(y,x) & \mathsf{V}[y]
\end{pmatrix} 
\equiv 
\begin{pmatrix}
\sigma_x^2 & \sigma_{xy}\\
\sigma_{yx} & \sigma_y^2
\end{pmatrix}
= \begin{pmatrix}
\sigma_x^2 & \rho_{xy}\cdot\sigma_x\cdot\sigma_y\\
\rho_{yx}\cdot\sigma_y\cdot\sigma_x & \sigma_y^2
\end{pmatrix}. 
$$
Die Diagonalelement der Kovarianzmatrix sind die Varianzen $\mathsf{V}[x]$ und $\mathsf{V}[y]$, die Off-Diagonalelemente beinhalten die Kovarianz $\mathsf{Cov}(x,y)=\mathsf{Cov}(y,x)\equiv\sigma_{xy}=\rho_{xy}\cdot\sigma_x\cdot\sigma_y$. Somit ist für zwei Zufallsvariablen $\mathbf{V}$ eine symmetrische $2\times 2$-Matrix und beinhaltet drei unabhängige Größen.

Oft wird anstatt der Kovarianzmatrix die **Korrelationsmatrix** angegeben. Dazu werden, analog zur Definition des Korrelationskoeffizienten, alle Elemente $V_{ij}$ der Kovarianzmatrix mit dem Produkt der Standardabweichungen $\sigma_i\cdot\sigma_j$ ($i,j=x,y$) normiert. Die Diagonalelemente nehmen dann den Wert Eins an und auf der Off-Diagonalen findet sich der Korrelationskoeffizient $\rho_{xy}$:
$$
\mathbf{R} = \begin{pmatrix}
1 & \rho_{xy} \\
\rho_{xy} & 1 
\end{pmatrix}.
$$

Die Kovarianzmatrix (und die Korrelationsmatrix) lässt sich auf $n$ Zufallsvariablen $x_i$ erweitern. Die Kovarianzmatrix ist dann eine symmetrische $n\times n$-Matrix mit folgenden Elementen:
$$
V_{ij} =  \mathsf{E}[ ( x_i- \mathsf{E}[x_i] )( x_j- \mathsf{E}[x_j] ) ] = \mathsf{Cov}(x_i, x_j).
$$
Mit dem Verschiebungssatz lassen sich die Elemente auch schreiben als
$$
V_{ij} = \mathsf{E}[x_i\cdot x_j]-\mathsf{E}[x_i]\cdot\mathsf{E}[x_j].
$$

#### Beispiel: Konstruktion der Kovarianzmatrix
Am Anfang dieses Kapitels wurde das Modell einer Messung eingeführt: $m=w+z$. Nun soll dieses Modell erweitert werden: die zufälligen Beiträge bestehen aus Beiträgen $z_i$, die für jede Messung $m_i$ unabhängig sind (typisch für Beiträge aufgrund statistischer Unsicherheiten), und aus Beiträgen $z_g$, die für alle Messungen gleich sind (typisch für Beiträge aufgrund systematischer Unsicherheiten):
$$
m_i = w + z_i + z_g.
$$
Für dieses Modell soll jetzt explizit die Kovarianzmatrix konstruiert werden. Die Konstruktionsvorschrift lässt sich direkt aus der Definition der Kovarianz und der Anwendung des Verschiebungssatzes herleiten:
$$
\mathsf{Cov}(m_i,m_j)=
\mathsf{E}[(m_i-\mathsf{E}[m_i])(m_j-\mathsf{E}[m_j])].
$$
Wenn wir jetzt unser Modell für $m_i$ und $m_j$ einsetzen und berücksichtigen, dass 
- $\mathsf{E}[x]$ eine lineare Operation ist und 
- $\mathsf{E}[m_i]=w$, und entsprechend $\mathsf{E}[z_i]=\mathsf{E}[z_g]=0$
dann ergibt dies
$$
\mathsf{Cov}(m_i,m_j)=\mathsf{E}[(z_i+z_g)(z_j+z_g)] = 
\mathsf{E}[z_i z_j] + \mathsf{E}[z_i z_g] + \mathsf{E}[z_j z_g] + \mathsf{E}[z_g^2].
$$
Diese Summanden entsprechen den Kovarianzen der $z$ untereinander:
$$
\mathsf{Cov}(m_i,m_j)=\mathsf{Cov}(z_i,z_j) + \mathsf{Cov}(z_i,z_g) + \mathsf{Cov}(z_j,z_g) + \mathsf{Cov}(z_g,z_g).
$$
Jetzt müssen zwei Fälle unterschieden werden
1. Für $i\neq j$ sind $z_i$, $z_j$ und $z_g$ unabhängig voneinander und deren Kovarianzen verschwinden. Die Kovarianz von $z_g$ mit sich selbst ist die Varianz $\mathsf{V}[z_g]$.
2. Für $i=j$ ist $\mathsf{Cov}(z_i,z_i) = \mathsf{V}[z_i]$ und $\mathsf{Cov}(z_i,z_g)=0$.

Damit lässt sich die Kovarianzmatrix explizit konstruieren:
$$
\mathsf{Cov}(m_i,m_j)=
\begin{cases}
\mathsf{V}[z_g] & i\neq j,\\
\mathsf{V}[z_i] + \mathsf{V}[z_g] & i=j.
\end{cases}
$$

Die Konstruktionsvorschrift für die Kovarianzmatrix lässt sich also wie folgt in Worten zusammenfassen:
- Alle Matrixelemente beinhalten die Varianz aufgrund der gemeinsamen zufälligen Beiträge $z_g$.
- Für alle Diagonalelemente wird zu diesem gemeinsamen Beitrag die Varianz aufgrund der unabhängigen zufälligen Beiträge $z_i$ addiert. Diese Addition der Varianzen entspricht der quadratischen Addition der Standardabweichungen $\sigma_{z_i}^2 + \sigma_{z_g}^2$.

Die Kovarianzmatrix lautet dann:
$$
\mathbf{V} = 
\begin{pmatrix}
\mathsf{V}[z_1] + \mathsf{V}[z_g] & \mathsf{V}[z_g] & \cdots & \mathsf{V}[z_g] \\
\mathsf{V}[z_g] & \mathsf{V}[z_2] + \mathsf{V}[z_g] & \cdots & \mathsf{V}[z_g] \\
\vdots & \vdots & \ddots & \vdots \\
\mathsf{V}[z_g] & \cdots & \cdots & \mathsf{V}[z_n] + \mathsf{V}[z_g] 
\end{pmatrix}.
$$

#### Multivariate Normalverteilung
Die mehrdimensionale Verallgemeinerung der Normalverteilung wird als multivariate Normalverteilung bezeichnet. Zur Erinnerung: die (univariate) Normalverteilung mit der PDF
$$
f(x;\mu,\sigma) = \frac{1}{\sqrt{2\pi}\sigma}
\exp\left[ 
-\frac{(x-\mu)^2}{2\sigma^2}
\right]
$$
ist von zwei Parametern abhängig:
- Lokalisierungsparameter $\mu$, entspricht dem Erwartungswert: $\mathsf{E}[x] = \mu$ der PDF $f(x;\mu,\sigma)$, und
- Skalierungsparameter $\sigma$, entspricht der Standardabweichung der PDF $f(x;\mu,\sigma)$, d. h. das Quadrat dieser Größe entspricht der Varianz: $\mathsf{V}[x] = \sigma^2$.

Die **multivariate Normalverteilung** in $n$ Dimensionen besitzt analog die PDF
$$
f(\mathbf{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) = 
\frac{1}{(2\pi)^{\frac{n}{2}} (\det \boldsymbol{\Sigma})^{\frac{1}{2}}}
\exp\left[
-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x}- \boldsymbol{\mu}) 
\right]
$$
und ist eine Funktion des Vektors der Zufallsvariablen $\mathbf{x}=(x_1, \dots, x_n)^T$, die von folgenden Parametern abhängt:
- Vektor der Mittelwerte $\boldsymbol{\mu} = (\mu_1, \dots \mu_n)^T$, entspricht dem Erwartungswert des Vektors der Zufallsvariablen: $\mathsf{E}[\mathbf{x}] = \boldsymbol{\mu}$ 
- Matrix der Streuungen und Korrelationen $\boldsymbol{\Sigma}$, entspricht der Kovarianzmatrix: $\mathbf{V}[\mathbf{x}]=\boldsymbol{\Sigma}$, mit
$$
\boldsymbol{\Sigma} =
\begin{pmatrix}
\sigma_1^2 & \cdots & \rho_{1n}\,\sigma_1\sigma_n\\
\vdots & \ddots & \vdots\\
\rho_{1n}\,\sigma_n\sigma_1 & \cdots & \sigma_n^2
\end{pmatrix}
$$
In der PDF werden sowohl die Determinante  $\det\boldsymbol{\Sigma}$ als auch die Inverse $\boldsymbol{\Sigma}^{-1}$ der Matrix der Streuungen und Korrelationen benötigt.

In den obigen Codebeispielen ist diese Kovarianzmatrix für zwei Dimensionen in der Funktion `build_cov()` bereits explizit aus Streuungen und Korrelationen konstruiert worden. 