# Kapitel 4: Statistische Datenanalyse II – Parameterschätzung (Teil 2)

## Funktionsanpassung in der Praxis
Heute findet die Auswertung von Messdaten in den Natur- und Ingenieurwissenschaften praktisch immer am Computer statt. Einige historische Praktiken sind dennoch auch heute noch geläufig.

>**Ausgleichsgerade früher**
>
>In früheren Zeiten wurden Daten, z. B. in physikalischen Praktika, per Hand ausgewertet. Die Datenpunkte wurde auf einem Blatt Papier oder besser in einem Laborbuch notiert und dann auf Millimeterpapier gegeneinander aufgetragen. Dann wurde mit einem Linear und scharfem Auge eine Ausgleichsgerade eingezeichnet und deren Parameter am Millimeterpapier abgelesen:
>
><img src="img/graph_paper.png" width="50%">



>**Ausgleichsgerade mittels Tabellenkalkulation**
>
>Programmpakete für **Tabellenkalkulation** (engl.: spreadsheet) wie Microsoft Excel, Apple Numbers oder OpenOffice Calc sind weit verbreitet. Sie besitzen eine Reihe eingebauter Funktionen zur statistischen Analyse und grafischen Darstellung von Datentabellen. Diese Funktionen sind für die Datenauswertung im physikalischen Praktikum und in der naturwissenschaftlichen Forschung **ungeeignet**, insbesondere mit ihren Voreinstellungen. Die wesentlichen problematischen Punkte sollen hier am Beispiel der Ausgleichsgerade in Excel kurz dargestellt werden. 
>- Wir starten  von einer Excel-Tabelle mit Datenpunkten $(x_i,y_i)$, wobei die $x_i$ exakt bekannt sind und die $y_i$ eine Unsicherheit $\sigma_i\equiv ey$ besitzen. Die Datenpunkte wurden zufällig aus der Geraden $y=0.3x+1$ mit einer relativen Unsicherheit von $\sigma_i/y_i=0.1$ generiert.
>
>    x	| y	| ey 
>   ---|---|---
>   1.0|	1.24|	0.13
>   2.0|	1.60|	0.16
>   3.0|	1.70|	0.19
>   4.0|	1.95|	0.22
>   5.0|	2.26|	0.25
>   6.0|	3.21|	0.28
>   7.0|	3.13|	0.31
>   8.0|	3.10|	0.34
>   9.0|	3.39|	0.37
>   10.0|	4.32|	0.40
>
>$\,$
>- Die ersten beiden Spalten der Tabelle werden markiert und ein Streudiagramm einfügen (Tab *Einfügen*, *Punkt (XY)*). Dabei werden ggf. die Datenpunkte automatisch mit Liniensegmenten verbunden, obwohl keine Annahmen zu $x$-Werten zwischen den $x_i$ bekannt sind. Diese müssen zunächst ausgeschaltet werden (Datenpunkte markieren, im Formatierungsmenü *Keine Linie* auswählen). 
>- Dann fügen wir die Option für Unsicherheitsbalken hinzu (Tab *Diagrammentwurf*, *Diagrammelement hinzufügen*, *Fehlerindikatoren*, *Weitere Fehlerindikatoroptionen*), markieren und löschen die horizontalen Unsicherheitsbalken und konfigurieren die vertikalen Unsicherheitsbalken (*Fehlerbetrag*, *Benutzerdefiniert*, für positiven und negativen Wert die Spalte $ey$ auswählen). 
>- Die Ausgleichsgerade wird erstellt, indemiIm Kontextmenü der Datenpunkte *Trendlinie hinzufügen...* ausgewählt wird. Damit erscheint eine Gerade im Diagramm, mit *Formel im Diagramm anzeigen* erscheinen auch Steigung und Achsenabschnitt, allerdings nicht deren Unsicherheiten. Weitere Informationen zur Trendlinie bekommen Sie mit *Bestimmtheitsmaß im Diagramm darstellen*. Die Definition der Größe "Bestimmtheitsmaß" wird weiter unten diskutiert.
>- Excel besitzt die Funktion `RGP` (engl.: `LINEST`) für Ausgleichsgeraden mit der LS-Methode. Diese besitzt eine Option um weitere Parameter der Anpassung auszugeben (`Stats=WAHR`): Parameterwerte (Steigung und $y$-Achsenabschnitt) und deren Unsicherheiten, Bestimmtheitsmaß und Streuung der $y$-Werte, F-Statistik, Anzahl der Freiheitsgrade, Summe der Residuenquadrate und Residuenquadrate.
>
>Das **Bestimmtheitsmaß $R^2$** (engl.: coefficient of determination) wird in vielen Wissenschaftsdisziplinen verwendet, um die Güte einer Modellfunktion zu erklären. $R^2$ ist ein Maß dafür, welcher Anteil der Streuung der Daten $y_i$ vom Modell $\lambda_i$ erklärt wird und welcher Anteil unerklärt bleibt. Ein hohes Bestimmtheitsmaß spricht für eine gute Übereinstimmt. Dazu wird die Abweichung der $y_i$ von ihrem arithmetischen Mittel $\overline{y}$ in einen erklärten und einen unerklärten Teil aufgeteilt:
>$$
y_i - \overline{y} = 
\underbrace{( \lambda_i - \overline{y} )}_{\textsf{erklärt}} + 
\underbrace{( y_i - \lambda_i )}_{\textsf{unerklärt}}.
>$$ 
>Das Bestimmtheitsmaß ist dann definiert als
>$$
R^2 \equiv
\frac{\sum_i (\lambda_i - \overline{y})^2}{\sum_i (y_i - \overline{y})^2} =
 1 - \frac{\sum_i ( y_i - \lambda_i)^2}{\sum_i (y_i - \overline{y})^2}.
>$$
>Je kleiner der unerklärte Teil relativ zum erklärten Teil ist, desto näher liegt das Bestimmtheitsmaß an eins. Wenn die Modellfunktion wie im Fall der Ausgleichsgerade linear in den Positionen $x_i$ ist, entspricht $R^2$ dem Quadrat des Korrelationskoeffizienten $\rho_{xy}$.
>
>Problematische Punkte beim Einsatz von Tabellenkalkulationsprogrammen in der Datenauswertung in der Physik sind unter anderem:
>- Im Sinne eines gut kontrollierten und dokumentierten **Arbeitsablaufs** ist dieser Ansatz einem Python-Skript deutlich unterlegen. 
>- Tabellenkalkulationen "sprechen eine andere Sprache" als die Parameterschätzung in der Physik. Die Begrifflichkeiten müssen ggf. übersetzt werden.
>- In der Physik werden Datenpunkte **immer mit Unsicherheiten** angegeben. Es gibt in Excel keine Möglichkeit, diese Unsicherheiten in die Anpassung einfließen zu lassen. Dies entspricht der **gewöhnlichen LS-Methode** (engl.: ordinary least squares, OLS) mit $\sigma_i=1$, die ohne ein sinnvolles Modell der Unsicherheiten oft angenommen wird und somit   (fast immer) **keine korrekten Parameterunsicherheiten** liefert:
>$$
S_\mathsf{OLS} \equiv \sum_{i=1}^{n} (y_i - \lambda_i(x_i;\mathbf{a}))^2
\overset{!}{=}\mathsf{min}
>$$

###  Güte der Anpassung: Beispiel
Im folgenden Codebeispiel werden zehn entlang einer linearen Funktion zufällig generierte Datenpunkte und deren Unsicherheiten an eine Gerade und an eine Parabel angepasst. Die $\chi^2$-Wahrscheinlichkeiten werden als Maß für die Güte der Anpassung herangezogen, um zu überprüfen welche der Modellfunktionen (linear oder quadratisch) am besten zu den Daten passt und ob die Unsicherheiten korrekt abgeschätzt wurden.

In [None]:

"""Compare synthetic data from a linear model and fit to a linear and quadratic model"""
import numpy as np
import matplotlib.pyplot as plt 
from scipy.optimize import curve_fit
from scipy.stats import chi2

# range of values
n, xmin, xmax = 10, 1., 10.
xdata = np.linspace( xmin, xmax, n )

def lin_model( x, a0=1., a1=1. ):
	'''linear model (straight line)'''
	return a0 + a1*x
	
def quad_model( x, a0=1., a1=1., a2=1. ):
	'''quadratic model (parabola)'''
	return a0 + ( a1 + a2*x ) * x
	
def fit_model( func, name, ey, ax, abs_sigma=True ):
    """fit to synthetic data using scipy.optimize.curve_fit"""
	
    # perform the fit
    popt, pcov = curve_fit( func, xdata, ydata, sigma=ey, absolute_sigma=abs_sigma )

    # compute sum of squared residuals "manually"
    S = np.sum( ( ( ydata - func( xdata, *popt ) ) / ey  )**2 )
    ndof = n - len( popt ) # number of data points minus number of parameters
    prob = 1. - chi2.cdf( S, ndof )
    print( "Results using scipy.optimize.curve_fit (%s model)" % name )
    print( "  Parameters:                  ", popt )
    print( "  Uncertainties:               ", np.sqrt( np.diag(pcov) ) )
    print( "  Covariance matrix:\n", pcov )
    print( "  chi2, ndof, chi2/ndof, prob: ", S, ndof, S/ndof, prob )

    # plot
    ax.set_ylim( 0, 5 )
    ax.errorbar( xdata, ydata, yerr=ey, fmt='bo')
    ax.plot( xrange, func( xrange, *popt), 'r' ) 
    ax.text( 1, 4.5, "%s model:" % name )
    ax.text( 1, 4.25, r"$\chi^2/n_{\mathsf{dof}} = %4.2f/%d$" % (S, ndof))
    ax.text( 1, 4.0, r"$P_{\chi^2} = %4.2e$" % prob )
    if( func == lin_model ):
        ax.text( 1, 3.75, r"$\hat{a}_0 = %4.2f \pm %4.2f$" % ( popt[0], np.sqrt( pcov[0][0] ) ) )
        ax.text( 1, 3.5, r"$\hat{a}_1 = %4.2f \pm %4.2f$" % ( popt[1], np.sqrt( pcov[1][1] ) ) )

    return

# true parameter values
lin_model_pars  = [ 1.0, 0.3 ]

# relative uncertaintly of y values (assuming x values do not have uncertainties)
ey_rel = 0.1

# use hard-coded xy values according to this model directly
xrange = np.linspace( 0.5, 10.5, 200 )
xdata = np.array( [ 1.,  2.,  3.,  4. , 5.,  6. , 7.,  8.,  9., 10.] )
ydata = np.array( [ 1.23912799, 1.59626873, 1.69944363, 1.95397332, 2.26423559, 3.20817472, 3.12755677, 3.09552808, 3.39170581, 4.31564169 ] )


# fit and plot linear and quadratic model to four different uncertainty models
fig,ax = plt.subplots( 2, 4, figsize=(15,10))

# uncertainty model 1: 10% relative to true y value
ey1 = 0.1 * lin_model( xdata, *lin_model_pars ) 
fit_model( lin_model, "linear", ey1, ax[0][0] )
fit_model( quad_model, "quadratic", ey1, ax[1][0] )

# uncertainty model 2: all uncertainties divided by two
ey2 = 0.5*ey1
fit_model( lin_model, "linear", ey2, ax[0][1] )
fit_model( quad_model, "quadratic", ey2, ax[1][1] )

# uncertainty model 3: OLS fit – aka the Excel way: all uncertainties = 1
ey3 = np.ones( n ) 
fit_model( lin_model, "linear", ey3, ax[0][2] )
fit_model( quad_model, "quadratic", ey3, ax[1][2] )

# uncertainty model 4: curve_fit default - scaling of covariance matrix for chi2/dof=1
ey4 = ey1
fit_model( lin_model, "linear", ey4, ax[0][3], False )
fit_model( quad_model, "quadratic", ey4, ax[1][3], False )

plt.show()


Die vier im obigen Beispiel verwendeten Unsicherheitsmodelle und ihr Einfluss auf die Güte der Anpassung werden hier kurz diskutiert:
1. Relative Unsicherheit von 10% des wahren $y$-Werts. Dieses Modell ergibt für eine lineare Funktion eine $\chi^2$-Wahrscheinlichkeit von 59% bzw. ein $\chi^2$-Wert von 6.53 für acht Freiheitsgrade. Dies ist in der Nähe von $\chi^2/n_\mathsf{dof}=1$ und spricht für eine **gute Anpassung**. Dies ist auch daran ersichtlich, dass von den zehn Datenpunkten acht oder neun innerhalb ihrer Unsicherheiten mit der Gerade vereinbar sind. Für die übliche (frequentistische) Interpretation der Unsicherheitsbalken als 68.3% Abdeckung des wahren Werts durch das Konfidenzintervall wird das für ungefähr sieben Datenpunkte erwartet.
Für eine quadratische Funktion ist die Güte der Anpassung ähnlich gut, mit einer etwas schlechteren $\chi^2$-Wahrscheinlichkeit. Anhand dieser Kriterien lässt sich nicht entscheiden, welche Modellfunktion die bessere ist. Ohne weitere Angaben sollte nach der Methode des [Ockham-Rasiermesser](https://de.wikipedia.org/w/index.php?title=Ockhams_Rasiermesser) das Modell mit **weniger Parametern** gewählt werden, d. h. das lineare Modell. Wenn es physikalisch besser motiviert wäre, könnte trotzdem das quadratische Modell gewählt werden.
1. Relative Unsicherheit von 5% des wahren $y$-Werts. Dieses Modell ergibt für die lineare Funktion eine $\chi^2$-Wahrscheinlichkeit von $10^{-3}$ bzw. ein $\chi^2$-Wert von 26.11 für acht Freiheitsgrade. Die Unsicherheiten sind also **deutlich zu klein** abgeschätzt, sieben Datenpunkte sind **innerhalb der Unsicherheiten nicht mit der Gerade vereinbar**. Dasselbe gilt für das quadratische Modell. Es wäre auch denkbar, dass die Modelle ungeeignet sind; dies kann ohne weiteres Wissen über Daten und Modell nicht entschieden werden.
1. Gewöhnliche (ungewichtete) lineare Regression, also $\sigma_i=1$. Sie sehen auf den ersten Blick, dass alle Unsicherheitsbalken viel zu groß sind, so dass alle Datenpunkte deutlich mit der Kurve vereinbar sind. Dies zeigt sich auch in der $\chi^2$-Wahrscheinlichkeit von 1 und $\chi^2/n_\mathsf{dof}=0.56/8$. Die **Übereinstimmung ist "zu gut"** und die Unsicherheitsbalken entsprechen nicht der üblichen 68.3%-Interpretation. Das führt dazu, dass die geschätzten Unsicherheiten auf die Parameter viel zu groß sind und sich die Parameterwerte im Vergleich zu den vorherigen Unsicherheitsmodellen leicht erschieben. Dies wäre die Lösung gewesen, die Sie mit Werkzeugen wie Excel bekommen hätten– für das physikalische Praktikum unbrauchbar!
1. Relative Unsicherheit von 10% des wahren $y$-Werts und Voreinstellungen von `scipy.optimize.curve_fit` bezüglich der Verwendung der Unsicherheiten. Die Einstellung `absolute_sigma=False` bedeutet, dass die **absoluten Werte der Unsicherheiten ignoriert** werden und nur die relative Verteilung der Unsicherheiten zwischen den Datenpunkten verwendet wird. Die Kovarianzmatrix und damit alle Unsicherheiten werden dann gemeinsam so skaliert, dass $\chi^2/n_\mathsf{dof}=1$ erfüllt ist. Dies zeigt sich auch in den Unsicherheiten der Modellparameter, die etwas kleiner sind als im ersten Modell. Dies mag bei nicht genau bekanntem Unsicherheitsmodell sinnvoll sein, aber in der Physik wird das Unsicherheitsmodell in der Regel *vor* der Anpassung festgelegt. Dieses Beispiel zeigt, dass es bei Software zur Datenauswertung immer wichtig ist, auf das "Kleingedruckte" in der Dokumentation zu achen.

### PhyPraKit und kafe2: Karlsruher Werkzeuge zur Parameterschätzung
Am Institut für Experimentelle Teilchenphysik des KIT wurden in den letzten Jahren Softwarewerkzeuge entwickelt, die mit Vorkenntnissen in Python leicht zu bedienen sind und viele Standardaufgaben im physikalischen Praktikum korrekt und besser als Tabellenkalkulationen oder Standardpakete in NumPy/SciPy erledigen. Das Paket [`PhyPraKit`](https://etpwww.etp.kit.edu/~quast/PhyPraKit/htmldoc/) beinhaltet u. a.:
- Eingabe und Ausgabe von Daten mit Interfaces zu den im Praktikum eingesetzten Messgeräten.
- Digitale Signalverarbeitung: Filterung zur Glättung und Suche nach Maxima und Kanten, FFT und Autokorrelation (siehe Kapitel 3).
- Statistische Auswertung: Mittelwerte, Kovarianzmatrizen, Fortpflanzung von Unsicherheiten.
- Arbeit mit histogrammierten Daten.
- Funktionsanpassung an Daten mit der Methode der kleinsten Quadrate und der Maximum-Likelihood-Methode und Visualisierung, inklusive $x$- und $y$-Unsicherheiten und deren mögliche Korrelation (Erinnerung: in der LS-Methode können i.d.R. nur Unsicherheiten in $y$ berücksichtigt werden).
- Erzeugung von synthetischen Daten mit der Monte-Carlo-Methode.

Für die Funktionsanpassung verwendet `PhyPraKit` intern das Open-Source-Paket [`kafe2`](https://kafe2.readthedocs.io/en/latest/) (Karlsruhe Fit Environment), das aktuelle statistische Methoden mit einem einfachen und schnellen Interface zugänglich macht und dabei qualitativ hochwertige Plots erzeugt. Es gibt mehrere Möglichkeiten, mit `kafe2` zu arbeiten:
- `PhyPraKit` bietet einfach zu verwendende Funktionen, die `kafe2`-Methoden aufrufen.
- Vergleichbar einfach zu verwenden sind die Wrapper-Funktionen, die `kafe2` selbst für seine wichtigsten Methoden bietet.
- `kafe2` kann auch als einzelnes Programm auf der Kommandozeile aufgerufen werden (`kafe2go`), wobei es über YAML-Dateien konfiguriert wird. 

>**Empfehlung**: Wir empfehlen die Verwendung von `PhyPraKit` und `kafe2` für das physikalischen Praktikum am KIT. Ein Teil der Funktionalität dieser Programme kann auch einfach in Python mit NumPy und SciPy (oder mit anderen Softwarepaketen) erreicht werden – alle bisherigen Beispielprogramme zeigen dies. Andere Dinge sind nur mit einigem Mehraufwand möglich, z. B. die korrekte Behandlung von (ggf. korrelierten) $x$- und $y$-Unsicherheiten.

Das Beispiel einer Ausgleichsgerade soll jetzt in einem Codebeispiel mit `kafe2` durchgeführt werden. Dieses Paket besitzt Wrapper-Funktionen für Anpassungen (`kafe2.xy_fit()`) und deren grafische Darstellung (`kafe2.plot()`), mit denen die unterliegenden Methoden aufgerufen werden. Auch das Paket `PhyPraKit` für das physikalische Praktikum enthält ein einfaches Interface zu diesen Methoden (`PhyPraKit.k2Fit()`), das allerdings nur noch aus Gründen der Kompatibilität mit früheren Versionen vorhanden ist.  
 
Im Codebeispiel soll eine Ausgleichsgerade zur Bestimmung eines elektrischen Widerstandes $R$ bzw. des Leitwerts $G=1/R$ bestimmt werden. Dazu werden die gemessenen Spannnungen $V$ und Ströme $I$ aus einer CSV-Datei eingelesen und mit dem ohmschen Gesetz in den Formen $I = GV$ (linear im Parameter $G$) und $I=V/R$ (nichtlinear im Parameter $R$) und alternativ mit einer linearen Funktion mit zwei Parametern $I=GV+I_0$ angepasst. Der Vergleich der Modelle mit einem und zwei Parametern zeigt, dass $I_0$ mit Null verträglich ist und nur zu einer größeren Unsicherheit auf $G$ führt. Das ohmsche Gesetz als einfachstes Modell zur Beschreibung der Daten wird also bevorzugt.

Ein nützliches Feature von `kafe2` zur besonders anschaulichen Visualisierung von Funktionsanpassungen stellen die Unsicherheitsbänder um den Funktionsgraphen dar. Diese zeigen als Einhüllende die maximal erlaubte Variation der Modellparameter im Rahmen der Unsicherheiten.

In [None]:
"""Using PhyPraKit for a straight line fit in the laboratory course: Ohm's law as an example"""

#magic command needed to display plots inline
%matplotlib ipympl

import numpy as np
import matplotlib.pyplot as plt 
import kafe2
#legacy PhyPraKit wrapper function: from PhyPraKit import k2Fit

def ohm_model_G( V, G=1. ):
	'''Ohm's Law using conductance'''
	return G*V

def ohm_model_R( V, R=1. ):
	'''Ohm's Law using resistance'''
	return V/R

def lin_model( V, G=1., I0=0. ):
	'''linear model (straight line)'''
	return G*V + I0
	
# absolute uncertainties in x and y
ex, ey = 0.015, 0.015

# read data from CSV file
data = np.genfromtxt('data/DataOhmsLaw.csv', delimiter=",", skip_header=3 )
V, I = data[:,0], data[:,1]
labels = [ r"$V$ (V)", r"$I$ (A)" ]

# straight line fit: use kafe2 wrapper function xy_fit() for fitting and plot() plotting
# Note: without setting save=False, a file with fit results would be saved

# fit to Ohm's law with conductance G
result_ohm_G = kafe2.xy_fit( ohm_model_G, V, I, x_error=ex, y_error=ey, save=False )
kafe2.plot( x_label=labels[0], y_label=labels[1], save=False )

# fit to Ohm's law with resistance R
result_ohm_R = kafe2.xy_fit( ohm_model_R, V, I, x_error=ex, y_error=ey, save=False )
kafe2.plot( x_label=labels[0], y_label=labels[1], save=False )

# fit to linear model with additional current I0
result_lin = kafe2.xy_fit( lin_model, V, I, x_error=ex, y_error=ey, save=False )
kafe2.plot( x_label=labels[0], y_label=labels[1], save=False )
print( result_lin )

# legacy code for backwards compatibility using PhyPraKit.k2Fit()
#par, pare, corr, S = k2Fit( ohm_model_G, V, I, sx=ex, sy=ey, axis_labels=labels )
#par, pare, corr, S = k2Fit( ohm_model_R, V, I, sx=ex, sy=ey, axis_labels=labels )
#par, pare, corr, S = k2Fit( lin_model, V, I, sx=ex, sy=ey, axis_labels=labels )
#print( par, pare, corr, S )

### Kleinste Quadrate mit Unsicherheiten in $x$ und $y$
In der Physik werden, im Unterschied zu einigen anderen Wissenschaftsdisziplinen, **Messwerte wo immer möglich mit Unsicherheiten** versehen. Innerhalb der Methode der kleinsten Quadrate besitzen die $y_i$ Unsicherheiten, aber wir haben bislang die Positionen $x_i$ immer als **exakt bekannt** angenommen. Mit einer Modellfunktion, die linear in den Parameter ist, ergab sich so die lineare LS-Methode, für es eine analytische Lösung gibt. 

Es ist allerdings viel realistischer anzunehmen – auch bereits im physikalischen Praktikum, dass auch die $x_i$ Unsicherheiten besitzen. Möglicherweise sind die Unsicherheiten der $x_i$ und der $y_i$ sogar miteinander korreliert. Dies erfordert eine Erweiterung der LS-Methode, die die Gleichungen auf jeden Fall nichtlinear macht, so dass eine numerische Lösung erforderlich ist. Mit modernen Computern und Minimierungsalgorithmen stellt dies in der Praxis kein Hindernis dar. In Standardprogrammen zur Anpassung von Funktionen an Daten ist diese Funktionalität allerdings oft gar nicht vorhanden, wie im Fall von `scipy.optimize.curve_fit`, oder in den Einstellung "versteckt". 

Diese "Marktlücke" für das physikalische Praktikum und darüber hinaus füllt das oben vorgestellte Paket [`kafe2`](https://kafe2.readthedocs.io/en/latest/) bzw. Anpassungsfunktionen aus [`PhyPraKit`](https://etpwww.etp.kit.edu/~quast/PhyPraKit/htmldoc/), die auf [`kafe2`](https://kafe2.readthedocs.io/en/latest/) zurückgreifen. Datenanalysepakete für die Teilchenphysik, wie das am CERN entwickelte Paket [`ROOT`](https://root.cern.ch), besitzen diese Funktionalität ebenfalls.

Die grundsätzliche Idee, Unsicherheiten in $x_i$ und $y_i$ korrekt zu behandelt, besteht darin, die Unsicherheiten in $x_i$ (quadratisch) zu den Unsicherheiten in $y_i$ zu addieren und damit die "effektive Varianz" der $y_i$ zu vergrößern. Geometrisch entspricht das der Bestimmung des zweidimensionalen Abstands $d$ des Datenpunkts von der Modellfunktion, gemessen in Richtung der Normalen, also senkrecht zur Kurve, und normiert auf die Unsicherheiten der $x_i$ und $y_i$. Dies ist in folgender Abbildung dargestellt:

<img src="img/xy_uncertainty.png" width=30%>

In der Praxis erfordert diese Aufgabenstellung eine iterative Lösung. Wir betrachten dazu zunächst den Fall, dass die Unsicherheiten $\sigma_{x_i}$ der $x_i$ und $\sigma_{y_i}$ der $y_i$ unkorreliert sind. Aus der Skizze kann für den Abstand des Datenpunkts von der Kurve abgelesen werden:
$$
d = (y_i - \lambda(x_i;\mathbf{a})) \cos\alpha.
$$
Der Winkel $\alpha$ kann nun mit der Steigung der Tangente an die Modellfunktion bestimmt werden:
$$
\frac{\partial \lambda(x;\mathbf{a})}{\partial x} \equiv \lambda^\prime = \tan\alpha.
$$
Damit muss die Summe der Residuenquadrate, die im Rahmen der LS-Methode minimiert werden muss, erweitert werden zu:
$$
S_e = \sum_{i=1}^{n} 
\frac{(y_i - \lambda(x_i;\mathbf{a}))^2\, \cos^2\alpha}
{\sigma_{y_i}^2 \cos^2 \alpha + \sigma_{x_i}^2 \sin^2 \alpha}
= \sum_{i=1}^{n} 
\frac{(y_i - \lambda(x_i;\mathbf{a}))^2}
{\sigma_{y_i}^2  + \sigma_{x_i}^2 \cdot(\lambda^\prime)^2},
$$
wobei wir $\sin^2 \alpha/\cos^2 \alpha = \tan^2 \alpha = \lambda^\prime$ verwendet haben. Ein Vergleich mit der ursprünglichen Summe der Residuenquadrate zeigt, dass die Varianz im Nenner ersetzt wurde durch
$$
{\sigma_{y_i}^2  + \sigma_{x_i}^2 \cdot(\lambda^\prime)^2}.
$$
In diesem Ausdruck wird zur Varianz in $y$ die Varianz in $x$ quadratisch addiert, womit sich die effektive Varianz der $y_i$ erhöht. Die Varianz in $x$ wird gewichtet mit dem Quadrat der Steigung $\lambda^\prime$: je steiler die Modellfunktion an der Position $x_i$ ist, desto größer ist der Einfluss der Unsicherheit von $x_i$ auf die effektive Varianz von $y_i$.

Der $x$-Wert, für den der Abstand senkrecht auf der Modellkurve steht, muss jetzt iterativ bestimmt werden. Der Algorithmus dazu besteht aus folgenden Schritten:
1. Zunächst wird eine Anpassung mit der bekannten Methode der kleinsten Quadrate *ohne Unsicherheiten in $x_i$* durchgeführt und ein erster Schätzwert für die Parameter $\hat{\mathbf{a}}$ gewonnen.
1. Ein erster Wert für die Steigung $\lambda^\prime$ wird durch *Einsetzen* von $\hat{\mathbf{a}}$ gewonnen. 
1. Mit diesem Wert für die Steigung wird die (erweiterte) Summe der Residuenquadrate minimiert und ein neuer Schätzwert $\hat{\mathbf{a}}$ gewonnen.
1. Mit diesem Wert für $\hat{\mathbf{a}}$ wird eine neue Steigung $\lambda^\prime$ bestimmt und der vorherige Schritt wiederholt.

Die Iteration sollte abgebrochen werden, wenn sich die geschätzten Parameterwerte nicht mehr signifikant ändern – dies ist normalerweise nach drei bis vier Iterationen erreicht.

Im allgemeinen Fall korrelierter Unsicherheiten in $x_i$ und $y_i$ kann analog vorgegangen werden. Die erweiterte Summe der Residuenquadrate ist dann gegeben durch:
$$
S_e = \sum\limits_{i,j=1}^n
(y_i - \lambda(x_i; \mathbf{a} ))\,
(V^{-1})_{ij}\,
(y_j - \lambda(x_j; \mathbf{a} )).
$$
Das $ij$-Element der Kovarianzmatrix der Unsicherheiten ist dabei die Summe der Elemente der Kovarianzmatrizen für die Unsicherheiten in $y$ und $x$, wobei die $x$-Unsicherheit mit dem Produkt der Steigungen der Kurve an den Punkten $x_i$ und $x_j$ gewichtet wird:
$$
V_{ij} = V^y_{ij} + V^x_{ij} \cdot \lambda^\prime(x_i) \cdot \lambda^\prime(x_j).
$$

Das folgende Codebeispiel zeigt die Anwendung der Funktion `kafe2.xy_fit()` auf simulierte Daten (generiert mit der Funktion `PhyPraKit.generateXYdata()`) mit korrelierten Unsicherheiten in $x$ und $y$. Der Vergleich zeigt, dass durch Berücksichtigung der $x$-Unsicherheit die Parameterunsicherheiten leicht ansteigen und die $\chi^2$-Wahrscheinlichkeiten als Maß für die Güter der Anpassung entsprechend größer werden. 

>**Bemerkung** Sie sehen in diesem (und im vorherigen) Beispiel auch zum ersten Mal **asymmetrische** Unsicherheiten, d. h. die Unsicherheitsintervalle für Werte größer und kleiner als der Schätzwert sind unterschiedlich. Diese Situation tritt bei der LS-Methode nur im nichtlinearen Fall auf. In der Maximum-Likelihood-Methode treten asymmetrische Unsicherheiten häufiger auf. In der grafischen Methode der Varianzbestimmung entspricht dies dem Fall, dass $S(a)$ nicht exakt parabelförmig ist. Es kann gezeigt werden, das auch in diesem Fall die Schnittpunkte von $\Delta S=1$ mit $S(a)$ das – dann asymmetrische – Unsicherheitsintervall bestimmen.

In [None]:
"""Using kafe2 for a straight line fit in the laboratory course: dealing with x and y uncertainties"""

#magic command needed to display plots inline
%matplotlib ipympl

import numpy as np
import matplotlib.pyplot as plt 
from PhyPraKit import generateXYdata
from kafe2 import xy_fit, plot

# range of values
n, xmin, xmax = 10, 1., 10.
xdata = np.linspace( xmin, xmax, n )

def lin_model( x, a0=1., a1=1. ):
	'''linear model (straight line)'''
	return a0 + a1*x

# true parameter values
lin_model_pars  = [ 1.0, 0.3 ]

# absolute uncertainty on x values, relative uncertainty on y
ey_rel = 0.1
ex = 0.3

# correlated uncertainties in both x and y
xcorr, ycorr = 0.1, 0.3

# generate synthetic data according to linear model
xtrue, ytrue, ydata = generateXYdata( xdata, lin_model, ex, 0., srely=ey_rel, mpar=lin_model_pars, xrelcor=xcorr, yrelcor=ycorr )
ey = ey_rel * ytrue 

# straight line fit with kafe
result = xy_fit( lin_model, xdata, ydata, x_error=0, y_error=ey, save=False )
plot( x_label="x", y_label="y", save=False )
print( "Linear fit with y uncertainties only")
print( "Parameters:    ", result['fit'].parameter_values )
print( "Uncertainties: ", result['fit'].parameter_errors )
print( "Correlation matrix:\n", result['fit'].parameter_cov_mat )
print( "chi2, ndof, chi2/ndof: ", result['goodness_of_fit'], result['ndf'], result['gof/ndf'] )

# straight line fit with kafe
result = xy_fit( lin_model, xdata, ydata, x_error=ex, y_error=ey, save=False )
plot( x_label="x", y_label="y", save=False )
print( "Linear fit with x and y uncertainties")
print( "Parameters:    ", result['fit'].parameter_values )
print( "Uncertainties: ", result['fit'].parameter_errors )
print( "Correlation matrix:\n", result['fit'].parameter_cov_mat )
print( "chi2, ndof, chi2/ndof: ", result['goodness_of_fit'], result['ndf'], result['gof/ndf'] )

### Zusatzmaterial: Parameterabhängige Unsicherheiten
Die LS-Methode erwartet für die Berechnung der Summe der Residuenquadrate die Varianz $\sigma_i^2$ des wahren Werts, also des Wertes der Modellfunktion an der Position $x_i$, $\lambda_i$. Diese ist aber häufig nicht bekannt und muss aus Daten über die Stichprobenvarianz $\hat{\sigma}^2$ geschätzt werden. Werden Unsicherheiten in absoluten Werten angegeben, ist dieser Unterschied oft vernachlässigbar. Werden allerdings **relative** Unsicherheiten verwendet, kann der Unterschied zu einer signifikanten **Verzerrung** (engl.: bias) des Ergebnisses führen. Beispiele dafür sind
- Relative Unsicherheit auf die Präzision eines Messgeräts, z. B. 1%: $\sigma_i \to \hat{\sigma}_i=0.01 y_i$
- Zählexperimente mit Poisson-Unsicherheiten: $\sigma_i \to \hat{\sigma}_i = \sqrt{y_i}$

In beiden Fällen entsteht die Verzerrung dadurch, dass für $y_i < \lambda_i$, d. h. für eine zufällige Abweichung der Messdaten zu kleineren Werten ("Abwärtsfluktuation"), die Unsicherheiten unterschätzt werden und gleichzeitig für $y_i > \lambda_i$, also eine zufällige Abweichung zu größeren Werten ("Aufwärtsfluktuationen"), die Unsicherheiten überschätzt werden. Die Unsicherheiten treten in der Summe der Residuenquadrate im Nenner auf. Daher bekommen bei der Anpassung der Modellfunktion **systematisch zu kleine Werte ein zu großes Gewicht und zu große Werte ein zu kleines Gewicht**. Damit wird die Anpassung "nach unten gezogen" und somit verzerrt. 

Eine mögliche Abhilfe schafft auch hier ein iterativer Ansatz: 
1. Anpassung an die Daten mit Schätzung der Varianz über die Stichprobeninvarianz.
1. Neue Anpassung an die Daten mit Varianz bestimmt aus den Modellparametern der letzten Anpassung.

Im folgenden Codebeispiel wird zur Illustration der Verzerrung und des iterativen Ansatzes eine Ausgleichsgerade an synthetische Daten mit einer relativen Unsicherheit von 30% angepasst. Einer der Datenpunkte ist manipuliert: er wird nach unten verschoben und besitzt daher eine sehr kleine absolute Unsicherheit. In der nächsten Iteration verwenden wir zur Bestimmung der relativen Unsicherheiten nicht die Messwerte $y_i$, sondern eine Auswertung der Modellfunktion an der Position der Messung, $\lambda_i$, mit den Parametern aus der letzten Anpassung. Nach fünf Iterationen ergeben sich stabile, unverzerrte Schätzwerte für die Parameter der Geraden.

In [None]:
"""Example: dealing with parameter-dependent uncertainties in kafe2"""

#magic command needed to display plots inline
%matplotlib ipympl

import numpy as np
import matplotlib.pyplot as plt 
from PhyPraKit import generateXYdata
from kafe2 import xy_fit, plot

# range of values
n, xmin, xmax = 10, 1., 10.
xdata = np.linspace( xmin, xmax, n )

def lin_model( x, a0=1., a1=1. ):
	'''linear model (straight line)'''
	return a0 + a1*x

# true parameter values
lin_modell_pars = [ 1.0, 0.3 ]

# generate synthetic data according to linear model
xtrue, ytrue, ydata = generateXYdata( xdata, lin_model, 0., 0., srely=ey_rel, mpar=lin_modell_pars )

# manipulate one data point to exaggerate the effect
ydata[3]=0.5

# compute relative uncertainties on y values (assuming x values do not have uncertainties)
ey_rel = 0.3
ey = ey_rel * ydata


# now iterate (niter times, until uncertainty stabilizes), replacing y uncertainty by result from previous fit
niter = 5
for i in np.arange( niter ):
	result = xy_fit( lin_model, xdata, ydata, y_error=ey, save=False )
	plot( x_label="x", y_label="y", save=False )
	par = result['fit'].parameter_values
	ey = ey_rel * lin_model( xdata, *par )	
	print( par )