Skript zum Kurs
# Computergestützte Datenauswertung
im Bachelorstudiengang Physik am Karlsruher Institut für Technologie (KIT)

U. Husemann (basierend auf Materialien von G. Quast, T. Ferber und U. Husemann)

Sommersemester 2025 
(aktuelle Version: März 2025)

>**Vorwort**
>
>Dieses Skript ist parallel zum Kurs Computergestützte Datenauswertung (CgDA) am Karlsruher Institut für Technologie (KIT) im Sommersemester 2024 entstanden. Das Skript folgt dem Inhalt der Vorlesungen eng, gibt einige Zusatzinformationen und ist sowohl zur Nachbereitung des Kurses als auch zum Selbststudium geeignet. Verfasst ist das Skript als Jupyter-Notebook, es integriert Text in Markdown mit Gleichungen in $\LaTeX$ und Computercode in Python.
>
>Das Ziel des Kurses CgDA ist die Vermittlung zentraler Schlüsselkompetenzen zum Umgangs mit Daten im Physikstudium und darüber hinaus. Diese Kompetenzen werden u. a. im physikalischen Praktikum angewendet. Die Inhalte des Kurses umfassen Grundlagen der digitalen Signalverarbeitung und der statistischen Datenanalyse. Die Vorlesungen führen in diese Themen ein und in den praktischen Übungen, die die Vorlesung eng begleiten, bekommen die Teilnehmenden die Gelegenheit, das Gelernte auf releveante Fragegestellung im Physikstudium anzuwenden. Zentrales Werkzeug des Kurses für die Verarbeitung und grafische Darstellung von Daten ist dabei die Programmiersprache Python mit den Programmbibliotheken NumPy und matplotlib.
>
>Im Bachelorstudiengang Physik am KIT ist der Kurs CgDA als verpflichtende Schlüsselqualifikation mit 2 ECTS-Punkten verankert und wird in der Regel im zweiten Fachsemester in Vorbereitung auf das physikalische Praktikum im dritten Fachsemester besucht. Eine englische Übersetzung ist parallel zu diesem Skript entstanden; sie soll unter anderem zur Wiederholung der Themen Signalverarbeitung und Datenanalyse im englischsprachigen Masterstudiengang "Physics" dienen.
>
>Das Konzept des Kurses CgDA wurde in weiten Teilen von Günter Quast entwickelt und durch wechselnde Dozent:innen weiter verfeinert. In der ursprünglichen Version wurden die Grundlagen des Werkzeugs Python "just in time" zusammen mit den inhaltlichen Themen Signalverarbeitung und Datenanalyse vermittelt. Seit dem Wintersemester 2023 wird im ersten Fachsemester des Bachelorstudiengangs Physik der neue Kurs "Programmieren und Algorithmen" angeboten. Die Verwendung von Python in CgDA baut auf diesem Kurs auf.
>
>Ulrich Husemann im März 2024

# Kapitel 1: Einführung


## Philosophie des Kurses

Das Qualifikationsziel des Kurses CgDA haben wir wie folgt formuliert: "Studierende beherrschen die Grundlagen der statistischen Analyse und der Visualisierung von Daten und können diese anhand konkreter Beispiele anwenden". Anders ausgedrückt sollen Sie in CgDA ein Grundverstännis für den Umgang mit Daten und das grundlegende Handwerkszeug für die Datenauswertung mit dem Computer in Ihrem Studium erlernen. Anwenden werden Sie dieses Werkzeug im physikalischen Praktikum ab dem dritten Fachsemester. Auf längere Sicht möchten wir erreichen, dass Sie den Computer kreativ zur Lösung wissenschaftlicher Probleme einsetzen können.

Diese Qualifikationsziele tragen in einem größeren Kontext zu Ihrer "Datenkompetenz" (oft wird auch der englische Begriff der "Data Literacy" verwendet). Daten werden oft als das "Gold des 21. Jahrhunderts" oder auch als das "Öl des 21. Jahrhunderts" bezeichnet. Demnach ist Datenkompetenz eine der zentralen Schlüsselkompetenzen des 21. Jahrhunderts.

> **Exkurs: Elemente der Datenkompetenz** 
> 1. Datenkultur etablieren
> 1. Daten bereitstellen
> 1. Daten auswerten
> 1. Ergebnisse interpretieren
> 1. Daten interpretieren
> 1. Handeln ableiten
>
> Quelle: [Kompetenzrahmen Datenkompetenz](https://hochschulforumdigitalisierung.de/sites/default/files/dateien/HFD_AP_Nr_47_DALI_Kompetenzrahmen_WEB.pdf)

Datenkompetenz müssen Sie Sie sich selbst erarbeiten: Sie lernen sie am besten durch *eigenes Ausprobieren*. Einen Überblick über die Konzepte und Hintergründe bekommen Sie in der Vorlesung. In den praktischen Übungen, die die Vorlesung begleiten, bekommen Sie die Gelegenheit, durch den eigenen Umgang mit Daten Einsichten in die Signalverarbeitung und in die statistische Datenanalyse zu erhalten. Gleichzeitig werden Sie Computercode entwickeln und so Ihren Werkzeugkasten in Sachen Programmieren erweitern. Das erfordert häufig die eigene Recherche in Online-Dokumentationen. Möglicherweise sind auch Methoden der generativen künstlichen Intelligenz geeignet für Ihrer Recherchen. Lernen im Team ist dabei ausdrücklich erwünscht!

>**Bemerkung**: Selbstverständlich war sich auch der große Meisterdetektiv Sherlock Holmes bereits der großen Bedeutung von Daten bewusst. In der Kurzgeschichte "A Scandal in Bohemia" von 1891 legt ihm Arthur Conan Doyle folgende Worte in den Mund:
>
> *"I have no data yet. It is a capital mistake to theorise before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts."*


## Computer und Daten in der Wissenschaft

Computer sind aus den modernen Wissenschaften nicht mehr wegzudenken. Typische Computeranwendungen in den Natur- und Ingenieurwissenschaften sind unter anderem:
>**Automatisierte Steuerung und Regelung von Experimenten.**
> Viele moderne Experimente werden von Computern gesteuert. Die Datennahme wird häufig über einen 
"Zustandsautomaten" (engl.: finite state machine, FSM) gesteuert, mit der das Experiment konfiguriert wird sowie Start und Stopp der Datennahme ausgelöst werden. Ebenfalls gesteuert werden z. B. das Ein- und Ausschalten der Spannungsversorgung, das Öffnen und Schließen von Ventilen, die Temperaturüberwachung oder die Stabilisierung der Temperatur. Auch Sicherheitsaspekte wie eine Notausschaltung sind computergesteuert. Häufig wird das (auch in Industrieanlagen) unter dem Oberbegriff "speicherprogrammierbare Steuerung" (eng.: programmable logic controller, PLC) zusammengefasst.

>**Erfassung, Speicherung und Auswertung von Messdaten.** 
> Die Messeinrichtungen eines Experiments liefern in der Regel elektrische Signale wie Ströme oder Spannungen, die durch ein elektronisches Datenerfassungssystem digitalisiert und weiterverarbeitet werden. Das Datenerfassungssystem ist häufig ein spezieller Computer, z. B. auf der Basis von programmierbarer Logik (engl.: field programmable gate array, FPGA). Die Speicherung und Auswertung der Daten geschieht dann meist mit Standardcomputern. Das Ablesen einer Skala eines Zeigermessgeräts  kommt praktisch nur noch in der Ausbildung vor. 

>**Algebraische und numerische Rechnungen und Simulationen.**
> Viele Vorgänge in Natur und Technik sind so kompliziert, dass sie sich durch analytische Rechnungen mit Papier und Bleistift nicht sinnvoll beschreiben lassen. Bei komplizierten analytischen Rechnungen kann Computeralgebra-Software helfen, Umformungen oder Vereinfachungen durchzuführen. Computeralgebra ist Gegenstand einer "Schwestervorlesung" zur CgDA, die in der zweiten Hälfte des Sommersemesters angeboten wird. 
>Häufig lassen sich die physikalischen Grundgleichungen formulieren, aber nicht exakt lösen. Ein Beispiel dafür ist die Bewegungsgleichung komplizierter mechanischer Systeme wie dem Doppelpendel. Dann kommen numerische Lösungsverfahren mit dem Computer zum Einsatz. Auf numerischen Verfahren wie der Monte-Carlo-Methode (MC, basierend auf Zufallszahlen, Kapitel 2 der Vorlesung) oder der Finite-Elemente-Methode (FEM, basierend auf der Zerlegung des Systems in kleinere und einfache Elemente) aufbauend gibt es Software, die komplizierte physikalische Systeme simuliert.

>**Dokumentation und Kommunikation zwischen Wissenschaftler:innen**
> Auch das Laborbuch und das klassische Telefon gehören in den meisten Laboren der Vergangenheit an. Die Dokumentation von Versuchsaufbauten, Versuchsbedingungen und Durchführung von Versuchen geschieht mit elektronischen Logbüchern und für Fotos und Videos wird das Smartphone verwendet. Unter anderem eignen sich Jupyter-Notebooks zur Dokumentation von Experimenten; dies wird seit wenigen Jahren auch im physikalischen Praktikum so gehandhabt. Kommunikation zwischen Wissenschaftler:innen findet ebenfalls am Computer statt. Historisch ist das heutige [World Wide Web aus dem Kommunikationsbedarf der Physiker:innen am Forschungszentrum CERN bei Genf entstanden](https://home.cern/science/computing/where-web-was-born). In internationalen Großexperimenten der Physik wurden Videokonferenzen zur Kommunikation zwischen Arbeitsgruppen weltweit schon mindestens 20 Jahre vor der Corona-Pandemie verwendet. Heute sind Videokonferenztools wie Zoom, Teams oder Webex nicht mehr wegzudenken aus der globalen Kommunikation. 

### Hardware, Betriebssysteme, Software
Sowohl die in der Wissenschaft eingesetzte Hardware, als auch Betriebssysteme und Software sind vielfältig: Die Hardware erstreckt sich von einfachen Mikrocontrollern (z. B. [Arduino](https://www.arduino.cc)) und Single-Board-Computern (z. B. [Raspberry Pi](https://www.raspberrypi.org)) über Standard-PCs bis hin zu hochspezialisierter programmierbarer Elektronik. Für wissenschaftliches Rechnen hat sich neben den kommerziellen Betriebssystemen Windows und macOS insbesondere das freie UNIX-artige Betriebssystem Linux etabliert. 

Im Laufe der Zeit wurden unterschiedliche Programmiersprachen für wissenschaftliches Rechnen eingesetzt. Bis in die 1990er Jahre war Fortran (Formula Translation) die Standardsprache und wurde danach teilweise durch die Programmiersprache C bzw. deren objektorientierte Erweiterung C++ ersetzt. Seit Mitte der 2000er Jahren hat sich Python für viele Aspekte des wissenschaftlichen Rechnens, der grafischen Darstellung und vor allem im maschinellen Lernen als zentralem Zweig der künstlichen Intelligenz (KI, engl.: artificial intelligence, AI) als Standard etabliert. Aus diesem Grund ist Python das Programmierwerkzeug der Wahl für den Kurs CgDA.

### Interaktion mit dem Computer
Auch die Möglichkeiten, mit modernen Computern in Wechselwirkung zu treten, sind vielfältig.  Zunächst in Großrechnern, ab den 1970er Jahren auch in PCs, war der Terminal (auch: Konsole), eine Kombination aus einer Tastatur und Bildschirm, das wichtigste Gerät zur Eingabe und Anzeige von Daten. Seit den 1980er Jahren haben sich zusätzlich zum Terminal grafische Benutzeroberflächen (engl.: graphical user interface, GUI) etabliert. Damit hat sich die Computermaus als zusätzliches Eingabegerät durchgesetzt. Durch Smartphones, Tablets und Virtual-Reality-Brillen kam seit den späten 2000er Jahren noch die Steuerung durch Touchscreens sowie durch Gestik und die Sprachsteuerung hinzu.

Auch heute ist die Interaktion mit dem Computer über den Terminal noch möglich und in 
der wissenschaftlichen Welt nach wie vor für viele Anwendungen Mittel der Wahl. Als Interface dient dabei die Kommandozeile (engl.: command-line interface, CLI), z. B. über einen virtuellen Terminal in der GUI. Damit können einzelne Befehle, aber auch kleine Programme (Skripte) ausgeführt und ihre Ausgabe angezeigt werden. 
 

### Steuerung von Arbeitsabläufen
In der Wissenschaft ist häufig eine lange und ggf. komplizierte Abfolge von Arbeitsschritten notwendig, um ein Ergebnis zu bekommen. Ein wesentlicher Teil der "[guten wissenschaftlichen Praxis](#gwp)" ist die Reproduzierbarkeit von Resultaten (ggf. auch nach vielen Jahren). Der Einsatz des Computers sichert die korrekte Abarbeitung des Arbeitsablaufs (engl.: workflow) und die Reproduzierbarkeit der Ergebnisse.

>**Beispiel: Messung einer Strom-Spannungs-Kennlinie** 
>
><img src="img/IV.png" width=50%>
>
> 1. Modellvorhersage: Für einen Widerstand $R$ wird aufgrund des ohmschen Gesetzes eine lineare Abhängigkeit des Stroms $I$ von der angelegten Spannung $V$ erwartet: $I=V/R$. Für eine gegebene Spannung berechnet der Computer bei bekanntem Widerstand den erwarteten Strom – dies ist das physikalische Modell, das der Messung zugrunde liegt. 
> 1. Steuerung des Experiments, Datennahme und Kalibration: Der Computer stellt nun an der Spannungsquelle eine vorgegebene Reihe von Spannungen ein. Anschließend liest er aus dem Strommessgerät einen Wert für den gemessenen Strom aus. Bekannte Abweichungen des Messwerts vom wahren Wert werden dabei ggf. durch eine Kalibration der Messwerte korrigiert.
> 1. Statistische Analyse: Die Daten werden nun am Computer mit dem Modell (ohmsches Gesetz) verglichen, hier durch Anpassung einer Ausgleichsgeraden an die Daten. Daraus wird eine Messung des Widerstandes und seiner statistischen Unsicherheit abgeleitet. Ggf. sind noch weitere systematischen Einflüsse zu berücksichtigen.
> 1. Grafische Darstellung: Aus den (kalibrierten) Messdaten und der Ausgleichsgeraden werden am Computer Abbildungen ("Plots") oder Tabellen erzeugt. 

Einfache Arbeitsabläufe wie im obigen Beispiel können bereits in der Schule "von Hand" durchgeführt werden. Im Computer wäre sowohl eine interaktive Steuerung über eine GUI als auch eine automatisierte Steuerung über ein Skript denkbar. Die folgende Tabelle fasst Vor- und Nachteile dieser Methoden zusammen:
| | Interaktiv (GUI) | Automatisiert (Skript) |
|-|-|-|
| **Vorteile**  | ++ sehr intuitiv | + relativ leicht erlernbar |
|               | + sehr leicht erlernbar | ++ vollständig reproduzierbar |
|               | | + universell einsetzbar |
|               | | + gleichzeitige Dokumentation von Konfiguration und Arbeitsablauf |
| **Nachteile** | - komplizierte Arbeitsabläufe kaum reproduzierbar | - Einarbeitung erforderlich |
|               | - keine Dokumentation | |
|               | - i.d.R. festgelegt auf eine Anwendung | |


## Gliederung des Kurses

1. **Einführung**: Organisatorisches, Computer und Daten in der Wissenschaft, Empfehlungen zu Arbeitsumgebung und Literatur, Wiederholung Python
1. **Statistische Datenanalyse I – Wahrscheinlichkeiten**: Messen und Wahrscheinlichkeit, Wahrscheinlichkeitstheorie, eindimensionale und mehrdimensionale Wahrscheinlichkeitsverteilungen, Kovarianz und Korrelation, Fehlerfortpflanzung
1. **Digitale Signalverarbeitung**: Digitale Daten und Datenformate, Grundlagen der Signalverarbeitung
1. **Statistische Datenanalyse II – Parameterschätzung**: Methode der kleinsten Quadrate, Funktionsanpassung, Parameterunsicherheiten, numerische Optimierung (optional), Ausblick (Maximum-Likelihood-Methode, Hypothesentests, maschinelles Lernen)

<a name="gwp"></a>

>**Exkurs: Redlichkeit im Studium**
>
>Das KIT verfolgt die Philosophie eines *forschungsorientierten Studiums*. Das bedeutet unter anderem, dass die ethischen Standards der Forschung bereits im Studium vermittelt und gelebt werden. Dazu gehört die *wissenschaftliche Redlichkeit* und die *gute wissenschatliche Praxis*, wie sie von der Deutschen Forschungsgemeinschaft in ihren [Leitlinien zur Sicherung guter wissenschaftlicher Praxis](https://zenodo.org/doi/10.5281/zenodo.3923601) festgehalten sind.
>
>In diesem Kurs ist Teamarbeit in den praktischen Übungen ausdrücklich erwünscht, Täuschungsversuche wie das Kopieren von Lösung oder erfundene/gefälschte Daten sind aber verboten und können bis zum Ausschluss von Kandidat:innen von weiteren Prüfungsleistungen führen. Den rechtlicher Rahmen dafür bildet die [Allgemeine Satzung zur Redlichkeit bei Praktika und Prüfungen](https://www.sle.kit.edu/downloads/AmtlicheBekanntmachungen/2007_06.pdf). Das CgDA-Team wird Täuschungsversuchen nachgehen: Ein nachgewiesener Täuschungsversuch führt zum Nichtbestehen der Aufgabe, wiederholte Täuschungsversuche zum Nichtbestehen des Kurses.
>
>In den letzten Jahren haben neue Möglichkeiten der generativen künstlichen Intelligenz (KI), z. B.  ChatGPT, Microsoft Copilot oder Github Copilot, auch neue Täuschungsmöglichkeiten ermöglicht – auch diesen werden wir selbstverständlich nachgehen. Nutzen Sie generative KI gern zur Recherche oder zur Zusammenfassung von Themen, machen Sie aber selbst den Faktencheck – Sie sind für das Ergebnis verantwortlich, nicht die KI!

### Empfehlung: Arbeitsumgebung

Verwenden Sie für den Kurs am besten ihren eigenen Laptop mit dem Betriebssystem Linux, Windows oder macOS. Dieser sollte folgende Hardwareanforderung erfüllen (Stand: 2025):
- **Prozessor**: mindestens Intel Core i3, AMD Ryzen 3 oder Apple M1
- **Arbeitsspeicher**: mindestens 4 GB, besser 8 GB
- **Freier Festplattenplatz**: mindestens 50 GB

Für Tablets (selbst mit Tastatur) gibt es leider keine freie Python-Umgebung.

Sie werden für den Kurs eine lauffähige Python-Umgebung benötigen. Dazu gibt es drei Möglichkeiten, die Sie schon aus "Programmieren und Algorithmen" kennen:
1. **Eigene Installation**: Eigener Laptop mit Python-Installation (z. B. Miniconda), Entwicklungsumgebung/Editor (z. B. Visual Studio Code) und Versionskontrolle (git). Diese Option ist die geeignetste, denn damit sind Sie am flexibelsten und im Prozess lernen Sie am meisten.
1. **JupyterLab**: Webinterface für Jupyter-Notebooks auf Servern des KIT. Diese Option funktioniert auf jedem Endgerät mit Internetanschluss, Webbrowser und Tastatur, allerdings bietet das Webinterface keinen guten Editor. Im physikalischen Praktikum werden derzeit Jupyter-Notebooks auf dem JupyterLab-Server des KIT als Standard eingesetzt.
1. **Poolraum**: Raum der KIT-Fakultät für Physik, ausgestattet mit Linux-PCs, auf denen die benötigte Software installiert ist. Mit dieser Option müssen Sie sich nicht um die Softwareinstallation kümmern, sind aber auf freie Zeiten im Poolraum angewiesen.

### Empfehlungen: Literatur
Zum Kurs CgDA gibt es derzeit kein Lehrbuch, das einer ähnlichen Philosophie folgt und/oder alle Inhalte abdeckt. Zur statistischen Datenanalyse in der Physik gibt es einige deutschsprachige und englischsprachige Bücher bzw. e-Bücher, die gut geeignet sind, um die Themen Wahrscheinlichkeiten und Parameterschätzung zu vertiefen:
- M. Erdmann, T. Hebbeker, A. Schmidt: *Statistische Methoden in der Experimentalphysik*, Pearson (2020), [KIT-Bibliothek](https://katalog.bibliothek.kit.edu/cgi-bin/koha/opac-detail.pl?biblionumber=1176256): Ausrichtung auf Praktika, moderne Themen, Computereinsatz.
- G. Bohm, G. Zech: *Einführung in Statistik und Messwertanalyse für Physiker*, DESY eBook (2006), [e-Buch deutsch](www-library.desy.de/preparch/books/vstatmp.pdf), [e-Buch englisch](www-library.desy.de/preparch/books/vstatmp_engl.pdf): ausführlich und vollständig.
- V. Blobel, E. Lohrmann: *Statistische und numerische Methoden der Datenanalyse*, DESY eBook (2012), [Webseite](https://www.desy.de/~sschmitt/blobel/ebuch.html): Verbindung von mathematischen Grundlagen und Computereinsatz (in Fortran)
- G. Cowan: *Statistical Data Analysis*, Oxford (1997), [Buch](https://katalog.bibliothek.kit.edu/cgi-bin/koha/opac-detail.pl?biblionumber=177314), [E-Buch](https://katalog.bibliothek.kit.edu/cgi-bin/koha/opac-detail.pl?biblionumber=1132425): kompaktes klar geschriebenes Buch.
- R. J. Barlow, *Statistics: A Guide to the Use of Statistical Methods in the Physical Sciences*, Wiley (1989), [Buch](https://katalog.bibliothek.kit.edu/cgi-bin/koha/opac-detail.pl?biblionumber=1090191): Klassiker der statistischen Methoden in der Physik

Darüber hinaus hat Prof. Günter Quast eine Reihe von Skripten erstellt, unter anderem zur [Datenauswertung im Praktikum](https://etpwww.etp.kit.edu/~quast/Skripte/Datenauswertung.html) und zur [Anpassung von Daten mit der Methode der kleinsten Quadrate](https://etpwww.etp.kit.edu/~quast/Skripte/Chi2Method.pdf). Weiterhin gibt es eine [Einführung in Jupyter-Notebooks und diverse Tutorials zu Jupyter, Python und zur statistischen Datenanalyse](https://etpwww.etp.kit.edu/~quast/jupyter/jupyterTutorial.html).

## Wiederholung Python

Der Kurs CgDA verwendet die Programmiersprache Python, die Sie bereits aus dem Kurs "Programmieren und Algorithmen" im ersten Fachsemester Physik kennen und folgende Vorteile besitzt:
- Python ist eine höhere Programmiersprache, die universell einsetzbar und gleichzeitig intuitiv und leicht erlernbar ist. 
- Python-Programme können  nicht nur als fertige (kompilierte) Computercodes eingesetzt werden, sondern auch interaktiv ausgeführt (interpretiert) werden. So kann Python auch als Skriptsprache eingesetzt werden, wie in diesem Kurs.
- Python unterstützte mehrere gängige Programmierparadigmen wie prozedurales, objektorientiertes, datenorientiertes oder funktionales Programmieren.
- Python ist für alle gängigen Computer-Betriebssysteme (frei) erhältlich, besitzt eine umfangreiche Programmbibliothek für Standardfunktionen und -klassen. Darüber hinaus ist Python leicht erweiterbar, und es existiert eine Unmenge von Zusatzbibliotheken.

Ein sicherer Umgang mit Python ist für den Kurs CgDA von großem Vorteil. Viele der Grundlagen dafür wurden im Kurs "Programmieren und Algorithmen" gelegt. Besonders relevant, auch in Hinblick auf die Anwendung im physikalischen Praktikum, sind folgende Punkte (jeweils mit Angabe von Kapiteln in der Vorlesung "Programmieren und Algorithmen" von Prof. Torben Ferber im Wintersemester 2024/2025):
- Grundlagen: Variablen, Funktionen, Zuweisungen, Kontrollstrukturen, eingebaute Python-Datenstrukturen (Vorlesungen 2-4)
- Wissenschaftliches Rechnen mit NumPy, SciPy und pandas: Datenstrukturen, Vektorisierung (Vorlesung 10)
- Datenformate, Eingabe und Ausgaben, SciPy (Vorlesung 12)
- Grafische Darstellung von Daten mit matplotlib (Vorlesung 13)
- Jupyter-Notebooks (Vorlesung 13)

Es wird empfohlen, die Materialien aus diesen Vorlesungen des Kurses "Programmieren und Algorithmen" zur Vorbereitung auf CgDA noch einmal anhand der [Folien](https://web.etp.kit.edu/~ferber/vorlesungen/programmieren_und_algorithmen/slides/) und [Webseiten mit weiteren Materialien](https://web.etp.kit.edu/~ferber/vorlesungen/programmieren_und_algorithmen/html/intro.html) nachzuarbeiten (Name und Passwort: student).

Darüber hinaus stehen Ihnen für die Nachbereitung Videos mit Schritt-für-Schritt-Anleitung zu Jupyter, Python, NumPy und matplotlib aus dem Kurs "Einführung in das rechnergestützte Arbeiten" (ERA) von Dr. Andreas Poenicke sowie [diverse Tutorials zu Jupyter und Python](https://etpwww.etp.kit.edu/~quast/jupyter/jupyterTutorial.html) von Alexander Heidelbach und Günter Quast zur Verfügung.



### Wissenschaftliches Rechnen mit Python

In Python gibt es umfangreiche Bibliotheken für wissenschaftliches Rechnen. In diesem Kurs werden Sie die Standardbibliotheken [NumPy](https://numpy.org) (ausgesprochen etwa: NammPai), [SciPy](https://scipy.org) (ausgesprochen etwa: SaiPai) und [pandas](https://pandas.pydata.org) verwenden, die Sie auch schon in "Programmieren und Algorithmen" kennengelernt haben. 

> **NumPy** ist ein grundlegende Bibliothek für wissenschaftliches Rechen, die leistungsstarke Werkzeuge für den Umgang mit mehrdimensionalen Arrays (Vektoren, Matrizen, Tensoren) liefert. Diese Datenstrukturen sind derzeit (2024) der de-fakto-Standard für die Arbeit mit Arrays in Python. Basierend auf diesen Datenstrukturen hält NumPy effizient implementierte numerische Verfahren vor für mathematische Funktionen, Zufallszahlen, lineare Algebra, Fouriertransformationen usw. In Python wird NumPy mit dem Statement ```import numpy as np``` geladen.

> Die **SciPy**-Bibliothek baut auf NumPy-Datenstrukturen auf und beinhaltet Implementationen von Algorithmen zur numerischen Integration, Interpolation, Optimierung, linearen Algebra, Statistik.

> Die Bibliothek **pandas** beinhaltet Datenstrukturen für tabellarische Daten und Zeitreihen und Operationen für deren Manipulation. Sie bietet damit die Grundlage für aufwändige Datenanalyse in Python.

Um NumPy und SciPy herum hat sich ein eigenes "Ökosystem" von Programmierwerkzeugen entwickelt. Dazu gehören unter anderem 
- [Project Jupyter](https://jupyter.org) für interaktives Programmieren in mehreren Programmiersprachen (siehe unten).
- [Matplotlib](https://matplotlib.org) zur grafischen Darstellung von Daten (siehe unten)
- [SymPy](https://www.sympy.org/en/index.html) für symbolisches Rechnen in Python (ähnlich zu Computeralgebrasystemen wie Mathematica)

### Interaktives Programmieren
Neben dem Ausführen von Computerprogrammen als kompilierter Maschinencode oder als interpretiertes Skript, gibt es, unter anderen in Computeralgebrasystemen wie Mathematica, den Ansatz, die Programme in Form von **(elektronischen) Notizbüchern** abzulegen. Im Folgenden werden wir für diese Notizbücher den englischen Namen "Notebook" verwenden. Notebooks bieten den Vorteil, Texte, interaktiv ausführbaren Programmcode und Abbildungen in einem elektronischen Dokument zu vereinigen. Aus diesem Grund werden sie am KIT auch im physikalischen Praktikum verwendet: Das Notebook beinhaltet den gesamten Versuch in einem einzigen Dokument, von den theoretischen Grundlagen über die Durchführung und die Messdaten bis hin zur Auswertung. Diese Arbeitsweise ist für die Dokumentation kleinerer Projekte im Rahmen Ihres Studiums und darüber hinaus ideal. Für aufwändigere Arbeitsabläufe, wie z. B. die Analyse von Daten der Teilchenphysik, kommen mächtigere Werkzeuge zum Einsatz.

Der derzeitige Standard für interaktive Programmierumgebungen ist das [Project Jupyter](https://jupyter.org). Das Projekt besteht aus dem webbasierten Benutzerinterface *JupyterLab* und dem Dokumentformat *Jupyter Notebook*, in dem die Notebooks gespeichert werden. 

<img src="img/jupyterlab.png">

Sie haben im Rahmen dieses Kurses mehrere Möglichkeiten mit Jupyter Notebooks zu arbeiten:
1. Webinterface zu [JupyterLab-Server des SCC](https://jupyter-test.scc.kit.edu/). Dieser neue Service des SCC wurde mit Hilfe der Physikfakultät etabliert und steht in seiner Pilotphase für diesen Kurs zur Verfügung. Dieser Ansatz benötigt lediglich ein Endgerät mit Internetanschluss, Webbrowser und (mindestens virtueller) Tastatur.
1. Webinterface zu [JupyterLab-Instanz der Physikfakultät](https://jupytermachine.etp.kit.edu/). Auch dieser Ansatz benötigt nur ein Endgerät mit Internetanschluss, Webbrowser und (mindestens virtueller) Tastatur.
1. Source-Code-Editor, z. B. [Visual Studio Code](https://code.visualstudio.com) mit Jupyter-Erweiterung. Dieser Ansatz bietet die umfangreichsten und komfortabelsten Editierfunktionen. Er benötigt eine lokale Python- und JupyterLab-Installation, z. b. über Miniconda.
1. Webinterface zu lokaler Python- und JupyterLab-Installation auf dem eigenen Endgerät (siehe obige Abbildung).

Ein Nachteil aller dieser Ansätze ist, dass es bisher noch nicht einfach möglich ist, mit mehrerer Benutzer:innen gleichzeitig ("kollaborativ") und interaktiv an einem Projekt zu arbeiten.

### Grafische Darstellung von Daten

Die grafische Darstellung ist ein wesentliches Element um wissenschaftliche Erkenntnis aus Daten zu gewinnen und zu vermitteln:
- In der explorativen Datenanalyse und im Data Mining (auch: deduktive Statistik) können unbekannte Daten oft grafisch einfacher "durchforstet" werden als in Arrays, um Muster bzw. Zusammenhänge zu erkennen. 
- Die Statistische Inferenz (auch: induktive Statistik) nutzt grafischen Abbildungen um Daten (oft komprimiert) darzustellen und Modelle an die Daten anzupassen (z. B. "Ausgleichgerade"), um auf deren Parameter (z. B. Steigung der Ausgleichsgerade)rückzuschließen.
- In der Verbreitung und Vermittlung (engl.: dissemination) von wissenschaftlichen Resultaten spielen grafische Darstellungen oft eine zentrale Rolle. Resultate werden in Protokollen dokumentiert und dann in Form von Fachartikeln, Folienvorträgen, Postern, Webseiten, Social-Media-Posts usw. veröffentlicht. 

Eines der Qualifikationsziele dieses Kurses ist es, dass Sie Daten analysieren, mit Modellen vergleichen und sinnvoll grafisch aufbereiten können. Diese Qualifikation ist relevant für die physikalischen Praktika, für Bachelor- und Masterarbeiten und weit über Ihre Studium hinaus. Zentrale Fragen, die Sie sich bei der grafischen Darstellung von Daten stellen sollten, sind:
- Welche "Botschaft" soll mit der Grafik vermittelt werden?
- Welche Größen sollten dafür dargestellt werten? Welche Wertebereiche sind geeignet?
- Welche Art von Grafik ist für die Größen und die Aussage geeignet?

In diesem Kurs verwenden wir [matplotlib](https://matplotlib.org) als Werkzeug zur grafischen Darstellung von Daten in Python. Im Laufe des Kurses werden wir Ihnen immer wieder Hinweise zu geeigneten Darstellungsformen geben. 

> **Matplotlib** 
> <img src="img/matplotlib.png">
> Das derzeitige Standardwerkzeug zur Visualisierung in Python in Verbindung mit NumPy und SciPy ist die Bibliothek [matplotlib](https://matplotlib.org). Die Abbildungen sind (mit den richtigen Einstellungen) von sehr hoher Qualität und können interaktiv gestaltet und animiert werden. Sie können u. a. direkt in JupyterLab eingebunden sowie in vielen unterschiedlichen Dateiformaten abgespeichert werden. Eine Reihe weiterer Grafikpakete baut auf matplotlib auf. Auf die Funktionalität von matplotlib können Sie auf verschiedene Arten zugreifen. Die wohl gängigste Programmierschnittstelle (engl.: application programming interface, API) ist [`matplotlib.pyplot`](https://matplotlib.org/stable/api/pyplot_summary.html); sie bietet Funktionalität im Stil der kommerziellen Plattform für Programmierung und numerische Berechnungen [MATLAB](https://de.mathworks.com/products/matlab.html), die in den Ingenieurwissenschaften start verbreitet ist. Darüber hinaus existiert für matplotlib eine API für objektorientiertes Programmieren.

Das folgenden Beispiel zeigt, wie die Bibliotheken NumPy und matplotlib.pyplot üblicherweise am Anfang von Python-Programmen eingebunden werden.

In [None]:
# import NumPy and matplotlib
import numpy as np
import matplotlib.pyplot as plt

### Crashkurs Python

In den folgenden Codebeispielen werden einige Grundlagen der Datentypen und Operationen sowie Kontrollstrukturen und Funktionen in Python wiederholt.

In [None]:
# basic math
a = 5                   # assignment
b = 5 * 2 - 3 + 10 / 2  # basic arithmetics
c = 10 % 7              # modulo operation (remainder of division)
d = 2**3                # power
print(a,b,c,d)

In [None]:
# data types
e = True            # truth value (bool): True, False
f = -1234 	        # integer number (int): -3, 2, 1234
g = 1.234     	    # floating number (float): 1.234
h = 1.-2.j  	    # complex number: 1.-2.j 
i = 'Hallo'         # string: 'Hallo'

In [None]:
# comparison operators (return: truth value)
a == a              # equal
a != b              # not equal
a > c               # greater than
a < b               # smaller than
a >= a              # greater or equal
c <= d              # smaller or equal

In [None]:
# logical operators (return: truth value)
True and True 	    # logical AND
False or True       # logical OR
not False	        # logical negation

In [None]:
"""control structures (indentation is mandatory!)"""

# for loop: for <variable> in <list>:
for i in [1,2,5]:
    print( i )

# while loop: while <condition>:
i = 0
while i <= 3: 
    print( i )
    i += 1 # increment i by 1

# branching: if <condition 1>: elif <condition 2>: else:
c1, c2 = False, True
if c1:
    print( "if" )
elif c2:
    print( "elif" )
else:
    print( "else" )

In [None]:
"""Python's built-in list types"""

# tuple: immutable (values cannot be changed)
a = (3.1, 'car', 1.3-1.2j)
print( a )

# list: mutable (values can be changed)
b = [3.1, 'car', 1.3-1.2j]
b[1] = 'bicyle'
print ( b )

# dictionary = key-value pairs
c = {'last':'Husemann', 
     'first':'Ulrich',
     'phone':24038 }
print( c )

In [None]:
"""working with Python lists"""

# some list
a = [ 12, 3, 2, 79, -1, 346 ]

# list length
print( len( a ) )

# print element with index 4 (starting from 0)
print( a[4] )

# slice list: pick elements with indexes 1..3 (upper edge = index 4 is not included)
print( a[1:4] )

# sort list in place (i.e., by not creating a new sorted list)
a.sort()
print( a )

# list comprehension: create a list with squared values of all integers between 1 and 10
b = [ i**2 for i in range(1,11) ]
print (b)

In [None]:
"""example on functions: compute Fibonacci sequence"""

def fibonacci( fmin = 0, fmax = 100 ):
	"""function to print the Fibonacci numbers between fmin and fmax."""
	
	# first two elements of sequence
	f0, f1 = 0, 1

	# compute elements until fmax using the recurrence relation f(n) = f(n-2) + f(n-1)
	while f0 < fmax:
		if f0 >= fmin:
			print( f0 )
		f0, f1 = f1, f0 + f1

	# return value: last Fibonacci number
	return f0

# call the function to output the Fibonacci numbers	
print( "Printing Fibonacci numbers smaller than 1000: ")
f = fibonacci( fmax = 1000 )

### Crashkurs NumPy
In NumPy gibt es mächtige Datenstrukturen für homogene Arrays, d. h. Arrays, deren Elemente alle vom selben Typ sind. Dabei werden Rechenoperationen wo immer möglich parallel auf dem gesamten NumPy-Array durchgeführt ("Vektorisierung"). Der dafür notwendige Code ist in NumPy bereits vorkompiliert und kann daher sehr schnell ausgeführt werden. Solche Array-Operationen sind traditionellen Schleifen (`for` bzw. `while`) daher immer vorzuziehen, machen den Code aber ggf. schwerer verständlich.

In [None]:
# import NumPy with short name np
import numpy as np

# many ways to initialize NumPy arrays (here: only one-dimensional arrays = vectors)
a = np.array( [-1.3, 2.2, -3.1] )   # explicit values
b = np.zeros( 3 ) 	                # vector of three zeros
c = np.ones( 5 )		            # vector of five ones
d = np.linspace(0.,2.,5)            # vector of five equidistant values in interval [0,2]
e = np.arange(0,5)                  # vector of integers between 0 and (excluding) 5

# apply arithmetic operations on each element of the array
f = d - c
print( f )

# apply built-in function for cosine on each element of the array (after element-wise product of d and e)
g = np.cos( d*e )
print( g )

>**Exkurs: Skalare Datentypen in Python**
>
>Auch in der Physik erfordern einige Anwendungen systemnahes Programmieren, so dass Details über die Bits und Bytes und deren Darstellung im Computer relevant sind. In unterschiedlichen Computersystemen ist diese Darstellung unterschiedlich, sowohl von der Anzahl als ggf. auch von der Anordnung der Bits: Auf der derzeit gängigen x86_64-Architektur (Intel, AMD) wird eine **Ganzzahl** (engl.: integer number, int) mit Vorzeichen mit 32 Bits gespeichert. Das signifikanteste Bit (engl.: most significant bit, MSB) beinhaltet dabei immer das Vorzeichen, mit den restlichen 31 Bits können Werte zwischen $-2^{31}$ und $+2^{31}-1$ dargestellt werden.
> NumPy verwendet eigene Datentypen anstatt der nativen Datentypen von Python. Diese Datentypen erlauben es Werte mit einer festen Zahl von Bits darzustellen (unabhängig vom Computersystem). Hier einige Beispiele: 
>- `np.bool_`: Wahrheitswerte (gespeichert als 8 Bits, anders als beim Python-Typ `bool`)
>- `np.int8`: 8-Bit-Ganzzahl (Vorzeichenbit + 7 Bits, $-2^7 = -128$ bis $2^7-1=127$)
>- `np.uint8`: vorzeichenlose 8-Bit-Ganzzahl (8 Bits, 0 bis $2^8 – 1 = 255$)
>- Analog: `np.int16`, `np.uint16`, `np.int32`, `np.uint32`, `inp.nt64`, `np.uint64` usw.
>
> Alternativ und vermutlich gebräuchlicher ist eine an die Programmiersprache C angelehnte Namensgebung, die allerdings abhängig vom Computersystem ("maschinenabhängig") ist, z. B. entspricht auf der x86_64-Architektur `np.intc` einer 32-Bit-Zahl, also `np.int32`.
>
> Für die numerische Berechnung physikalischer Größen sind **Gleitkommazahlen** (engl.: floating point numbers, floats) besonders wichtig. Dabei ist häufig die numerische Präzision relevant, die durch die Zahl der Bits für Mantisse und Exponenten bestimmt ist (Erinnerung: in der Zahl $-3.14159\cdot 10^{12}$ ist die Mantisse $314159$ und der Exponent $12$):
>- Als Darstellung mit "einfacher Präzision" (engl.: single precision) wird auf der x86_64-Architektur eine 32-Bit-Gleitkommazahl bezeichnet. Wie bei Ganzzahlen repräsentiert das MSB das Vorzeichen. Die folgenden acht Bits (23 bis 30) werden für den Exponenten und die verbleibenden 23 Bits (22 bis 0) für die Mantisse verwendet. In NumPy ist der entsprechende Datentyp `np.float32` (entspricht auf x86_64 `np.single`). 
>- Für genauere Berechnungen stehen Gleitkommazahlen in "double precision" (`np.float64`, entspricht auf x86_64 `np.double`, 52-Bit-Mantisse, 11-Bit-Exponent) oder "quadruple precision" (`np.float128`, entspricht auf x86_64 `np.longdouble`) zur Verfügung. 
>- Für komplexe Zahlen entspricht `np.complex64` zwei 32-Bit-Gleitkommazahlen für deren Realteil und Imaginärteil.

In [None]:
"""multidimensional data types and linear algebra"""

# import NumPy
import numpy as np

# initialize a 3x4 matrix and reshape it to 2x6
matrix1 = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
matrix_reshaped = matrix1.reshape( 2, 6 )
print( matrix_reshaped )

# transpose and multiply all elements of initial matrix with 1.5
matrix2 = 1.5*matrix1.transpose() 
print( matrix2 )

# dot product of two matrices
matrix3 = np.dot(matrix1,matrix2)    
print( matrix3 )

# scalar product of first and third row
scalar_product = np.dot(matrix1[:1,:],matrix2[:,2:3])
print( scalar_product )

In [None]:
"""random numbers in NumPy"""

# import NumPy
import numpy as np

# initialize random number generator with a seed (more on random numbers later)
rng = np.random.default_rng( seed=42 )

# draw uniformly random numbers distributed in interval [0,1)
a = rng.random()
# the generator produces a sequence of random numbers, hence a ≠ b
b = rng.random() 
# a 3x2 matrix of random numbers can be generated in one go
c = rng.random(size=(3,2)) 

print( a, b )
print( c )

# random numbers can also be generated for other distributions (more later)
# normal/Gaussian
d = rng.normal(-2,0.5,[10]) 
# binomial
e = rng.binomial(5,0.2,[10])     
# Poisson
f = rng.poisson(5,[10,10])      

print( d, e )
print( f )

### Crashkurs matplotlib

In [None]:
"""first steps: plotting a function"""

# import NumPy
import numpy as np

# import pyplot module from matplotlib
import matplotlib.pyplot as plt 	

# x values: 200 equidistant real numbers between -20 and 20
x = np.linspace( -20, 20, 200) 	
	
# y values: sinc function applied on entire array of x values
y = np.sin(x)/x 			

# plot y vs. x
plt.plot(x,y) 

# save as vector graphics in PDF format
plt.savefig('sinc.pdf')

# display on screen
plt.show() 

In [None]:
"""if you are counting discrete items: use a bar chart"""

# import NumPy
import numpy as np

# import pyplot module from matplotlib
import matplotlib.pyplot as plt 	

# five bars
x = np.arange( 5 ) # integer numbers from 0 to 4
y = np.array( [ 10, 15, 4, 12, 2 ] ) # some values

# bar chart
bars = plt.bar( x, y )

# y axis label
plt.ylabel('Number of Entries')

# x axis ticks get names
plt.xticks( x,["Knives", "Forks", "Table Spoons", "Tea Spoons", "Chopsticks" ])

# als PDF speichern
plt.savefig("barchart.pdf") 
plt.show()

In [None]:
"""
if you are discretizing continuous values: 
use a histogram, in which each bins contains the frequency of the class
"""

# import NumPy
import numpy as np

# import pyplot module from matplotlib
import matplotlib.pyplot as plt 	

# array of 1000 Gaussian random numbers
rng = np.random.default_rng( 42 ) 
x = rng.normal( 5., 0.1, 1000 )

# histogram with fixed number of bins
# returns arrays of bin content and bin edges
nbins = 10 
n, bins, patches = plt.hist(x, nbins)

# axis labels with units
plt.xlabel( "$x$ (cm)" )
plt.ylabel( "Frequency")

plt.savefig( "histogram.pdf" )
plt.show()


In [None]:
"""histograms can also be stacked on top of each other"""

# import NumPy
import numpy as np

# import pyplot module from matplotlib
import matplotlib.pyplot as plt 	

# arrays of exponential and normal random numbers
rng = np.random.default_rng( 42 ) 
x1 = rng.exponential( scale=2.0, size=10000 )
x2 = rng.normal( loc=5., scale=0.5, size=1000 )

# stacked histograms
binedges = np.linspace( 0, 10, 51 )
n, bins, patches = plt.hist( (x1,x2), bins=binedges, histtype='barstacked' )

# axis labels
plt.xlabel( "$x$ (cm)" ) 
plt.ylabel( "Frequency" )

plt.savefig( "histogram_stack.pdf" )
plt.show()

In [None]:
"""individual measurements: display as data points with uncertainty bars"""

# import NumPy
import numpy as np

# import pyplot module from matplotlib
import matplotlib.pyplot as plt 	

# initialize random number generator
rng = np.random.default_rng( 42 )

# data points on a straight line shifted by random offset from Gaussian distribution
N, yerr = 10, 0.5
x = np.linspace( 1, 10, N )
y = 8.-( x + rng.normal(size=N, scale=yerr))

# plot with uncertainty bars on y values and axis labels
err = plt.errorbar(x,y,yerr,fmt='bo') 
plt.xlabel('$x$')
plt.ylabel('$y$')

plt.savefig('datapoints.pdf')
plt.show()

In [None]:
"""pairs of measurements: scatter plot"""

# import NumPy
import numpy as np

# import pyplot module from matplotlib
import matplotlib.pyplot as plt 	

# initialize random number generator
rng = np.random.default_rng( 42 )

# 1000 random data points around straight line with y=8-x
N, yerr = 1000, 0.5
x = 10.*rng.uniform( size=N ) # uniformly in x
y = 8.-( x + rng.normal(size=N, scale=yerr) ) # Gaussian around y=8-x in y

# scatter plot with marker size 1
plt.scatter( x, y, s=1.0 )

plt.savefig( "scatterplot.pdf" )
plt.show()

Die hier gezeigten Abbildungen sollen Ihnen nur einen ersten Einblick in die Darstellung von Daten mit matplotlib geben. Die matplotlib-Bibliothek besitzt noch viele weitere Möglichkeiten, Daten darzustellen. Beispielcode dafür finden Sie in der [matplotlib-Galerie](https://matplotlib.org/stable/gallery/index.html). Probieren Sie es am besten selbst aus, und denken Sie daran: Grafiken sind nur ein Werkzeug, um Daten möglichst aussagekräftig darzustellen.