Nervennahrung

Information Geometry

20.05.2022

Im letzten Forschungssemester habe ich mich mit Information Geometry beschäftigt.

Der Gegenstand des Forschungsgebiets Information Geometry ist die Untersuchung von geometrischen Strukturen von (Familien von) Wahrscheinlichkeitsverteilungen und die Anwendung ebensolcher Methoden in der Statistik, sowie in der Theorie maschinellen Lernens. Der erste Beitrag geht zurück auf C. R. Rao (1945), der die sogenannte Fisher-Rao-Metrik benutzte, um geometrische Strukturen parametrischer Modelle zu definieren. Information Geometry benutzt Konzepte aus der Differentialgeometrie wie z. B. Krümmung, kovariante Ableitungen, affine Zusammenhänge und Transport. Mithilfe dieser Werkzeuge können dann statistische Probleme neu behandelt werden. Bereits Rao hatte Begriffe wie geodätische Distanz eingeführt, um Klassifikationsprobleme und das Testen von Hypothesen in der Statistik zu behandeln.

Im gewöhnlichen, flachen euklidischen Raum \(\mathbb{R}^n\) haben wir die übliche Metrik

\[d(x,y)=\left(\sum_{i=1}^n (x_i-y_i)^2\right)^{1/2}.\]

Mannigfaltigkeiten sind lokal euklidisch, aber unterscheiden sich i.a. vom \(\mathbb{R}^n\) durch eine global unterschiedliche Topologie sowie durch unterschiedliche metrische Eigenschaften. Ein Beispiel für eine (zweidimensionale) Mannigfaltigkeit ist die Sphäre oder ein Torus. Beide sind topologisch verschieden vom \(\mathbb{R}^2\) (s. z. B. den Satz vom Igel, nicht triviale Homologiegruppe des Torus etc.).

Man kann nun Mannigfaltigkeiten \({\cal M}\) definieren, bei denen jeder Punkt der Mannigfaltigkeit einer Wahrscheinlichkeitsverteilung (auf einem beliebigen W-Raum) entspricht, sog. statistische Mannigfaltigkeiten.

Als differenzierbare Mannigfaltigkeit läßt \({\cal M}\) eine beliebige Anzahl von Metriken zu; in der Regel ist also keine Metrik ausgezeichnet. Faszinierend ist nun, daß die unterliegende statistische Struktur einer statistischen Mannigfaltigkeit dagegen eine ausgezeichnete, kanonische bedingt Metrik impliziert – die sogenannte Fisher-Rao- oder Information-Metrik:

Sei M eine statistische Mannigfaltigkeit. Dann wird die Fisher-Rao- oder Information-Metrik definiert als

\[g_{\alpha\beta} = \int p(x | \theta) \frac{\partial \log p(x | \theta) }{\partial \theta^\alpha}\frac{\partial \log p(x | \theta) }{\partial \theta^\beta} \, dx.\]

Damit können differentialgeometrische Verfahren zur Analyse von statistischen Fragen verwendet werden, was an sich schon intellektuell faszinierend ist. Es ergeben sich auch viele tiefe Zusammenhänge, z.B. gibt es eine differentialgeometrische Abschätzungen für erwartungstreue Schätzer:

Sei \(\hat\theta_n\) ein erwartungstreuer Schätzer für \(\theta\). Dann gilt die folgende Cramér-Rao Ungleichung:

\[Var[\hat\theta_n] = \mathbb{E}\left[ (\hat\theta_n - \mathbb{E}[\hat\theta_n])^2 \right] \succeq \frac{1}{n} g^{-1}(\theta),\]

wobei \(g^{-1}\) die Inverse der Fisher-Rao-Metrik bezeichnet und \(A\succeq B\) genau dann wenn \(A-B\) positiv semi-definit ist.

In der Differentialgeometrie erlaubt ein affiner Zusammenhang (engl. ``affine connection”) den Vergleich von Vektoren aus verschiedenen Tangentialräumen (da Tangentialräume in verschiedenen Punkten von \({\cal M}\) definiert sind, kann man sie nicht intrinsisch vergleichen, ohne eine weitere, zusätzliche Struktur zu haben):

Eine affiner Zusammenhang von \({\cal M}\) ist eine bilineare Abbildung der Tangentialräume:

\[\Gamma ({\cal M}) \times \Gamma ({\cal M}) \mapsto \Gamma ({\cal M})\\ (X,Y) \mapsto \nabla_X Y\]

mit den Eigenschaften:

\[\nabla_{fX} Y = f \nabla_X Y\\ \nabla_{X} fY = \partial_X f Y + f \nabla_X Y\]

Für Riemannsche Mannigfaltigkeiten ist bekannt, daß es einen eindeutig bestimmten affinen Zusammenhang gibt, den Levi-Civita-Zusammenhang, der kompatibel mit der Metrik \(g\) und torsionsfrei ist, d.h.

\[Z(g(X,Y)) = g(\nabla_{Z} X, Y) + g(X,\nabla_{Z} Y)\\ \nabla_{X} Y -\nabla_{Y} X = [X,Y].\label{eq:torsionsfrei}\]

Statistische Mannigfaltigkeiten haben im Gegensatz zu “normalen” Riemannschen Mannigfaltigkeiten eine zusätzliche dualistische Struktur.

Sei \({\cal M}\) eine Mannigfaltigkeit mit einer Riemannschen Metrik \(g\) und zwei affinen Zusammenhängen \(\nabla\) und \(\nabla^*\). Wenn

\[Z(g(X,Y)) = g(\nabla_{Z} X, Y) + g(X,\nabla_{Z}^* Y)\]

für alle \(X\), \(Y\) und \(Z\) erfüllt ist, dann heißen \(\nabla\) und \(\nabla^*\) duale oder konjugierte Zusammenhänge. Das Tripel \((g, \nabla, \nabla^*)\) heißt dualistische Struktur auf \({\cal M}\).

Diese faszinierenden Strukturen können zum Verständnis von Maschinellen Lernverfahren u.a. von Deep Networks beitragen (Natural Gradient etc.).

Wenn Sie mehr über dieses spannende Gebiet erfahren wollen, können Sie in meinen Vortrag “Information Geometry” kommen. Ich werde über dieses Thema im offenen Oberseminar der LE-I des Fb 2 in der Mittagspause vortragen:

  • Jörg Schäfer
  • Information Geometry
  • Donnerstag, 02.06.2022
  • 13:15-14:15
  • 1-130

Dazu sind am 02.06. herzlich alle Kolleginnen und Kollegen sowie alle Studentinnen und Studenten eingeladen (Essen darf mitgebracht werden!).

Ansonsten ist das Buch von Nihat Ay, Jürgen Jost, Höng Vân Lê, and Lorenz Schwachhöfer “Information Geometry”, erschienen 2017 im Springer Verlag, eine erstklassige Referenz (bei Jürgen Jost hab ich seiner Zeit in Bochum Riemannsche Differentialgeometrie gelernt - unvergesslich!).