Rechnen ist Inferenz

Probabilistische Numerik: Rechnen mit Messunsicherheit

Maschinelles Lernen, im Gegensatz zu klassischer, regelbasierter künstlicher Intelligenz, beschreibt Lernen als statistische Inferenz. Die konkrete Realisierung dieses Lernprozesses in einem Computer verlangt die Lösung numerischer Probleme: Optimierung (die beste Erklärung für Daten finden), Integration (die Menge an möglichen Erklärungen abschätzen) und Simulation (zukünftige Dynamik vorhersagen). Die angewandte Mathematik hat für diesen Zweck gute algorithmische Werkzeuge entwickelt. Der Kerngrundsatz der Arbeit unserer Gruppe ist die Erkenntnis, dass diese numerischen Methoden in sich selbst elementare, lernende Maschinen sind. Eine Lösung numerisch (also mit dem Computer) zu berechnen bedeutet das Ergebnis von digitalen, nicht-analytischen Berechnungen (Daten) zu verwenden, um die unbekannte Zahl zu inferrieren. Da numerische Methoden aktiv entscheiden, welche Berechnungen sie ausführen „möchten“, um effizient zum Ziel zu finden, sind sie tatsächlich auch ``autonome Agenten‘‘, wenn auch in elementarer Form. Also muss es auch möglich sein ihr Verhalten im mathematischen Formalismus lernender Maschinen zu beschreiben. Wenn diese Beschreibung mit Hilfe von Wahrscheinlichkeiten erfolgt, nennen wir die zugehören Algorithmen: „Probabilistische, Numerische Methoden“. Derartige Methoden verwenden ein generatives Model zur Beschreibung numerischer Aufgaben; und konstruieren a-posteriori Verteilungen mit Hilfe von Bayesianischer Inferenz. Diese Wahrscheinlichkeitsverteilungen können dann ``von Außen“ analysiert werden, analog zum Studium der Punktschätzer in klassischer Numerik: Die a-posteriori-Verteilung sollte sich möglichst schnell um den korrekten Wert konzentrieren (ihr Mittelwert sollte nah am echten Wert sein und die Standardabweichung sollte der Distanz zwischen Wahrheit und Durchschnitt entsprechen) und diese Konzentration sollte in einem gewissen Sinne „schnell“ von fortschreiten. Die theoretische Arbeit der Gruppe fokussiert sich auf die Entwicklung solcher Methoden und verwendet sie, um im maschinellen Lernen und allgemeiner dem Datengetriebenen Rechnen neue, dringend benötigte Funktionalität zu bieten. 

Hier sind einige Beispiele für frühere theoretische Ergebnisse, die in der Gruppe entwickelt wurden. Neuere Arbeiten sind auf der Seite Publikationen zu finden.

Integration

Integration ist der grundlegende Vorgang des probabilistischen maschinellen Lernens. Sie ist erforderlich, um bedingte Verteilungen und Marginalverteilungen zu berechnen - um zu messen, wie viele mögliche Erklärungen für eine Reihe von Beobachtungen übrig bleiben und wie gut diese Erklärungen sind. Wir haben unter anderem Bayes'sche Quadratur-Methoden entwickelt. Diese Methoden liefern zunehmend gute empirische Leistung im Vergleich zu ihren wichtigsten Konkurrenten, den Markovketten-Monte-Carlo-Methoden. Fortschritte auf dem Gebiet der Integration sind ein langsamer, schwerer Prozess. Da Integration aber eine grundlegende Rolle in außerordentlich vielen Bereichen spielt, haben  selbst kleine Verbesserungen hier weitreichende Auswirkungen.

Lineare Algebra

Methoden der linearen Algebra - der Lösung von Systemen linearer Gleichungen und das Finden von Struktur (Zerlegungen) in solchen Systemen um nachfolgende Berechnungen vereinfachen - sind die Grundlage praktisch alles wissenschaftlichen Rechnens. Obwohl die klassischen Methoden äußerst effizient sind haben Sie Probleme mit manchen Aspekten  zeitgenössischer Aufgaben im maschinellen Lernen mit großen Datenmengen - insbesondere sind sie nicht stabil wenn ihre internen Rechnungen mit niedriger Präzision durchgeführt werden. Wir haben eine probabilistische Interpretation von Methoden der linearen Algebra entwickelt und darauf basierend maßgeschneiderte lineare Löser entwickelt, die speziell auf die Art von Rechenaufgaben zugeschnitten sind, die beim maschinellen Lernen auftreten. 

Optimierung

Die Optimierung - das Finden des Minimums einer hochdimensionalen Fläche - ist die zentrale Rechenaufgabe des statistischen Lernens, insbesondere des Deep Learning. Die durch die Verarbeitung großer Datenmengen verursachte Stochastizität hat diesen Bereich, der einst als im Wesentlichen gelöst galt, wieder an die Front der Forschung zurück gebracht. In den letzten Jahren wurde eine Vielzahl neuer Optimierungsmethoden entwickelt. Viele von ihnen haben interne Parameter, die vom Anwender durch mühsames „Herumprobieren“ nachgeführt werden müssen. Unsere Arbeit hat zu Erkenntnissen über das Auftreten dieser Freien Parameter beigetragen, und neue berechenbare Größen als entscheidend für die Abstimmung von Hyperparametern identifiziert. Wir haben auch qualitativ hochwertige Softwarepakete herausgegeben, die diese Größen zugänglich machen, sowie Benchmarks für den quantitativen Vergleich von Optimierungsmethoden.

Differentialgleichungen

Differentialgleichungen beschreiben das Verhalten dynamischer Systeme. Beim maschinellen Lernen zeigen sie sich als die kontinuierliche Grenze bestimmter tiefer Architekturen, ebenso wie bei der modellbasierten Regelung oder dem Reinforcement Learning, überall wo Algorithmus "die Zukunft vorhersagen" muss. Sie spielen darüber hinaus auch eine zentrale Rolle in der quantitativen Wissenschaft und daher auch in vielen Anwendungen des maschinellen Lernens in der Wissenschaft. Unsere Arbeit hat dazu beigetragen, den klassischen Formalismus für die Lösung von (insbesondere gewöhnlichen) Differentialgleichungen zu erweitern, indem probabilistische Unsicherheit über den gesamten Prozess hinweg mitgeführt wird. Dadurch werden neue Modellierungsparadigmen freigeschaltet, die Löser von Differentialgleichungen robuster gegenüber rechnerischer Ungenauigkeit gemacht, strukturiertere Vorstellungen von der Ausgangsunsicherheit geschaffen und die Unsicherheit durch die Berechnung propagiert.