Der SFB 1233 “Robustheit des Sehens” ist in der 3. Förderperiode unterteilt in zehn Forschungsprojekte und einem Infrastrukturprojekt, die alle durch das zentrale Koordinationsprojekt unterstützt werden.
Unsere visuelle Welt zeichnet sich durch ihre kompositionelle Struktur aus: Sie besteht aus unterschiedlichen Objekten, die durch ihre Form sowie physikalische Eigenschaften wie Farbe, Reflexion und Klang definiert sind. Für einen Akteur, der in dieser Umgebung agiert, ist es entscheidend, eine Vorstellung von den Objekten zu entwickeln. Diese sollte es ermöglichen, unabhängig von Blickwinkeln, teilweiser Verdeckung, Beleuchtung und anderen Veränderungen robust zu agieren. Das Verständnis der „Objekthaftigkeit“ und der kompositionellen Struktur der Welt ist daher essenziell, um effizient und flexibel auf neue Situationen reagieren zu können. Zudem ist es für Aufgaben, die präzise Manipulation erfordern, von großer Bedeutung, Objekteigenschaften auf Basis von Material- und Teilbeziehungen zu verstehen und vorherzusagen.
Während klassische Theorien der visuellen Wahrnehmung die Bedeutung einer objektzentrierten Integration von Informationen betonten, orientieren sich viele moderne Ansätze der maschinellen Wahrnehmung an ganz anderen Zielen. Oft liegt der Fokus auf pixelbasierten Daten, wodurch maschinelle Systeme unstrukturierte „Feature-Vektoren“ und Strategien entwickeln, die sich grundlegend von menschlichen Wahrnehmungsprozessen unterscheiden. Diese Ansätze können zwar für spezifische Aufgaben wie Objekterkennung hilfreich sein, sie erschweren jedoch ein tiefgreifendes Verständnis der visuellen Welt und die Anpassung an neue Aufgaben. Trotz der Fortschritte durch großskalige Basis-Modelle (Foundation Models) bleibt ein deutlicher Unterschied zwischen menschlichem und maschinellem Verhalten bei visuell-zentrierten Aufgaben bestehen.
Thema A beschäftigt sich mit der Erforschung künstlicher Wahrnehmungssysteme, um herauszufinden, welche Prinzipien und Mechanismen (induktive Verzerrungen) notwendig sind, um eine robuste Wahrnehmung in offenen Weltbedingungen zu erreichen – ähnlich der menschlichen Wahrnehmung. Im ersten Projekt, A1, steht die Verbesserung der 3D-Objekterkennung aus Videodaten in offenen Umgebungen im Fokus. Die Hypothese lautet, dass die objektzentrierte Modellierung der Welt ein entscheidender Schlüssel für eine menschlich ähnliche Robustheit ist.
Das zweite Projekt, A2, untersucht, wie sich objektzentrierte Inferenzalgorithmen – in Kombination mit weiteren Prinzipien wie den Beziehungen zwischen Objektteilen – nutzen lassen, um ein allgemeines Verständnis der 3D-Welt zu entwickeln. Der Schwerpunkt liegt dabei auf der Lösung komplexer Manipulationsaufgaben in realistischen, dynamischen 3D-Umgebungen.
Projekt A1: Robuste Objekterkennung – Unüberwachte, objektzentrierte Wahrnehmung aus Videos
Projekt A2: Evaluierung von agentenbezogenen Seh-Systemen
Ergänzend zu Thema A, das sich darauf konzentriert, maschinelle Wahrnehmungssysteme zu entwickeln, um zu untersuchen, wie grundlegende Prinzipien wie die „Objekthaftigkeit“ die Effizienz für autonome, agentenzentrierte Wahrnehmung fördern können, widmet sich Thema B der Frage, wie solche Prinzipien die high-level Repräsentationen im menschlichen Gehirn formen. Wir untersuchen, wie das menschliche Gehirn aus den reichen und dynamischen visuellen Eindrücken der natürlichen Wahrnehmung high-level Informationen extrahiert und repräsentiert.
Natürliche Reize enthalten kompositionelle raumzeitliche Regelmäßigkeiten, die durch die physikalischen Gesetze unserer Welt sowie durch die Strukturen unserer Umgebung und unseres Verhaltens geprägt sind. Solche Regelmäßigkeiten können von modular organisierten neuronalen Schaltkreisen genutzt werden. Darüber hinaus kann visuelle Information mit Vorwissen, Erinnerungen und anderen Sinneseindrücken (z. B. Hören) integriert werden, um robuste Repräsentationen aufzubauen.
Die drei Projekte in diesem Forschungsthema arbeiten eng zusammen, um die neuronalen Mechanismen zu untersuchen, die der Extraktion und Darstellung high-level Reizinformationen bei robuster Wahrnehmung im menschlichen Gehirn zugrunde liegen. Alle Projekte verfolgen einen interdisziplinären Ansatz, der neurophysiologische Studien des menschlichen Gehirns auf verschiedenen räumlich-zeitlichen Ebenen mit der computergestützten Modellierung durch künstliche neuronale Netzwerke (KNN) kombiniert.
Dabei verwenden wir identische sensorische Reize: multisensorische Filmausschnitte aus Projekt B1, speziell manipulierte natürliche Filme aus Projekt B2 und präzise Bewegungsstimuli mit Ground-Truth aus Projekt B3. Wir arbeiten gemeinsam an Messungen, KNN-Modellen und Datenanalysemethoden, um Vergleiche zwischen KNN und der menschlichen Gehirnaktivität zu ermöglichen. Alle neuronalen und Verhaltensdaten aus den Projekten von Thema B werden in einer offenen Datenbank verfügbar gemacht.
Projekt B1: Visuelle und multimodelle “High-Level” Repräsentationen im menschlichen Gehirn
Projekt B2: Großskalige Interaktionen bei der natürlichen Wahrnehmung
Projekt B3: Verarbeitung natürlicher dynamischer Szenen im menschlichen Gehirn – Groß angelegte modulare Berechnung
Ein zentrales Merkmal der agentenbasierten Wahrnehmung ist, dass Agenten aktiv visuelle Informationen aufnehmen. Die Projekte in Thema C untersuchen, wie aktive Strategien zur Stichprobenentnahme (Active Sampling) dabei helfen können, eine robuste visuelle Wahrnehmung zu erreichen. Der Schwerpunkt liegt auf unsicheren Umgebungen, in denen aktives Sampling effektiv zur internen Modellbildung und zur effizienten Erfassung visueller Informationen eingesetzt werden kann.
Wir werden erforschen, wie probabilistische zeitliche Regelmäßigkeiten genutzt werden können, um interne Modelle zu entwickeln, und wie diese Modelle für Orientierung und aktives Sampling eingesetzt werden können – sowohl durch Messungen des menschlichen Verhaltens als auch mithilfe künstlicher Agenten. Zudem werden wir Augenbewegungen bei Primaten und Menschen als aktive visuelle Inferenz in fovealen Systemen untersuchen. Mithilfe dynamischer Videostimuli integrieren wir Augenbewegungen, neuronale Reaktionen bei Makaken und Menschen sowie visuelle Diskriminationsaufgaben in ein ganzheitliches Modell zur Steuerung von Blickbewegungen.
Die beiden Projekte, C1 und C2, sind eng miteinander verknüpfte Bausteine des übergeordneten Forschungsziels: das komplexe Zusammenspiel von Wahrnehmung, Kognition und Handlung in unsicheren Umgebungen zu verstehen und zu modellieren. Der Fokus liegt dabei auf der adaptiven internen Modellbildung sowie der aktiven Auswahl von Fixationspunkten und der Steuerung von Blickbewegungen.
Projekt C1: Vorhersage und Modellbildung in unsicheren Umgebungen
Projekt C2: Frühe visuelle Verarbeitung bei Augenbewegungen – Benchmarking der aktiven frühen Wahrnehmung
Forschungsthema D widmet sich der Modellierung präkortikaler Bildtransformationen, insbesondere der Frage, wie solche Transformationen optimiert werden, um Informationen aus natürlichen visuellen Reizen dynamisch auszuwählen. Ein zentraler und gemeinsamer Fokus der Projekte in Thema D liegt darauf, neuronale Reaktionen auf natürliche Filme entlang der beiden Hauptpfade der visuellen Verarbeitung bei Mäusen zu messen und zu modellieren: dem retino-kollikulären und dem genikulo-kortikalen Pfad. Diese Daten werden mithilfe von „Digital Twin“-Modellen analysiert und simuliert.
Die Zusammenführung der früheren Projekte TP10, TP12 und TP13 sowie die Einbindung der Projektleiter Franke, Macke und Sinz in ein gemeinsames Forschungsthema wird die erfolgreiche Praxis des Daten- und Modellteilens zwischen den Projekten TP10 und TP12 aus den vorherigen Förderperioden erheblich erweitern. Diese Strategie wird zusätzlich durch die Verpflichtung aller Projekte in Thema D unterstützt, die fortschrittlichen, natürlichen Stimuli zu nutzen, die von Projekt D1 bereitgestellt werden.
Darüber hinaus werden alle Projekte verschiedene gemeinsame Modellierungstechniken einsetzen, darunter die Analyse optimierter Bilder, die aus „Digital Twin“-Modellen abgeleitet werden – eine Methodik, die von PI Sinz entwickelt wurde und in Zusammenarbeit mit PIs Franke und Euler angewendet wird. Die Projekte sind außerdem durch das übergeordnete Thema der Untersuchung induktiver Verzerrungen verbunden. Thema D wird sich mit der Frage beschäftigen, wie Umwelt- und Verhaltensstatistiken mit neuronalen Repräsentationen und letztendlich mit der Wahrnehmungsleistung zusammenhängen.
Das gemeinsame Stimulus-, Rechen- und Konzeptframework, das sich auf neuronale Anpassungen an natürliche Umgebungen und Verhaltensweisen konzentriert, soll umfangreiche Synergien innerhalb von Thema D fördern.
Projekt D1: Anregende Stimuli für Mäuse und wie sie vom frühen visuellen System kodiert werden
Projekt D2: Kollaborative, detailgetreue Modelle der Informationsselektion in einer vollständigen RGC-Population
Projekt D3: Informationsselektion im dLGN und SC der Maus in unterschiedlichen internen und externen Kontexten
Ein zentrales Ziel des SFB ist es, offene Plattformen für Modelle, Daten und Evaluation bereitzustellen, die den Aufbau von „Digital Twin“-Modellen auf verschiedenen Abstraktionsebenen sowie quantitative Vergleiche zwischen Modellen und Daten ermöglichen und die kollaborative Nutzung durch die gesamte Forschungsgemeinschaft unterstützen.
In diesem bereichsübergreifenden Projekt werden wir daher in Zusammenarbeit mit allen Projektleitenden sowohl konzeptionelle Ansätze als auch rechnergestützte Werkzeuge für die Evaluierung von Wahrnehmungsmodellen auf unterschiedlichen Skalen und Detailebenen entwickeln und bereitstellen. Zudem werden wir Unterstützung bei der Bereitstellung von Open-Source-Datensätzen, -Modellen und -Werkzeugen leisten.
Infrastrukturprojekt: Software, Methoden und rechnerische Werkzeuge zur Evaluierung computergestützter Modelle der Wahrnehmung