Der SFB 1233 “Robustheit des Sehens” ist in der 3. Förderperiode unterteilt in zehn Forschungsprojekte und einem Infrastrukturprojekt, die alle durch das zentrale Koordinationsprojekt unterstützt werden.
Unsere visuelle Welt zeichnet sich durch ihre kompositionelle Struktur aus: Sie besteht aus unterschiedlichen Objekten, die durch ihre Form sowie physikalische Eigenschaften wie Farbe, Reflexion und Klang definiert sind. Für einen Akteur, der in dieser Umgebung agiert, ist es entscheidend, eine Vorstellung von den Objekten zu entwickeln. Diese sollte es ermöglichen, unabhängig von Blickwinkeln, teilweiser Verdeckung, Beleuchtung und anderen Veränderungen robust zu agieren. Das Verständnis der „Objekthaftigkeit“ und der kompositionellen Struktur der Welt ist daher essenziell, um effizient und flexibel auf neue Situationen reagieren zu können. Zudem ist es für Aufgaben, die präzise Manipulation erfordern, von großer Bedeutung, Objekteigenschaften auf Basis von Material- und Teilbeziehungen zu verstehen und vorherzusagen.
Während klassische Theorien der visuellen Wahrnehmung die Bedeutung einer objektzentrierten Integration von Informationen betonten, orientieren sich viele moderne Ansätze der maschinellen Wahrnehmung an ganz anderen Zielen. Oft liegt der Fokus auf pixelbasierten Daten, wodurch maschinelle Systeme unstrukturierte „Feature-Vektoren“ und Strategien entwickeln, die sich grundlegend von menschlichen Wahrnehmungsprozessen unterscheiden. Diese Ansätze können zwar für spezifische Aufgaben wie Objekterkennung hilfreich sein, sie erschweren jedoch ein tiefgreifendes Verständnis der visuellen Welt und die Anpassung an neue Aufgaben. Trotz der Fortschritte durch großskalige Basis-Modelle (Foundation Models) bleibt ein deutlicher Unterschied zwischen menschlichem und maschinellem Verhalten bei visuell-zentrierten Aufgaben bestehen.
Thema A beschäftigt sich mit der Erforschung künstlicher Wahrnehmungssysteme, um herauszufinden, welche Prinzipien und Mechanismen (induktive Verzerrungen) notwendig sind, um eine robuste Wahrnehmung in offenen Weltbedingungen zu erreichen – ähnlich der menschlichen Wahrnehmung. Im ersten Projekt, A1, steht die Verbesserung der 3D-Objekterkennung aus Videodaten in offenen Umgebungen im Fokus. Die Hypothese lautet, dass die objektzentrierte Modellierung der Welt ein entscheidender Schlüssel für eine menschlich ähnliche Robustheit ist.
Das zweite Projekt, A2, untersucht, wie sich objektzentrierte Inferenzalgorithmen – in Kombination mit weiteren Prinzipien wie den Beziehungen zwischen Objektteilen – nutzen lassen, um ein allgemeines Verständnis der 3D-Welt zu entwickeln. Der Schwerpunkt liegt dabei auf der Lösung komplexer Manipulationsaufgaben in realistischen, dynamischen 3D-Umgebungen.
Projekt A1: Robuste Objekterkennung – Unüberwachte, objektzentrierte Wahrnehmung aus Videos
Projekt A2: Evaluierung von agentenbezogenen Seh-Systemen
Ergänzend zu Thema A, das sich darauf konzentriert, maschinelle Wahrnehmungssysteme zu entwickeln, um zu untersuchen, wie grundlegende Prinzipien wie die „Objekthaftigkeit“ die Effizienz für autonome, agentenzentrierte Wahrnehmung fördern können, widmet sich Thema B der Frage, wie solche Prinzipien die high-level Repräsentationen im menschlichen Gehirn formen. Wir untersuchen, wie das menschliche Gehirn aus den reichen und dynamischen visuellen Eindrücken der natürlichen Wahrnehmung high-level Informationen extrahiert und repräsentiert.
Natürliche Reize enthalten kompositionelle raumzeitliche Regelmäßigkeiten, die durch die physikalischen Gesetze unserer Welt sowie durch die Strukturen unserer Umgebung und unseres Verhaltens geprägt sind. Solche Regelmäßigkeiten können von modular organisierten neuronalen Schaltkreisen genutzt werden. Darüber hinaus kann visuelle Information mit Vorwissen, Erinnerungen und anderen Sinneseindrücken (z. B. Hören) integriert werden, um robuste Repräsentationen aufzubauen.
Die drei Projekte in diesem Forschungsthema arbeiten eng zusammen, um die neuronalen Mechanismen zu untersuchen, die der Extraktion und Darstellung high-level Reizinformationen bei robuster Wahrnehmung im menschlichen Gehirn zugrunde liegen. Alle Projekte verfolgen einen interdisziplinären Ansatz, der neurophysiologische Studien des menschlichen Gehirns auf verschiedenen räumlich-zeitlichen Ebenen mit der computergestützten Modellierung durch künstliche neuronale Netzwerke (KNN) kombiniert.
Dabei verwenden wir identische sensorische Reize: multisensorische Filmausschnitte aus Projekt B1, speziell manipulierte natürliche Filme aus Projekt B2 und präzise Bewegungsstimuli mit Ground-Truth aus Projekt B3. Wir arbeiten gemeinsam an Messungen, KNN-Modellen und Datenanalysemethoden, um Vergleiche zwischen KNN und der menschlichen Gehirnaktivität zu ermöglichen. Alle neuronalen und Verhaltensdaten aus den Projekten von Thema B werden in einer offenen Datenbank verfügbar gemacht.
Projekt B1: Visuelle und multimodelle “High-Level” Repräsentationen im menschlichen Gehirn
Projekt B2: Großskalige Interaktionen bei der natürlichen Wahrnehmung
Projekt B3: Verarbeitung natürlicher dynamischer Szenen im menschlichen Gehirn – Groß angelegte modulare Berechnung
Ein zentrales Merkmal der agentenbasierten Wahrnehmung ist, dass Agenten aktiv visuelle Informationen aufnehmen. Die Projekte in Thema C untersuchen, wie aktive Strategien zur Stichprobenentnahme (Active Sampling) dabei helfen können, eine robuste visuelle Wahrnehmung zu erreichen. Der Schwerpunkt liegt auf unsicheren Umgebungen, in denen aktives Sampling effektiv zur internen Modellbildung und zur effizienten Erfassung visueller Informationen eingesetzt werden kann.
Wir werden erforschen, wie probabilistische zeitliche Regelmäßigkeiten genutzt werden können, um interne Modelle zu entwickeln, und wie diese Modelle für Orientierung und aktives Sampling eingesetzt werden können – sowohl durch Messungen des menschlichen Verhaltens als auch mithilfe künstlicher Agenten. Zudem werden wir Augenbewegungen bei Primaten und Menschen als aktive visuelle Inferenz in fovealen Systemen untersuchen. Mithilfe dynamischer Videostimuli integrieren wir Augenbewegungen, neuronale Reaktionen bei Makaken und Menschen sowie visuelle Diskriminationsaufgaben in ein ganzheitliches Modell zur Steuerung von Blickbewegungen.
Die beiden Projekte, C1 und C2, sind eng miteinander verknüpfte Bausteine des übergeordneten Forschungsziels: das komplexe Zusammenspiel von Wahrnehmung, Kognition und Handlung in unsicheren Umgebungen zu verstehen und zu modellieren. Der Fokus liegt dabei auf der adaptiven internen Modellbildung sowie der aktiven Auswahl von Fixationspunkten und der Steuerung von Blickbewegungen.
Projekt C1: Vorhersage und Modellbildung in unsicheren Umgebungen
Projekt C2: Frühe visuelle Verarbeitung bei Augenbewegungen – Benchmarking der aktiven frühen Wahrnehmung
Forschungsthema D widmet sich der Modellierung präkortikaler Bildtransformationen, insbesondere der Frage, wie solche Transformationen optimiert werden, um Informationen aus natürlichen visuellen Reizen dynamisch auszuwählen. Ein zentraler und gemeinsamer Fokus der Projekte in Thema D liegt darauf, neuronale Reaktionen auf natürliche Filme entlang der beiden Hauptpfade der visuellen Verarbeitung bei Mäusen zu messen und zu modellieren: dem retino-kollikulären und dem genikulo-kortikalen Pfad. Diese Daten werden mithilfe von „Digital Twin“-Modellen analysiert und simuliert.
Die Zusammenführung der früheren Projekte TP10, TP12 und TP13 sowie die Einbindung der Projektleiter Franke, Macke und Sinz in ein gemeinsames Forschungsthema wird die erfolgreiche Praxis des Daten- und Modellteilens zwischen den Projekten TP10 und TP12 aus den vorherigen Förderperioden erheblich erweitern. Diese Strategie wird zusätzlich durch die Verpflichtung aller Projekte in Thema D unterstützt, die fortschrittlichen, natürlichen Stimuli zu nutzen, die von Projekt D1 bereitgestellt werden.
Darüber hinaus werden alle Projekte verschiedene gemeinsame Modellierungstechniken einsetzen, darunter die Analyse optimierter Bilder, die aus „Digital Twin“-Modellen abgeleitet werden – eine Methodik, die von PI Sinz entwickelt wurde und in Zusammenarbeit mit PIs Franke und Euler angewendet wird. Die Projekte sind außerdem durch das übergeordnete Thema der Untersuchung induktiver Verzerrungen verbunden. Thema D wird sich mit der Frage beschäftigen, wie Umwelt- und Verhaltensstatistiken mit neuronalen Repräsentationen und letztendlich mit der Wahrnehmungsleistung zusammenhängen.
Das gemeinsame Stimulus-, Rechen- und Konzeptframework, das sich auf neuronale Anpassungen an natürliche Umgebungen und Verhaltensweisen konzentriert, soll umfangreiche Synergien innerhalb von Thema D fördern.
Projekt D1: Anregende Stimuli für Mäuse und wie sie vom frühen visuellen System kodiert werden
Projekt D2: Kollaborative, detailgetreue Modelle der Informationsselektion in einer vollständigen RGC-Population
Projekt D3: Informationsselektion im dLGN und SC der Maus in unterschiedlichen internen und externen Kontexten
Ein zentrales Ziel des SFB ist es, offene Plattformen für Modelle, Daten und Evaluation bereitzustellen, die den Aufbau von „Digital Twin“-Modellen auf verschiedenen Abstraktionsebenen sowie quantitative Vergleiche zwischen Modellen und Daten ermöglichen und die kollaborative Nutzung durch die gesamte Forschungsgemeinschaft unterstützen.
In diesem bereichsübergreifenden Projekt werden wir daher in Zusammenarbeit mit allen Projektleitenden sowohl konzeptionelle Ansätze als auch rechnergestützte Werkzeuge für die Evaluierung von Wahrnehmungsmodellen auf unterschiedlichen Skalen und Detailebenen entwickeln und bereitstellen. Zudem werden wir Unterstützung bei der Bereitstellung von Open-Source-Datensätzen, -Modellen und -Werkzeugen leisten.
Infrastrukturprojekt: Software, Methoden und rechnerische Werkzeuge zur Evaluierung computergestützter Modelle der Wahrnehmung
Our website uses cookies. Some of them are mandatory, while others allow us to improve your user experience on our website. The settings you have made can be edited at any time.
or
Essential
in2cookiemodal-selection
Required to save the user selection of the cookie settings.
3 months
be_lastLoginProvider
Required for the TYPO3 backend login to determine the time of the last login.
3 months
be_typo_user
This cookie tells the website whether a visitor is logged into the TYPO3 backend and has the rights to manage it.
Browser session
ROUTEID
These cookies are set to always direct the user to the same server.
Browser session
fe_typo_user
Enables frontend login.
Browser session
Videos
iframeswitch
Used to show all third-party contents.
3 months
yt-player-bandaid-host
Is used to display YouTube videos.
Persistent
yt-player-bandwidth
Is used to determine the optimal video quality based on the visitor's device and network settings.
Persistent
yt-remote-connected-devices
Saves the settings of the user's video player using embedded YouTube video.
Persistent
yt-remote-device-id
Saves the settings of the user's video player using embedded YouTube video.
Persistent
yt-player-headers-readable
Collects data about visitors' interaction with the site's video content - This data is used to make the site's video content more relevant to the visitor.
Persistent
yt-player-volume
Is used to save volume preferences for YouTube videos.
Persistent
yt-player-quality
Is used to save the quality settings for YouTube videos.
Persistent
yt-remote-session-name
Saves the settings of the user's video player using embedded YouTube video.
Browser session
yt-remote-session-app
Saves the settings of the user's video player using embedded YouTube video.
Browser session
yt-remote-fast-check-period
Saves the settings of the user's video player using embedded YouTube video.
Browser session
yt-remote-cast-installed
Saves the user settings when retrieving a YouTube video integrated on other web pages
Browser session
yt-remote-cast-available
Saves user settings when retrieving integrated YouTube videos.
Browser session
ANID
Used for targeting purposes to profile the interests of website visitors in order to display relevant and personalized Google advertising.
2 years
SNID
Google Maps - Google uses these cookies to store user preferences and information when you view pages with Google Maps.
1 month
SSID
Used to store information about how you use the site and what advertisements you saw before visiting this site, and to customize advertising on Google resources by remembering your recent searches, your previous interactions with an advertiser's ads or search results, and your visits to an advertiser's site.
6 months
1P_JAR
This cookie is used to support Google's advertising services.
1 month
SAPISID
Used for targeting purposes to profile the interests of website visitors in order to display relevant and personalized Google advertising.
2 years
APISID
Used for targeting purposes to profile the interests of website visitors in order to display relevant and personalized Google advertising.
6 months
HSID
Includes encrypted entries of your Google account and last login time to protect against attacks and data theft from form entries.
2 years
SID
Used for security purposes to store digitally signed and encrypted records of a user's Google Account ID and last login time, enabling Google to authenticate users, prevent fraudulent use of login credentials, and protect user data from unauthorized parties. This may also be used for targeting purposes to display relevant and personalized advertising content.
6 months
SIDCC
This cookie stores information about user settings and information for Google Maps.
3 months
NID
The NID cookie contains a unique ID that Google uses to store your preferences and other information.
6 months
CONSENT
This cookie tracks how you use a website to show you advertisements that may be of interest to you.
18 years
__Secure-3PAPISID
This cookie is used to support Google's advertising services.
2 years
__Secure-3PSID
This cookie is used to support Google's advertising services.
6 months
__Secure-3PSIDCC
This cookie is used to support Google's advertising services.
6 months