The goal of computer vision is to compute geometric and semantic properties of the three-dimensional world from digital images. Problems in this field include reconstructing the 3D shape of an object, determining how things are moving and recognizing objects or scenes. This course will provide an introduction to computer vision, with topics including image formation, camera models, camera calibration, feature detection and matching, motion estimation, geometry reconstruction, object detection and tracking, and scene understanding. Applications include building 3D maps, creating virtual avatars, image search, organizing photo collections, human computer interaction, video surveillance, self-driving cars, robotics, virtual and augmented reality, simulation, medical imaging, and mobile computer vision. Modern computer vision relies heavily on machine learning in particular deep learning and graphical models. This course therefore assumes prior knowledge of deep learning (e.g., deep learning lecture) and introduces the basic concepts of graphical models and structured prediction where needed. The tutorials will deepen the understanding of deep neural networks by implementing and applying them in Python and PyTorch. A strong emphasis of this course is on 3D vision.
Students gain an understanding of the theoretical and practical concepts of computer vision including image formation, camera models, feature detection, multiple view geometry, 3D reconstruction, motion estimation, object recognition, scene understanding and structured prediction using deep neural networks and graphical models. A strong emphasis of this course is on 3D vision. After this course, students should be able to understand and apply the basic concepts of computer vision in practice, develop and train computer vision models, reproduce research results and conduct original research in this area.
The exercises play an essential role in understanding the content of the course. There will be 6 assignments in total. The assignments contain pen and paper questions as well as programming problems. For some of the exercises, the students will use PyTorch, a state-of-the-art deep learning framework which features GPU support and auto-differentiation. If you have questions regarding the exercises or the lecture, please ask them during the interactive sessions, at the zoom helpdesk or in our chat.
Date | Lecture Slides and Videos | Live Sessions | TA Support |
Recap: Math for Deep Learning | |||
28.04. | L01 - Introduction | Slides 1.1 Organization | Video 1.2 Introduction | Video 1.3 History of Computer Vision | Video | L01 - Lecture Organization | Markus Flicke |
05.05. | L02 - Image Formation | Slides 2.2 Geometric Image Formation | Video | L02 - Lecture Q&A | Markus Flicke |
12.05. | L03 - Structure-from-Motion | Slides 3.1 - Preliminaries| Video 3.2 - Two-frame Structure-from-Motion| Video 3.3 - Factorization | Video 3.4 - Bundle Adjustment | Video | L03 - Lecture Q&A E01 - Exercise Q&A E02 - Exercise Introduction | Problems | Markus Flicke |
19.05. | L04 - Stereo Reconstruction | Slides 4.1 - Preliminaries | Video 4.2 - Block Matching | Video 4.3 - Siamese Networks | Video 4.4 - Spatial Regularization | Video 4.5 - End-to-End Learning | Video | L04 - Lecture Q&A E02 - Exercise Q&A | Markus Flicke |
26.05. | L05 - Probabilistic Graphical Models | Slides 5.1 - Structured Prediction | Video 5.2 - Markov Random Fields | Video 5.3 - Factor Graphs | Video 5.4 - Belief Propagation | Video 5.5 - Examples | Video | L05 - Lecture Q&A E02 - Exercise Q&A | Markus Flicke |
No Lecture (Pfingstpause) | No Exercise (Pfingstpause) | ||
09.06. | L06 - Applications of Graphical Models | Slides 6.1 - Stereo Reconstruction | Video 6.2 - Multi-View Reconstruction | Video 6.3 - Optical Flow | Video | L06 - Lecture Q&A E03 - Exercise Q&A | Markus Flicke |
16.06. | L07 - Learning in Graphical Models | Slides 7.1 - Conditional Random Fields | Video 7.2 - Parameter Estimation | Video 7.3 - Deep Structured Models | Video | L07 - Lecture Q&A E03 - Exercise Q&A | Markus Flicke Haiwen Huang |
23.06. | No Lecture | No Exercise | |
30.06. | L08 - Shape-from-X | Slides 8.1 - Shape-from-Shading | Video 8.2 - Photometric Stereo | Video 8.3 - Shape-from-X | Video 8.4 - Volumetric Fusion | Video | L08 - Lecture Q&A E04 - Exercise Q&A | Haiwen Huang |
07.07. | L09 - Coordinate-based Networks | Slides 9.1 - Implicit Neural Representations | Video 9.2 - Differentiable Volumetric Rendering | Video 9.3 - Neural Radiance Fields | Video 9.4 - Generative Radiance Fields | Video | L09 - Lecture Q&A E04 - Exercise Q&A | Haiwen Huang |
14.07. | L10 - Recognition | Slides 10.1 - Image Classification | Video 10.2 - Semantic Segmentation | Video 10.3 - Object Detection and Segmentation | Video | L10 - Lecture Q&A E05 - Exercise Q&A | Haiwen Huang |
21.07. | L11 - Self-Supervised Learning | Slides 11.1 - Preliminaries | Video 11.2 - Task-specific Models | Video 11.3 - Pretext Tasks | Video 11.4 - Contrastive Learning | Video | L11 - Lecture Q&A E05 - Exercise Q&A | Haiwen Huang |
28.07. | L12 - Diverse Topics in Computer Vision | Slides 12.1 - Input Optimization | Video 12.2 - Compositional Models | Video 12.3 - Human Body Models | Video 12.4 - Deepfakes | Video | L12 - Lecture Q&A E06 - Exercise Q&A | Haiwen Huang |
Auf unserer Webseite werden Cookies verwendet. Einige davon werden zwingend benötigt, während es uns andere ermöglichen, Ihre Nutzererfahrung auf unserer Webseite zu verbessern. Ihre getroffenen Einstellungen können jederzeit bearbeitet werden.
oder
Essentiell
in2cookiemodal-selection
Erforderlich, um die Benutzerauswahl der Cookie-Einstellungen zu speichern.
3 Monate
be_lastLoginProvider
Benötigt, damit TYPO3 beim Backend-Login den Zeitpunkt des letzten Logins feststellen kann.
3 Monate
be_typo_user
Dieses Cookie teilt der Webseite mit, ob ein Besucher oder eine Besucherin zugleich im TYPO3-Backend angemeldet ist und die Rechte besitzt, die Webseite zu verwalten.
Sitzungsende
ROUTEID
Diese Cookies werden gesetzt, um den Benutzer oder die Benutzerin immer zum gleichen Server zu leiten.
Sitzungsende
fe_typo_user
Ermöglicht Frontend-Login.
Sitzungsende
Videos
iframeswitch
Wird verwendet, um eingebettete externe Inhalte Dritter anzuzeigen.
3 Monate
yt-player-bandaid-host
Wird verwendet, um YouTube-Videos anzuzeigen.
Beständig
yt-player-bandwidth
Wird verwendet, um die optimale Videoqualität basierend auf den Geräte- und Netzwerkeinstellungen des Besuchers oder der Besucherin zu bestimmen.
Beständig
yt-remote-connected-devices
Speichert die Einstellungen des Videoplayers des Benutzers oder der Benutzerin unter Verwendung von eingebettetem YouTube-Video.
Beständig
yt-remote-device-id
Speichert die Einstellungen des Videoplayers des Benutzers oder der Benutzerin unter Verwendung von eingebettetem YouTube-Video.
Beständig
yt-player-headers-readable
Sammelt Daten über die Interaktion der Besucher mit den Videoinhalten der Website - Diese Daten werden verwendet, um die Relevanz der Videoinhalte der Website für den Besucher zu erhöhen.
Beständig
yt-player-volume
Wird verwendet, um die bevorzugte Lautstärke der YouTube-Videos zu speichern.
Beständig
yt-player-quality
Wird verwendet, um die bevorzugte YouTube Wiedergabequalität zu speichern.
Beständig
yt-remote-session-name
Speichert die Einstellungen des Videoplayers des Benutzers oder der Benutzerin unter Verwendung von eingebettetem YouTube-Video.
Sitzungsende
yt-remote-session-app
Speichert die Einstellungen des Videoplayers des Benutzers oder der Benutzerin unter Verwendung von eingebettetem YouTube-Video.
Sitzungsende
yt-remote-fast-check-period
Speichert die Einstellungen des Videoplayers des Benutzers oder der Benutzerin unter Verwendung von eingebettetem YouTube-Video.
Sitzungsende
yt-remote-cast-installed
Speichert die Benutzereinstellungen beim Abruf eines auf anderen Webseiten integrierten YouTube-Videos.
Sitzungsende
yt-remote-cast-available
Speichert die Benutzereinstellungen beim Abruf von integrierten YouTube-Videos.
Sitzungsende
ANID
Wird für Targetingzwecke verwendet, um ein Profil der Interessen der Website-Besucher zu erstellen, um relevante und personalisierte Google-Werbung anzuzeigen.
2 Jahre
SNID
Google Maps - Google verwendet diese Cookies, um Benutzereinstellungen und Informationen zu speichern, wenn Sie Seiten mit Google Maps aufrufen.
1 Monat
SSID
Wird verwendet, um Informationen darüber zu speichern, wie Sie die Website nutzen und welche Werbung Sie vor dem Besuch dieser Website gesehen haben, und um die Werbung auf Google-Ressourcen anzupassen, indem Sie sich an Ihre letzten Suchanfragen, Ihre früheren Interaktionen mit Anzeigen oder Suchergebnissen eines Werbetreibenden und Ihre Besuche auf einer Website eines Werbetreibenden erinnern.
6 Monate
1P_JAR
Dieses Cookie wird verwendet, um die Werbedienste von Google zu unterstützen
1 Monat
SAPISID
Wird für Targetingzwecke verwendet, um ein Profil der Interessen der Website-Besucher zu erstellen, um relevante und personalisierte Google-Werbung anzuzeigen.
6 Monate
APISID
Wird für Targetingzwecke verwendet, um ein Profil der Interessen der Website-Besucher zu erstellen, um relevante und personalisierte Google-Werbung anzuzeigen.
6 Monate
HSID
Beinhaltet verschlüsselte Einträge Ihres Google Accounts und der letzten Login-Zeit um vor Attacken und Datendiebstahl aus Formulareinträgen zu schützen.
2 Jahre
SID
Wird zu Sicherheitszwecken verwendet, um digital signierte und verschlüsselte Aufzeichnungen der Google-Konto-ID eines Nutzers und der letzten Anmeldezeit zu speichern, die es Google ermöglichen, Nutzer zu authentifizieren, eine betrügerische Verwendung von Anmeldeinformationen zu verhindern und Benutzerdaten vor Unbefugten zu schützen. Dies kann auch für Targetingzwecke genutzt werden, um relevante und personalisierte Werbeinhalte anzuzeigen.
6 Monate
SIDCC
Dieses Cookie speichert Informationen über Nutzereinstellungen und -informationen für Google Maps.
3 Monate
NID
Das NID-Cookie enthält eine eindeutige ID, die Google verwendet, um Ihre Einstellungen und andere Informationen zu speichern.
6 Monate
CONSENT
Dieses Cookie verfolgt, wie Sie eine Website nutzen, um Ihnen Werbung zu zeigen, die für Sie interessant sein könnte.
18 Jahre
__Secure-3PAPISID
Dieses Cookie wird verwendet, um die Werbedienste von Google zu unterstützen
2 Jahre
__Secure-3PSID
Dieses Cookie wird verwendet, um die Werbedienste von Google zu unterstützen
2 Jahre
__Secure-3PSIDCC
Dieses Cookie wird verwendet, um die Werbedienste von Google zu unterstützen.
6 Monate