3 | University of Tübingen

Newsletter Uni Tübingen aktuell Nr. 1/2015: Forschung

Rechenzeit für genetische Großprojekte reduziert sich von Jahren auf Tage

Tübinger Programm DIAMOND analysiert DNA-Daten sehr viel schneller

Wissenschaftlern stehen immer bessere Methoden zur Verfügung, um die DNA von Lebewesen zu sequenzieren, also auszulesen. Längst wird nicht mehr nur das Erbgut eines einzelnen Organismus untersucht, sondern zum Beispiel die DNA einer ganzen Bodenprobe, in der Bakterien, Pilze und Insekten leben. Oder Mediziner möchten anhand einer Stuhlprobe über die enthaltene DNA herausbekommen, wie sich die Darmflora des Menschen zusammensetzt.

Um solche gigantischen Datenmengen zu analysieren, werden die gewonnenen DNA-Daten mit den Einträgen großer Datenbanken zu bereits untersuchten Lebewesen verglichen, genauer mit deren Proteinen. So lassen sich die Organismen aus der Probe identifizieren. Bisher verwenden Bioinformatiker dafür Programme der Blast-Familie, die viel Rechenzeit benötigen. Nun ist es Benjamin Buchfink und Professor Dr. Daniel Huson vom Zentrum für Bioinformatik der Universität Tübingen in Zusammenarbeit mit Chao Xie von der National University in Singapur gelungen, dieses Verfahren um das 20.000-Fache zu beschleunigen. Das neue Programm DIAMOND (double index alignment of next-generation sequencing data) verkürzt die Rechenzeit von Jahren auf Tage.

Die Programme arbeiten alle nach dem gleichen Prinzip: Jeweils ein kurzes Stück der DNA, eine Abfolge von mehreren Basen, vergleichbar mit einem Wort aus einigen Buchstaben, sucht in der Datenbank sein Gegenstück. Dann wird die Suche nach links und rechts ausgeweitet, um zu sehen, ob es sich um eine kurze zufällige Übereinstimmung handelt oder tatsächlich das entsprechende Element gefunden worden ist. „Das Blast-Programm arbeitet mit einem einfachen Index, was man sich so als Wörterbuch vorstellen kann. Im Computer müssen dabei immer wieder Daten vom Hauptspeicher in den Arbeitsspeicher übertragen werden, das kostet viel Zeit“, erklärt Daniel Huson, „eigentlich ist viel mehr Rechenkapazität vorhanden, aber die Prozessoren müssen warten, bis sie wieder etwas tun können.“ Sein Mitarbeiter Benjamin Buchfink hat verschiedene Ideen getestet, wie sich dies beschleunigen ließe. Den Durchbruch brachte die doppelte Indizierung: „DIAMOND sortiert sowohl die DNA-Daten aus der Probe als auch die Proteindaten aus der Datenbank, die beiden Listen werden miteinander abgeglichen. „Wir waren selbst überrascht, dass sich das Verfahren dadurch so stark beschleunigen lässt“, sagt Huson. Die Genauigkeit der Ergebnisse sei mit der des früheren Verfahrens vergleichbar.

Für drei Milliarden Abgleiche von Proben-DNA mit der Datenbank würde ein einzelner Computerprozessor mit dem bisherigen BlastX-Programm 29 Jahre lang rechnen. „Mit DIAMOND dauert die Abarbeitung der gleichen Aufgabe gerade einen Tag“, sagt der Wissenschaftler. „Erst mit dem leistungsfähigeren Tool können wir überhaupt neue anspruchsvolle Projekte angehen. Wir wollen zum Beispiel in Zusammenarbeit mit Medizinern Therapien für einzelne Patienten entwickeln, die auf den individuellen Genen beruhen. Wir schätzen, dass wir dabei 15 Milliarden DNA-Abgleiche benötigen.“

Antje Karbe