Mein Genom ist da: Download & tellmeGen-Reports
Wie bereits zuvor berichtet, habe ich vor knapp drei Monaten, genauer am 23. Oktober 2025, das Ultra Whole Genome Sequencing 30x-Kit von tellmeGen bestellt, um dort mein Genom sequenzieren zu lassen. Am 10. Dezember, also 48 Tage später, kam dann endlich eine E-Mail mit dem schönen Satz: “Your results are already available”. In diesem Beitrag möchte ich kurz berichten, welche Erfahrungen ich bisher mit meinen Daten gesammelt habe.
Download der Rohdaten
Die Rohdaten sind bei tellmeGen unter “Settings” verlinkt. Dort stehen die genetischen Varianten als direkter Download im VCF-Format bereit. Für die Sequenzierdaten muss man eine E-Mail mit den Download-Links anfordern, weil diese Dateien sehr groß sind. Da es sich um “paired-end”-Sequenzierung handelt, werden zwei Links zur Verfügung gestellt. Ich konnte alles problemlos und schnell mit ungefähr 20 MB/s herunterladen.
Die VCF-Datei ist bei mir 143 MB groß. Die beiden komprimierten FASTQ-Dateien liegen bei 39 GB und 44 GB und enthalten jeweils 360 Mio. Reads mit einer Länge von jeweils 150 Basenpaaren.
Zusätzlich zu diesen drei Dateien hätte ich mir einen Sequenzier-Qualitätsreport gewünscht. Den werde ich mir daher später mit Hilfe der Rohdaten selbst generieren.
Die tellmeGen-Reports
tellmeGen stellt im Nutzerbereich eine Vielzahl an Reports in englischer Sprache zur Verfügung. Ein Report beleuchtet mein genetisches Profil (sprich: meine Varianten) in Bezug auf einen Phänotyp, zum Beispiel eine Erkrankung oder ein Merkmal. Die Reports sind in mehrere Bereiche unterteilt: Genetic vulnerability to health conditions (Genetisches Risiko für multifaktorielle Erkrankungen), Hereditary conditions (monogene Erkrankungen und Trägerstatus), Pharmacology, Traits (Allgemeine Merkmale wie Größe, Gewicht oder Haarfarbe), Wellness (Merkmale in Bezug auf Gesundheit) und Ancestry (Makro-Abstammung, Neanderthaler-Bezug).
Im Pharmacology-Bereich wurde bei mir nichts angezeigt. In den anderen Bereichen (ausgenommen Ancestry) werden die Phänotypen sowie jeweils eine persönliche Einstufung (wie “low/high risk” oder “low/high levels”) aufgelistet. In der Detailansicht werden mehr Informationen zu den beteiligten Varianten und dem Phänotyp bereitgestellt. Wenn mehrere Varianten eingeflossen sind, werden Gene aufgelistet. Zusätzlich gibt es oft eine kurze biologische oder klinische Einordnung des Themas. Die Referenzen am Ende des Reports finde ich gut, weil man nachvollziehen kann, woher eine Aussage kommt.
Die Ancestry-Sektion ist optisch und didaktisch gut gemacht. Die Visualisierungen sind sauber, vieles ist verständlich erklärt, und insgesamt wirkt es rund. Gleichzeitig hat mich das Thema persönlich weniger gepackt als gedacht. Ein großer Teil ist allgemeine Einordnung und die persönlichen Implikationen sind meiner Meinung nach gering bis nicht vorhanden.
Aussagekraft
Fehlende Einordnung
Was mir beim Durchschauen der Reports gefehlt hat, ist eine klare Einordnung der Aussagekraft der jeweils verwendeten Varianten. Also ganz konkret: Wie gut erklären diese Varianten den jeweiligen Phänotyp tatsächlich, und wie groß ist der erwartbare Effekt für mich bzw. meine Gesundheit
Bei klassischen Erbkrankheiten ist die Lage zwar oft vergleichsweise eindeutig, weil einzelne pathogene Varianten in einem Gen eine große Wirkung haben können (wobei Penetranz und Expressivität trotzdem variieren können). Bei den meisten anderen Themen in den Reports geht es dagegen um komplexe, multifaktorielle Phänotypen. Diese werden typischerweise von sehr vielen genetischen Varianten mit jeweils kleinen Effekten beeinflusst und häufig zusätzlich durch nicht-genetische Faktoren wie Lebensstil und Umwelt geprägt (Boyle 2017; Visscher 2017).
Gerade bei diesen multifaktoriellen Phänotypen kommt hinzu, dass genetische Studien zwar viele assoziierte Loci gefunden haben, die erklärte Varianz aber häufig deutlich hinter der geschätzten Heritabilität zurückbleibt. Dieses Spannungsfeld wird seit Jahren unter dem Begriff “missing heritability” diskutiert und hat mehrere plausible Ursachen, zum Beispiel sehr viele Varianten mit sehr kleinen Effekten, seltene Varianten, unvollständige Erfassung von Strukturvarianten oder Interaktionen (Wainschtein 2025; Brandt 2025).
Lizenzbarriere bei polygenen Risikoscores?
Mir ist außerdem aufgefallen, dass bei den Reports vieler multifaktorieller Phänotypen zwar eine Kombination aus mehreren genetischen Varianten in Form eines polygenen Risikoscores (PRS) verwendet wird, es sich aber laut Report-Beschreibung um relativ wenige konkrete Risiko-Loci/-Varianten aus genomweiten Assoziationsstudien (GWAS) handelt. Im Report zur koronaren Herzkrankheit werden zum Beispiel 179 Loci genannt. Das wirkt weniger wie ein modernes, genomweites Modell, sondern eher wie ein PRS aus einer überschaubaren Anzahl an GWAS-Tophits.
Das ist deshalb erwähnenswert, weil wir heute ziemlich gut verstehen, dass viele komplexe Merkmale stark polygen sind. Gemäß dem omnigenen Modell können bei komplexen Merkmalen wie multifaktoriellen Erkrankungen neben einigen “Kern”-Genen sehr viele, in relevanten Zelltypen exprimierte Gene indirekt über regulatorische Netzwerke beitragen. Das hilft zu erklären, warum GWAS über das gesamte Genom verteilt zahlreiche Signale mit meist kleinen Effekten finden (Boyle 2017).
Entsprechend beinhalten viele aktuelle PRS in der Literatur auch tatsächlich inzwischen viele Tausend bis Millionen von Varianten. Im The Polygenic Score (PGS) Catalog finden sich zum Beispiel für die koronare Herzkrankheit Scores, die mehrere Millionen Varianten kombinieren. Ein prominentes Beispiel ist der PRS von Khera et al., bei dem 6.630.150 Varianten (vs. 179 Loci, soweit aus der Report-Beschreibung von tellmeGen ersichtlich) verwendet werden.
Ein plausibler Grund für die in den tellmeGen-Reports als Kombination weniger Top-Hits/Loci beschriebenen Scores könnten Lizenz- und Nutzungsbedingungen sein. Der PGS Catalog weist explizit darauf hin, dass einzelne Scores spezifische Lizenzen oder Einschränkungen haben können (z.B. non-commercial). Lambert et al. beschreiben zudem ganz konkret Barrieren bei der Verfügbarkeit von PGS-Daten, darunter Restriktionen beim Teilen von Varianten und Gewichten aus kommerziellen Gründen sowie Zugangsbedingungen (Terms & Conditions) für GWAS-Summary-Statistiken.
Nicht populationsspezifisch
Ein weiterer Punkt ist die fehlende Populations- bzw. Ancestry-Spezifik. Polygenic Scores sind nicht “universell”, weil sich Allelfrequenzen und Kopplungsungleichgewicht (Linkage Disequilibrium) zwischen Populationen unterscheiden. Dadurch kann sich sowohl die Genauigkeit eines PRS je nach genetischem Hintergrund verändern als auch die Verteilung der Scores in der jeweiligen Referenzpopulation. Genau deshalb braucht man normalerweise entweder eine populationsspezifische Kalibrierung oder zumindest eine klar definierte Referenzverteilung aus einer passenden Vergleichspopulation, wenn man Aussagen wie “du liegst im X-ten Perzentil” machen möchte. Dass die PRS-Genauigkeit entlang eines genetischen Ancestry-Kontinuums deutlich variieren kann, wird z.B. von Ding et al. gezeigt.
In meinen tellmeGen-Reports habe ich dazu allerdings keine klare Information gefunden, weder welche Referenzpopulation für die Score-Berechnung bzw. Kalibrierung verwendet wurde, noch wo mein Score in einer passenden Population liegt. Zusätzlich kommt ein strukturelles Problem hinzu: Weil die PRS zugrundeliegenden GWAS-Datensätze historisch stark von Personen europäischer Abstammung dominiert sind, sind die Scores in anderen Populationen oft schlechter kalibriert und verlieren an Vorhersagekraft. Martin et al. diskutieren das explizit als Folge eurozentrischer GWAS-Biases.
Technische Qualität
In den Reports fehlen außerdem technische Qualitätsangaben zu den verwendeten Varianten. Es gibt zum Beispiel keine Informationen zur Sequenziertiefe an der jeweiligen Position, keine Genotypqualität (z.B. Genotype Quality, GQ) und ob die betroffene Region schwierig zu mappen ist. Gerade bei schwierigen Regionen wäre so eine Qualitätsanzeige hilfreich.
Fazit
Der Hauptfokus von tellmeGen liegt meiner Meinung nach klar auf der Sequenzierung. Die Reports sind zwar ein nettes Extra, bleiben für mich insgesamt aber in ihrer Aussagekraft begrenzt, vor allem weil zentrale Informationen zur Einordnung fehlen. Als nächsten Schritt werde ich meine FASTQ-Dateien durch meine eigene Pipeline schicken, um die Sequenzierqualität selbst zu beurteilen. Außerdem möchte ich andere öffentlich verfügbare Services ausprobieren und gegebenenfalls auch eigene Reports entwickeln.
Hinterlassen Sie einen Kommentar