Was ist eine VCF-Datei und wofür wird sie verwendet?
Die VCF-Datei (Variant Call Format) ist das Ergebnis der Verarbeitung Ihrer Daten im FASTQ-Format. Diese Datei vergleicht Ihre Roh-DNA mit einem „Referenzgenom“ (einem menschlichen Standardmodell). Die VCF-Datei listet die Stellen auf, an denen Ihre DNA vom Referenzgenom abweicht, also die Varianten (SNPs, Insertionen oder Deletionen), die in Ihrer Genetik gefunden wurden.
VCF-Dateien sind in der Regel im .vcf.gz-Format komprimiert. Bioinformatik-Tools sind darauf ausgelegt, diese komprimierten Dateien direkt zu lesen, sie können jedoch auch mit Werkzeugen wie 7zip oder gzip entpackt werden.
Für wen ist sie nützlich?
- Neugierige Nutzer: Wenn Sie nach einer spezifischen genetischen Mutation suchen möchten (zum Beispiel an der Position Chromosom 14, 64877827 im Gen MTHFD1).
- Drittanbieter-Analysen: Dieses Format ist der erforderliche Standard, wenn Sie Ihre Daten bei anderen Diensten hochladen möchten, die WGS-Daten akzeptieren, um Informationen über Abstammung oder Gesundheit zu erhalten.
Stärken
- Anwendbar: Diese Datei enthält die tatsächlichen genetischen Daten.
- Kompakt: Da nur die Unterschiede aufgelistet werden, ist sie viel kleiner als die rohen FASTQ-Dateien (Link zur Frage über FASTQ).
Einschränkungen
- Verarbeitete Daten: Die Datei hängt vom aktuellen Referenzgenom ab, das von tellmeGen verwendet wird (GRCh37). Wenn sich das Referenzmodell ändert, veraltet diese Datei, im Gegensatz zur FASTQ-Datei.
Öffnen und Verwenden der Datei
- Basis-Nutzung: Nach dem Entpacken kann sie als Textdatei geöffnet werden (mit Notepad++ unter Windows, TextMate auf dem Mac).
- Fortgeschrittene Nutzung: Verwenden Sie einen VCF-Viewer oder den Integrative Genomics Viewer (IGV), um die Varianten visuell darzustellen. Sie können auch Drittanbieter-Tools wie Galaxy nutzen, um Operationen mit Ihrer VCF-Datei durchzuführen.
Systemanforderungen
- Betriebssystem: Windows, Mac oder Linux.
- RAM: 8GB Standard.
- Speicherplatz: <1GB.