Czym jest i do czego służy plik VCF?
Plik VCF (Variant Call Format) jest wynikiem przetwarzania Twoich danych w formacie FASTQ. Plik ten porównuje Twoje surowe DNA z „genomem referencyjnym” (standardowym modelem ludzkim). Plik VCF wymienia miejsca, w których Twoje DNA różni się od genomu referencyjnego, czyli warianty (SNP, insercje lub delecje), które znajdują się w Twojej genetyce.
Pliki VCF są zazwyczaj skompresowane w formacie .vcf.gz. Narzędzia bioinformatyczne są zaprojektowane do bezpośredniego odczytu tych skompresowanych plików, chociaż można je również zdekompresować za pomocą narzędzi takich jak 7zip lub gzip.
Dla kogo jest przydatny?
- Ciekawscy użytkownicy: Jeśli chcesz wyszukać konkretną mutację genetyczną (na przykład na chromosomie 14, pozycja 64877827 w genie MTHFD1).
- Analiza zewnętrzna: Ten format jest standardem wymaganym, jeśli chcesz przesłać swoje dane do innych usług akceptujących dane WGS w celu uzyskania informacji o pochodzeniu lub zdrowiu.
Mocne strony
- Użyteczność: Ten plik zawiera rzeczywiste dane genetyczne.
- Kompaktowość: Ponieważ wymienia tylko różnice, jest znacznie mniejszy niż surowe pliki FASTQ (link do pytania o FASTQ).
Ograniczenia
- Dane przetworzone: Plik zależy od aktualnego genomu referencyjnego używanego przez tellmeGen (GRCh37). Jeśli model referencyjny ulegnie zmianie, plik ten stanie się nieaktualny, w przeciwieństwie do pliku FASTQ.
Jak otworzyć i używać pliku
- Podstawowe użycie: Po rozpakowaniu można go otworzyć jako plik tekstowy (za pomocą Notepad++ w systemie Windows, TextMate na Macu).
- Zaawansowane użycie: Użyj przeglądarki VCF lub Integrative Genomics Viewer (IGV), aby wizualnie zobaczyć warianty. Możesz także użyć narzędzi innych firm, takich jak Galaxy, do wykonywania operacji na pliku VCF.
Wymagania systemowe
- System operacyjny: Windows, Mac lub Linux.
- RAM: Standardowo 8 GB.
- Pamięć: <1 GB.