Что такое файл VCF и для чего он нужен?
Файл VCF (Variant Call Format) является результатом обработки ваших данных в формате FASTQ. Этот файл сравнивает вашу исходную ДНК с «референсным геномом» (стандартная модель человека). В файле VCF перечислены места, где ваша ДНК отличается от референсного генома, то есть варианты (SNP, вставки или делеции), которые присутствуют в вашей генетике.
Файлы VCF обычно сжаты в формате .vcf.gz. Биоинформатические инструменты разработаны для прямого чтения этих сжатых файлов, хотя их также можно распаковать с помощью таких инструментов, как 7zip или gzip.
Для кого это полезно?
- Любознательные пользователи: Если вы хотите найти конкретную генетическую мутацию (например, в позиции хромосомы 14, 64877827 в гене MTHFD1).
- Сторонний анализ: Этот формат является требуемым стандартом, если вы хотите загрузить свои данные в другие сервисы, принимающие данные WGS, для получения информации о происхождении или здоровье.
Преимущества
- Применимость: Этот файл содержит реальные генетические данные.
- Компактность: Поскольку перечислены только отличия, он намного меньше, чем необработанные файлы FASTQ (ссылка на вопрос о FASTQ).
Ограничения
- Обработанные данные: Файл зависит от текущего референсного генома, используемого tellmeGen (GRCh37). Если референсная модель изменится, этот файл устареет, в отличие от файла FASTQ.
Как открыть и использовать файл
- Базовое использование: После распаковки его можно открыть как текстовый файл (с помощью Notepad++ в Windows, TextMate на Mac).
- Продвинутое использование: Используйте просмотрщик VCF или Integrative Genomics Viewer (IGV) для визуального просмотра вариантов. Вы также можете использовать сторонние инструменты, такие как Galaxy, для выполнения операций с вашим файлом VCF.
Системные требования
- Операционная система: Windows, Mac или Linux.
- ОЗУ: стандартно 8 ГБ.
- Хранилище: <1 ГБ.