O que é e para que serve um arquivo VCF?
O arquivo VCF (Variant Call Format) é o resultado do processamento dos seus dados no formato FASTQ. Este arquivo compara o seu ADN bruto com um “genoma de referência” (um modelo humano padrão). O arquivo VCF lista os lugares onde o seu ADN difere do genoma de referência, ou seja, as variantes (SNPs, inserções ou deleções) que se encontram na sua genética.
Os arquivos VCF costumam estar comprimidos no formato .vcf.gz. As ferramentas de bioinformática são projetadas para ler esses arquivos comprimidos diretamente, embora também possam ser descomprimidos com ferramentas como 7zip ou gzip.
Para quem é útil?
- Utilizadores curiosos: Se deseja procurar uma mutação genética específica (por exemplo, na posição do cromossoma 14, 64877827 no gene MTHFD1).
- Análise de terceiros: Este formato é o padrão exigido se deseja carregar os seus dados noutros serviços que aceitem dados de WGS para obter informações sobre ancestralidade ou saúde.
Pontos fortes
- Acionável: Este arquivo contém os dados genéticos reais.
- Compacto: Ao listar apenas as diferenças, é muito mais pequeno do que os arquivos FASTQ (link para a pergunta sobre FASTQ) brutos.
Limitações
- Dados processados: O arquivo depende do genoma de referência atual utilizado pela tellmeGen (GRCh37). Se o modelo de referência mudar, este arquivo ficará desatualizado, ao contrário do arquivo FASTQ.
Como abrir e usar o arquivo
- Uso básico: Após descomprimi-lo, pode ser aberto como um arquivo de texto (com Notepad++ no Windows, TextMate no Mac).
- Uso avançado: Utilize um visualizador VCF ou o Integrative Genomics Viewer (IGV) para ver as variantes de forma visual. Também pode usar ferramentas de terceiros como o Galaxy para realizar operações com o seu arquivo VCF.
Requisitos do sistema
- Sistema operativo: Windows, Mac ou Linux.
- RAM: 8GB padrão.
- Armazenamento: <1GB.