VCF文件格式解析
VCF文件全称为Variant Call Format,表示基因组的变异信息,通常为GATK和Samtools软件处理所得到。
VCF文件大致可以分为两个部分:
头文件信息主要包括vcf文件版本、FORMAT、INFO、参考基因组以及执行程序等信息。
表头各列含义详解:
手机vcf是什么文件
手机vcf是windows系统中的outlook名片存储格式文件。
VCF是一个C++编写的开源项目,全名Visual Component framework,中文名:可视化组件框架。
VCF格式通讯录格式现在用途广泛,一般诺基亚、摩托罗拉手机导出通讯录的格式即为VCF。可以把VCF格式保存到电脑上以备不时之需。
很多网上通讯录的导入格式也是VCF,例如飞信加入了导入联系人的功能,可以把手机通讯录导入飞信的通讯录里,这样不管手机在不在,只要有一台电脑就可以对自己的通讯录里的人了如指掌了。
扩展资料:
VCF文件的基本结构
VCF文件由两个主要部分组成:
1、the variant call records
该部分为主体部分,记录了每个样品每个位点处的基因分型信息。
2、the header
以‘##’为前缀,通常包含fileformat、fileDate、reference等信息,头行信息( header line )
参考资料来源:百度百科-VCF
什么是VCF?
什么是VCF文件:全称“The variant call format”,变体调用格式,是一种用于存储DNA多态性数据如snp、插入、删除和结构变体和丰富注释的通用格式。
什么是VCFtools:VCFtools是一个软件套件,它实现了处理VCF文件的各种工具,包括验证、合并、比较,还提供了一个通用的Perl API。
VCF格式:由标题部分(header)和数据部分(Body)组成。标头包含任意数量的元信息行,每一行都以字符' ## '开头,用TAB键分隔开的字段定义行(field definition line)以单个' # '字符开头。元信息头行提供了数据部分中使用的标记和注释的标准化描述。
字段定义行(field definition line)强制有八个列,相应的数据列代表
染色体 chromosome (CHROM);
基于1的位置开始的变体 a 1-based position of the start of the variant (POS);
变体的惟一标识符 unique identifiers of the variant (ID);
参考等位基因 the reference allele(REF);
替代非引用等位基因的逗号分隔列表 a comma separated list of alternate non-reference alleles(ALT);
phred-scaled质量分数 a phred-scaled quality score(QUAL);
网站过滤信息site filtering information (FILTER);
一个额外的分号分隔的列表和用户可扩展的注释 a semicolon separated list of additional, user extensible annotation (INFO)。
GT,genotype,基因型,将等位基因编码为数字:0表示参考等位基因,1表示ALT列中列出的***个等位基因,2表示ALT列中列出的第二个等位基因,以此类推。等位基因的数量表明样本的倍性,而分隔符表明相对于其他数据线,等位基因是阶段性的(' | ')还是非阶段性的(' / ')。
PS, phase set,表明具有相同PS值的基因型等位基因排列顺序相同。
DP,读取深度。
GL,genotype likelihoods,给定REF和ALT字段中定义的等位基因集,所有可能的基因型的基因型可能性。
GQ, genotype quality,在位点变异的情况下,基因型调用错误的概率。
生物数据格式 - vcf/bcf
VCF是Variant Call Format的简称,该格式文件是专门用于存储基因序列突变信息的一种文本文件,包括单碱基突变SNV、单核苷酸多态性SNP、InDel、拷贝数变异CNV和结构变异SV等,文件可以采取editplus或pilotedit(建议)打开查看,其二进制存储格式是BCF。vcf文件后续可以用于多种分析,包括但不限于:进化树分析、群体结构分析、PCA分析、GWAS关联分析等。vcf文件格式如下:
VCF文件开头是整体的注释信息,以##作为起始,其后接FILTER、INFO、FORMAT等,其中##FILTER开头的行是vcf主体record中第七列缩写词的说明、##INFO开头的行注释vcf主体record中第8列的缩写字母、##FORMAT开头的行注释第九列的缩写字母。
在header之后,vcf主体的每一行是一条record,固定列有9列,以及在之后的第十列,它们分别是:
***列:#CHROM,染色体号
第二列:POS,在染色体上的位置
第三列:ID,突变名称,一般只有人类才有dbSNP编号,以rs开头
第四列:REF,参考基因组碱基类型,必须大写
第五列:ALT,变异碱基类型,大写,多个以逗号分隔,‘.'表示缺失
第六列:QUAL,变异检测质量值,越高越可靠
第七列:FILTER,标记过滤结果的列:通过质控过滤标准的标记为‘PASS’,后续可用其他工具进行挑选过滤
第八列:INFO,附加信息列,附加信息的注释在header的##INFO中
第九列:FORMAT,后面信息的说明列
第十列开始为样品信息:GT=genotype、AD=碱基支持数量、DP=测序深度总和、PL=归一化后基因型的可能性、GQ=PL判读的基因型的质量值,其中当第二小的值小于99时,有必要怀疑基因型的可靠性。
vcf文件基本由bam文件生成,当得到排序并建立索引的bam文件后,可以使用多种工具例如bcftools、gatk、freeb***es、lumpy、delly、varscan2等处理得到。
处理vcf格式文件的软件有许多种,包括:bcftools、vcftools、gatk、python_pyvcf、plink等。
———以上属个人理解与记录
vcf文件说明
1. 什么是VCF
CVF是用于描述SNP,INDEL和SV结果的文本文件。做过DNA重测序,群体遗传进化,BSA,GWAS等项目的人都会遇到VCF文件,这个文件记录了所有样品基因组中所有位置变异(主要包括SNP和InDel)信息。后续几乎所有的分析内容都是基于此文件,比如进化树分析、群体结构分析、PCA分析、GWAS关联分析等等。
官方说明:
下面是一个典型VCF文件的示例(部分):
2. 整体说明信息(meta-information lines)
VCF文件分为两部分内容:以“#”开头的 注释 部分;没有“#”开头的 主体 部分。去掉了头部的注释行,只留下了代表每一行意义的注释行。
VCF文件的开头是整体注释信息,通常以##作为起始,其后一般接以FILTER,INFO,FORMAT等字样。例如:
3. Variation
FORMAT [9] 和 R01 [10]:这两行合起来提供了’R01(某个基因名)′这个sample的基因型的信息。’NA12878′代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。
vcf是什么文件的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于vcf文件是干嘛的、vcf是什么文件的信息别忘了在本站进行查找喔。