天天时讯:FASTQ格式是什么?FASTQ格式详情
FASQT格式是用于存储生物序列(通常是核苷酸序列)及其相应的碱基质量分数的一种文本格式。为简洁起见,序列字母和质量分数均使用单个ASCII字符进行编码。最初由Wellcome Trust Sanger Institute(桑格研究所)开发用于捆绑FASTA格式的序列和其碱基质量分数的,现在已成为存储Illumina Genome Analyzer(Illumina基因组分析仪)等高通量测序仪的标准输出格式。
FASTQ文件格式
(相关资料图)
第1行,以“@” 字符开头,后面跟着一个序列标识符和一个可选的描述(像FASTA格式标题行)。第2行,原始序列字符。第3行,以“+”字符开头,后面可选地跟着相同的序列标识符或者任何描述。第4行,第2行序列每个碱基的质量编码值,包含与第2行字符数量相同的符号。
包含单个序列的FASTQ文件示例如下:
字符“!”和“~”分别代表最低和最高质量,下面是ASCII代表质量值从左到右顺序递增:
Illumina序列标识符
来自Illumina软件的序列使用系统标识符:
HWUSI-EAS100Rthe unique instrument name
6flowcell lane
73tile number within the flowcell lane
941"x"-coordinate of the cluster within the tile
1973"y"-coordinate of the cluster within the tile
#0index number for a multiplexed sample (0 for no indexing)
/1the member of a pair, /1 or /2 (paired-end or mate-pair reads only)
Illumina流程1.4版本以后,使用#NNNNNN代替#0作为多重ID,NNNNNN是多重标签的序列。
EAS139the unique instrument name
136the run id
FC706VJthe flowcell id
2flowcell lane
2104tile number within the flowcell lane
15343"x"-coordinate of the cluster within the tile
197393"y"-coordinate of the cluster within the tile
1the member of a pair, 1 or 2 (paired-end or mate-pair reads only)
YY if the read is filtered, N otherwise
180 when none of the control bits are on, otherwise it is an even number
ATCACGindex sequence
请注意,最新版本的Illumina软件会输出样本编号(从样本表中读取替代)代替索引序列。例如,以下情况可能出现在批次的第一个样本中:
NCBI SRA数据
来自NCBI/EBI SRA数据库的FASTQ文件通常包含如下一个描述:
在本例中,由一个NCBI分配的标识符、描述保存Solexa/Illumina的原始标识符和read长度。测序是在双端模式下进行的(~500bp插入大小),详见SRR001666。值得注意的是,当使用带缺省参数设置的fastq-dump从SRA数据中提取数据时,fastq-dump将正向read和反向read的序列连接在一起,提取的序列具有双倍长度,丢失了双端测序信息。
更好的方法是保存原始材料并分成两个或三个文件(正向、反向、单个),例如:
另请注意,NCBI已将此FASTQ数据从原始Solexa/Illumina编码转换为Sanger标准(请参阅下面的编码)。
变动
质量
质量值Q是p的整数映射(即相应碱基判定不正确的概率),主要有两种不同的公式被使用。第一种是评估碱基判定的可靠性的不标准Sanger变体,也称为Phred质量分数:
Solexa流程(即与Illumina Genome Analyzer一起交付的软件)较早使用了不同的映射编码概率p/(1-p),而不是p:
虽然两个映射在更高质量值处渐近地相同,但它们在较低质量水平下不同(即,近似p> 0.05等同Q<13)。
使用Sanger(红色)和Solexa(黑色)方程(如上所述)的Q和p之间的关系。 垂直虚线表示p = 0.05,或等同地Q≈13。
llumina流程1.4版用户指南(附录B,第122页)指出:“评分定义为:Q=10*log10(p/(1-p)),其中p是对应碱基判定的概率”。Illumina流程1.5版用户指南(第5页新增内容)对此进行了修改,“流程1.3版质量评分方案已更改为Phred评分方案,质量得分按Phred+64被转换为ASCII字符表示。”
编码
Sanger格式可以使用ASCII 33~126字符表示0~93的Phred质量分数(尽管在原始read数据中,Phred质量分数很少超过60,但在组装或比对中可能有更高的分数)。这种方法也用于SAM格式中。根据seqanswers.com 上的公告,到2011年2月底,Illumina最新版本(1.8)的CASAVA流程将直接产生Sanger格式的fastq文件。Solexa/Illumina 1.0格式可以使用ASCII 59~126字符表示-5~62的Solexa/Illumina评分(原始read数据Solexa评分仅为-5~40)。从Illumina 1.3版本开始,到Illumina 1.8版本,使用ASCII 64~126表示0~62的Phred质量分数(原始数据中Phred分数仅为0~40)。从Illumina1.5版本开始,到Ilumina 1.8版本,Phred分数为0~2的含义略有不同。值0和1不在使用,值2(ASCII字符“B”)作为read片段结束的质量控制指示器。Illumina手册(第30页)内容:如果read以质量最差的一段(Q15或更低)结束,则片段中的所有质量值将被值2替换(ASCII字符“B”)…此Q2指标不能表示特定的错误率,而是表示read的特定最终部分不应用于进一步分析。此外,在Illumina 1.6版本之前,质量分数编码为“B”的碱基也可能在read内部发生,如下所示: 对于原始的read,质量分数的范围取决于所使用的技术和碱基判定标准,但对于最新的Illumina流程,通常会达到41.由于最大观察质量分数以前仅为40,因此各种脚本工具在遇到质量值大于40的数据时会中断。而对于经过过处理的read,质量分数可能会更高。例如:Illumina的Long Read Sequencing Service(以前的Moleculo)中read的质量分数为45。
色域
SOLiD数据,除了第一个位置,序列信息存储在色域中。质量值是Sanger格式的质量值,比对工具在质量值的首选版本上有所不同:其中一些包括主要和核苷酸的质量评分,而另一些则没有。序列read存档文件包含此质量分数。
模拟
FASTQ read模拟主要有以下几个工具:ART、XS。
压缩
质量分数占FASTQ格式所需磁盘空间(压缩前)的一般左右,因此压缩质量值可显著降低存储需求并加快测序数据的分析和传输。文献中提到的压缩方式主要无损和有损压缩。例如,有损压缩QualComp,无损压缩SCALCE、fastqz。
从Hiseq 2500开始,Illumina提供了将粗粒度质量输出到质量表的选项。分积分数直接从经验质量分数表中计算得出,该分数表与测序实验中所使用的硬件、软件和化学物质有关。
文件拓展名
FASTQ文件并没有标准的文件拓展名,但通常都是.fq或.fastq。
格式转换器
Biopython version 1.51 onwards (interconverts Sanger, Solexa and Illumina 1.3+)EMBOSS version 6.1.0 patch 1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)BioPerl version 1.6.1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)BioRuby version 1.4.0 onwards (interconverts Sanger, Solexa and Illumina 1.3+)BioJava version 1.7.1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)MAQ can convert from Solexa to Sanger (use this patch to support Illumina 1.3+ files).fastx_toolkit The included fastq_quality_converter program can convert Illumina to Sanger
命令行转换
FASTQ to FASTA format:
Illumina FASTQ 1.8 to 1.3
Illumina FASTQ 1.3 to 1.8
Illumina FASTQ 1.8 raw quality to binned quality (HiSeq Qtable 2.10.1, HiSeq 4000 )
Illumina FASTQ 1.8 raw quality to clinto format (a visual block representation)
参考资料
wiki FASTQ
转载请标明《http://www.cnblogs.com/yahengwang/p/8973948.html》
转载于:https://www.cnblogs.com/yahengwang/p/8973948.html
标签:
相关推荐:
最新新闻:
- 乱码问题怎么解决?Ubuntu9.04上看电影加载中文字幕乱码问题-速递
- 百度云资源分享 百度云干货资源
- 焦点播报:Windows下【AxureRP】原型设计工具破解码与安装包 安装步骤
- 耶鲁大学耗时5年的研究成果 左脑与右脑的神奇功能研究|今日报
- JavaEE---Servlet入门教程 JavaEE操作步骤_天天即时看
- 天天时讯:FASTQ格式是什么?FASTQ格式详情
- 环球新消息丨TSLAM9是什么?中心差分卡尔曼滤波
- 紫光电子平板电脑怎么样?紫光电子平板电脑如何刷机? 每日热门
- 天天信息:win7系统如何关闭系统默认共享文件夹?关闭系统默认共享文件夹方法
- 如何清除AcadDoc.lsp病毒?AcadDoc.lsp病毒清理步骤
- 文本显示器的价格是多少?文本显示器的优势|全球滚动
- linux安装jdk8怎么装?手把手教你安装单机版Hadoop3.2.1
- 饮水机什么牌子质量好?饮水机品牌推荐-全球观察
- 网络基础知识有哪些?网络基础知识大全 世界热闻
- 小学生电脑学习机有哪些?读书郎学生电脑主要功能
- 【时快讯】韩国泛泰手机怎么样?韩国泛泰手机参数配置如何?
- 环球快资讯丨为什么黑茶有茶梗?关于茶梗你知道多少?
- 松下变频器怎么使用?松下变频器说明书详解-全球微动态
- 二手电视机有哪些分类?二手电视机分类介绍-热消息
- 如何判断一个函数是奇函数还是偶函数?判断技巧|当前速看
- 【当前热闻】一加手机怎么开启手电筒?一加手机开启手电筒操作步骤
- 2021庆阳一中高考成绩查询 2020年庆阳市多所中学高考喜报
- Win7安装IE10或IE11怎么操作?离线安装注意问题 全球热点评
- 分布式光纤测温系统 性能指标优势
- 2021江西省高考的成绩怎么查询?江西省教育考试院高考成绩查询系统入口2021
- Oracle database 10g官方版性能拓展_世界观焦点
- 飞利浦吸尘器怎么样?维修中常见的问题 世界快播报
- 删除文件提示正在被另一程序使用怎么办?解决方法
- QGIS|构建选址模型 模型需求分析:天天消息
- 【世界时快讯】什么是umd漫画制? umd漫画制作工具详情介绍
- 视频在html不能播放器怎么办?网页播放器打不开的解决方法
- 德国坦克声卡怎么样?德国坦克声卡质量好不好?|每日快讯
- CAD怎么建立三维模型? CAD的建模方法|全球播资讯
- d3dx9_43.dll是什么丢失了怎么办?解决办法 天天快讯
- 联想轻薄笔记本怎么样?联想ThinkPad E325多少钱?:环球热资讯
- 2021年临颖一高高考成绩查询 河南漯河名列前茅的4所高中 热头条
- 小飞人熨斗怎样?小飞人熨斗特点介绍 讯息
- Module简介 module的编写方法
- 今日热议:RCLAMP0524P超低电容TVS二极管阵列 DFN-10L封装教程
- sin函数对照表怎么看?三角函数值对照表
- QT部署YOLOV5 pyqt5搭建YOLOV5的检测平台
- 微信公众号的消息免打扰怎么打开?微信公众号的消息免打扰打开方法 环球今亮点
- 微速讯:Makefile宏控是什么?宏控与systemProperty取名对应
- 什么是封建社会?封建社会详情介绍
- 【天天时快讯】华为云发布鲲鹏云服务 开启云上多元算力新赛道
- 【世界速看料】一个没有四肢的人 却给了无数人的力量
- Android应用Preference相关及源码浅析 Preference相关基础概念
- 色度抽样怎么弄?抽樣作用的解釋
- 如何关闭电脑右下角游戏广告弹窗?电脑右下角游戏广告弹窗关闭方法
- 怎么批量删除电脑桌面文件图标?批量删除电脑桌面文件图标操作步骤
- diskgenius怎么恢复数据和分区?diskgeniu恢复数据和分区方法
- win7如何安装HP打印机?win7安装HP打印机步骤
- 如何清除win10系统所有搜索历史记录?win10系统所有搜索历史记录操作步骤
- 无线路由器可连接网络的距离是多少?无线路由器可连接网络的距离介绍
- 如何找到电脑中的本地连接?电脑中的本地连接查找方法
- ctfmon.exe是什么进程?ctfmon.exe是否可以下载替换?
- 怎么将swf格式文件转为mp3格式?swf格式文件转为mp3格式方法
- 打开EXCEL时无法找到startup.xls文件怎么解决?打开EXCEL时无法找到startup.xls文件的解决方法
- 音频拨号和脉冲拨号的区别是什么?音频拨号和脉冲拨号的区别介绍
- 怎么更改鼠标指针图案?鼠标指针图案更改方法
- 笔记本电脑键盘输入错乱怎么办?笔记本电脑键盘输入错乱解决方法
- TeamViewer怎么使用?TeamViewer使用方法教程
- 电脑主板供电接口有什么不同?电脑主板供电接口介绍
- 硬盘如何安装系统?硬盘安装系统教程
- 笔记本电脑怎么外接直流电源?笔记本电脑外接直流电源连接方法
- 怎么打开nh文件?nh文件是什么?
- 暴风转码怎么用?暴风转码使用方法
- 蓝屏提示错误代码0x000000c2怎么办?Win10蓝屏提示错误代码0x000000c2的解决方法
- “强监管、一刀切”!香港期货业恐“变天”,经纪商:可操作性不强......影响几何? 环球热推荐
- 韩厂压力山大:显示屏看中国的时代来了 当前通讯
- 《星球大战绝地:幸存者》将拥有5种光剑形态 用以针对不同敌人
- 最新快讯!《战神4》Mod搞笑视频 姆巴佩和梅西一决高下
- 菲尔·斯宾塞分享自己的2022年游戏报告 《吸血鬼幸存者》游玩时长最多
- 观焦点:P社宣布 将计划对部分地区的游戏售价进行调整
- 世界看热讯:Acer推出新技术 显示器和笔记本可实现裸眼立体3D效果
- 《刺客信条:英灵殿》联动《怪物猎人:世界》 惨爪龙风飘龙装备皮肤正式上线_最新消息
- 处理器/系统百分百中国自主 国产PC新标杆 内嵌8核处理器
- 联想小新预热 2023 年新品:将有 14、16、Air 14、Pro 14、Pro 16 五款新机-观察
- 谨慎升级!苹果停止签署iOS 16.1.2
- 货币如何“类财政”? 天天关注
- 布洛芬供应提速有限:从400吨原料药到4亿片药片,至少要40天|焦点热讯
- 微软发现macOS漏洞 可绕过安全审查植入恶意软件 环球速递
- 天天新资讯:《海贼王:时光旅诗》13分钟实机演示 女角身材很棒
- 【世界播资讯】Xbox:《High On Life》是2022年XGP首发最成功游戏
- 当前观点:强森确认:DC初期规划不含《黑亚当》电影