二代测序质量差的原因,二代测序实验详细过程

  二代测序质量差的原因,二代测序实验详细过程

  原文:http://www.biostars.org/p/53528/

  本教程也作为宾夕法尼亚州立大学课程"高通量测序数据分析"第9讲的支持信息。

  在本教程中,我们比较了几种用于过滤表达谱数据文件的软件工具的效率和特性。我们选择两个简单但常见的操作,并用不同的工具执行它们。对于一些任务,我们将提供我们称之为各种语言的实现。这些实现将花费程序员大约5-10分钟来创建。这些仅用于说明目的。

  我们需要注意的是,Fastx工具包表现出一种奇怪的行为,为苹果个人计算机下载的二进制代码比在同一台计算机上本地编译的二进制代码慢五倍以上。显示的是Fastx工具包更快版本的时间。对于鼻胃管吸出工具包,我们已经禁用(否则相当有用)FastQ格式检测子程序。

  测试数据1 .会计季度(fiscal quarter)包含100万条表达谱数据记录。

  所有时间都以秒为单位。工具按运行时间排序。

  剪辑序列剪辑是删除每个表达谱数据记录的一部分。在这个测试中,我们将从起点和终点移除10个碱基。

  2.5秒带Seqtk:

  seqtk trimfq -b 10 -e 10数据/s1.fq数据/tmp.fq 3.7s带Fastx Tookit

  fastx_trimmer -Q33 -f 10 -l 80 -i数据/s1.fq -o数据/tmp.fq 4.3s带Trimmomatic

  Java类路径修剪omatic-0.22。jar组织。usadellab。trim omatic。修剪自动se数据/S1。FQ数据/tmp。FQ头茬:10茬:90 6.4与Naive Python(通过PyPy优化器运行时没有显著的运行时差异)

  python naive _ clip。py数据/S1。FQ数据/tmp。fqpypy naive _ clip。py数据/S1。FQ数据/tmp。FQ 10.3秒带NGS Toolkit:

  perl微调读取。pl-I数据/S1。FQ-l 10-r 10-o数据/tmp。FQ 19.3秒带Prinseq:

  perl print seq-lite。pl-fastq数据/S1。FQ-trim _左10-trim _右10-out _ good data/tmp。会计季度(fiscal quarter)按质量修剪此任务序列被删除或缩短以满足质量标准。

  我们尝试执行一项操作,要么删除平均质量为30的读数,要么削减质量低于30的碱基的读数。在后一种情况下,我们限制修剪以保持至少50个基点的长度。

  2.1s配Seqtk。Seqtk使用所谓的修正莫特算法进行修整(当达到极限时,修整停止,并且不会丢弃任何读数)。

  FQ-l 50数据/S1。FQ数据/tmp。FQ 3.1秒,使用在lua JIT编译器下运行的风俗a程序(更多信息请参见注释)

  Lua JIT Lua/trim。卢阿30 50数据/S1。FQ数据/tmp。FQ 4.8s带Trimmomatic过滤修剪回拖尾碱基质量低于30(删除0.37%的读取):

  Java类路径修剪omatic-0.22。jar组织。usadellab。trim omatic。trim omatic se-phred 33数据/S1。FQ数据/tmp。FQ落后:30分钟伦:50英尺6.8秒对于Fastx Tookit,此操作将只保留至少50%碱基中大于30的读取

  fast q _ quality _ filter-Q33-q30-p50-I数据/S1。FQ-o数据/tmp。FQ 13.3秒,使用Naive Python删除平均质量低于30的读取。通过PyPy JIT编译器运行。

  pypy naive _ trim。py数据/S1。FQ数据/温度。FQ 20.0s(cutadapt)还实现了莫特类型的修剪:

  切割适配-q 30-m 50数据/S1。FQ数据/tmp。FQ 20.5秒与NGS Toolkit装饰一起从末尾以质量30回读(删除0.37%的读取)。

  perl微调读取。pl-I数据/S1。FQ-q 30-n 50-o数据/tmp。FQ 22.3秒,带有Naive Python版本,删除平均质量低于30的读取

  python naive _ trim。py数据/S1。FQ数据/温度。FQ 37.8秒用Biopieces修剪回碱基,直到达到质量为30的3个碱基的伸展(移除0.56%的读取):

  read _ fastq-I数据/S1。FQ trim _ seq-m 30 grab-e SEQ _ LEN=50 write _ fastq-o data/tmp。FQ-x 85.6s,带Prinseq删除质量低于30的碱基(删除0.37%的读数):

  perl prinseq-lite。pl-fastq数据/S1。FQ-trim _ qual _ right 30-min _ len 50-out _ good data/tmp。会计季度(fiscal quarter)收尾思路每个工具还提供了其他我们根本没有讨论过的功能。我们在这里提供的是一个基准,让新手了解各种工具的相对优势和劣势。当运行大量工具时,总是存在误用其中一个或多个工具的风险,从而得出工具低效或有缺陷的结论。请在下面评论任何意见/更正。

  我们只能惊叹Seqtk读取和处理数据的效率。当调整时,它在仅仅2.1秒内就能完成100万次读取。与此同时,调用和文档的简单程度令人震惊。

  Trimmomatic也是一个值得注意的竞争对手,具有非凡的速度和效率。唉,理解命令行的复杂性带来了沉重且不必要的负担。在向程序传递参数时,选择忽略几十年的传统也是不幸的。任何一个程序都应该被称为。答案是响亮的不。

  在另一个极端,我们认为Prinseq工具表现不佳,这让我们非常惊讶。这是一个软件工具,它有一个特别讨人喜欢的网页和文档,赞美了似乎没有反映在工具本身性能中的品质。

  工具列表Fastx工具包:http://hannonlab。cshl。edu/Fastx _ Toolkit/Seqtk:https://github。com/lh3/seqtkPrinSeq:http://prinseq。SourceForge。网络/NGS QC工具包:http://www。nipgr。RES . in/ngsqctoolkit。html trim omatic:http://www。usadellab。org/CMS/index。PHP?page=trimmomaticBioPieces:http://代码。谷歌。com/p/biopieces/Cutadapt:http://代码。谷歌。com/p/Cutadapt/转载于:https://www。cn博客。com/zh双463508120/p/3606871。超文本标记语言

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: