使用R处理一代测序的结果数据_教程

一、一代测序的结果以*.ab1和*.seq储存，其中*.seq文件可以使用记事本打开，储存的是测序的序列结果（ATCG序列，而且是峰值最高的信号所代表的碱基），而*.ab1文件需要用特殊的可视化软件打开，储存的是序列信息及测序时每个碱基的信号强弱，可以通过该文件识别杂合位点（信号比最高信号稍低，比背景信号高）

二、本文主要介绍通过R包--sangerseqR来处理该类数据

1)安装R包（该包在bioconductor中，通过biocmanager安装即可）

2）读入文件

三、使用

四、我把这迟历个悄盯过程写成了启旦和shiny程序，可自行取用

app.R

1. 原始数据的解释及相关概念

原始数据的概念：

A.测序仪完成测序后生产的测序文件，经过单样品拆分后，获得的单样品测序文件。

B.或者测序仪测序完成后，由测序仪直接拆分的单样品测序文件。

——我们常常称之为“Rawdata”

原始数据展示(illumina测序平台、Fastq格式文件):

Fastq格式文件：基于文本的，保存生物序列（通常是核酸序列）和其质量信息的标准格式，其实质是一种数据存储格式，其序列以及质量都是使用一个ASCII字符标示，最初有Sanger公司开发，目的是将Fasta序列和质量数据放在一起，目前已经成为高通量测序结果的事实标准。

对于Fastq格式文件内容相关解释：

1）第一行以“@”开头，由文件识别标志和读段名（ID）组成；

2）第二行为碱基序列；

3）第三行以“+” 开头，也是由文件识别标志和读段名（ID）组成，其ID可以省略，但“+”不能省略；

4）第四行是第二行中的序列内容每个碱基所对应的测序质量值。

2. 数据质控

高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等，为消除其对后续分析准确性产生的影响，在数据下机以后对原始数据进芹滑行质控处理就成了至关重要的环节。

数据质控的概念：

将原始数据通过系列步骤（或同时进行）质量控制筛选的过程。

质控筛选后的数据，我们常常称之为“Cleandata”，也称之为“可以进行后续分析的序列”。

因各服务商提供的质控标准会略有不同，但大体包含（但不限于）如下几方面：

1）通过index提取序列，并作测序质量控制，质量达不到设置要求的去除，将序列与样本对应；

2）通过overlap完成拼接，去除index序列，overlap长度和错配要达到设置的要求，拼接不上的舍弃；

3）拼接完成且长度达不到设定要求的舍弃。

？问题：Cleandata（可用于分析的序列）跟最终参与分析的序列数量相等吗？

我们将在OTU聚类环节给出答案。

3. 原始数据的重要性

原始数据一切数据分析的根本。分析过程文件、结果文件可以丢失，原始数据在，分析结果可以重现；原始数据一旦丢失，分析结果则不可重现；

原始数据应及时桐弯索取或保存。

获取方式

1）服务商提供：硬盘、网盘、U盘、邮件等数据载体。

2）自局首闷留保存：硬盘、上传NCBI等数据载体。

文章发表时，均需要上传NCBI，并获得唯一项目号。

转录组测序是最常用的组学实验，对全谱基因定量，找到差异表达基因。RNAseq涉及到原始数据，数据质控，基因组比对，差异基因鉴定，差异基因功能富集分析，重要基因如转录因子激酶物宽的靶基因预测等，我们用10讲的时间，全面讲解转录组测序报告，及在上百个项目中遇到的近百个常见问题。

本节视频是第1讲，从测序原始下机数据开始讲起。样品制备到产出测序数据过程，是RNA提取建局散库和测序的试验环节。在使用Illumina系列的仪器进行测序后，测序下机数据以fastq文件存储，称为raw data（或raw reads），记录了转录组RNA序列的碱基组成信息。

（1）如何查看fastq文件；

（2） fastq文件的基本格式，每一行的主要信息；

（3）如何在fastq文件中评估碱基质量，代表碱基质量的ASCII值和单碱基测序错误率之间怎样换算；

（4） N碱基代表什么，常说的Q20、Q30等与测序质量间存在怎样的关系，一般它们多少时代表测序质量是合格的；

（5）为什么一罩腊亮个样本对应R1和R2两个fastq文件，什么是双端测序。

视频教程：

bilibili超清视频链接： https://www.bilibili.com/video/BV1TJ411V7av

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12264069.html

使用R处理一代测序的结果数据

发表评论

评论列表（0条）