Biopython之gbff转gff格式 2020-04-27

Biopython之gbff转gff格式 2020-04-27,第1张

先安装Biopython,见前篇随笔

再安装 bcbio-gff

pip install bcbio-gff

Google是法宝,直接搜索 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte ,得到如下解,见 stackoverflow

修改新的对应文件名后再运行脚本

python gbff2gff3.py

于是得到以下

替换方法: https://github.com/jorvis/biocode/blob/master/gff/convert_genbank_to_gff3.py

总结:转换后并不能得到直接可用的完整注释文件,建议直接搜索已有的注释文件

进入NCBI主页,选择Nucleotide数据库

在Nucleotide数据库的检索框中输入甘油醛-3-磷酸脱氢酶基因的基因名(GAPDH)或者基因的GenBank号:X02662.1。点击搜索。在右边Top Organisms中选择物种来源,点More可以显示更多隐藏选项

选择所需要的物种信息

GenBank会根据设定的检索条件得出相应结果,选择所需要的序列

点击相应序列打开详序列的细信息,默认为GBFF(GenBank Flat File)格式文件。主要包括以下三部分组成:第一部分:描述符,其中包含了关于整个记录的信息;第二部分:特征表,包含了注释这一记录的特性;第三部分:核酸序列本身;在最后一行以“// ”结尾

在这里也可以选择FASTA格式。

FASTA格式又称Pearson 格式

特点:最常用、最简单的序列注释格式

命名规则:

1、以大于号“>"起始

2、 标题行(a single-line description) 位于文件的第一行

3、 序列行随后,序列行中不允许有空间,每行文字不超 过80个字符

4、组成序列信息字符串的符号应为IUB/IUPAC(International Union Of Pure And Applied Chemistry)核苷酸或氨基酸的符号

5、核苷酸字符大小写均可,氨基酸字符应大写

6、"-"单个连字符表示一个空位 “gap”

7、序列中不允许有数字、不明确的核苷酸用N表示,氨基酸用X表示

8、 氨基酸序列中“*”表示终止

导出序列时点击Send to

在d出的窗口选择文件单选按钮

在下拉框中选择你需要的文件格式

点击创建文件即可开始下载,下载后的文件可以通过任意文本编辑软件打开。由于NCBI上的文件采用的是Unix/Linux文本格式,而Unix系统里,每行结尾只有“<换行>”,即“\n”;但Windows系统里面,每行结尾是“<换行><回车>”,即“\n\r”,在用记事本等软件打开时每行结尾有一个黑方框,这里只需用兼容Unix/Linux文本格式的编辑器打开即可

被朋友安利一个专门用于处理生物信息学的工具箱“Biopython”,别人用python开发的小工具直接拿来用用也是很省时省力的,好吧,学生信就从“调包侠”开始做起吧!

因为刚好有“需求”:用biopython的bcbio-gff来实现gbff文件转gff,所以就拿这个小功能来试一下biopython。

方法参考: https://www.jianshu.com/p/152efcfabf0f?from=singlemessage

那么,先从biopython的安装开始吧

官网: https://biopython.org/

Tutorial: http://biopython.org/DIST/docs/tutorial/Tutorial.html#sec5

GitHub: https://github.com/biopython/biopython

中文说明书: https://biopython-cn.readthedocs.io/zh_CN/latest/cn/chr01.html

最简单的安装方式就是用pip:

如果需要更新版本的话:

安装新版本之前如果卸载旧版本或者卸载biopython:

Biopython不同版本适用于不同的python版本,Biopython 1.68 was our final release to support Python 2.6, while Biopython 1.76 was our final release to support Python 2.7 and Python 3.5。biopython以前的版本在 pypi 里面有,或者 官网 ,因此,如果要在特定的python版本里安装biopython就要用:

一般来说需要进行按照附带的README文件从源开始安装,以确保安装的没有问题。事实上也可以跳过build和test,直接install。

查看biopython版本,进入python3,然后:

这里需要用到biopython里的工具SeqIO(序列的输入和输出),

先安装bcbio-gff:

然后写一个调用工具python小脚本gbff2gff.py,参考 Parsing GFF Files · Biopython :

例如运行:

就完成了一个小练习。

引用原文链接: https://www.jianshu.com/p/152efcfabf0f?from=singlemessage


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12070503.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存