genbank文件转换成NCBI提交数据时的.tbl文件（genbank convert to tbl）_教程

ftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl

网址https://chlorobox.mpimp-golm.mpg.de/GenBank2Sequin.html

这个学期一直在看和叶绿体基因组相关的文章，目前学习到向NCBI提交完整的叶绿体基因组序列，需要准备的文件包括叶绿体基因组fasta文件和注释文件，注释文件要求的格式为.tbl，按照常理应该会有已经造好的轮子来利用常规的注释文件（比如genbank格式，或者gff3格式）来生成.tbl文件，可是自己找了将近两天的时间竟然没有找到（找到了一些python脚本或者小软件，但是都没有运行成功；同时也找到了NCBI提供的小软件table2asn_GFF3，目测功能是利用gff3格式的注释文件生成.tbl文件，试运行了一下，可是参数太多，暂时还没有搞明白该怎么使用），自己也尝试着写了一些脚本，奈何能力有限没有能够解决，前前后后大约折腾了4天左右的时间，之后因为忙一些其他事情中断了一个星期左右，今天再次尝试的时候发现原来叶绿体基因组注释在线工具GeSeqhttps://chlorobox.mpimp-golm.mpg.de/geseq.html 中包括了格式转换的工具GB2sequin,然后找到了这篇文献来看又发现了格式转换用到的perl脚本，暂时解决了提交序列的问题！

面对解决不了的问题不要着急，只需要停下来让脑子休息下然后在重新出发！

推荐一篇论文

接下来是为genbank文件添加product字段

理解了SeqIO解析genbank格式文件的数据存储后，自己应该也可以写一个简单的脚本将genbank格式的文件转化成.tbl文件，好好想一想该如何实现；SeqIO模块的源码自己抽时间要多看几遍！

自己的叶绿体基因组数据注释是使用在线程序GeSeq做的，输出结果genBank文件中包括intron和exon的信息，不想要这部分信息，想写个脚本删掉

一直遇到报错 IndexError: pop index out of range

想了好长时间才想明白： rec 里面存储的内容删除一项后，对应的后面的内容的index会相应迁移，比如有1，5，7，9，12五个数字，对应的位置分别是1，2，3，4，5；如果删除前两个，12对应的位置就有原来的5 改为了3

NCBI主页进入提交界面

选择基因组以及细胞器基因

登录以后正式进入提交流程，前四个提交都不是线粒体基因相关的，所以只能选第五个。

姓名，机构地址以及相关信息，电话+86（中国）

邮箱会有两个，会有一个Alternative Email，写不同的比较好，可以保证你一个邮箱出问题还有一个可以接收邮件。

第一个部分是序列作者

第二部分是文献引用，以及文献的作者，咱上传序列不是就为了发文章用嘛，写上这个文章就行。

根据自己实际情况选择就可以。测序方式，是否组装成序列，是的话还要写上用的什么软件组装。

最上面的是写数据释放时期，可以选择立即释放，如果选择延后释放的话，那就至少六个月以后。

下面就是分子数据类型，拓扑结构（线性，成环），是否是完整序列。然后上传序列信息就可以，上传文件和粘贴序列二选一就可以。

线粒体这块看选项，咱们也只能选第一个基因组DNA

这块建议写大家都先定到种再上传，这样这块就可以写上物种名（属名加种名）。如果没有定种，那写sp.也是可以的。

这里就两种类型一个就是自己数据自己组装序列，另一个就是使用第三方数据，你组装上传的序列。

这块不知道咋说了，除了上面写一下细胞器或者序列定位。剩下的都是添加一些零碎信息，坐标，海拔，收集时间，收集人，这些东西。自由发挥。

这部分我觉得是重头戏，线粒体基因序列的基因注释信息太重要了呀，没有这个就不知那一块是啥基因，这样后人使用就会很麻烦。

分为两个注释方式，

使用五列要素表如图下，记得选择文件以后要点一下2.Upload File，这是上传。（后面我会单独说一下五列要素表的格式）

上传以后NCBI会检查一下你上传的是否有问题，有问题的地方会警告。

底下接着是所有的注释特征可编辑。最底下是预览的gbk格式。

再确认一遍邮箱我觉得就可以完成提交。

其余都是具体情况再调整的。

最后完成提交，收工。

Feature Table File

https://www.ncbi.nlm.nih.gov/WebSub/html/help/feature-table.html

五列要素表我第一次接触是在mitoz的结果文件中有一个*.tbl文件，所以我后面使用时候也都这么写后缀，虽然不知是不是这个后缀。

格式要求：

1.五列说明：

2.跟gbk一样每一个基因都应该有两个特征一个是gene；另一个是tRNA，rRNA，CDS。

3.负链上基因特征起始和终止位置要跟gbk反过来，因为这里面没有complement（）可以用，所以反向那就把起始和终止位置写成实际位置，系统自动读取为负链

4.tRNA，rRNA，CDS都要有 product

CDS还要有 transl_table

特殊需要注释的使用 note

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/8144262.html

genbank文件转换成NCBI提交数据时的.tbl文件（genbank convert to tbl）

发表评论

评论列表（0条）