genbank文件转换成NCBI提交数据时的.tbl文件(genbank convert to tbl)

genbank文件转换成NCBI提交数据时的.tbl文件(genbank convert to tbl),第1张

ftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl

网址https://chlorobox.mpimp-golm.mpg.de/GenBank2Sequin.html

这个学期一直在看和叶绿体基因组相关的文章,目前学习到向NCBI提交完整的叶绿体基因组序列,需要准备的文件包括叶绿体基因组fasta文件和注释文件,注释文件要求的格式为.tbl,按照常理应该会有已经造好的轮子来利用常规的注释文件(比如genbank格式,或者gff3格式)来生成.tbl文件,可是自己找了将近两天的时间竟然没有找到(找到了一些python脚本或者小软件,但是都没有运行成功;同时也找到了NCBI提供的小软件table2asn_GFF3,目测功能是利用gff3格式的注释文件生成.tbl文件,试运行了一下,可是参数太多,暂时还没有搞明白该怎么使用),自己也尝试着写了一些脚本,奈何能力有限没有能够解决,前前后后大约折腾了4天左右的时间,之后因为忙一些其他事情中断了一个星期左右,今天再次尝试的时候发现原来叶绿体基因组注释在线工具GeSeqhttps://chlorobox.mpimp-golm.mpg.de/geseq.html 中包括了格式转换的工具GB2sequin,然后找到了这篇文献来看又发现了格式转换用到的perl脚本,暂时解决了提交序列的问题!

面对解决不了的问题不要着急,只需要停下来让脑子休息下然后在重新出发!

推荐一篇论文

接下来是为genbank文件添加product字段

理解了SeqIO解析genbank格式文件的数据存储后,自己应该也可以写一个简单的脚本将genbank格式的文件转化成.tbl文件,好好想一想该如何实现;SeqIO模块的源码自己抽时间要多看几遍!

自己的叶绿体基因组数据注释是使用在线程序GeSeq做的,输出结果genBank文件中包括intron和exon的信息,不想要这部分信息,想写个脚本删掉

一直遇到报错 IndexError: pop index out of range

想了好长时间才想明白: rec 里面存储的内容删除一项后,对应的后面的内容的index会相应迁移,比如有1,5,7,9,12五个数字,对应的位置分别是1,2,3,4,5;如果删除前两个,12对应的位置就有原来的5 改为了3

NCBI主页进入提交界面

选择基因组以及细胞器基因

登录以后正式进入提交流程,前四个提交都不是线粒体基因相关的,所以只能选第五个。

姓名,机构地址以及相关信息,电话+86(中国)

邮箱会有两个,会有一个Alternative Email,写不同的比较好,可以保证你一个邮箱出问题还有一个可以接收邮件。

第一个部分是序列作者

第二部分是文献引用,以及文献的作者,咱上传序列不是就为了发文章用嘛,写上这个文章就行。

根据自己实际情况选择就可以。测序方式,是否组装成序列,是的话还要写上用的什么软件组装。

最上面的是写数据释放时期,可以选择立即释放,如果选择延后释放的话,那就至少六个月以后。

下面就是分子数据类型,拓扑结构(线性,成环),是否是完整序列。然后上传序列信息就可以,上传文件和粘贴序列二选一就可以。

线粒体这块看选项,咱们也只能选第一个基因组DNA

这块建议写大家都先定到种再上传,这样这块就可以写上物种名(属名加种名)。如果没有定种,那写sp.也是可以的。

这里就两种类型一个就是自己数据自己组装序列,另一个就是使用第三方数据,你组装上传的序列。

这块不知道咋说了,除了上面写一下细胞器或者序列定位。剩下的都是添加一些零碎信息,坐标,海拔,收集时间,收集人,这些东西。自由发挥。

这部分我觉得是重头戏,线粒体基因序列的基因注释信息太重要了呀,没有这个就不知那一块是啥基因,这样后人使用就会很麻烦。

分为两个注释方式,

使用五列要素表如图下,记得选择文件以后要点一下2.Upload File,这是上传。(后面我会单独说一下五列要素表的格式)

上传以后NCBI会检查一下你上传的是否有问题,有问题的地方会警告。

底下接着是所有的注释特征可编辑。最底下是预览的gbk格式。

再确认一遍邮箱我觉得就可以完成提交。

其余都是具体情况再调整的。

最后完成提交,收工。

Feature Table File

https://www.ncbi.nlm.nih.gov/WebSub/html/help/feature-table.html

五列要素表我第一次接触是在mitoz的结果文件中有一个*.tbl文件,所以我后面使用时候也都这么写后缀,虽然不知是不是这个后缀。

格式要求:

1.五列说明:

2.跟gbk一样每一个基因都应该有两个特征一个是gene;另一个是tRNA,rRNA,CDS。

3.负链上基因特征起始和终止位置要跟gbk反过来,因为这里面没有complement()可以用,所以反向那就把起始和终止位置写成实际位置,系统自动读取为负链

4.tRNA,rRNA,CDS都要有 product

CDS还要有 transl_table

特殊需要注释的使用 note


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/8144262.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-13
下一篇 2023-04-13

发表评论

登录后才能评论

评论列表(0条)

保存