ftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl
网址https://chlorobox.mpimp-golm.mpg.de/GenBank2Sequin.html
这个学期一直在看和叶绿体基因组相关的文章,目前学习到向NCBI提交完整的叶绿体基因组序列,需要准备的文件包括叶绿体基因组fasta文件和注释文件,注释文件要求的格式为.tbl,按照常理应该会有已经造好的轮子来利用常规的注释文件(比如genbank格式,或者gff3格式)来生成.tbl文件,可是自己找了将近两天的时间竟然没有找到(找到了一些python脚本或者小软件,但是都没有运行成功;同时也找到了NCBI提供的小软件table2asn_GFF3,目测功能是利用gff3格式的注释文件生成.tbl文件,试运行了一下,可是参数太多,暂时还没有搞明白该怎么使用),自己也尝试着写了一些脚本,奈何能力有限没有能够解决,前前后后大约折腾了4天左右的时间,之后因为忙一些其他事情中断了一个星期左右,今天再次尝试的时候发现原来叶绿体基因组注释在线工具GeSeqhttps://chlorobox.mpimp-golm.mpg.de/geseq.html 中包括了格式转换的工具GB2sequin,然后找到了这篇文献来看又发现了格式转换用到的perl脚本,暂时解决了提交序列的问题!
面对解决不了的问题不要着急,只需要停下来让脑子休息下然后在重新出发!
推荐一篇论文
接下来是为genbank文件添加product字段
理解了SeqIO解析genbank格式文件的数据存储后,自己应该也可以写一个简单的脚本将genbank格式的文件转化成.tbl文件,好好想一想该如何实现;SeqIO模块的源码自己抽时间要多看几遍!
自己的叶绿体基因组数据注释是使用在线程序GeSeq做的,输出结果genBank文件中包括intron和exon的信息,不想要这部分信息,想写个脚本删掉
一直遇到报错 IndexError: pop index out of range
想了好长时间才想明白: rec 里面存储的内容删除一项后,对应的后面的内容的index会相应迁移,比如有1,5,7,9,12五个数字,对应的位置分别是1,2,3,4,5;如果删除前两个,12对应的位置就有原来的5 改为了3
NCBI主页进入提交界面
选择基因组以及细胞器基因
登录以后正式进入提交流程,前四个提交都不是线粒体基因相关的,所以只能选第五个。
姓名,机构地址以及相关信息,电话+86(中国)
邮箱会有两个,会有一个Alternative Email,写不同的比较好,可以保证你一个邮箱出问题还有一个可以接收邮件。
第一个部分是序列作者
第二部分是文献引用,以及文献的作者,咱上传序列不是就为了发文章用嘛,写上这个文章就行。
根据自己实际情况选择就可以。测序方式,是否组装成序列,是的话还要写上用的什么软件组装。
最上面的是写数据释放时期,可以选择立即释放,如果选择延后释放的话,那就至少六个月以后。
下面就是分子数据类型,拓扑结构(线性,成环),是否是完整序列。然后上传序列信息就可以,上传文件和粘贴序列二选一就可以。
线粒体这块看选项,咱们也只能选第一个基因组DNA
这块建议写大家都先定到种再上传,这样这块就可以写上物种名(属名加种名)。如果没有定种,那写sp.也是可以的。
这里就两种类型一个就是自己数据自己组装序列,另一个就是使用第三方数据,你组装上传的序列。
这块不知道咋说了,除了上面写一下细胞器或者序列定位。剩下的都是添加一些零碎信息,坐标,海拔,收集时间,收集人,这些东西。自由发挥。
这部分我觉得是重头戏,线粒体基因序列的基因注释信息太重要了呀,没有这个就不知那一块是啥基因,这样后人使用就会很麻烦。
分为两个注释方式,
使用五列要素表如图下,记得选择文件以后要点一下2.Upload File,这是上传。(后面我会单独说一下五列要素表的格式)
上传以后NCBI会检查一下你上传的是否有问题,有问题的地方会警告。
底下接着是所有的注释特征可编辑。最底下是预览的gbk格式。
再确认一遍邮箱我觉得就可以完成提交。
其余都是具体情况再调整的。
最后完成提交,收工。
Feature Table File
https://www.ncbi.nlm.nih.gov/WebSub/html/help/feature-table.html
五列要素表我第一次接触是在mitoz的结果文件中有一个*.tbl文件,所以我后面使用时候也都这么写后缀,虽然不知是不是这个后缀。
格式要求:
1.五列说明:
2.跟gbk一样每一个基因都应该有两个特征一个是gene;另一个是tRNA,rRNA,CDS。
3.负链上基因特征起始和终止位置要跟gbk反过来,因为这里面没有complement()可以用,所以反向那就把起始和终止位置写成实际位置,系统自动读取为负链
4.tRNA,rRNA,CDS都要有 product
CDS还要有 transl_table
特殊需要注释的使用 note
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)