genbank文件转换成NCBI提交数据时的.tbl文件(genbank convert to tbl)

genbank文件转换成NCBI提交数据时的.tbl文件(genbank convert to tbl),第1张

ftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl

网址https://chlorobox.mpimp-golm.mpg.de/GenBank2Sequin.html

这个学期一直在看和叶绿体基因组相关的文章,目前学习到向NCBI提交完整的叶绿体基因组序列,需要准备的文件包括叶绿体基因组fasta文件和注释文件,注释文件要求的格式为.tbl,按照常理应该会有已经造好的轮子来利用常规的注释文件(比如genbank格式,或者gff3格式)来生成.tbl文件,可是自己找了将近两天的时间竟然没有找到(找到了一些python脚本或者小软件,但是都没有运行成功;同时也找到了NCBI提供的小软件table2asn_GFF3,目测功能是利用gff3格式的注释文件生成.tbl文件,试运行了一下,可是参数太多,暂时还没有搞明白该怎么使用),自己也尝试着写了一些脚本,奈何能力有限没有能够解决,前前后后大约折腾了4天左右的时间,之后因为忙一些其他事情中断了一个星期左右,今天再次尝试的时候发现原来叶绿体基因组注释在线工具GeSeqhttps://chlorobox.mpimp-golm.mpg.de/geseq.html 中包括了格式转换的工具GB2sequin,然后找到了这篇文献来看又发现了格式转换用到的perl脚本,暂时解决了提交序列的问题!

面对解决不了的问题不要着急,只需要停下来让脑子休息下然后在重新出发!

推荐一篇论文

接下来是为genbank文件添加product字段

理解了SeqIO解析genbank格式文件的数据存储后,自己应该也可以写一个简单的脚本将genbank格式的文件转化成.tbl文件,好好想一想该如何实现;SeqIO模块的源码自己抽时间要多看几遍!

自己的叶绿体基因组数据注释是使用在线程序GeSeq做的,输出结果genBank文件中包括intron和exon的信息,不想要这部分信息,想写个脚本删掉

一直遇到报错 IndexError: pop index out of range

想了好长时间才想明白: rec 里面存储的内容删除一项后,对应的后面的内容的index会相应迁移,比如有1,5,7,9,12五个数字,对应的位置分别是1,2,3,4,5;如果删除前两个,12对应的位置就有原来的5 改为了3

cad文字提取到excel表格

tbl.fas

将cad中表格中文字(单行文字,多行文字应炸开)按坐标位置关系提取到excel中的程序如下

(load

"tbl")

tbl.fas

txttbl

工具的使用方法如下:

1、选择你要复制的所有文字(可以用快速选择),然后点击分解,炸开这些文字

2、cad中打开"工具"----"加载应用程序”----选择文件夹中的

tbl.fas

命令行提示:已成功加载

tbl.fas

3、命令行输入:txttbl

然后命令行提示:

选择对象:

框选你要复制的文字

4、确认后,提示你是要保存,还是打开


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12057109.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存