genbank文件转换成NCBI提交数据时的.tbl文件(genbank convert to tbl)

genbank文件转换成NCBI提交数据时的.tbl文件(genbank convert to tbl),第1张

ftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl

网址https://chlorobox.mpimp-golm.mpg.de/GenBank2Sequin.html

这个学期一直在看和叶绿体基因组相关的文章,目前学习到向NCBI提交完整的叶绿体基因组序列,需要准备的文件包括叶绿体基因组fasta文件和注释文件,注释文件要求的格式为.tbl,按照常理应该会有已经造好的轮子来利用常规的注释文件(比如genbank格式,或者gff3格式)来生成.tbl文件,可是自己找了将近两天的时间竟然没有找到(找到了一些python脚本或者小软件,但是都没有运行成功;同时也找到了NCBI提供的小软件table2asn_GFF3,目测功能是利用gff3格式的注释文件生成.tbl文件,试运行了一下,可是参数太多,暂时还没有搞明白该怎么使用),自己也尝试着写了一些脚本,奈何能力有限没烂档有能够解决,前前后后大约折腾了4天左右的时间,之后因为忙一些其他事情中断了一个星期左右,今天再次尝试的时候发现原来叶绿体基因组注释在线工具GeSeqhttps://chlorobox.mpimp-golm.mpg.de/geseq.html 中包括了格式转换的工具GB2sequin,然后找到了这篇文献来看又发现了卖困格式转换用到的perl脚本,暂时解决了提交序列的问题!

面对解决不了的问题不要着急,只需要停下来让脑子休息下然后在重新出发!

推荐一篇论文

接下来是为genbank文件添加product字段

理解了SeqIO解析genbank格式文件的数据存储后,自己应该也可以写一个简单的脚本将genbank格式的文件转化成.tbl文件,好好想一想该如何实现;SeqIO模块的源码自己抽时间要多看几遍!

自己的叶绿体基因组数据注释是使用在线程序GeSeq做的,输出结果genBank文件中包括intron和exon的信息,不想要这部分信息,想写个脚本删掉

一直遇到报错 IndexError: pop index out of range

想了好长时间才想明白: rec 里面存储的内容删除一项后,对应的后面的内容的index会相应迁移,比如有1,5,7,9,12五个数字,对应的位置分别是1,2,3,4,5;如果删除前两个中历念,12对应的位置就有原来的5 改为了3

中文WINDOWS95的DOS方式自己带有汉字系统,提供了拼森哪局音、双拼、国标、区位几种汉字输入方法,但是由于没有五笔字型输入法,使许多计算机用户深感不便。笔者通过摸索,找到了一种解决的办法,具体方法如下: 一、将中文版MS-DOS6.22的外部命令DICTMAN.EXE拷贝到WIN95的COMMAND目录下。 二、按以下格式创建五笔字型编码文件: C:\WINDOWS\COMMAND\〉TYPEWBX.DIC [Description] Name=五笔字型 MaxCodes=4 UsedCodes=abcdefghijklmnopqrstuvwxy WildChar=z Sort=0 [TEXT] 工a 式aa 恭恭敬敬aaaa …… 言yyyy 其中[TEXT]段内的每一行的左边为汉字或词组,右边为该汉字或词组的五笔字型编码。 三、运行DICTMAN.EXE程序,在菜单上选“编码词典”,在文件名处输入WBX.DIC按回车进行排序。在编码词典文件名处输入:WBX.TBL,选码元类型为16进制数字。选“确认”按钮生成WBX.TBL文件。 四、在WIN9/COMMAND目录下的PDOS95.BAT文件中加入一句:instdictwbx 重新运行PDOS95.BAT,就可以在WINDOWS95的中文DOS方式缓配下使用五笔字型输入法了。 段洪杰 目前,MS-DOS6.22系统是PC机中用得最多的磁盘 *** 作系统,但是,人们通常只是使用了它的西文 *** 作界面,而很少有人使用它的中文界面。笔者认为,这其中原因之一可能是人们认为它的汉字输入法太古老。其实不然,它的输入法还是比较灵活的。MS-DOS6.22系统本身带有区位、双拼、全拼和国标四种汉字输入法,而且还提供了字典转换程序和输入法生成程序。这就是我们可以挂接其它输入法的根本所在。最近,笔者成功地将UCDOS汉字系统下的五笔字型输入法移植到了中文MS-DOS系统下。下面说明其形成过程: 一、安装MS-DOS6.22系统,启动该汉字系统,并且驻留一种汉字输入法。 在CONFIG.SYS文件中应有下列命令行: DEVICE=C:\PDOS\PBIOS.SYS 在C:\PDOS\PDOS.BAT文件中应有类似下面的内容:FONT16 HZVIO HZKBD INSTDICTPINYINA_F3 CTRLPAN 二、将UCDOS下的五笔字型编码字典反编译成文本方式的编码源文件: CD\UCDOS\DRV IMDMNGWB.IMDWB.DIC 笔者使此让用的是UCDOS6.0,所生成的WB.DIC文件长度接近400KB,这样大的文件可用MS-DOS提供的EDIT程序进行处理,删除该文件前面的文字说明部分,此时亦可加入您常用的字词。 三、将WB.DIC文件移到C:\PDOS目录下: MOVEC:\UCDOS\DRV\WB.DICC:\PDOS 四、生成五笔字型字典文件WBZX.TBL: CD\PDOS 启动DICTMAN,黑色光带位于“编码字典”处; 按Enter键,按Tab键,用光标键选择WB.DIC文件,按Enter键,光标将会位于“WB.TBL”处,按回车键; 启动一种汉字输入方式,在“方案名称”处输入“五笔型”,按回车键;在最大码长处输入4,按回车键; 在“快速输入”选项处按Space键,其前面的“[]”处将出现“X”,再按Tab键; 在“匹配查询”选项处按Space键,其前面的“[]”处将出现“X”; 在“匹配符”选项处输入Z,按两次Tab键; 再按回车键,系统便开始生成WB.TBL文件,这要花去几分钟的时间(可以去喝一小杯咖啡)。生成工作结束后,按左光标键将黑色光带移到“退出”处,按回车键,此程序结束,返回到DOS。在DOS命令行执行:INSTDICTWBA_F5即可按组合键启动五笔字型输入法。也可将此命令行加入到批命令文件PDOS.BAT中。 有兴趣的读者不妨一试。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/tougao/8234435.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-14
下一篇 2023-04-14

发表评论

登录后才能评论

评论列表(0条)

保存