通过GeneId在NCBI上批量搜寻序列

通过GeneId在NCBI上批量搜寻序列,第1张

概述当你有大批量的GeneId序列的时候,手动一个个在NCBI里面比对肯定是不现实的,本来有Batch Entrez方便批量比对,可是总容易不允许进入。所以写了以下一种流程可以批量比对。 首先如果是比对蛋白质(protein)或者(nucleotide)数据库 ,那很容易 用perl以下代码即可。 #!/usr/bin/perl -wuse Bio::SeqIO;use Bio::DB::GenB

当你有大批量的GeneID序列的时候,手动一个个在NCBI里面比对肯定是不现实的,本来有Batch Entrez方便批量比对,可是总容易不允许进入。所以写了以下一种流程可以批量比对。

首先如果是比对蛋白质(protein)或者(nucleotIDe)数据库 ,那很容易 用perl以下代码即可。

#!/usr/bin/perl -wuse Bio::SeqIO;use Bio::DB::GenBank;my $myIDfile="example.txt";#GeneID所在文件;my $outputDir="result/";#输出目录open(myfile,$myIDfile)||dIE();while(my $myline=<myfile>){chomp($myline);$out = Bio::SeqIO->new(-file => ">".$outputDir.$myline."_protein.fasta",'-format' => 'fasta');my $query_string = $myline;my $query = Bio::DB::query::GenBank->new(          -query=>$query_string,-db      => 'protein',);# get a genbank database handle$gb = new Bio::DB::GenBank; eval{my $stream = $gb->get_Stream_by_query($query);while (my $seq = $stream->next_seq) {$out->write_seq($seq);}};}
但是如果要是想比对GENE数据库时候,就麻烦了。因为不提供直接远程比对GENE数据库服务库的。Bio::DB::GenBank;模块有对此说明的。

通过对下载链接http://www.ncbi.nlm.nih.gov/svIEwer/vIEwer.cgi?tool=portal&sendto=on&log$=seqvIEw&db=nuccore&dopt=fasta&sort=&val=566192888&from=19085984&to=19088706&maxplex=1的分析 我们知道需要一个giID,和起始结束的位置。

那我们的思路就是

1.首先进入到http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=gene&ID=POPTR_0010s21980g&retmode=xml中间找到giID<Seq-ID_gi>568815590</Seq-ID_gi> 

2.然后再进入到NCBI中GENE库中搜索geneID找寻到起始结束位置比如http://www.ncbi.nlm.nih.gov/gene/?term=POPTR_0010s21980g。

3.因为这两个页面所需求内容都在网页源代码里面,所以都可以直接用LWP::Simple 模块得到相应内容。然后依据 giID 和 起始结束位置 就能批量产生下载地址。

4.这也是一个问题就是下载地址必须在地址栏打开后通过迅雷嗅针自动打开迅雷下载才行,如果直接复制到迅雷批量下载中是不可以的。所以此处可以写一个JavaScript脚本+HTML页面模拟实现即可。(注意 在浏览器设置中优先选择迅雷下载,否则不能批量下载)。


好,重点来了。贴上代码:

1.通过genID集合文件找寻giID结果文件输出到seqID.txt文件中。

#!/usr/bin/perl -wuse strict;use LWP::Simple qw(get);my $myIDfile="ee.txt";#geneID号所在文件。my $seq_ID=0;my $HTML="";my @array;open(myfile,$myIDfile)||dIE();while(my $myUrl=<myfile>){chomp($myUrl);$HTML = get( "http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=gene&ID=$myUrl&retmode=xml" );@array=split/\n/,$HTML;foreach my $myline(@array){if($myline=~/<Seq-ID_gi>[\d0-9]+<\/Seq-ID_gi>/){if ($myline =~ /<Seq-ID_gi>(\S+)<\/Seq-ID_gi>/){ $seq_ID=; }}}open(Outfile,">>seqID.txt")||dIE();print Outfile $myUrl."&".$seq_ID."\n";close(Outfile);}close(myfile);

2.通过genID集合文件找寻起始结束位置。

#!/usr/bin/perl -wuse strict;use LWP::Simple qw(get);my $myIDfile="ee.txt";#GeneID号所在位置。my $begin=0;my $end=0;my $HTML="";my @array;open(myfile,$myIDfile)||dIE();while(my $myUrl=<myfile>){chomp($myUrl);$HTML = get( "http://www.ncbi.nlm.nih.gov/gene/?term=$myUrl" );@array=split/\n/,$HTML;foreach my $myline(@array){if($myline=~/\([\d0-9]+\.\.[\d0-9]/){if ($myline =~ /\((\S+)\.\.(\S[\d0-9]+)/){ $begin=; $end=; }}}open(Outfile,">>postion.txt")||dIE();print Outfile $myUrl."&".$begin."&".$end."\n";close(Outfile);}close(myfile);

3.将两个结果生成URL地址。

#/usr/bin/perl -wuse strict;my $begin=0;my $end=0;my $seq_ID=0;my $seqIDfile="seqID.txt";#giID号my $posfile="postion.txt";#gene所在位置my $keyWord="";my $mySourceUrl="";open(Myfile,$seqIDfile)||dIE();while(my $line=<Myfile>){    if($line=~/(\S+)\&(\S+)/){        $keyWord=;        $seq_ID=;    }   open(myPosfile,$posfile)||dIE();   while(my $posline=<myPosfile>){      if($posline=~/(\S+)\&(\S+)\&(\S+)/){                   my $mIDnum=;                   my $mIDnum2=;           if($keyWord eq ){                $begin=$mIDnum;                $end=$mIDnum2;           }      }   }   close(myPosfile);   $mySourceUrl="http://www.ncbi.nlm.nih.gov/svIEwer/vIEwer.cgi?tool=portal&sendto=on&log$=seqvIEw&db=nuccore&dopt=fasta&sort=&val=$seq_ID&from=$begin&to=$end&maxplex=1";              open(OUTfile,">>url.txt")||dIE();              print OUTfile $mySourceUrl."\n";              close(OUTfile);}close(Myfile);

4.打开url.HTML将上面生成的所有地址全部放入文本框中(PS:最好用crtl+A选中文本框所有内容后再crtl+V粘贴进去,防止多一行空白行)

<!DOCTYPE HTML><HTML xmlns="http://www.w3.org/1999/xhtml"><head><Meta http-equiv="Content-Type" content="text/HTML; charset=utf-8"/>    <Title></Title></head><body><div >    <textarea ID="myText">    </textarea></div><div >    <input type="button" onclick="geturl()" value="提交"/></div></body></HTML><script type="text/ecmascript">    function geturl() {        var myUrl = document.getElementByID("myText").value;        var arr = myUrl.split('\n');        var i=0;        var mytime1=setInterval(openUrl,5000);        function openUrl() {                       window.open(arr[i],'_self');                        if (i == arr.length) {                             clearInterval(mytime1);            }            else {                i++;            }        }    }</script>

5.等待就好,迅雷会自动合并提示是否下载,等到下载地址全部加载完毕,合并任务组下载(PS :一定点击 方便后面处理)如果仍然卡住可以先在NCBI中任意下一条fasta序列,然后再进行第四步骤。不过记得要清空迅雷下载内容,否则出现重复下载也不行。

6.下载完毕,这时候序列都下载好了,但是名字不对 对不对?而且fasta文件中>后面内容也不包含GENEID号。这时候需要批量对文件名字处理,要用到之前生成的giID号和起始结束位置文件。然后先用下面的代码把两个文件集合起来生产jihe.txt文件。

#/usr/bin/perl -wuse strict;my $begin=0;my $end=0;my $seq_ID=0;my $seqIDfile="seqID.txt";my $posfile="postion.txt";my $keyWord="";my $mySourceUrl="";open(Myfile,$posfile)||dIE();   while(my $posline=<myPosfile>){      if($posline=~/(\S+)\&(\S+)\&(\S+)/){           if($keyWord eq ){                $begin=;                $end=;           }      }   }   close(myPosfile);              open(OUTfile,">>jihe.txt")||dIE();              print OUTfile $keyWord."&".$seq_ID."&".$begin."&".$end."\n";              close(OUTfile);}close(Myfile);

7.再把jihe.txt文件和刚才任务组下载的文件夹 平级,再调用下面的perl程序。生成正确名字外加正确的序列文件。然后将以前的文件手动删除下即可。注意:find.txt里面表示正确找到底基因序列。如果发现数目少了,可以进行比对。剩下的可以手动比对去找。

#/usr/bin/perl -wuse strict;my $mydir="任务组_20150404_1447/";#下载的任务组文件夹my $mySeqID="jihe.txt";#整合后的文件my $outname="";my $mIDname="";my $result="";my $myKeyWord="";opendir(DIR,$mydir)||dIE();while(my $myfile=readdir(DIR)){  if($myfile=~/[\da-z]/){  $result="";  open(myDirfile,$mydir.$myfile)||dIE();      $outname="";  while(my $myline=<myDirfile>){  if($myline=~/>/){         open(mySeqID,$mySeqID)||dIE();       while(my $mySeqline=<mySeqID>){          if($mySeqline=~/(\S+)\&(\S+)\&(\S+)\&(\S+)/){                   $mIDname=;                 $myKeyWord=.":".."-".;              if($myline=~/$myKeyWord/){              $outname=$mIDname;              }          }  }  close(mySeqID);  if($myline=~/(\S+) ?/){my @array=split//,$myline;     $result.=">".$outname." ".$array[1];}    }  $result.=$myline;  }  close(myDirfile);  open(Outfile,">".$outname.".fasta")||dIE();  print Outfile $result;  close(Outfile); open(Outfile,">>find.txt")||dIE();  print Outfile $outname."\n";  close(Outfile);  }}close(DIR);
结束,总共花了三天时间摸索出来的一套流程。对于没有服务器做本地比对的童鞋来说,还是可以方便借鉴的。外加一句,摸索之路真是吐血。 总结

以上是内存溢出为你收集整理的通过GeneId在NCBI上批量搜寻序列全部内容,希望文章能够帮你解决通过GeneId在NCBI上批量搜寻序列所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1273830.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-08
下一篇 2022-06-08

发表评论

登录后才能评论

评论列表(0条)

保存