根据Knumbers注释爬取KEGG对应KO号和pathway name_sql

手头有KEGG对应各个基因的注释文件（注释可以参考KAAS注释流程)，但没有对应的KO号，需要得到相应的KO号做富集分析

用selenium+xpath爬取，试了下发现KEGG最大接受的输入knumbers数量为7000左右，所以分割数据进行爬取（这里没有用线程池爬，要加速可以用多线程),注意脚本中chrome driver改成自己的地址即可。

参数三个，分别为-kn,对应你的用换行符分割的knumbers文件；-k2ko，对应爬取的kn对应ko关系的文件保存地址；-t2n,对应爬取的ko号和pathway name描述的文件保存地址。

得到文件后就可以很方便的用R整理数据，以及超几何检验/现成R包(例如ClusterProfiler)进行富集

富集分析可以参考：

https://www.jianshu.com/p/8ee9a71d056e?utm_campaign=maleskine ...

如果您知道自己关注通路的ID，可以直接在第一步的基础上直接搜索，也可以获得特定物种的通路信息，例如上面的human的Pentosephosphate pathway，ID为hsa00030，我们就可以直接用这个ID进行搜索，具体 *** 作为在步骤1的第二幅图中填入ID号，选择物种has，点击Go即可！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10698574.html

根据Knumbers注释爬取KEGG对应KO号和pathway name

发表评论

评论列表（0条）