根据Knumbers注释爬取KEGG对应KO号和pathway name

根据Knumbers注释爬取KEGG对应KO号和pathway name,第1张

手头有KEGG对应各个基因的注释文件(注释可以参考KAAS注释流程),但没有对应的KO号,需要得到相应的KO号做富集分析

用selenium+xpath爬取,试了下发现KEGG最大接受的输入knumbers数量为7000左右,所以分割数据进行爬取(这里没有用线程池爬,要加速可以用多线程),注意脚本中chrome driver改成自己的地址即可。

参数三个,分别为-kn,对应你的用换行符分割的knumbers文件;-k2ko,对应爬取的kn对应ko关系的文件保存地址;-t2n,对应爬取的ko号和pathway name描述的文件保存地址。

得到文件后就可以很方便的用R整理数据,以及超几何检验/现成R包(例如ClusterProfiler)进行富集

富集分析可以参考:

https://www.jianshu.com/p/8ee9a71d056e?utm_campaign=maleskine ...

如果您知道自己关注通路的ID,可以直接在第一步的基础上直接搜索,也可以获得特定物种的通路信息,例如上面的human的Pentosephosphate pathway,ID为hsa00030,我们就可以直接用这个ID进行搜索,具体 *** 作为在步骤1的第二幅图中填入ID号,选择物种has,点击Go即可!


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10698574.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-10
下一篇 2023-05-10

发表评论

登录后才能评论

评论列表(0条)

保存