用selenium+xpath爬取,试了下发现KEGG最大接受的输入knumbers数量为7000左右,所以分割数据进行爬取(这里没有用线程池爬,要加速可以用多线程),注意脚本中chrome driver改成自己的地址即可。
参数三个,分别为-kn,对应你的用换行符分割的knumbers文件;-k2ko,对应爬取的kn对应ko关系的文件保存地址;-t2n,对应爬取的ko号和pathway name描述的文件保存地址。
得到文件后就可以很方便的用R整理数据,以及超几何检验/现成R包(例如ClusterProfiler)进行富集
富集分析可以参考:
https://www.jianshu.com/p/8ee9a71d056e?utm_campaign=maleskine ...
如果您知道自己关注通路的ID,可以直接在第一步的基础上直接搜索,也可以获得特定物种的通路信息,例如上面的human的Pentosephosphate pathway,ID为hsa00030,我们就可以直接用这个ID进行搜索,具体 *** 作为在步骤1的第二幅图中填入ID号,选择物种has,点击Go即可!欢迎分享,转载请注明来源:内存溢出
评论列表(0条)