爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!,第1张

概述<pstyle=\"margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,Arial,\'HiraginoSansGB\',\'MicrosoftYaHei\',simsun;vertical-align:baseline;color:

<p >

<p >

<p >只有MD5的超链接可以点,点进去看看,

<p >

<p >我写这个的爬虫的目的是下载样本,只关心样本的下载地址,并不关心其他的信息。

<p >现在我们可以理清下思路:

<pre ><pre ><code >获取每一页的网页源码
解析当前页的每一个<span >md5对应的详细信息链接
在详细信息页面解析下载地址。<p >提取规则

<p >先从第一页开始爬起

<p >

<p >scrapy支持xss选择器和css选择器,一般是用哪个比较方便就用哪个。

<p >

<p >对应链接的xpath选择器为 <code >//td/a/@href ,

<p >

<p >下一页的链接的xpath选择器为 <code >//a[contains(text(),'Next')]/@href

<p >

<p >

<p >

<p >登陆

<p >之前写爬虫的时候,是可以直接通过post登陆的,而我开始写这篇文章的时候开始加上了Google的ReCaptcha验证码。

<p >只能换种方式使用selenium来登陆Malwr.得到登陆后的cookie后,我们就可以用这个cookie开始下载样本了。

<p >

<p >

<p >

<p >

<p >

<p >filesPipeline是从file_urls中拿到下载地址然后开始下载文件,因此我们还需要Item.py定义一个file_urls.

<p >

<p >

<p >

<p >解析下载地址,将解析到的下载链接列表放入item的file_urls,返回item。pipeline会file_urls拿到链接开始调用get_media_requests下载文件

<p >

<p >

<p >

总结

以上是内存溢出为你收集整理的爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!全部内容,希望文章能够帮你解决爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1209078.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存