puppeteer获取网页中的websocket数据

puppeteer获取网页中的websocket数据,第1张

截止目前,Puppeteer 没有提供原生的用于处理 WebSocket 的 API 接口。只能通过更底层的 Chrome DevTool Protocol (CDP) 协议获得。

Puppeteer 使用 CDPSession 对象处理 CDP 协议相关

实现如下

参考:

>

这个不一定,爬虫只是一个数据获取的过程,不一定非得会代码,目前网上有许多现成的软件都可以直接爬取数据,下面我简单介绍3个,分别是后羿、八爪鱼和火车头,感兴趣的朋友可以尝试一下:

01

简单软件—后羿采集器

这是一款非常适合小白的网页采集器,完美支持3大 *** 作平台,个人使用完全免费,基于人工智能技术,只需输入网页地址,软件就会自动提取、解析出数据,支持数据预览、导出和自动翻页功能,简单实用,不需配置任何规则,如果你想快速获取网页数据,又对代码不熟悉,可以使用一下这个软件,非常容易学习:

02

国产软件—八爪鱼采集器

这是一个非常纯粹的国产软件,和后羿采集器不同,八爪鱼采集器目前仅支持Windows平台,基本功能完全免费,高级功能的话,需要付费购买,目前支持简易采集和自定义采集2种方式,自带有许多现成的数据采集模板,可以快速采集某宝、某东等热门网站数据,支持数据预览和导出,对于网站数据采集来说,也是一个不错的选择:

03

专业软件—火车头采集

这是一款非常专业、功能强大的数据采集软件,和八爪鱼一样,目前也仅支持Windows平台,免费版可供个人直接使用,自动集成了数据从采集、清洗到分析的全过程,可快速设置抓取规则爬取网页数据(灵活、智能、强大),不需编写一行代码,如果你对代码不熟悉,没有任何基础,只是想单纯的获取网页数据,可以使用一下这个软件,也非常不错:

目前,就分享这3个爬虫软件吧,对于日常使用来说,完全够用了,当然,除了以上3个软件,还有许多其他爬虫软件,像神策、造数等也都非常不错,只要你熟悉一下使用过程,很快就能掌握的,网上也有相关教程和资料,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。

修改安全设置。

1、打开电脑,进入任意一个浏览器即可,首先找到浏览器工具栏菜单,打开浏览器Internet选项;2、点击安全选项卡,之后会出现安全设置界面;3、点击下方的自定义级别,在d出的窗口中找到”对未标记为可安全执行的脚本的ActiveX控件初始化并执行脚本“这一选项;4、点击启用;之后将d出警告窗口,选择“是”,随后将自动返回一级菜单,工具栏下方将显示“您的安全设置导致计算机存在安全风险”,excle即可安全导出。

单击数据--获取外部数据--自网站,单击进入。

在d出的新建web页面,在地址栏中输入需要查询数据的网址。

页面打开后,会在页面上有一个**矩形框嵌套的箭头,单击一下,让它变成小勾,这样我们就能选中需要引用的数据了。

选中之后,在页面的下端有一个导入按钮,单击便会进行数据导入了。

导入时excel会提醒数据导入的的区域,用户自己可以根据自身放需要进行选择区域,若不,单击确定就可以了。

网页上的数据都是实时更新的,同样,我们获取的数据也能够实现,选中需要更新的一个单元格或是一块区域,右键--数据范围属性,将允许后台刷新和刷新频率钱的小勾打上,并且还可以对时间进行调整。

7

这样,我们需要的数据就可以从网络上直接获取了。

工具/原料

Excel(以2003版为例)

方法/步骤

比如我们把搜狐中超积分榜作为Excel网页外部数据(如下图)。

打开Excel,定位要获取数据的单元格位置(如A1),然后依次点击“数据”-“导入外部数据”-“新建Web查询”。

在打开的对话框中,将网址粘贴到地址栏中,然后点击“转到”,再点击要选择表格旁边的箭头。

点击后变成了对号(表示选中该表格),然后单击“导入”。

打开下图所示对话框,点击“确定”。

获取好的数据如下图所示。

如果网络中的数据更新了,可以右击选择“刷新数据”即可获得最新的数据。

用户获取网络信息一般有三种模式:一是搜索模式;二是推荐模式;三是列表模式。三种模式各有不同的特点,决定了各自在不同用户需求场景下的应用。我们说实际上信息分为两个层面,用户端与平台端。

所谓的用户端即信息以方便用户识别获取的方式呈现给用户,所谓平台端即信息以便于平台方管理的形式储存。

不同的信息检索模式决定了被检索信息在客户端与平台端的不同组织形式。对于客户端,用户需求、信息获取场景的不同决定了用户对于信息的需求点的不同,因而为了方便用户快速获取信息只需展示信息相应维度的特征即可。

平台端

对于平台端,不同的信息获取模式对应的是平台端(即后台)对信息的不同管理组织模式。换句话说,平台的主要信息检索方式最终会决定平台的信息视觉呈现形式。

原因在于,三种信息检索方式需要不同的信息组织形式进行配合。而最终的决定性因素在于用户的场景需求。

在实际的使用过程中因为信息呈现的复杂性,单一的信息检索模式并不能完全满足信息的呈现,因而往往是三者相互配合,但是因为用户对于信息获取的不同期待又决定了信息呈现方式必然会以某一种形式为主。

首先打开excel,点击数据,在获取外部数据选项卡下,点击自网站,就会d出新建web查询对话框,入下图所示:

将网页地址复制到地址栏,单击转到,即可打开网页。

在打开的网页中,找到你想要导入的数据,单击带黄框的箭头,即可选定区域,然后单击右下角的导入。

在d出的导入数据对话框中,点击指定导入位置,即可将数据导入到excel。

使用方法:数据导入excel后,如果想更换数据区域可以右键编辑查询,重新指定区域。

数据导入excel以后,在数据区域右键,点击刷新,可以刷新数据。通过右键数据范围属性,可以打开外部数据区域属性对话框,并且设置刷新的频率,及是否允许后台刷新,还是打开文件时刷新。

6

还有一个简便的方法,就是直接复制你需要的网页数据,粘贴在excel中,粘贴完成后,在右下角有个粘贴选项,有个可刷新的web查询,点击它,就会进入新建web查询界面,重复以前的 *** 作就可以了。

以上就是关于puppeteer获取网页中的websocket数据全部的内容,包括:puppeteer获取网页中的websocket数据、你好,如何自动从网页提取数据,并更新到excel中、爬虫软件都有什么,想从网上爬一些数据,必须写代码吗等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/10183027.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存