47-网页获取数据的方法(get-post)

47-网页获取数据的方法(get-post),第1张

通过网页表单获取的数据,在php文件中呈现,利用php方法中的$_GET方法接受,提交的数据为一个字典。

1、通过输入网址请求服务器中的html文件,服务器接受请求文件,进行处理

2、服务器接收后,处理成响应报文进行返回到用户浏览器界面

3、第二次在html的表单中提交的数据会形成请求报文到服务器中,php文件接受数据并进行处理

4、服务器中php文件接收后会处理并返回响应文件呈现到用户浏览器界面

将form表单中的method的取值改成post就是以post的方式将文件放给服务器。

1、相同点

2、不同点

我们在抓取数据时,通常不会只抓取网页当前页面的数据,往往都会继续抓取翻页后的数据。本文就为大家介绍,集搜客GooSeeker网络爬虫如何在进行数据抓取时,自动抓取翻页后的数据。

在MS谋数台的爬虫路线工作台有三种线索方式可以实现自动抓取翻页后的数据,分别是定点线索、记号线索、相对线索。本文主要介绍比较常用的记号线索。

一、完成抓取内容映射

理箱中创建抓取内容,并完成映射。

具体 *** 作步骤如下:

在整理箱中创建抓取内容,并完成映射,选择网页上要抓取的内容映射到整理箱后,跳转到爬虫路线工作台设置翻页线索。

做完抓取内容基本 *** 作后,为了抓取网页上所有相同产品的数据本规则还使用了样例复制管理功能

二、创建翻页线索

在爬虫路线工作台新建一条记号线索

具体 *** 作步骤如下:

跳转到爬虫路线工作台。

点击新建,创建一条线索。

选择线索类型,设置翻页线索时通常选择记号线索,本文主要介绍的就是记号线索。

勾选连贯抓取,表示在执行抓取任务时,爬虫可以在同一个DS打数机窗口内抓取完当前页面后直接跳转到下一个页面进行抓取。

勾选连贯抓取后,目标主题名自动填写当前规则主题名,在本规则内不应修改,表示翻页后继续使用当前规则进行抓取。

选择线索定位选项

具体 *** 作步骤如下:

在爬虫路线工作台中点击定位选项。

线索定位选择偏好class。

网页结构中的@id属性每个页面不同的几率较大,如果线索定位偏好@id,容易导致在后续的抓取中翻页失败。所以一般我们手工修改选择较为稳定不变的@class属性,作为线索定位的首选项。

定位翻页标志,并在网页结构中找到对应节点

具体 *** 作步骤如下:

1在网页上点击翻页标志“下一页”,会d出该信息的定位提示框,通常是定位到模块节点(即包含多个下层节点,可双击展开,例如A节点)

2展开A节点,找到“下一页”对应text节点(text节点即为文本节点)

3点击对应text节点会在显示工作台中显示。

在网页结构窗口中找到,对应节点后,即开始进行线索映射。

线索映射——记号映射

具体 *** 作步骤如下:

选择对应节点进行记号映射,右击对应的text节点,选择线索映射后点击记号映射,在可爬虫路线工作台记号值中看到“下一页”,记号定位编号显示“下一页”text在网页结构窗口中的对应编号。

线索映射——线索定位映射

在做完记号映射之后,要进行线索定位映射,就是选择包含记号标志的范围进行映射。

具体 *** 作步骤如下:

1选择线索定位区块,线索定位的区块一般是包含"下一页"翻页标志的区块节点,也就是网页上的翻页区块(在网页结构窗口中点击包含 “下一页”翻页标志的区块节点,会在浏览器窗口中显示)。

2进行线索定位映射,右击翻页区块节点,选择线索映射→定位→线索1 。完成后定位编号会显示翻页区块节点的定位编号。

这样就完成了网站翻页规则的定义,可以使用DS打数机进行翻页数据抓取。

以上就是关于47-网页获取数据的方法(get-post)全部的内容,包括:47-网页获取数据的方法(get-post)、如何翻页抓取网页数据、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9568338.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存