爬虫基础

爬虫基础,第1张

概述爬虫基础#爬虫基本知识参考链接:https://www.cnblogs.com/angle6-liu/p/10459132.html"""一爬虫简介1.1什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程1.2哪些语言支持爬虫1.2.1php:可以实现爬虫。php被 爬虫基础
# 爬虫基本知识参考链接:https://www.cnblogs.com/angle6-liu/p/10459132.HTML"""一 爬虫简介    1.1 什么是爬虫        爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程    1.2 哪些语言支持爬虫        1.2.1 PHP:可以实现爬虫。PHP被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是PHP在实现爬虫中支持多线程和多进程方面做的不好。        1.2.2 java:可以实现爬虫。java可以非常好的处理和实现爬虫,是唯一可以与python并驾齐驱且是python的头号劲敌。但是java实现爬虫代码较为臃肿,重构成本较大。        1.2.3 c、c++:可以实现爬虫。但是使用这种方式实现爬虫纯粹是是某些人(大佬们)能力的体现,却不是明智和合理的选择。        1.2.4 python:可以实现爬虫。python实现和处理爬虫语法简单,代码优美,支持的模块繁多,学习成本低,具有非常强大的框架(scrapy等)且一句难以言表的好!没有但是!二 爬虫的分类    1 通用爬虫      通用爬虫是搜索引擎(BaIDu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。简单来讲就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备份,在对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。    2 聚焦爬虫       聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如:获取豆瓣上电影的名称和影评,而不是获取整张页面中所有的数据值。    3 增量式网络爬虫       通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。       ★如何进行增量式的爬取工作:            在发送请求之前判断这个URL是不是之前爬取过            在解析内容后判断这部分内容是不是之前爬取过            写入存储介质时判断内容是不是已经在介质中存在        ★参考链接:https://www.cnblogs.com/yuncong/p/10381626.HTML    4 deepweb爬虫三 爬虫的目的    1 获取数据,用于填充公司的数据库    2 通过爬取数据,制作搜索引擎    3 通过爬虫程序,做数据分析四 反爬虫    4.1 概念        门户网站通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取。    4.2 目的        针对一些初级爬虫程序,简单粗暴,不考虑服务器的压力,会导致服务器瘫痪.        针对一些失控的爬虫,爬虫的数据很庞大.忘记关闭爬虫程序的.五 爬虫的流程    一个爬虫程序通常分为三个部分:    1.获取网页数据    爬虫首先要做的事情就是获取网页,这里就是指网页的源代码.源代码里包含着部分有用信息.所以我们只要把源代码获取下来,就可以从中提取到想要的数据    (向服务器发送请求,返回的响应内容就是网页的源代码.)所以说最关键的部分就是构造一个请求并发送给服务器,然后就收到响应的源代码并将其解析出来.    2.提取信息    获取到网页源代码之后,就可以分析网页源代码.从中提取到我们想要的数据,最通用的办法就是正则表达式.它是一个万能的方法.但是有有一个弊端:如果写的正则太复杂比较容易出错.所以在python中我们经常使用xpath来进行网页解析    3.保存数据    提取到数据之后,一般会将提取到的数据保存起来以方便后续使用,可以保存为text文件或者Json文件,也可以保存为Excel表格,也可以保存到数据库.六 http协议(参考链接:https://www.cnblogs.com/angle6-liu/p/10459132.HTML)    http协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World WIDe Web )服务器传输超文本到本地浏览器的传送协议。七 https协议    httpS (Secure Hypertext Transfer Protocol)安全超文本传输协议,httpS是在http上建立SSL加密层,并对传输数据进行加密,是http协议的安全版。"""
总结

以上是内存溢出为你收集整理的爬虫基础全部内容,希望文章能够帮你解决爬虫基础所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1186704.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存