# 爬虫基本知识参考链接:https://www.cnblogs.com/angle6-liu/p/10459132.HTML"""一 爬虫简介 1.1 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程 1.2 哪些语言支持爬虫 1.2.1 PHP:可以实现爬虫。PHP被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是PHP在实现爬虫中支持多线程和多进程方面做的不好。 1.2.2 java:可以实现爬虫。java可以非常好的处理和实现爬虫,是唯一可以与python并驾齐驱且是python的头号劲敌。但是java实现爬虫代码较为臃肿,重构成本较大。 1.2.3 c、c++:可以实现爬虫。但是使用这种方式实现爬虫纯粹是是某些人(大佬们)能力的体现,却不是明智和合理的选择。 1.2.4 python:可以实现爬虫。python实现和处理爬虫语法简单,代码优美,支持的模块繁多,学习成本低,具有非常强大的框架(scrapy等)且一句难以言表的好!没有但是!二 爬虫的分类 1 通用爬虫 通用爬虫是搜索引擎(BaIDu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。简单来讲就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备份,在对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。 2 聚焦爬虫 聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如:获取豆瓣上电影的名称和影评,而不是获取整张页面中所有的数据值。 3 增量式网络爬虫 通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。 ★如何进行增量式的爬取工作: 在发送请求之前判断这个URL是不是之前爬取过 在解析内容后判断这部分内容是不是之前爬取过 写入存储介质时判断内容是不是已经在介质中存在 ★参考链接:https://www.cnblogs.com/yuncong/p/10381626.HTML 4 deepweb爬虫三 爬虫的目的 1 获取数据,用于填充公司的数据库 2 通过爬取数据,制作搜索引擎 3 通过爬虫程序,做数据分析四 反爬虫 4.1 概念 门户网站通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取。 4.2 目的 针对一些初级爬虫程序,简单粗暴,不考虑服务器的压力,会导致服务器瘫痪. 针对一些失控的爬虫,爬虫的数据很庞大.忘记关闭爬虫程序的.五 爬虫的流程 一个爬虫程序通常分为三个部分: 1.获取网页数据 爬虫首先要做的事情就是获取网页,这里就是指网页的源代码.源代码里包含着部分有用信息.所以我们只要把源代码获取下来,就可以从中提取到想要的数据 (向服务器发送请求,返回的响应内容就是网页的源代码.)所以说最关键的部分就是构造一个请求并发送给服务器,然后就收到响应的源代码并将其解析出来. 2.提取信息 获取到网页源代码之后,就可以分析网页源代码.从中提取到我们想要的数据,最通用的办法就是正则表达式.它是一个万能的方法.但是有有一个弊端:如果写的正则太复杂比较容易出错.所以在python中我们经常使用xpath来进行网页解析 3.保存数据 提取到数据之后,一般会将提取到的数据保存起来以方便后续使用,可以保存为text文件或者Json文件,也可以保存为Excel表格,也可以保存到数据库.六 http协议(参考链接:https://www.cnblogs.com/angle6-liu/p/10459132.HTML) http协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World WIDe Web )服务器传输超文本到本地浏览器的传送协议。七 https协议 httpS (Secure Hypertext Transfer Protocol)安全超文本传输协议,httpS是在http上建立SSL加密层,并对传输数据进行加密,是http协议的安全版。"""
总结 以上是内存溢出为你收集整理的爬虫基础全部内容,希望文章能够帮你解决爬虫基础所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)