100天搞定机器学习|Day21 Beautiful Soup_python

概述前情回顾 "机器学习100天|Day1数据预处理" "100天搞定机器学习|Day2简单线性回归分析" "100天搞定机器学习|Day3多元线性回归&

前情回顾

Day21，Avik-Jain学习了关于如何使用Beautiful Soup进行网络爬虫的教程。

网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。通俗来说就是模拟用户在浏览器上的 *** 作，从特定网站，自动提取对自己有价值的信息。主要通过查找域名对应的IP地址、向IP对应的服务器发送请求、服务器响应请求，发回网页内容、浏览器解析网页内容四个步骤来实现。

什么Beautiful Soup

Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为UTF-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、HTML6lib一样出色的Python解释器，为用户灵活地提供不同的解析策略或强劲的速度。
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

需要声明的是，爬虫是个非常复杂的技术，需要完备的知识体系。

技术体系：
数据采集、数据存储、动态网页爬取、APP爬取、验证码破解、模拟登陆、代理试用、爬虫框架、分布式爬取等等。
目前主流的网络爬虫工具是python，涉及的库和工具：
网页爬取：urlib、requests、aiohttp、Selenium、Splash
网页解析：re、lxml、Beautiful Soup、pyquest
数据存储：JsON、XML、CSV、MysqL、MongoDB、Redis
Web组件：Flask、Tornado
处理反爬：Tesserocr、ADSLProxy、ProxyPool、PookIEsPool
APP爬取：Charles、mitmproxy、mitmdump、Appium
爬虫框架：pyspIDer、Scrapy、Scrapy-Redis、Scrapy-Splash
管理部署：Docker、Scrapyd、Scrapyd-API、Scrapyd-ClIEnt、Gerapy

数据挖掘从业者学习爬虫更多是为数据分析需要，但爬虫本身也可以发展为职业，随手截两个高级爬虫工程师的岗位职责。

我的建议是：如果职业定位非爬虫工程师，可先不必太深入学习。推荐感兴趣且时间富裕的同学一个免费的爬虫入门课程：

总结

以上是内存溢出为你收集整理的100天搞定机器学习|Day21 Beautiful Soup全部内容，希望文章能够帮你解决100天搞定机器学习|Day21 Beautiful Soup所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/langs/1189897.html

100天搞定机器学习|Day21 Beautiful Soup

发表评论

评论列表（0条）