首先 解析页面
在关闭js后发现 页面完全是静态的 所以只需要一次请求 就完全加载页面
先段清拿到page的数量
然后根据page数生成url
定义一个微博类和处理微博的方法draw
以微博为单位把每一页的微博存入list 调用draw方法提取目标字段
定义一个存入方法,本次选择使用mysql
爬取部分完成,接下来先对数罩掘据进行去重,按照mid分组即可
定义一个读方法把微博的content部分合起来
再定义一个词云生成方法generate_wc
最终结果展示
本次爬虫只完成了一个原型,理论上可用于任意关键字微博爬取,但还有很多地方可以改进,如微博的握闷前过滤。因为数量级不大,也没有使用断点的设计,cookie也是手动添加,没有打验证码的 *** 作。有待改进。
万能编程语言“Python”的五大主要用途:1、web开发
Python的诞生历史比ewb还要早,由于Python是一种解释型的脚本语言,开发效率高,所有非常适合用来做web开发。
Python有上百种web开发框架,有很多成熟的模板技术,选择Python开发web应用,不但开发效率高,而且运行速度快。
常见的web开发框架:Django、flask、tornado等。
2、网络爬虫
网络爬虫是Python比较常用的一个场景,国际上,Google在早期大量地使用Python语言作为网络爬虫的基础,带动了整个Python语言的应用发展。以前国内很多人用采集器搜刮网上的内容,现在用Python收集网上信息比以前容易了许多。比如:从各大网站抓液掘取商品折扣信息,比较获取最优选择对社交网络上发言进行收集分类,生成情绪地图,分析语言习惯……爬虫应用很多,几乎每个人学习爬虫之后都能够通过爬虫去做一些好玩有趣且有用的事情。
3、人工智能
人工智能是现在非常火的一个方向,AI热潮让Python语言的未来充满了无限的潜力。
因为Python有很多库很方便做人工智能,比如Numpy、Scipy做数值计算的,Sklearn做机器学习的,pybrain做神经网络的,matplotlib做数据可视化的。在人工智能大范畴领域内的数据挖掘、机器学习、神经网络、深度学习等方面都是主流的编程语言,得到广泛的支持和应用。
4、数据分析
数据分析处理方面,Python有很完备的生态环境。大数据分析中涉及到的分布式计算、数据可视化、数据库 *** 作等,Python中行野都有成熟的模块可以选择完成其功能。对于Hadoop-MapReduce和Spark,都可以直接使用档埋喊Python完成计算逻辑,这无论对于数据科学家还是对于数据工程师而言都是十分便利的。
5、自动化运维
Python对于服务器运维而言也有十分重要的用途。由于目前几乎所有Linux发行版本都自带了Python解释器,使用Python脚本进行批量化的文件部署和运行调整都成了Linux服务器上很不错的选择。Python中也包含了许多方便的工具,从调控ssh/sftp用的paramiko,到监控服务用的supervisor,再到bazel等构建工具,甚至conan等用于C++的包管理工具,Python提供了全方位的工具集合,而在这基础上,结合web,开发方便运维的工具会变得十分简单。
python的用途1、Web开发
Python的诞生历史比Web还要早,由于Python是一种解释型的脚本语言,开发效率高,所以非常适合用来做Web开发。
Python有上百种Web开发框架,有很多成熟的模板技术,选择Python开发Web应用,不但开发效率高,而且运行速度快。
常用的web开发框架有:Django、Flask、Tornado 等。
许多知名的互联网企业将python作为主要开发语言:豆瓣、知乎、果壳网、Google、NASA、YouTube、Facebook……
由于后台服务器的通用性,除了狭义的网站之外,很多App和游戏的服务器端也同样用 Python实现。
2、网络爬虫
许多人对编程的热情始于好奇,终于停滞。
距离真q实干做开发有技术差距,也无人指点提带,也不知当下水平能干嘛?就在这样的疑惑循环中,编程技能止步不前,而爬虫是最好的磨御进阶方向之一。
网络爬虫是Python比较常用的一个场景,国际上,google在早期大量地使用Python语言作为网络爬虫的基础,带动了整个Python语言的应用发展。以前国内很多人用采集器搜刮网上的内容,现在用Python收集网上的信息比以前容易很多了,如:
从各大网站爬取商品折扣信息,比较获取最优选择;
对社交网络上发言进行收集分类,生成情绪地图,分析语言习惯;
爬取网易云音乐某一类歌曲的所有评论,生成词云;
按条件筛选获得豆瓣的电影书籍信息并生成表格……
应用实在太多,几乎每个人学习爬虫之后都能够通过爬虫去做一些好玩有趣有用的事。
3、人工智能
人工智能是现在非常火的一个方向,AI热潮让Python语言的未来充满了无限的潜力。现在释放出来的几个非常有影响力的AI框架,大多是Python的实现,为什么呢?
因为Python有很多库很方便做人工智能,比如numpy, scipy做数值计算的,sklearn做机器学习的,pybrain做神经网络的,matplotlib将数据可视化的。在人工智能大范畴领域内的数据挖掘、机器学习、神经网络、深度学习等方面都是主流的编程语言,得到广泛的支持和应用。
人工智能的核心算法大部分还是依赖于C/C++的,因为是计算密集型,需要非常精细的优化,还需要GPU、专用硬件之类的接口,这些都只有C/C++能做到。
而Python是这些库的API binding,使用Python是因为CPython的胶水语言特性,要激哗开发一个其他语言到C/C++的跨语言接口,Python是最容易的,比其他语言的门槛要低不少,尤其是使用Cython的时候。
4、数据分析
数据分析处理方面,Python有很完备的生态环境。“大数据”分析中涉及到的分布式计算、数据可视化、数据库 *** 作等,Python中都有成熟的模块可以选择完成其功能。对于Hadoop-MapReduce和Spark,都可以直接使用Python完成计算逻辑,这无论对于数据科学家还是对于数据工程师而言都是十分便利瞎铅岩的。
5、自动化运维
Python对于服务器运维而言也有十分重要的用途。由于目前几乎所有Linux发行版中都自带了Python解释器,使用Python脚本进行批量化的文件部署和运行调整都成了Linux服务器上很不错的选择。Python中也包含许多方便的工具,从调控ssh/sftp用的paramiko,到监控服务用的supervisor,再到bazel等构建工具,甚至conan等用于C++的包管理工具,Python提供了全方位的工具集合,而在这基础上,结合Web,开发方便运维的工具会变得十分简单。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)