别人的Python爬虫代码能读懂,自己却还是不能自由去爬?社群日报

别人的Python爬虫代码能读懂,自己却还是不能自由去爬?社群日报,第1张

别人的Python爬虫代码能读懂,自己却还是不能自由去爬?社群日报

文章目录
    • 1. 学 Python 的书籍,推荐一本
    • 2. 从读懂代码,到自由去爬,中间隔着一层“熟练度”。
    • 3. 老生常谈,Python爬虫到底违不违法
    • 4. 异常:AttributeError:module 'execjs' has no attribute 'compline'
    • 5. Python中哪个函数能直接显示某一个日期是那一年中的第几天?
    • 6. 一个类的属性继承另一个类的属性,这种写法叫什么?
    • 7. scrapy框架相关问题
    • 8. 爬虫学到啥程度算出师
    • 9. 跑个数据,要爬取100页的数据,突然报错,然后再行就一个都下载不下来,这个是被封IP的现象吗?
    • 10. 爬虫120例的第3例猫咪图,增加了反爬
    • 11. 爬虫100例,正在复盘更新中,已经更新了50+案例啦。

1. 学 Python 的书籍,推荐一本

入门阶段一般推荐《Python从入门到实践》+《Python完全学习手册》即可,如果还有疑问,可以加入 Python 事业部(78技术人社群) 参与攻读计划。

78 技术人社群的 共读计划  说明文档

2. 从读懂代码,到自由去爬,中间隔着一层“熟练度”。

程序员的能力中有一项非常重要,它叫做逻辑能力,这个能力一般会衍生为我们一直说的项目经验,一个成熟的程序员在实战中摔打出来的经验是很重要的,这也是为什么只学习语法无法彻底掌握编程的原因。

为了练习实战经验,Python事业部(78技术人社区)设计了一个《企业项目实战》打卡任务,可以重度参与进来。

《C榜追踪器》第8天,搭建 django 框架,调用 sqlite 文件

3. 老生常谈,Python爬虫到底违不违法


下述内容不要爬:

  1. 付费资源不要爬
  2. 个人隐私不要爬
  3. 逆向,解密不要干
  4. 姓名,手机,身份z通通不要爬
4. 异常:AttributeError:module ‘execjs’ has no attribute ‘compline’

群友出现如下异常。

execjs 是一个执行Javascript代码的库,该库出现这个问题,可以查看一下是否在前文出现了 execjs 变量,并将其指向了其它内容。

5. Python中哪个函数能直接显示某一个日期是那一年中的第几天?

具体代码如下所示:

import time

localtime = time.localtime(time.time())
print(localtime)
print(localtime.tm_year)
print(localtime.tm_mon)
print(localtime.tm_mday)
print(localtime.tm_yday)
6. 一个类的属性继承另一个类的属性,这种写法叫什么?

7. scrapy框架相关问题

scrapy框架在第一个中间件的 process_request 中添加请求头后,为什么是返回 None?而不是返回添加请求头的新 request?
接着传给下一个中间件的不就是没有请求头的 request 吗?这个新的怎么传给下载器?
这个问题可以在《Python爬虫120例》的 纯纯的爬虫知识,python scrapy 下载中间件知多少,找到答案。

8. 爬虫学到啥程度算出师


爬虫出师:

  1. 学会Python基础语法
  2. 掌握 requests、bs4、lxml、pyquery 等基础框架
  3. 掌握 Scrapy 类大型框架
  4. 掌握多线程,多进程,并发等技术
  5. 掌握集群,分布式等技术
  6. 常见的反爬手段要清楚
9. 跑个数据,要爬取100页的数据,突然报错,然后再行就一个都下载不下来,这个是被封IP的现象吗?

不是,如群友所说,大概率是数据异常值问题。

10. 爬虫120例的第3例猫咪图,增加了反爬

11. 爬虫100例,正在复盘更新中,已经更新了50+案例啦。

有群友询问《爬虫100例》其中的案例过期问题,这个已经在更新中啦,具体参见图片后内容。

复盘系列文章:

  • 《爬虫100例专栏》复盘更新,再捋一遍这100篇文章,更新1,2,3,4 篇(收藏再看)
  • 时隔3年,摄影网站依旧可用,果然靠谱,Python爬虫100例,第2篇复盘文章
  • 一篇文章,采集四个网站,它们是阳光理政,图虫网,书伴网,半次元网
  • 一篇博客,拿下7个爬虫案例,够几天的学习量啦,《爬虫100例》第4篇复盘文章
  • 3年已过,你知道这些目标网站,过去是如何被爬的吗?爬虫100例复盘5
  • 值!一篇博客,容纳11个Python爬虫案例总结,《爬虫100例》专栏第6篇复盘文章
  • 《Python爬虫100例》复盘⑦,解决手机APP爬虫环境问题

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5624808.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存