初步的思路
今天在用Scrapy写代码的时候,对网页的结构也有了大致的分析,再加上之前罗罗攀的思路,初步我是通过专题入口
热门专题
imagepng
imagepng
专题管理员 (一般粉丝、文章、字数、收获喜欢、这几项数据都非常漂亮)
imagepng
imagepng
以上红框里的数据项就是我需要爬取的字段
但是以上的思路存在一点的问题:
存在一些简书用户并不是一些热门专题的管理员,但是其人气粉丝量也很高,这个思路可能无法将这些用户爬取下来
进阶的思路
热门专题
专题关注的人
专题关注的人的动态
推荐作者 粉丝信息
imagepng
imagepng
imagepng
优点:
数据大而全,基本包含了99%的用户(个人猜测,不严谨)
缺点:
因为许多用户不止关注一个专题,而且其中包含了大量的新注册用户(数据很多为空),并且也有大量重复数据需要去重
代码部分:
jianshupy 还在调试阶段,待更新
# -- coding: utf-8 --
import sys
import json
import requests
import scrapy
import re
from lxml import etree
from scrapy>
以上就是关于python怎么爬取简书用户名全部的内容,包括:python怎么爬取简书用户名、java web项目中js怎么取到div中滚动条的高度、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)