python怎么爬取简书用户名_框架

初步的思路

今天在用Scrapy写代码的时候，对网页的结构也有了大致的分析，再加上之前罗罗攀的思路，初步我是通过专题入口

热门专题

imagepng

专题管理员（一般粉丝、文章、字数、收获喜欢、这几项数据都非常漂亮）

imagepng

以上红框里的数据项就是我需要爬取的字段

但是以上的思路存在一点的问题：

存在一些简书用户并不是一些热门专题的管理员，但是其人气粉丝量也很高，这个思路可能无法将这些用户爬取下来

进阶的思路

热门专题

专题关注的人

专题关注的人的动态

推荐作者粉丝信息

imagepng

优点：

数据大而全，基本包含了99%的用户（个人猜测，不严谨）

缺点：

因为许多用户不止关注一个专题，而且其中包含了大量的新注册用户（数据很多为空），并且也有大量重复数据需要去重

代码部分:

jianshupy 还在调试阶段，待更新

# -- coding: utf-8 --

import sys

import json

import requests

import scrapy

import re

from lxml import etree

from scrapy>

以上就是关于python怎么爬取简书用户名全部的内容，包括:python怎么爬取简书用户名、java web项目中js怎么取到div中滚动条的高度、等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

python怎么爬取简书用户名