如何用python爬取豆瓣读书的数据_软件运维

这两天爬了豆瓣读书的十万条左右的书目信息，用时将近一天，现在趁着这个空闲把代码总结一下，还是菜鸟，都是用的最简单最笨的方法，还请路过的大神不吝赐教。

第一步，先看一下我们需要的库：

import requests #用来请求网页

from bs4 import BeautifulSoup #解析网页

import time #设置延时时间，防止爬取过于频繁被封IP号

import re #正则表达式库

import pymysql 庆罩 #由于爬取的数据太多，我们要把他存入MySQL数据库中，这个库用于亩差羡连接数据库

import random #这个库里用到了产生随机数的randint函数，和上面的time搭配，使爬取间隔时间随机

这个是豆瓣的网址：x-sorttags-all

我们要从这里获取所有分类的标签链接，进一步去爬取里面的信息，代码先贴上来：

import requests

from bs4 import BeautifulSoup #导入库

url="httom/tag/?icn=index-nav"

wb_data=requests.get(url) #请求网址

soup=BeautifulSoup(wb_data.text,"lxml") #解析网页信息

tags=soup.select("#content >div >div.article >div >div >table >tbody >tr >td >a")

#根据CSS路径查找标签信息，CSS路径获取方法，右键-检查-copy selector，tags返回的是一个列表

for tag in tags:

tag=tag.get_text() #将列表中的每一个标签信息提取出来

helf="hom/tag/"

#观察一下豆瓣的网址，基本都是这部分加上标签信息，所以我们要组装网址，用于爬取标签详情页

url=helf+str(tag)

print(url) #网址组装完毕，输出

以上我们便爬取了所有标签下的网址，我们将这个文件命名为channel,并在channel中创建一个channel字符串，放上我们所有爬取的网址信息，等下爬取详情页的时候直接从这里提取链接就好了，如下：

channel='''

tag/程序

'''

现在，我们开始第二个程序。

QQ图片20160915233329.png

标签页下每一个迅拍图片的信息基本都是这样的，我们可以直接从这里提取到标题，作者，出版社，出版时间，价格，评价人数，以及评分等信息（有些外国作品还会有译者信息），提取方法与提取标签类似，也是根据CSS路径提取。

我们先用一个网址来实验爬取：

url="htt/tag/科技"

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")

tag=url.split("?")[0].split("/")[-1] #从链接里面提取标签信息，方便存储

detils=soup.select("#subject_list >ul >li >div.info >div.pub") #抓取作者，出版社信息，稍后我们用spite()函数再将他们分离出来

scors=soup.select("#subject_list >ul >li >div.info >div.star.clearfix >span.rating_nums") #抓取评分信息

persons=soup.select("#subject_list >ul >li >div.info >div.star.clearfix >span.pl") #评价人数

titles=soup.select("#subject_list >ul >li >div.info >h2 >a") #书名

#以上抓取的都是我们需要的html语言标签信息，我们还需要将他们一一分离出来

for detil,scor,person,title in zip(detils,scors,persons,titles):

#用一个zip()函数实现一次遍历

#因为一些标签中有译者信息，一些标签中没有，为避免错误，所以我们要用一个try来把他们分开执行

try:

author=detil.get_text().split("/",4)[0].split()[0] #这是含有译者信息的提取办法，根据“/” 把标签分为五部分，然后依次提取出来

yizhe= detil.get_text().split("/", 4)[1]

publish=detil.get_text().split("/", 4)[2]

time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0] #时间我们只提取了出版年份

price=ceshi_priceone(detil) #因为价格的单位不统一，我们用一个函数把他们换算为“元”

scoe=scor.get_text() if True else "" #有些书目是没有评分的，为避免错误，我们把没有评分的信息设置为空

person=ceshi_person(person) #有些书目的评价人数显示少于十人，爬取过程中会出现错误，用一个函数来处理

title=title.get_text().split()[0]

#当没有译者信息时，会显示IndexError，我们分开处理

except IndexError:

try:

author=detil.get_text().split("/", 3)[0].split()[0]

yizhe="" #将detil信息划分为4部分提取，译者信息直接设置为空，其他与上面一样

publish=detil.get_text().split("/", 3)[1]

time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]

price=ceshi_pricetwo(detil)

scoe=scor.get_text() if True else ""

person=ceshi_person(person)

title=title.get_text().split()[0]

except (IndexError,TypeError):

continue

#出现其他错误信息，忽略，继续执行（有些书目信息下会没有出版社或者出版年份，但是数量很少，不影响我们大规模爬取，所以直接忽略）

except TypeError:

continue

#提取评价人数的函数，如果评价人数少于十人，按十人处理

def ceshi_person(person):

try:

person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])

except ValueError:

person = int(10)

return person

#分情况提取价格的函数，用正则表达式找到含有特殊字符的信息，并换算为“元”

def ceshi_priceone(price):

price = detil.get_text().split("/", 4)[4].split()

if re.match("USD", price[0]):

price = float(price[1]) * 6

elif re.match("CNY", price[0]):

price = price[1]

elif re.match("\A$", price[0]):

price = float(price[1:len(price)]) * 6

else:

price = price[0]

return price

def ceshi_pricetwo(price):

price = detil.get_text().split("/", 3)[3].split()

if re.match("USD", price[0]):

price = float(price[1]) * 6

elif re.match("CNY", price[0]):

price = price[1]

elif re.match("\A$", price[0]):

price = float(price[1:len(price)]) * 6

else:

price = price[0]

return price

实验成功后，我们就可以爬取数据并导入到数据库中了，以下为全部源码，特殊情况会用注释一一说明。

import requests

from bs4 import BeautifulSoup

import time

import re

import pymysql

from channel import channel #这是我们第一个程序爬取的链接信息

import random

def ceshi_person(person):

try:

person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])

except ValueError:

person = int(10)

return person

def ceshi_priceone(price):

price = detil.get_text().split("/", 4)[4].split()

if re.match("USD", price[0]):

price = float(price[1]) * 6

elif re.match("CNY", price[0]):

price = price[1]

elif re.match("\A$", price[0]):

price = float(price[1:len(price)]) * 6

else:

price = price[0]

return price

def ceshi_pricetwo(price):

price = detil.get_text().split("/", 3)[3].split()

if re.match("USD", price[0]):

price = float(price[1]) * 6

elif re.match("CNY", price[0]):

price = price[1]

elif re.match("\A$", price[0]):

price = float(price[1:len(price)]) * 6

else:

price = price[0]

return price

#这是上面的那个测试函数，我们把它放在主函数中

def mains(url):

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")

tag=url.split("?")[0].split("/")[-1]

detils=soup.select("#subject_list >ul >li >div.info >div.pub")

scors=soup.select("#subject_list >ul >li >div.info >div.star.clearfix >span.rating_nums")

persons=soup.select("#subject_list >ul >li >div.info >div.star.clearfix >span.pl")

titles=soup.select("#subject_list >ul >li >div.info >h2 >a")

for detil,scor,person,title in zip(detils,scors,persons,titles):

l = [] #建一个列表，用于存放数据

try:

author=detil.get_text().split("/",4)[0].split()[0]

yizhe= detil.get_text().split("/", 4)[1]

publish=detil.get_text().split("/", 4)[2]

time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0]

price=ceshi_priceone(detil)

scoe=scor.get_text() if True else ""

person=ceshi_person(person)

title=title.get_text().split()[0]

except IndexError:

try:

author=detil.get_text().split("/", 3)[0].split()[0]

yizhe=""

publish=detil.get_text().split("/", 3)[1]

time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]

price=ceshi_pricetwo(detil)

scoe=scor.get_text() if True else ""

person=ceshi_person(person)

title=title.get_text().split()[0]

except (IndexError,TypeError):

continue

except TypeError:

continue

l.append([title,scoe,author,price,time,publish,person,yizhe,tag])

#将爬取的数据依次填入列表中

sql="INSERT INTO allbooks values(%s,%s,%s,%s,%s,%s,%s,%s,%s)" #这是一条sql插入语句

cur.executemany(sql,l) #执行sql语句，并用executemary()函数批量插入数据库中

conn.commit()

#主函数到此结束

# 将Python连接到MySQL中的python数据库中

conn = pymysql.connect( user="root",password="123123",database="python",charset='utf8')

cur = conn.cursor()

cur.execute('DROP TABLE IF EXISTS allbooks') #如果数据库中有allbooks的数据库则删除

sql = """CREATE TABLE allbooks(

title CHAR(255) NOT NULL,

scor CHAR(255),

author CHAR(255),

price CHAR(255),

time CHAR(255),

publish CHAR(255),

person CHAR(255),

yizhe CHAR(255),

tag CHAR(255)

)"""

cur.execute(sql) #执行sql语句，新建一个allbooks的数据库

start = time.clock() #设置一个时钟，这样我们就能知道我们爬取了多长时间了

for urls in channel.split():

urlss=[urls+"?start={}&type=T".format(str(i)) for i in range(0,980,20)] #从channel中提取url信息，并组装成每一页的链接

for url in urlss:

mains(url) #执行主函数，开始爬取

print(url) #输出要爬取的链接，这样我们就能知道爬到哪了，发生错误也好处理

time.sleep(int(format(random.randint(0,9)))) #设置一个随机数时间，每爬一个网页可以随机的停一段时间，防止IP被封

end = time.clock()

print('Time Usage:', end - start) #爬取结束，输出爬取时间

count = cur.execute('select * from allbooks')

print('has %s record' % count) #输出爬取的总数目条数

# 释放数据连接

if cur:

cur.close()

if conn:

conn.close()

这样，一个程序就算完成了，豆瓣的书目信息就一条条地写进了我们的数据库中，当然，在爬取的过程中，也遇到了很多问题，比如标题返回的信息拆分后中会有空格，写入数据库中会出现错误，所以只截取了标题的第一部分，因而导致数据库中的一些书名不完整，过往的大神如果有什么办法，还请指教一二。

等待爬取的过程是漫长而又欣喜的，看着电脑上一条条信息被刷出来，成就感就不知不觉涌上心头；然而如果你吃饭时它在爬，你上厕所时它在爬，你都已经爬了个山回来了它还在爬时，便会有点崩溃了，担心电脑随时都会坏掉（还是穷学生换不起啊啊啊啊~）

所以，还是要好好学学设置断点，多线程，以及正则，路漫漫其修远兮，吾将上下而求索~共勉~

豆瓣读书数据分析轿粗-python

（思路来自课程老师绿树）刚刚学完python数据分析的课程，决定做一个有关python数据分析的小项目，思来想去，还是决定分析豆瓣的数据，因为豆瓣是python写成的。用python爬虫抓取数据较为方便，比一般网站少很多页面bug问题，而且豆瓣上的数据量大概在million这个量级，算是算太大的，但也不小。正好手里有一份跑出的大概300多万的数据，直接开始分析。

首先导入数据，将数据赋给一个dataframe，取名为douban

douban=pd.read_table("douban.dat",sep="::",names=["user","book","rate"])

看一下这个数据的描述

总共3648104行，其他的诸如平均数，中位数的值，是豆瓣书籍的链接后缀，并无实际意义。

然后关于豆瓣读书用户

user_count=douban.groupby('user').count()

user_count=user_count.sort('book',ascending=False)

、我们发现共有38万多读者，计数最多的一位eastwolf东狼，真的很厉害，一共写了4000多的书评。不过我们不排除这是个机器人或者公众号，因为4000度书评，就算一天看一本书，也要写11年，而豆瓣创建才不过11年。有点假，不过这备帆雹个问题我们暂且不谈，仅从数据来看，第一名最爱读书的书霸，就是eastwolf了，大家鼓掌。

然后我们再来看一下书籍的信息

看一下描述

最受欢迎的书有2071个书评，平均每本书大概有45个书评。

看一下具体情况

我们挑出书评最多的10本，找到图片，就是以下这10本书

可以发现由于不同出版社不同翻译的问题，10本书实际是4本，豆瓣果然是文艺青年聚集地，《小王子》《追风筝的人》《活着》几乎就是文艺青年必备了。

豆瓣做为文艺青年聚集地，本身用户属于素质较高的群体。里面分很多小组，读书，电影，音乐，算是给大家找志同道合之友的好地方。关于读书这个方面，在大家都很爱读书的基础上，我们可以用户进行聚类分析。依靠的根据是对书籍的打分，这样来计算不同用户之间的距离。因为读的书目越相似，对同一本书打分结果越接近，说明价值观越相同，找出这样的相似者，就能给用户推荐一下潜在的‘同志’，算是给豆瓣增加一个社交功能了。

首先我们仿帆把用户信息和书本信息结合，因为考虑到大部分书籍用户之间交集为空，而且我的电脑的处理能力有限，所以截取了用户和书籍的前100进行分析，这样得到一个新的dataframe

然后我们建立邻近性矩阵

ubrcore=doubancore.pivot('user','book','rate')

即使在取前100的条件下，依然大部分是空白，为了能够计算，我们把空白处替换成0.

ubrcore1=ubrcore.fillna(value=0)

然后对要进行距离计算，由于本身对书本的打分在1到5之间，纯粹的大小差距并不大，所以我们更多的考虑在方向上的差异，所以用余弦距离来反应不同用户之间的差异性。

构建公式，并将计算结果给userdistdf这个dataframe

Userdistdf结果如下

最像用户的就是他自己，余弦距离都是1。其他人只能是部分相像，果然人生得一知己难啊。不过知己找不到，我们可以给用户找10个部分相像的‘同志’

构建函数

试一下

Bingo，成功!!!!

这样，我们可以为用户qdmimi19810920找到了10个志同道合的‘同志’了。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12563534.html

如何用python爬取豆瓣读书的数据

发表评论

评论列表（0条）