最近《赘婿》很火?Python爬取视频d幕

最近《赘婿》很火?Python爬取视频d幕,第1张

概述前言Python爬虫、数据分析、网站开发等案例教程视频免费在线观看https://space.bilibili.com/523606542 Python学习交流群:1039649593最近爱奇艺独播热剧『赘婿』特别火,笔者也在一直追,借助手中的技术,想爬取d幕分析该剧的具体情况以及网友的评论!   由于为了让小 前言

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看

https://space.bilibili.com/523606542 

 

Python学习交流群:1039649593

最近爱奇艺独播热剧『赘婿』特别火,笔者也在一直追,借助手中的技术,想爬取d幕分析该剧的具体情况以及网友的评论!

 

 

 

由于为了让小白彻底学会使用python爬取爱奇艺d幕的技术,因此本文详细介绍如何进行爬取,下文再进行分析数据!

分析数据包

1.查找数据包

在浏览器里面按F12

 

找到这类url

https://cmts.iqiyi.com/bullet/54/00/7973227714515400_60_2_5f3b2e24.br

 

 

2.分析d幕链接

其中的/54/00/7973227714515400,才是有用的!!!!

爱奇艺的d幕获取地址如下:

https://cmts.iqiyi.com/bullet/参数1_300_参数2.z

参数1是:/54/00/7973227714515400

参数2是:数字1、2、3.....

爱奇艺每5分钟会加载新的d幕,每一集约是46分钟,46除以5向上取整就是10

因此d幕的链接如下:

https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_1.zhttps://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_2.zhttps://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_3.z......https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_10.z

 

 

3.解码二进制数据包

通过d幕链接下载的d幕包是以z为后缀格式的文件,需要进行解码!

def zipdecode(bulletold):    '对zip压缩的二进制内容解码成文本'    decode = zlib.decompress(bytearray(bulletold), 15 + 32).decode('utf-8')    return decode

 

解码之后将数据保存成xml格式

# 把编码好的文件分别写入个xml文件中(类似于txt文件),方便后边取数据  with open('./lyc/zx' + str(x) + '.xml', 'a+', enCoding='utf-8') as f:      f.write(xml)

 

 

 

解析xml

1.提取数据

 

通过查看xml文件,我们需要提取的内容有1.用户ID(uID)、2.评论内容(content)、3.评论点赞数(likeCount)。

#读取xml文件中的d幕数据数据from xml.dom.minIDom import parseimport xml.dom.minIDomdef xml_parse(file_name):    DOMTree = xml.dom.minIDom.parse(file_name)    collection = DOMTree.documentElement    # 在集合中获取所有entry数据    entrys = collection.getElementsByTagname("entry")    print(entrys)    result = []    for entry in entrys:        uID = entry.getElementsByTagname('uID')[0]        content = entry.getElementsByTagname('content')[0]        likeCount = entry.getElementsByTagname('likeCount')[0]        print(uID.childNodes[0].data)        print(content.childNodes[0].data)        print(likeCount.childNodes[0].data)

 

 

 

保存数据

1.保存前工作

import xlwt# 创建一个workbook 设置编码workbook = xlwt.Workbook(enCoding = 'utf-8')# 创建一个worksheetworksheet = workbook.add_sheet('sheet1')# 写入excel# 参数对应 行, 列, 值worksheet.write(0,0, label='uID')worksheet.write(0,1, label='content')worksheet.write(0,2, label='likeCount')

 

 

导入xlwt库(写入csv),并定义好标题(uID、content、likeCount)

 

2.写入数据

for entry in entrys:    uID = entry.getElementsByTagname('uID')[0]    content = entry.getElementsByTagname('content')[0]    likeCount = entry.getElementsByTagname('likeCount')[0]    print(uID.childNodes[0].data)    print(content.childNodes[0].data)    print(likeCount.childNodes[0].data)    # 写入excel    # 参数对应 行, 列, 值    worksheet.write(count, 0, label=str(uID.childNodes[0].data))    worksheet.write(count, 1, label=str(content.childNodes[0].data))    worksheet.write(count, 2, label=str(likeCount.childNodes[0].data))    count=count+1

 

最后保存成d幕数据集-李运辰.xls

for x in range(1,11):    l = xml_parse("./lyc/zx" + str(x) + ".xml")# 保存workbook.save('d幕数据集-133.xls')

 

总结

以上是内存溢出为你收集整理的最近《赘婿》很火?Python爬取视频d幕全部内容,希望文章能够帮你解决最近《赘婿》很火?Python爬取视频d幕所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1188698.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存