相信大家都会经常遇到这种情况(无法复制):
这属于是直接“勒索”了,穷苦大学生表示负担不起啊~
以上这种情况都是网页无法复制文本的情况。不过这些对于Python来说都不是问题。今天笔者就带大家用Python去解决。
核心技术:利用pdfkit库将html网页保存为pdf
1、安装pdfkit库pip install pdfkit
通过命令安装pdfkit,此外还需要安装exe文件(wkhtmltopdf)下载链接:
https://wkhtmltopdf.org/downloads.html
选择对应的版本下载并安装(记住自己的安装目录)
2、实战 *** 作这里我们现在百度文库平台的其中一篇文章进行测试(文章设置了禁止复制)
比如笔者要进行复制的时候,会出现禁止转载(不让复制),下面开始将这个网页保存pdf。
import pdfkit
import time
if __name__ == '__main__':
url = "https://wenku.baidu.com/view/e1dd3a2f0066f5335a812103?aggId=e1dd3a2f0066f5335a812103"
config = pdfkit.configuration(wkhtmltopdf=r'D:\wkhtmltopdf\bin\wkhtmltopdf.exe')
pdfkit.from_url(url, r"D:\素材库\%s.pdf"
% time.strftime('%Y-%m-%d-%H-%M-%S', time.localtime(time.time())), configuration=config)
这样将内容保存为pdf就可以直接进行复制了。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)