hello,大家好,我是wangzirui32,今天我们来学习如何爬取CSDN博文之后还通过pdfkit转换为pdf方便学习。
首先,在cmd中输入:
pip install pdfkit
安装完成后,我们需要再次安装一个转换器,链接https://wkhtmltopdf.org/downloads.html,如图下载:
接下来,需要找到转换器的路径,在笔者的电脑中,路径为C:\Program files\wkHTMLtopdf\bin\wkHTMLtopdf.exe,如图:
这里我以一篇博文为例,代码如下:
import pdfkit# 博文urlurl = "https://blog.csdn.net/wangzirui32/article/details/116066478"# 转换器路径path_wkthmltopdf = r'C:\Program files\wkHTMLtopdf\bin\wkHTMLtopdf.exe'# 配置转换器config = pdfkit.configuration(wkHTMLtopdf=path_wkthmltopdf)# 根据url生成pdfpdfkit.from_url(url, "Git安装使用.pdf", configuration=config)
运行代码,等待一会,可以看见项目文件夹出现了Git安装使用.pdf,使用浏览器打开,显示:
(有些内容可能没有正确显示,但结果也还是真不戳)
好了,今天的课程就到这里了,喜欢的可以点个收藏和关注,我是wangzirui32,我们下次再见!
总结以上是内存溢出为你收集整理的Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习全部内容,希望文章能够帮你解决Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)