1、可以使用chrome中的response分析其html代码,html代码为标签格式,每个标签都是有开始成对出现的,我们要抓取小说排行榜信息,查看html代码,发现其标签中的信息为小说排行榜中的信息。
2、进一步查看每本书的信息使用标签来概括。
3、其中dat-rid标签代表的是这本身在该网页中属于第几个,panclass="rank-tagnoXX"代表的是这本身的排行榜book-mid-info标签中的XX中有书名信息。
4、需要抓取的排行帮以及书名信息在上面两个部分,接下来使用正则匹配表达,将每本书的上述两行信息提取出来,重新定义一个函数get_top_number_and_book_name。
5、由于小说名都是使用中文,所以需要用到\u4e00-\u9fa5,表示为匹配该段的中文字符,[\u4e00-\u9fa5]+,表示匹配所有中文,小说名除了中文还有英文,以及逗号,冒号等其他特殊形式的符合。
Python是一种计算机程序设计语言。作为一门叫做ABC语言的替代品。Python是一种面向对象、直译式计算机程序设计语言。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)