第一章 爬虫入门之xpath的使用 文章目录
- 前言
一、pandas是什么?
二、使用步骤
- 1.引入库
- 2.读入数据
- 总结
前言
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。
实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
提示:以下是本篇文章正文内容,下面案例可供参考
一、pandas是什么?
XPath 是一门在 XML 文档中查找信息的语言。 XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。
二、使用步骤 1.安装
2.使用pip3 install lxml
from lxml import extree
3.基本使用
代码如下(示例):
from lxml import etree
wb_data = """
"""
html = etree.HTML(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8")
总结
从下面的结果来看,我们打印机html其实就是一个python对象,etree.tostring(html)则是不全里html的基本写法,补全了缺胳膊少腿的标签。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)