Python爬虫入门

Python爬虫入门,第1张

Python爬虫入门 Python爬虫入门(八)

讲解Xpath常用代码,无任何实例:
· 读取xml节点内容(多个,单个)
· xpath读取heml文件
· 读取指定节点,条件筛选,循环读取

####XPath解析
from lxml import etree

xml = """

    l
    野花贬低向
    臭豆腐
    
        周大q
        周芷若
        周杰伦
        蔡依林
        
            惹了
        
    

    
        胖胖陈
        胖胖不陈
    

"""


tree = etree.XML(xml)
tree.xpath("/book")  #/相当于节点关系,/相当于根节点
result = tree.xpath("/book/name/text()")  ## text()获取文本
result = tree.xpath("/book/author/nick/text()")  ## text()获取文本
result = tree.xpath("/book/author/div/nick/text()")  ## text()获取文本
result = tree.xpath("/book/author//nick/text()")  ## //相当于所有子节点
result = tree.xpath("/book/author当前所有节点
result = tree.xpath("/book//nick/text()")  ## /*/当前所有节点



print(result)

以下代码读取指定文件内容 b.html

b.html:




    
    title


    
  • 百度
  • 谷歌
  • 搜狗
  1. 飞机
  2. 大炮
  3. 火车
李嘉诚

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5579604.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-14
下一篇 2022-12-14

发表评论

登录后才能评论

评论列表(0条)

保存