Python怎样获取XPath下的A标签的内容

Python怎样获取XPath下的A标签的内容,第1张

1、在浏览器中打开网页。然后//div,就可以找到页面中的所有div了,因为//表示的是任意目录下查找。如图,页面有两个div,所以可以找到两个。

2、要查找类为a的div,可以在div后面用[@class="类名"]来指定,这样没有类名a的div就会被过滤掉,当然,还可以用id,把class改为[@id="id名"]即可。

3、用//,这样div下面的非a标签就会被跳过,直接去找a标签。

4、如果要获取a标签的href,那么可以获取到a标签后用/@href即可获得。

5、如果是获取文本的话,可以用text()这个方法,就会得到a标签里面的内容。

6、斜杠/表示的是获取子元素,比如div下面有两个子元素p,那么//div[2]/p获取的就是第二个div的子元素p。

给它加个id在弄不就可以了。。。。如果本身页面就一个button,试试用这个find_element_by_css_selector("button")click(),多个的话就得一步一步定位了。。。比如find_element_by_css_selector(“html body button")click()

可以使用Python自带的HTMLParser模块解析HTML文档:

HTMLParser的核心模块是orghtmlparserParser类,这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数:

public Parser ();

public Parser (Lexer lexer, ParserFeedback fb);

public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;

public Parser (String resource, ParserFeedback feedback) throws ParserException;

public Parser (String resource) throws ParserException;

public Parser (Lexer lexer);

public Parser (URLConnection connection) throws ParserException;

和一个静态类public static Parser createParser (String html, String charset);

如果是在百度中搜索关键词,可以通过xpath语句 //div[@id="page"]/a/@href直接获取前10页链接,把这些链接放一个列表中,只取前5个值即可。也可以研究url的规律,一般url中含有页码参数,通过修改参数就可以了。希望能够帮助到你,望采纳

以上就是关于Python怎样获取XPath下的A标签的内容全部的内容,包括:Python怎样获取XPath下的A标签的内容、selenium+python中<button type="button">元素怎么获取、python怎么获取网页上html dom element 对象等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9266772.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-26
下一篇 2023-04-26

发表评论

登录后才能评论

评论列表(0条)

保存