如何读取R中解析的html的第n行

如何读取R中解析的html的第n行,第1张

概述readLines函数以一行的形式显示源页面的所有内容. con = url("target_url_here")htmlcode = readLines(con) readLines函数将源页面的所有行连接在一行.所以没有办法可以导航到原始html源代码页的第15行. 下一个方法是尝试使用XML包或者httr包解析它. library("httr")html <- GET("target_u readlines函数以一行的形式显示源页面的所有内容.
con = url("target_url_here")HTMLcode = readlines(con)

readlines函数将源页面的所有行连接在一行.所以没有办法可以导航到原始HTML源代码页的第15行.

下一个方法是尝试使用XML包或者httr包解析它.

library("httr")HTML <- GET("target_url_here")content2 = content(HTML,as="text")parsedHTML = HTMLParse(content2,asText=TRUE)

通过打印parsedHTML,它保留HTML格式并显示所有的内容,因为它可以在源页面中看到.
现在假设我想提取标题,所以这个功能

xpathSApply(parsedHTML,"//Title",xmlValue)

会给标题.

但是我的问题是,如何导航到任何一行说第15行的HTML?换句话说,我如何将HTML视为一个字符串的向量,其中向量的每个元素是HTML页面/解析的HTML对象中的一个单独的行.

解决方法 更好地看看 the docs for readLines(),它实际上返回:

A character vector of length the number of lines read.

所以在你的情况下:

con = url("http://example.com/file_to_parse.HTML")HTMLCode = readlines(con)

您可以轻松地执行HTMLCode [15]访问原始HTML源页面的第15行.

总结

以上是内存溢出为你收集整理的如何读取R中解析的html的第n行全部内容,希望文章能够帮你解决如何读取R中解析的html的第n行所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1140719.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-31
下一篇 2022-05-31

发表评论

登录后才能评论

评论列表(0条)

保存