con = url("target_url_here")HTMLcode = readlines(con)
readlines函数将源页面的所有行连接在一行.所以没有办法可以导航到原始HTML源代码页的第15行.
下一个方法是尝试使用XML包或者httr包解析它.
library("httr")HTML <- GET("target_url_here")content2 = content(HTML,as="text")parsedHTML = HTMLParse(content2,asText=TRUE)
通过打印parsedHTML,它保留HTML格式并显示所有的内容,因为它可以在源页面中看到.
现在假设我想提取标题,所以这个功能
xpathSApply(parsedHTML,"//Title",xmlValue)
会给标题.
但是我的问题是,如何导航到任何一行说第15行的HTML?换句话说,我如何将HTML视为一个字符串的向量,其中向量的每个元素是HTML页面/解析的HTML对象中的一个单独的行.
解决方法 更好地看看 the docs forreadLines()
,它实际上返回: A character vector of length the number of lines read.
所以在你的情况下:
con = url("http://example.com/file_to_parse.HTML")HTMLCode = readlines(con)
您可以轻松地执行HTMLCode [15]访问原始HTML源页面的第15行.
总结以上是内存溢出为你收集整理的如何读取R中解析的html的第n行全部内容,希望文章能够帮你解决如何读取R中解析的html的第n行所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)