刮时如何避免加入节点中的所有文本

刮时如何避免加入节点中的所有文本,第1张

刮时如何避免加入节点中的所有文本

这是一个容易解决的问题,其原因是没有阅读有关

text
在NodeSet和Node(或Element)上使用时的行为的文档。

该节点集文档表示

text
将:

获取所有包含的Node对象的内部文本

我们看到的是:

doc = Nokogiri::HTML(<<EOT)<html>  <body>    <p>foo</p>    <p>bar</p>    <p>baz</p>  </body></html>EOTdoc.search('p').text # => "foobarbaz"

因为:

doc.search('p').class # => Nokogiri::XML::NodeSet

相反,我们要获取每个Node并提取其文本:

doc.search('p').first.class # => Nokogiri::XML::Elementdoc.search('p').first.text # => "foo"

可以使用

map

doc.search('p').map { |node| node.text } # => ["foo", "bar", "baz"]

Ruby允许我们使用以下代码更简洁地编写代码:

doc.search('p').map(&:text) # => ["foo", "bar", "baz"]

无论我们使用的是HTML还是XML,同样的事情也适用,因为HTML是XML的一种更为宽松的版本。

节点具有几种获取其嵌入文本的别名方法。从文档中:

#content ⇒ Object

也称为:

text
inner_text

返回此节点的内容。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5620900.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存