ruby-on-rails – 逐行XML搜索

ruby-on-rails – 逐行XML搜索,第1张

概述我有一个 XML文档,格式如下: <document> <page> <column> <text> <par> <line></line> </par> </text> </column> </page></document> 我想在XML中搜索字符串,但可能在多行标记,多个块文档和/或多个页面 我有一个 XML文档,格式如下:

<document>  <page>    <column>      <text>        <par>          <line></line>        </par>      </text>    </column>  </page></document>

我想在XML中搜索字符串,但可能在多行标记,多个块文档和/或多个页面标记中:

<document>  <page>    <column>      <text>        <par>          <line>Hello</line>        </par>      </text>    </column>    <column>      <text>        <par>          <line>World</line>        </par>      </text>    </column>  </page>  <page>    <column>      <text>        <par>          <line>What's</line>          <line>Up?</line>        </par>      </text>    </column>  </page></document>

我需要搜索“Hello World What is up?”并且知道它位于第1列第1行,第2列第1行和第3行第1-2行(第3页第1块).

我在线上有元数据,告诉我它是什么行号,以及它所属的列号,例如:

<line linenum="1" columnnum="2">World</line>

在不同的列中搜索该术语的最佳方法是什么,并且能够知道它们所属的行和列的详细信息?

我可以得到第一个单词的所有实例,迭代每个单词并查看下面的单词是否与搜索单词(逐字逐句)相对应,如果该行中没有任何单词,请转到下一行.如果没有线路,请转到下一个区块.思考?

这是一个示例XML代码的真实片段,以及脚本返回的内容:

<block>  <text>    <par>      <line colnum="1" linenum="1">        (12) United States Patent      </line>    </par>    <par>      <line colnum="1" linenum="2">        Kar-Roy et al.      </line>    </par>  </text></block><block>  <text>    <par>      <line colnum="2" linenum="3">        US007078310B1      </line>    </par>  </text></block><block>  <text>    <par>      <line colnum="3" linenum="4">        (io) Patent No.: US 7,078,310 B1      </line>    </par>    <par>      <line colnum="3" linenum="5">        (45) Date of Patent: Jul. 18,2006      </line>    </par>  </text></block><block>  <text>    <par>      <line>        (54) METHOD FOR FABRICATING A HIGH      </line>      <line>        DENSITY COMPOSITE MIM CAPACITOR      </line>    </par>  </text></block>

当我搜索“制作高的方法”时,映射{| f | f.text}返回:

["Kar-Roy et al.","US007078310B1","(io) Patent No.: US 7,310 B1","(45) Date of Patent: Jul. 18,2006","(54) METHOD FOR FABRICATING A HIGH"]

它看起来像五个字长,并且由于某种原因在实际结果之前获得了四行.

解决方法 这是我的想法:首先,将您的结构解析为像Nokogiri这样的XML解析器,然后使用XPath搜索来提取所有行元素.然后,将每个元素分解为该节点中包含的单词,这样我们就可以匹配仅与节点的一部分匹配的短语.然后,连续排序单词,使用each_cons(4)(其中4是您要搜索的单词数)来查看所有连续的四个单词集,并在连接时返回它们与搜索字符串匹配的单词.这是我的代码:

xml = Nokogiri::XML.parse(doc)search = "HIGH DENSITY"# 1. break down all the lines into words tagged with their nodes# 2. find matching subsequence# 3. build up from nodesnodes = xml.xpath('//line')words = nodes.map do |n|  words_in_node = n.text.split(' ').map(&:upcase) # split into words and normalize  words_in_node.map { |word| { word: word,node: n } }endwords = words.flatten # at this point we have a single,ordered List like [ {word: "foo",node: ...},{word: "bar",node: ...} ]keywords = search.split(' ').map(&:upcase)result = words.each_cons(keywords.size).find do |sample|  # Extract just the :word key from each hash,then compare to our search string  sample_words = sample.map { |w| w[:word] }  sample_words == keywordsendif result  puts "Found in these nodes:"  puts result.map { |w| w[:node] }.uniq.inspect  # you can find where each node was located via Nokogirielse  puts "No match"end

哪个产生:

Found in these nodes:[#<Nokogiri::XML::Element:0x4ea323e name="line" children=[#<Nokogiri::XML::Text:0x4ea294c "\n        (54) METHOD FOR FABRICATING A HIGH\n      ">]>,#<Nokogiri::XML::Element:0x4ea3018 name="line" children=[#<Nokogiri::XML::Text:0x4ea2654 "\n        DENSITY COMPOSITE MIM CAPACITOR\n      ">]>]
总结

以上是内存溢出为你收集整理的ruby-on-rails – 逐行XML搜索全部内容,希望文章能够帮你解决ruby-on-rails – 逐行XML搜索所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1276646.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-09
下一篇 2022-06-09

发表评论

登录后才能评论

评论列表(0条)

保存