<document> <page> <column> <text> <par> <line></line> </par> </text> </column> </page></document>
我想在XML中搜索字符串,但可能在多行标记,多个块文档和/或多个页面标记中:
<document> <page> <column> <text> <par> <line>Hello</line> </par> </text> </column> <column> <text> <par> <line>World</line> </par> </text> </column> </page> <page> <column> <text> <par> <line>What's</line> <line>Up?</line> </par> </text> </column> </page></document>
我需要搜索“Hello World What is up?”并且知道它位于第1列第1行,第2列第1行和第3行第1-2行(第3页第1块).
我在线上有元数据,告诉我它是什么行号,以及它所属的列号,例如:
<line linenum="1" columnnum="2">World</line>
在不同的列中搜索该术语的最佳方法是什么,并且能够知道它们所属的行和列的详细信息?
我可以得到第一个单词的所有实例,迭代每个单词并查看下面的单词是否与搜索单词(逐字逐句)相对应,如果该行中没有任何单词,请转到下一行.如果没有线路,请转到下一个区块.思考?
这是一个示例XML代码的真实片段,以及脚本返回的内容:
<block> <text> <par> <line colnum="1" linenum="1"> (12) United States Patent </line> </par> <par> <line colnum="1" linenum="2"> Kar-Roy et al. </line> </par> </text></block><block> <text> <par> <line colnum="2" linenum="3"> US007078310B1 </line> </par> </text></block><block> <text> <par> <line colnum="3" linenum="4"> (io) Patent No.: US 7,078,310 B1 </line> </par> <par> <line colnum="3" linenum="5"> (45) Date of Patent: Jul. 18,2006 </line> </par> </text></block><block> <text> <par> <line> (54) METHOD FOR FABRICATING A HIGH </line> <line> DENSITY COMPOSITE MIM CAPACITOR </line> </par> </text></block>
当我搜索“制作高的方法”时,映射{| f | f.text}返回:
["Kar-Roy et al.","US007078310B1","(io) Patent No.: US 7,310 B1","(45) Date of Patent: Jul. 18,2006","(54) METHOD FOR FABRICATING A HIGH"]
它看起来像五个字长,并且由于某种原因在实际结果之前获得了四行.
解决方法 这是我的想法:首先,将您的结构解析为像Nokogiri这样的XML解析器,然后使用XPath搜索来提取所有行元素.然后,将每个元素分解为该节点中包含的单词,这样我们就可以匹配仅与节点的一部分匹配的短语.然后,连续排序单词,使用each_cons(4)(其中4是您要搜索的单词数)来查看所有连续的四个单词集,并在连接时返回它们与搜索字符串匹配的单词.这是我的代码:xml = Nokogiri::XML.parse(doc)search = "HIGH DENSITY"# 1. break down all the lines into words tagged with their nodes# 2. find matching subsequence# 3. build up from nodesnodes = xml.xpath('//line')words = nodes.map do |n| words_in_node = n.text.split(' ').map(&:upcase) # split into words and normalize words_in_node.map { |word| { word: word,node: n } }endwords = words.flatten # at this point we have a single,ordered List like [ {word: "foo",node: ...},{word: "bar",node: ...} ]keywords = search.split(' ').map(&:upcase)result = words.each_cons(keywords.size).find do |sample| # Extract just the :word key from each hash,then compare to our search string sample_words = sample.map { |w| w[:word] } sample_words == keywordsendif result puts "Found in these nodes:" puts result.map { |w| w[:node] }.uniq.inspect # you can find where each node was located via Nokogirielse puts "No match"end
哪个产生:
Found in these nodes:[#<Nokogiri::XML::Element:0x4ea323e name="line" children=[#<Nokogiri::XML::Text:0x4ea294c "\n (54) METHOD FOR FABRICATING A HIGH\n ">]>,#<Nokogiri::XML::Element:0x4ea3018 name="line" children=[#<Nokogiri::XML::Text:0x4ea2654 "\n DENSITY COMPOSITE MIM CAPACITOR\n ">]>]总结
以上是内存溢出为你收集整理的ruby-on-rails – 逐行XML搜索全部内容,希望文章能够帮你解决ruby-on-rails – 逐行XML搜索所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)