如何索引html内容,保持位置(如xpath,css选择器等)

如何索引html内容,保持位置(如xpath,css选择器等),第1张

如何索引html内容,保持位置(如xpath,css选择器等)

您的问题是关于突出显示xhtml-Dokument的结果xpath。

我不知道在solr或elasticsearch中正在运行的解决方案。在Lucene(旧版本)的基础上,可扩展文本框架(“
XTF”)的内容非常相似。在XTF中,您可以在原始xml文件中将高亮显示为标签。因此,编写xsl-Transformation生成相应的xpath应该很容易。

简而言之,主要思想是将EPUB-
book分成重叠的块,并将xml结构作为特殊字符存储在已索引和存储的字段中。通过突出显示信息,您可以然后重新转换原始xml结构以找到您的xpath。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/4903894.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-12
下一篇 2022-11-12

发表评论

登录后才能评论

评论列表(0条)

保存