看看Stater bros如何获得他们weekly ad的可搜索pdf,我认为让Yahoo Pipes搜索它是一件简单的事情.但是,Yahoo Pipes不支持pdf.
然后我决定通过在线pdf到HTML转换器管理pdf并将其提供给Yahoo Pipes中的Fetch Page模块.事实上,转换器是quite successful,因为生成的HTML保留了文本,我可以搜索它并找到我需要的东西.然而,事实证明它以帧为单位吐出数据 – 因此我无法使用它.我找不到任何其他在线pdf到HTML转换器.
即使我能够将pdf的HTML转换为Yahoo Pipes,我也不确定这会有什么用处,因为Yahoo Pipes不提供搜索/过滤HTML的方法.它主要用于饲料.
所以我被困住了.关于如何实现我想要做的任何想法?
解决方法 如果您还没有使用它,那么您可能需要查看Googles缓存系统..http://webcache.Googleusercontent.com/search?q=cache:http://www.staterbros.com/Images/pdfs/weekly.aspx
它在SEO圈子之外并不广为人知,但谷歌机器人实际上对HTML和HTML执行粗略的pdf.文字转换.如果您不能等待Google转换pdf文件,那么还有一些可以执行相同功能的免费PHP脚本.
因为管道没有’Preg_match’,所以你必须向后工作,
通过删除你不想要的东西.
替换模块的正则表达式看起来像这样…… ^(.?)DIEt Rite(.?)$
从字符串的开头到“饮食仪式”,无所事事
然后将’DIEt Rite’之后的所有内容替换为字符串的末尾,没有任何内容..
因此,如果页面上存在“DIEt Rite”,它将显示在管道中,并且可以添加到RSS源中,否则管道将返回空白.
总结以上是内存溢出为你收集整理的HTML – 当我的苏打饮料开始销售时,我怎么能让妈妈知道?全部内容,希望文章能够帮你解决HTML – 当我的苏打饮料开始销售时,我怎么能让妈妈知道?所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)