网页抓取工具 – 如何让搜索抓取工具正确地使用无限滚动索引页面?

网页抓取工具 – 如何让搜索抓取工具正确地使用无限滚动索引页面?,第1张

概述我有一个网站,我实现无限滚动:当一个用户到达一个页面的末尾,一个 AJAX调用,新的内容被附加到页面的底部.但是,这意味着第一个“分页符”之后的所有内容都无法通过搜索抓取工具实现.例如,我有一个页面列出所有项目与“图表”标签.实际上有几十个这样的项目,但抓取工具只能看到前10个,因为其他项目是根据内容相对于浏览器窗口的位置加载的.由于抓取工具没有浏览器窗口,所以新的项目根本不加载. 什么是正确的方 我有一个网站,我实现无限滚动:当一个用户到达一个页面的末尾,一个 AJAX调用,新的内容被附加到页面的底部.但是,这意味着第一个“分页符”之后的所有内容都无法通过搜索抓取工具实现.例如,我有一个页面列出所有项目与“图表”标签.实际上有几十个这样的项目,但抓取工具只能看到前10个,因为其他项目是根据内容相对于浏览器窗口的位置加载的.由于抓取工具没有浏览器窗口,所以新的项目根本不加载.

什么是正确的方式,让搜索爬虫使用无限滚动访问网页的全部内容,同时还允许用户享受无限滚动和缺乏分页?

解决方法 查看所有页面

制作另一个页面,其上列出所有内容,并通过无限滚动链接到页面中包含的正常项目.然后放置无限卷动页面的一个小链接(也许在最底端),称为所有的.换句话说,如果您的页面列出产品,该链接应该说显示所有产品或类似的.如果该页面是博客文章,则该链接应该是所有文章.是的,人类可能不喜欢长时间的负载,但对谷歌来说,这并不重要.它会下载它,并按照其中的链接正常.

此外,如果您的分页遍历成千上万的项目,那么您可以按照博客归档的工作原理或产品目录的工作原理,分解“查看所有页面”.关键是你为人类提供了一种替代手段,没有javascript,而那些真正想要查看所有内容的人,同时也为Google甚至其他搜索引擎抓取您的广告资源.

最后,作为次要措施,添加一个/sitemap.xml文件,该文件具有每个文章/产品/库存的索引或任何内容.见http://www.sitemaps.org/

您可以观看名为Pagination and SEO的官方Google网站管理员视频,了解所有概念,分页,规范网址和Google的rel = next和rel = prev属性.

http://www.youtube.com/watch?v=njn8uXTWiGg

总结

以上是内存溢出为你收集整理的网页抓取工具 – 如何让搜索抓取工具正确地使用无限滚动索引页面?全部内容,希望文章能够帮你解决网页抓取工具 – 如何让搜索抓取工具正确地使用无限滚动索引页面?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1100230.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-28
下一篇 2022-05-28

发表评论

登录后才能评论

评论列表(0条)

保存