淘宝由于该网站的robots.txt文件存在限制指令 怎么处理

淘宝由于该网站的robots.txt文件存在限制指令 怎么处理,第1张

无法处理,这就像你可以玩命敲你朋友家的铁门,但你朋友坚决不开门,你怎么开门呢?
淘宝对搜索引擎有屏蔽限制,比如不影允许
百度蜘蛛
进行访问。这取决于淘宝系统的开放限制,不是你能处理的结果。
祝愉快!

在网络安全法中规定,这些网络爬虫行为是违法的:
①未经授权爬取用户手机通讯录超过50条记录,获刑最高可达3年;
②未经授权抓取用户淘宝交易记录超过500条的获刑最高可达3年
③未经授权读取用户运营商网站通话记录超过500条以上的,获刑最高可达7年;
④未经授权读取用户公积金社保记录的超过50000条的,获刑最高可达7年

如果不希望百度或 Google抓取网站内容,就需要在服务器的根目录中放入一个 robotstxt 文件,其内容如下:

User-Agent:
Disallow: /

这是大部份网络漫游器都会遵守的标准协议,加入这些协议后,它们将不会再漫游您的网络服务器或目录。

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

实例分析:淘宝网的 Robotstxt文件

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

网站robots的情况,可以使用百度站长工具进行查询。>


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/13396931.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-28
下一篇 2023-07-28

发表评论

登录后才能评论

评论列表(0条)

保存