网站地图(站点地图)详细介绍、以及如何制作

网站地图(站点地图)详细介绍、以及如何制作,第1张

网站地图(站点地图)详细介绍、以及如何制作

文/小明同学

什么叫网站地形图

网站地形图又称站点地图,是一个详细的文档,列出了你网站上所有网页的详细地址。总的来说可以分为两种,一种是针对百度搜索引擎的,一种是针对客户的。前者帮助百度搜索引擎更好的收录你的网站,后者帮助客户更好的把握你网站的整体结构,快速找到自己想要的。本文主要关注前者。

站点地图格式

一般有三种格式,txt,xml,html。大多数情况下,它们都是xml格式的。百度搜索和谷歌都是xml格式的。下面简单详细介绍三种格式。

txt格式

这种格式很简单,一般较少选用,例子如下:

http://liuxianan.com/http://liuxianan.com/link.htmlhttp://liuxianan.com/msgboard.html

常见问题:

文档的每一行都必须有一个URL。URL中不能有自动换行。

它不能包含除URL列表之外的所有信息。

一定要写详细的网址,包括http。

每个文本文件的最大数量可以包括50,000个URL,并且应该小于10MB(10,485,760字节)。如果网站包含超过50,000个URL,您可以将列表剪切成几个文本文件,然后分别添加每个文档。

文本应编号为UTF-8或GBK。

xml格式

sitemap.xml实例如下所示:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://liuxianan.com/</loc> <lastmod>2016-09-06T00:00:1608:00</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url> <url> <loc>http://liuxianan.com/link.html</loc> <lastmod>2016-09-06T00:00:1608:00</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> </urlset>

其中包括:

Loc表示详细的URL,可选项目,长度不能超过256字节。

Lastmod表示该网页的最终修改时间,必须采用ISO-8601时间格式。实际上,这种格式是什么并不清楚。按照我的理解,总之应该算是:yyyy-MM-ddTHH:mm:ss08:00,最后面上的08:00应该表示是东八区;

Changefreq表示升级的频率。可选值:始终、每小时、每天、每周、每月、每年、从不。

优先级用于指定该链路相对于其他链路的优先级比例,可选值为0.0-1.0。一般来说,网站首页是1.0,然后二级和三级网页数量依次递减。目前还不清楚这个特性实际上有多重要。

以上四项,除了loc是可选的,其他三项都不是必须的,但是最好都写出来。

一个站点地图文件不能包含超过50,000个URL,图像大小不能超过10MB。如果你的站点地图超过了这个限制,请把它分成几个小的站点地图。这种限制标准有助于保证你的网站服务不容易因为呈现大文件而超重。网站提交的网站地图文件数量必须少于50,000个。

从下面百度搜索百度站长工具抄袭的几类QA:

问:我提交时填写的周期是什么意思?

答:百度搜索蜘蛛会参照设定的周期时间抓取Sitemap文件,所以 请根据Sitemap文件内容的升级(比如升级新的url)来设定。一定要注意,如果url不会改变,只是会升级与url匹配的网页内容(比如社区论坛的发帖页面有新的回复内容),这里就不会 升级。Sitemap专用工具无法处理页面更新问题。

问:Q:Sitemap提交后,多久可以通过百度搜索解决?

答:A:Sitemap数据信息提交后,百度搜索1小时内刚开始解决。在后续的生产调度抓取中,如果你的sitemap适合etag,人们会更频繁的抓取sitemap文件,然后及时处理内容升级;否则爬行周期时间会更长。

问:所有提交的Sitemap都会被百度搜索抓取并被百度收录吗?

答:百度搜索不保证所有提交的数据都会被百度抓取收录。百度收录与网页质量有关吗?

问:我可以缩小我的网站地图吗?他们一定要用gzip缩小吗?

答:是的。请应用gzip来减少站点地图。无论是否缩小,Sitemap都应该低于10MB(10,485,759字节)。

问:在Q:XML格式的Sitemap中,“优先级”提醒会危及我的网页在百度搜索中的排名吗?

答:不容易。sitemap中的优先级提醒,只是表明这个网站相对于自己网站上其他网站的必要性,并不危及网页在百度搜索中的排名。

问:网址在Sitemap中的位置会危及其应用吗?

答:不容易。网址在Sitemap中的位置不会对百度搜索的识别或应用方法造成伤害。

问:在Q:Sitemap中提交的网址可以包含中文吗?

答:因为格式转换的难题,最好不要收录中文。

html格式

这份总结有待填写。

sitemap数据库索引格式

如果要提交很多sitemap文件,可以在sitemap数据库索引文档中列出,然后提交数据库索引文档。

因为这个对我来说基本不容易采纳,所以我不想做科研。如果我感兴趣,请参考这里。

怎么制作网站地形图

可以选择一些第三方的专用工具来制作,也可以写一个简单的网络爬虫来爬自己的网站。如果网站内容比较简单,可以马上查数据库,拼凑起来。

因为我在网站内容升级的时候要自动升级网站的地形图,还有各种二级域名,很多第三方专用工具都满足不了,所以还是自己组建吧。方式是先将已知的 链接放入一个组合中,然后将所有的列表网页连接起来,识别网页,将列表网页分类,将博客的所有文章内容按照数据库查询一次性得到的所有xml文件,最后拼凑字符串数组形成XML文件。 然后把它们放到网站的根目录下。自然不强烈推荐这种做法。

因为没有找更强大的可以考虑我要求的专用工具,所以这里不强烈推荐。每个人都有强大的热烈欢迎评价,强烈推荐。

递交到百度搜索引擎

形成后,最好主动提交到百度搜索引擎,提高被百度收录的概率和率。

百度提交站点地图

提交百度站点地图详细地址:http://zhanzhang.baidu.com/linksubmit/index

Google递交站点地图

提交Googlesitemap的详细地址(必须先登录Google百度站长工具):https://www.google.com/webmasters

注:阅读关于网站基本建设方法的文章,请将场景移至网站建设教程频道栏目。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/769607.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-02
下一篇 2022-05-02

发表评论

登录后才能评论

评论列表(0条)

保存