如何进行网站日志分析

如何进行网站日志分析,第1张

一、什么是网站日志

1网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件。

2通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么 *** 作系统、什么浏览器、什么分辨率设备下访问了网站的哪个页面,是否访问成功。

3搜索引擎也属于网站中的一类用户,我们今天的分享课,主要是针对搜索引擎这种用户在服务器留下的记录展开分析。

为了方便读懂搜索引擎日志,我们需要了解不同搜索引擎蜘蛛的标识,以下为4种搜索引擎的标识——百度蜘蛛:Baispider搜狗:SogouNewsSpider360:360Spider谷歌:Googlebot

二、如何看懂网站日志

(以下为一段日志记录)

58180251134--[25/Mar/2015:13:24:33+0800]"GET/m53256html

index-1s2i2p2""Mozilla/50

(WindowsNT61)AppleWebKit/53736(KHTML,likeGecko)

Chrome/3501916153Safari/53736SE2XMetaSr10""-""-""-"

以下为字段解读:

通常日志文件较大的情况下,需要借助shell与python结合起来,做数据提取与分析。所以读懂网站日志中的字段就有利于日常的分析。这个在此不赘述,有兴趣的童鞋可以继续深入了解。

大型网站通常可以用以上的方法来进行做日志分析。

普通的个人站点,或者企业网站,则可以通过光年日志分析工具结合百度站长平台一起使用。

三、为什么要做网站日志分析

先来了解SEO流量的获取流程:抓取-->索引--->排名--->点击--->流量

因此,要获得SEO流量的前提务必是,有价值的页面被搜索引擎抓取到。

四、怎么做网站日志分析

定期监控搜索引擎抓取量变化,历史数据的横向纵向对比才能发现异常情况。借助第三方站长平台,如百度站长平台,了解搜索引擎抓取频次变化。借助光年日志分析工具,定期做数据记录,了解重要栏目、重要页面的抓取量变化。

举个栗子:

老站点(建站1年且有人维护的网站):Seo流量出现异常波动。

分2种情况:

了解外界:了解外界的前提在于平时你得有一定的人脉基础,如果没有也没关系。泡2个地方——去搜索引擎站长平台或者加入搜索引擎站长群。比如,像百度搜索引擎,它拥有站长平台,也会相应建立站长QQ群。有人脉基础上,可以直接了解外界的情况——是否也出现类似幅度的波动?这个的前提要结合你短期做过的SEO *** 作一并考虑,避免误判。无人脉的情况,泡群、泡站长平台。通常如果是搜索引擎算法升级,会在群里或者站长平台有相关的小道信息出现。如果是搜索引擎自身算法升级导致的流量波动,那么就得根据新算法做相应的站内优化。比如,百度冰桶30版本提出:将严厉打击在百度移动搜索中,打断用户完整搜索路径的调起行为。如果站点有存在以上的情况就需要针对性的做优化:无论是通过对接的APPLINK调起,还是网页自主调起的应用,以及普通的网页,都应是可返回,可关闭的。用户校验搜索结果的准确性,不需要额外下载APP或者权限。

分析内在:

在分析内在之前,再次抛出这个公式:Seo流量=抓取量收录率(准确来说应该是索引率)首页率点击率

。当抓取频次出现异常必然引起抓取量的减少。因此,排除了外界的因素,就需要对网站的日志进行分析。如果你的站点是中文站点,且是百度站长平台的VIP用户。那么,你就可以先借助第三方站长平台的“抓取频次”工具(如,百度),先了解搜索引擎近期的抓取频次、抓取时间、异常页面。通常借助这个工具,我们可以对搜索引擎近期抓取情况有初步了解,并且可以借助这个工具,相应的找到一些解决办法。

在此先解释这个概念,方便理解:

1抓取频次:抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,蜘蛛会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。

2抓取时间:指的是搜索引擎每次抓取耗时。而影响抓取频次的可能原因有:

(1)抓取频次上限误调,调低了,则会直接影响到抓取量减少,抓取量减少则索引量少,流量相应减少。

小结一下:

老站如何做网站日志分析(针对中文站点):外界排除:

了解搜索引擎最新算法是否发生变动、同行是否也有类似变化。

内在分析:

(1)使用工具:百度站长平台(非VIP账户看后文介绍)

(2)分析方法:主要使用抓取频次分析工具进行分析,网站抓取频次、抓取时间、异常页面情况等数据变化。并与相关部门进行对接解决。

五、用光年日志分析工具

非百度VIP:

步骤:

1下载网站日志(如果是企业站点,可以直接让运维部门的童鞋帮忙下载,如果是个人站长,直接在你所购买的虚拟主机后台进行下载,文件以log为结尾的便是)

2打开光年日志分析工具,上传网站日志。

3查看分析结果。主要维度有这几个:

(1)概况分析:各种爬虫的总抓取量、总停留时间、总访问次数。

(2)目录分析:各种爬虫抓取各目录的情况分析。通过这个可以了解到搜索引擎对一些重要栏目的抓取情况,又抓取了哪些无效的页面。

(3)页面分析:通过页面分析可以了解到经常被重复抓取的页面有哪些,可以相应的做优化调整。比如,像网站的一些注册页面及登录页面,经常会发现多次被抓取,发现这种情况,我们通常会将登录/注册页面进行屏蔽处理。

(4)状态码分析主要分为2种,爬虫状态码以及用户状态码。主要反应用户/爬虫访问页面时的页面状态。通过页面状态码,我们可以了解到页面状态,做相应调整,如,当网站存在大量404页面。那就需要进一步排查,比如,有些团购页面,团购过期后,页面就直接变成404了,但并未向百度站长平台提交死链清单,则容易造成无效抓取。

同意上面1楼2楼如果多的话看他们都在哪个目录下面 再看看他们是否真的存在404错误 有的就像一楼所说的 是参数错误!! 而却是可以访问的!!有的就是真的出现了 404错误 你可以设置robotstxt 禁止那些网页 并提醒你做好404页面 给用户更好的体验!!

首先要理解一下,304代码的意思:如果客户端发送了一个带条件的 GET 请求且该请求已被允许,而文档的内容(自上次访问以来或者根据请求的条件)并没有改变,则服务器应当返回这个状态码”。
所以简单来讲:通常,在网页发生变化时,服务器会返回状态码200,而未发生变化则返回304。

304代码在网站日志中出现过多,会出现网站快照停止、收录减少、权重下降。哪为什么会出现这几种情况呢,下面给大家分析一下:
1、网站快照停止:如果网站日志中在24小时内,全是304代码,而24小时内没有返回一个200代码,这样就会使网站的快照停止。因为304代码是记录网站内容是否有更新,在24小时内没有更新,哪快照就会停止。
2、收录减少:因为对于一个网站,返回的304代码过多,蜘蛛就会很少来你的网站,因为当304代码达到一定的量,说明你的网站更新不是很快,从而蜘蛛会很少来,从而收录量会下降。
3、权重下降:304代码过多,蜘蛛会很少来你的网站,收录就会减少,收录减少了,当然权重也就下降了。
那么,有什么方法可以解决这个问题呢?总结以下几点:
1、内容更新:把蜘蛛来的时候给记录下来,算出蜘蛛每隔多久来一次网站,然后就分隔多久更新一下文章,更新文章时要原创+转载。让蜘蛛每次来都能够有吃的,而不是无功而返。这样就会产生很多200代码。
2、互动论坛:对于有些比较大的网站,本来网站的内容比较多,但是每次都是一次更新,这样也会出现很多304代码,解决的方法是做一个论坛,可以让网友互动起来,从而使网站不停有新的改变,从而返回200代码。
3如果是这样,查看一下服务器设置是否是永久性启用了缓存。


提示 >

>

在客户端是无法解决的,只能联系网站的管理员,修复URL指向或恢复对应的网页才能解决。

扩展资料:

请求错误

400 Bad Request

1、语义有误,当前请求无法被服务器理解。除非进行修改,否则客户端不应该重复提交这个请求。

2、请求参数有误。

401 Unauthorized

当前请求需要用户验证。该响应必须包含一个适用于被请求资源的 >

402 Payment Required

该状态码是为了将来可能的需求而预留的。

403 Forbidden

服务器已经理解请求,但是拒绝执行它。

参考资料来源:百度百科->

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10423478.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-08
下一篇 2023-05-08

发表评论

登录后才能评论

评论列表(0条)

保存