方法二、借助于专门的服务器文件访问日志记录软件、服务器文件管理系统来记录局域网用户对共享文件的访问 *** 作。
具体的 *** 作的话,可以找海通数据晋慧娟,帮你看下。因为不同的系统,他们的日志的查看方式日志的情况也不一样。
网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、web log exploer 、WPS表格等
11726203167 - - [02/May/2011:01:57:44 -0700] "GET/indexphp >
分析:
11726203167:来访ip
02/May/2011:01:57:44 -0700 访问日期 -时区
GET/indexphp >
500:服务器响应状态码
服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证 明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重 定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。
19967:表示抓取了19967个字节
Mozilla/40 (compatible; MSIE 80; Windows NT 51; Trident/40;
AskTbCS-ST/511315590; NET CLR 2050727; Alexa
Toolbar表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息
如果你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知,抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断,当然,我们希望百度蜘蛛每日抓取的次数越多越好,这里分享下如何分辨百度蜘蛛《如何分辨真假百度搜索引擎蜘蛛IP》。
有时候我们的路径不统一出现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。
我们分析日志分析时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看出来,这些抓取频率间隔时间是蜘蛛根据网站权重和网站更新频率来自动确定的。
蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页
1什么是网站日志2在什么情况下需要做网站日志分析
什么是网站日志
网站日志,准确来说是服务器日志。通过服务器日志,我们可以了解到用户在什么IP、在什么分辨率的设备、什么时间、什么地区访问了我们的网站,以及当时访问的页面是否正常。
对于我们网站而言,搜索引擎也是网站用户之一。本文提到的网站日志分析,更多是在分析搜索引擎这种用户。
在什么情况下需要做网站日志分析
1、老站点(建站1年且正常运营的网站):Seo流量出现异常波动。
2、刚建立不久的站点(建站6个月以下的网站):定期分析。
了解以上两种情况后,我们如何进行网站日志分析
针对老站点网站日志分析
作为一个Seoer是需要定期做数据分析。了解网站Seo流量的波动情况。当网站Seo流量波动在10%及以上就需要进一步深入分析。
分2种情况:
了解外界: 了解外界的前提在于平时你得有一定的人脉基础,如果没有也没关系。泡2个地方——去搜索引擎站长平台或者加入搜索引擎站长群。比如,像百度搜索引擎,它拥有站长平台,也会相应建立站长QQ群。
有人脉基础上,可以直接了解外界的情况——是否也出现类似幅度的波动这个的前提要结合你短期做过的SEO *** 作一并考虑,避免误判。
无人脉的情况,泡群、泡站长平台。通常如果是搜索引擎算法升级,会在群里或者站长平台有相关的小道信息出现。
如果是搜索引擎自身算法升级导致的流量波动,那么就得根据新算法做相应的站内优化。
比如,百度冰桶30版本提出:将严厉打击在百度移动搜索中,打断用户完整搜索路径的调起行为。
如果站点有存在以上的情况就需要针对性的做优化:无论是通过对接的APPLINK调起,还是网页自主调起的应用,以及普通的网页,都应是可返回,可关闭的。用户校验搜索结果的准确性,不需要额外下载APP或者权限。
分析内在: 在分析内在之前,再次抛出这个公式:
Seo流量=抓取量收录率(准确来说应该是索引率)首页率点击率 。当抓取频次、抓取时间出现异常必然引起抓取量的减少。
因此,排除了外界的因素,就需要对网站的日志进行分析。如果你的站点是中文站点,且是百度站长平台的VIP用户。那么,你就可以先借助百度站长平台的“抓取频次”工具,先了解搜索引擎近期的抓取频次、抓取时间、异常页面。通常借助这个工具,我们可以对搜索引擎近期抓取情况有初步了解,并且可以借助这个工具,相应的找到一些解决办法。
在此先解释2个概念,方便理解:
1抓取频次: 抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。
2抓取时间: 指的是搜索引擎每次抓取耗时。
影响抓取频次的可能原因
1抓取频次上限误调,调低了,则会直接影响到抓取量减少,抓取量减少则索引量少,流量相应减少。
2 运营层面:存在大量重复页面(情况一:自身网站存在大量重复的内容。情况二:自身网站内容采集了大量互联网已存在的内容)。从搜索引擎的目标出发——搜索引擎希望抓取到更多更好的页面,而你的网站产出的却是网上泛滥的内容,何必浪费资源在你的网站上另外,网站内容太久不更新。建议,通过有规律定期产出优质内容来解决此问题。
抓取时间变长,也会导致网站抓取量减少。通常存在的可能情况是,服务器速度变慢导致抓取时间变长。还有一种可能是与网站自身结构有关系。层级太深导致
小结一下老站如何做网站日志分析(针对中文站点):
外界排除:了解搜索引擎最新算法是否发生变动、同行是否也有类似变化。
内在分析:
1使用工具:百度站长平台。(非VIP账户看后文介绍)
2分析方法:主要使用抓取频次分析工具进行分析,网站抓取频次、抓取时间、异常页面情况等数据变化。并与相关部门进行对接解决。
针对新站点如何做网站日志分析
对新站点做网站日志分析,主要目的在于如何促进新站点被索引并获得一定的排名。通常新站建立之初都会进入沙盒期(沙盒是指一个新站建立后搜索引擎会对其进行一个类似资格评价的阶段,我们将这个阶段称为沙盒,在沙盒里面的这段时间,我们将其称为沙盒期,沙盒期一般都是2-6个月。)进入沙盒期并不意味着站点不会被抓取,由于新站点建立之初,权重较低,内容量较少,因此抓取量等相应的也不会太多。
前期,我们分析新站点网站日志,主要是分析站点是否有被爬虫抓取过如果没有的情况下,一来是要让站点持续更新优质的内容,二来,在站点建设较为完善的情况下,需要主动向搜索引擎提交链接,让爬虫发现你的站点。除此之外,还可以通过正确渠道交换一些优质的友情链接,吸引爬虫来抓取。
通常新站点建立之初较难获得百度站长平台VIP账号,那么分析网站日志,我们可以通过下载光年日志分析工具进行分析。
步骤
1、下载网站日志(如果是企业站点,可以直接让运维部门的童鞋帮忙下载,如果是个人站长,直接在你所购买的虚拟主机后台进行下载,文件以log为结尾的便是)
2、打开光年日志分析工具,上传网站日志。1、进入服务器的管理之后,打开“Internet 信息服务(IIS)管理器”,
2、双击信息服务(IIS)管理器,进入管理以后打开信息服务(IIS)管理器,选中要查看的网站,在网站栏目那里右键单击,选择“属性”,
3、在d出的窗口里面,点击“网站”栏目,查看日志记录中的“属性”,
4、通过日志记录属性栏目,即可看到日志文件目录了,
上面的日志文件目录即是iis的文件存放位置了,IIS日志文件便在C:\WINDOWS\system32\LogFiles\文件夹内。
IIS日志文件存储格式是后缀名为log的文本文件,如下面这些文件就是网站的iis日志了。
要查看对应站点的IIS日志,只需要打开对应IIS日志文件夹找到相对应日志文件即可,也可借助IIS日志分析工具提供查看IIS日志的效率!
三、如何分析IIS日志?
知道了IIS日志的位置了,也看到了IIS日志的文件了,接下来我们就应该对日志文件进行分析了,那么,我们该如果分析IIS日志呢?
1、如何查看IIS日志信息
IIS日志可以用IIS日志分析工具去大概的去查一查,一般工具都能查出有各种蜘蛛来到网站的总数,以及有没有失败,不会把各种的信息都给你,工具分析只是简单的告诉你一个概况,马海祥在此就拿出一条信息来为大家具体的分析一下,如下面的截图所示:
我们可以分段对这个IIS日志进行分析:
2010-10-22 05:04:53 表示的是时间;
W3SVC151800 P-0YMR9WW8YX4U9是机器编号;
2227621349为网站的IP;
GET是触发事件;
80是端口号;
6113518649是搜索引擎蜘蛛的IP;
Baiduspider是百度的蜘蛛(另外,谷歌蜘蛛:Googlebot;360搜索蜘蛛:360Spider,更多的可查看马海祥博客《解读iis日志中搜索引擎蜘蛛名称代码及爬寻返回代码》的相关介绍);
200 0 0是访问成功的返回代码;
41786 193 6968是蜘蛛与网站对话的时间与下载的数据以及花了多少时间。
连在一起就是20101022的早上5点4分53秒的时候一个编号为W3SVC151800 P-0YMR9WW8YX4U9的蜘蛛通过80端口进入网站成功访问并下载了47186B的数据,花费了193MS。
2、用excel表格分析网站的iis日志
先新建一个excel表格,把刚才的ex121129log文件里的文件粘贴到新建的excel表格里面,,如下图所示:
复制之后,选定A,在工具栏里选择数据→分列,如下图所示:
选择分隔符号,点击下一步:
选择空格,去掉Tab键前面的钩,点击完成,如下图所示:
网站的iis日志就这样被拆分出来了,之后自己再调整一下表格的列宽、升降序等即可。
四、详解IIS日志参数
一般情况下,IIS日志文件代码格式如下所示:
#Software: Microsoft Internet Information Services 60
#Version: 10
#Date: 2009-11-26 06:14:21
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2009-11-26 06:14:21 W3SVC692644773 1256767 GET /indexhtml - 80 - 12312566130 Baiduspider+(+>IIS日志查看器绿色版, 本工具使用本地SQLite微型数据库,支持IIS6、IIS7大日志分析处理,速度极快, 体积小巧,无广告。
主要功能:
1 分析日志详情,显示蜘蛛\访客到访网址、时间、访者IP、状态码等;最全的条件筛选,网页与资源文件(jpg\png\gif\js\css\txt等)分离查询,可根据多条件进行筛选;
2 可快捷验证受访URL的在百度中的收录、访客IP归属地、定位该访客所有访问信息,助您排查网站是否受采集、受攻击。
3 日志导入本地数据库,方便存档。
4 最全的统计报表;可以:访客分类统计、URL分组统计、状态码统计、IP分类统计、时间段统计等。
5 可使用Sqlite语句进行自定义查询, 字段为原IIS日志字段名,查询便捷。
其它功能若干,不再一一描述, 欢迎下载体验!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)