大数据时代SEO数据如何搜集和分析，yunmar很想知道_服务器

很多人不清楚需要搜集什么样的数据;也有的不清楚通过什么渠道来搜集数据;还有大部分不清楚搜集整理的数据如何去分析，进而也就不清楚怎么去利用这些数据。所以，很多数据也就仅仅只是数字，无法去转化和为公司利益服务，成了一个华丽丽的摆设或者鸡肋。

先来说说三类将数据做成摆设的类型：

1、重视数据但不清楚如何搜集，这是“被数据”类型。对数据处于模糊了解状态，由于生活在这个信息爆炸化时代，耳濡目染各种宣讲数据的重要性，自然也就重视起数据来，知道公司和企业做事和计划要靠数据来支撑。但是由于没有专业的相关数据人员，自己的公司(或者是个人站长)该做哪些数据，通过什么渠道来搜集整理，可谓是一知半解。最后可能是通过头脑风暴和网上的所谓教程来比葫芦画瓢，再加上咨询下同行，东拼西凑而成的数据，这样的数据自然就真的只是摆设了。

2、云码了解所需数据但来源不规范，这是“误数据”类型。对数据了解比较了解，由于在互联网或者公司摸爬滚打多年，出于自身原因和目的大概知道该需要什么数据。但是同样由于没有专业的相关数据人员，对于数据的来源和制作并不规范，数据采集也可能存在误差。所以，这些数据就可能失真，利用价值自然也不是很大。其实，这类数据比第一类更加成了摆设。

3、云码会做数据但不会解读分析，这是“贱数据”类型。对数据有清楚了解，并有准确的数据来源和较明确的数据需求，但是却等于入宝山而空回，坐拥金矿却不会利用，岂不是把这些可以带来真金白银的数据给轻贱了只是简单的搜集整理，把数据形成可视化的报表，但是只是这些数据又能说明什么问题呢。

数据背后的意义是什么，怎样去解读数据来为公司和个人创造价值，怎样去利用数据来规避可能存在的风险，怎样去利用数据分析出现的问题这些才是数据的真正价值。

大数据时代SEO数据如何搜集和分析

说的有点多了，其实笔者今天主要讲的是网络营销中有关网站SEO的数据搜集和分析。sem和其他媒体营销基本都有较成熟的数据整理和分析模式，笔者就不再献丑赘述。以下讲的也只是较为大众化的数据模式。

1、做哪些数据。有关SEO的数据应该需要三方面：

①自身及竞争对手网站外部可统计查询数据：这部分数据可以通过外部站长工具综合查询得出。主要包括但不局限于：

网站网址、快照日期、域名年龄、网站响应时间、同IP网站、pr值、百度权重、各搜索引擎收录量、各搜索引擎反链数、24小时百度收录、百度排名词量、预计百度流量、外链数、标题、meta标签、服务器信息。这些数据除适用于首页外，也可以适当用来查询内页数据。

可以把这些相关数据做成excel表格，以供定期查询，可按照实际需求增减相关数据的查询。

查询周期可每日、每周亦或是每月等，按照实际需求和具体情况来。

大数据时代SEO数据如何搜集和分析

②网站流量统计数据

目前现在大部分的公司和站长的网站流量均采用流量统计工具，极大的方便了SEO相关人员统计整理数据的工作。目前比较专业的数据统计工具有CNZZ、51la和百度统计。论专业性来讲，CNZZ比较不错，论百度流量的准确性和敏感度，笔者觉得百度统计还不错。闲话少叙，流量数据主要包括但不限于：

IP、PV、独立访客、人均浏览量、平均访问时长、跳出率、受访页面和域名、来源、搜索引擎比例、搜索关键词、访客详情、时段分析

同样建议做成excel表格，以供定期查询，按照实际需求增减相关数据的查询。

查询周期可每日、每周亦或是每月等，按照实际需求和具体情况来。

大数据时代SEO数据如何搜集和分析

③可监控关键词数据

关键词监控比较简单，没什么好说的，只是建议把关键词进行分类监控汇总。主要包括但不限于：

主关键词、主要长尾词、重要流量词、品牌词

同样建议做成excel表格，以供定期查询，按照实际需求增减相关数据的查询。

查询周期可每日、每周亦或是每月等，按照实际需求和具体情况来。

大数据时代SEO数据如何搜集和分析

2、通过什么渠道来搜集数据

互联网时代也是工具代替人工的时代，用工具办到的事既快又方便，何乐不为。

①自身及竞争对手网站外部可统计查询数据。既然是外部可查询，一般的站长类工具都可以去查询，笔者比较喜欢的有爱站和站长之家这两个在线查询网站。尤其是站长之家在数据方面做得比较专业。

②网站流量统计数据。流量统计工具的功能已经丰富了，并且主流的cnzz、51la等都有数据下载功能。

③可监控关键词数据。这个如果是个人站长关键词量比较小，那么人工在搜索引擎和后台流量统计去一点点核实查询比较准确。如果批量关键词查询，最好是使用工具去查询，但目前的关键词排名软件在批量查询中一般都会出现误差，如果公司有能力，可以自己开发或编写这类功能的程序软件。

3、如何分析搜集整理的数据

成功者半九十，辛苦通过各种渠道观察搜集的数据，最精华的最具价值的地方在于有人看，而且要会看，通过这些数据为自己的网站得到一些启迪，并把它发挥出来为自身创造一定的利益。

①自身及竞争对手网站外部可统计查询数据。

这些数据分析是作为一个SEO分析自身网站和竞争对手最常用也是最基本的能力。通过这些数据(一定时间的观察后可绘制成趋势图)可以比较清楚的了解自身网站和竞争对手的网站优化情况以及在搜索引擎的权重表现。笔者简单介绍下如何去解读这些数据。

百度快照：一个网站快照越新，起码证明一个网站的内容每天都有新鲜的，百度蜘蛛的抓取更新也是比较频繁的，换言之，快照是百度蜘蛛对该网站的认可度。

域名年龄：业界普遍认为，同等条件下，域名越老在搜索引擎获得权重相对越高。

响应时间：这反映出网站的服务器性能的好坏。响应值越大，服务器性能越差，当然无论对于用户体验还是搜索引擎都是极为不利的影响。

同IP网站：可以查看该IP下有多少网站，可以大致区分出网站所有者是选择网站托管还是购买独立IP，如果是独立IP，顺便可以看出该所有者还有哪些网站，顺藤摸瓜查看其他网站情况，知己知彼。

PR值：这是之前谷歌官方对网站认可度和权重赋予的一种被外界了解的具体数值体现。虽然现在PR值越来越被淡化，但是作为可以衡量网站优劣标准的一个体现，仍具有参考价值。

百度权重：这是第三方站长工具根据自身的运算体系揣测的网站在百度权重表现的一种数值，并没有得到百度的官方认可。但是作为站长衡量网站在百度表现优劣的一个参考，也对广大站长具有参考价值。

反链数：通过站长工具查询的搜索引擎的反链数值其实大多都不是很准确，尤其是百度反链，查询命令得出的结果很不理想，百度反链值其实只是查询的域名相关域的搜索结果。不论如何，对于了解自身的外链途径和寻找了解竞争对手的外链手法也具有参考意义。

收录量：各搜索引擎的总收录反映出网站在各个搜索引擎的表现。如果了解网站的总页面数，也可以更清楚的判断网站被各个搜索引擎收录的情况，从而分析网站是否存在问题以及存在哪些问题。

每日收录/24小时收录：反映出网站被搜索引擎蜘蛛喜好程度和网站链接优化程度。

排名词量：通过查看自己和竞争对手网站的排名词量，可以寻找网站优化的之间的差距，进而查看这些排名关键词相对应的页面优化情况。

meta标签：查看网站该页面title、description、keywords是如何撰写的，尤其是查看竞争对手。分析为何这样写，会学到更多。

②网站流量统计数据

流量的分析往往不是单一的，是综合多种数值进行分析判断。这块的分析也是最为复杂的。

IP：分析往往通过日期对比来进行的，比如本周三与上周三，本月上旬与上月上旬。通过分析查看流量的变化情况，可以看出网站最近的变化。当然也有一些其他因素要考虑，比如天气、节假日、关键词排名、网站服务器有无宕机、新闻事件等等。

PV：数值往往与跳出率和IP进行对比，从而判断网站的用户体验和用户黏性。

uv：独立访客量，可以反映出有多少台电脑，也可能接近于多少真实人在访问网站。

人均浏览量、平均访问时长、跳出率：IP与PV的比值，反映出网站用户体验好坏。

受访域名和页面：可以看出网站哪些页面比较受欢迎以及在搜索引擎的权重表现。

来源：访客是通过何种渠道进入到网站的，从而判断网站的受众，再进一步分析受众相关属性，可以更加清楚网站的目标人群以及网站运营策略执行情况。

关键词：用户是搜索何种关键词来到网站，为网站布置关键词以及寻找关键词优化是一个很好的途径。

访客属性：通过对访客的地域、教育程度、浏览器、网络接入商、 *** 作系统、终端类型等属性的分析，可以更加详细的了解网站用户的情况，为以后网站的优化和运营提供参考。

热点图：这个热点图功能，可以让站长看到页面内容被用户点击的情况，反映出网站页面的用户体验度以及为页面内容改进提供参考。

还有一些就不一一介绍了。

③可监控关键词数据

相对来说这块数据分析较为简单些，通过对关键词分类整理，然后查询在搜索引擎的排名情况，进而对比分析关键词带来的转化，可以看出优化情况。哪些还需要加强，哪些需要维护，哪些词高排名却没有带来实质的意义，进而调整网站优化策略。

同时通过关键词带来的流量和转化，也可以对比分析其它流量贡献的转化，进而为整个网站运营方向和公司预算做出参考。

备注：笔者以上所谈网站seo数据搜集整理及分析过程大部分针对中小型公司和个人站长而言，且由于精力有限，介绍内容也相对简易，望见谅。

后记：关于《大数据时代SEO数据如何搜集和分析》几点说明

之前写过一篇《大数据时代SEO数据如何搜集和分析》，由于所写内容比较多，而且很多内容都可以单独摘要出来写出一篇文章，融合在一篇文章中难免叙述不够详细。为避免篇幅过长影响阅读，笔者在个人博客是分两篇发表的，《seo数据如何规范化搜集整理》以及《网站seo数据如何分析》，除发表在个人博客外，把完整篇整合发表到了月光博客，标题未改。原本是为网站seo数据整理分析起一个规范说明作用，可能由于本人表达有限，导致很多网友误解。本人在此特声明以下几点进行纠正：

1文章重点不在于“大数据”。为避免引起误解，在文章一再强调是为中小型企业seo数据整理分析提供借鉴，在开头已表达“首先声明，本文在数据高手面前，都有点多余，都是小儿科的班门弄斧，故请高手勿耽误您的时间。”可能标题确实有点标题党的意味，妄谈了“大数据”，但是作为国内的广大中小型企业，bigdata和CloudComputing很难在公司中体现出来，但是伴随着bigdata和CloudComputing时代的到来，即便是中小企业特别是互联网公司也会受到影响。笔者相信，大数据的核心并非是死的数据，而是对数据分析预测能力，所以本文的核心也在数据的整理和分析，而不是去谈对于中小企业不切实际的bigdata，更没有谈什么大数据分析。如果不是跨国集团及大型企业，产生不了海量数据，请别一味谈什么大数据，只会误人误己，更不要迷信大数据

2文章内容由于篇幅有限不能详细。笔者在文章末尾已给出声明，限于篇幅长度和个人精力不能详细阐述seo数据的搜集和分析工作，有些内容却是介绍比较简单，而且我也没有打算把它写作一篇教程。当然这些内容全是个人经验之谈，可能限于seo层面有些窄，但实属个人原创，至于说什么复制粘贴，或者说只是解释了一些名词，那么我无话可说。我相信响鼓无需重锤，没必要手把手写一篇教程式文章，这是写给有一定基础的SEOer和营销团队看的。

3为何要搜集seo相应数据文章已有解释。很多网友看了文章来问我为何要搜集那些数据或者问究竟要搜集哪些seo数据，其实虽然限于文章篇幅，但我还是大致列出了需要搜集整理的seo数据以及解释了为何要搜集这些数据，在如何分析搜集整理的数据这一段中其实不光是介绍了如何分析数据的内容，也简单说明了为什么搜集这些数据，因为知道如何来看这些数据就明白了为何要搜集这些数据。

4excel表格只是起到简单说明，并非真实案例说明。为了配合说明seo数据整理分析，只好自己临时简单制作了几个excel表格，也限于篇幅缘故，详细说明或者提供案例都让文章显得更长，只好作罢。说以再次请大家见谅没有提供案例，excel表格也只是简单说明，并没有参考价值。

5本文重在思路，而非实例 *** 作分享。很多网友说在空谈理论，没有实质性东西。抱怨这类的我不去解释，因为多是外行。还是套用老话：响鼓不用重锤。本文只是在介绍一种搜集和分析的思路，以及简单的一个流程和规范化的说明。那些想看手把手教程式的网友定然大失所望，因为没有想要的所谓干货，因为这不是。

我的大部分文章都是在分享有关网络营销经验的思路和策略，很少谈具体的技巧和手把手的教程式 *** 作。因为我深信授之以鱼不如授之以渔，同样的 *** 作方法和案例技巧并不一定适合于另一个网站，但是看问题的思路处理事情的策略才是值得分享和传播的。

问题一：抓包抓到的数据，怎么分析啊 5分 1, 取决于你抓包的层级。一般来说都是与网站之间交换的，未经格式化的较为数据。
2, 可以从网卡抓取本机收发的数据，也有人把从浏览器或其它工作在顶层的软件获得的数据，成为抓包。
3, 如果你所在的局域网比较原始，你还是可以尝试从网卡中获得广播的数据。
4, 分析有现成的软件，主要针对无法加密的部分展开，即发送、接受方地址、时间、路径、内容体积等进行。不涉及内容的情况下是典型的被动数据分析。

问题二：如何解析抓包的数据wireshark 首先我们打开wireshark软件的主界面，在主界面上选择网卡，然后点击start。wireshark即进入抓包分析过程。在本篇我们选择以太网，进行抓包。
接下来再界面我们可以看到wireshark抓到的实时数据包。我们对数据包的各个字段进行解释。
1No:代表数据包标号。
2Time：在软件启动的多长时间内抓到。
3Source：来源ip。
4Destination: 目的ip。
5Protocol：协议。
6Length:数据包长度。
7info：数据包信息。
接下来我们点击解析后的某一条数据可以查看数据包的详细信息。
在抓包过程中，我们可以点击图标启动或者停止。来启动或者停止抓取数据包。
接下来我们将简单介绍Filter处，对来源Ip以及目的Ip的过滤表达式的写法。
首先我们在Filter处填写ipaddr eq 1921682101。表示获取来源ip以及目的ip都是1921682101的数据包。（此处解释 eq 换成==同样的效果）
在Filter处填写：ipsrc == 1921682101。表示获取来源地址为1921682101的数据包。
在Filter处填写:ipdst == 119167140103。表示获取目的地址为119167140103的数据包。
在Filter处填写:ipdst == 119167140103 or ipdst == 192168245。表示获取目的地址为119167140103或者192168245的数据包。（此方法举例主要说明or的用法。在or前后可以跟不同的表达式。）
在Filter处填写:ipdst == 119167140103 and ipsrc == 1921682101。表示获取目的地址为119167140103且来源地址为1921682101的数据包。（此方法举例主要说明and 的用法）

问题三：怎样看wireshark抓包的数据启动wireshark后，选择工具栏中的快捷键（红色标记的按钮）即可Start a new live capture。
主界面上也有一个interface list（如下图红色标记1），列出了系统中安装的网卡，选择其中一个可以接收数据的的网卡也可以开始抓包。
在启动时候也许会遇到这样的问题：d出一个对话框说 NPF driver 没有启动，无法抓包。在win7或Vista下找到C: \system\system32下的cmdexe 以管理员身份运行，然后输入 net start npf，启动NPf服务。
重新启动wireshark就可以抓包了。
抓包之前也可以做一些设置，如上红色图标记2，点击后进入设置对话框，具体设置如下：
Interface：指定在哪个接口（网卡）上抓包（系统会自动选择一块网卡）。
Limit each packet：限制每个包的大小，缺省情况不限制。
Capture packets in promiscuous mode：是否打开混杂模式。如果打开，抓取所有的数据包。一般情况下只需要监听本机收到或者发出的包，因此应该关闭这个选项。
Filter：过滤器。只抓取满足过滤规则的包。
File：可输入文件名称将抓到的包写到指定的文件中。
Use ring buffer：是否使用循环缓冲。缺省情况下不使用，即一直抓包。循环缓冲只有在写文件的时候才有效。如果使用了循环缓冲，还需要设置文件的数目，文件多大时回卷。
Update list of packets in real time：如果复选框被选中，可以使每个数据包在被截获时就实时显示出来，而不是在嗅探过程结束之后才显示所有截获的数据包。
单击“OK”按钮开始抓包，系统显示出接收的不同数据包的统计信息，单击“Stop”按钮停止抓包后，所抓包的分析结果显示在面板中，如下图所示：
为了使抓取的包更有针对性，在抓包之前，开启了QQ的视频聊天，因为QQ视频所使用的是UDP协议，所以抓取的包大部分是采用UDP协议的包。
3、对抓包结果的说明
wireshark的抓包结果整个窗口被分成三部分：最上面为数据包列表，用来显示截获的每个数据包的总结性信息；中间为协议树，用来显示选定的数据包所属的协议信息；最下边是以十六进制形式表示的数据包内容，用来显示数据包在物理层上传输时的最终形式。
使用wireshark可以很方便地对截获的数据包进行分析，包括该数据包的源地址、目的地址、所属协议等。
上图的数据包列表中，第一列是编号（如第1个包），第二列是截取时间（0000000），第三列source是源地址（1151553993），第四列destination是目的地址（11515539112），第五列protocol是这个包使用的协议（这里是UDP协议），第六列info是一些其它的信息，包括源端口号和目的端口号（源端口：58459，目的端口：54062）。
中间的是协议树，如下图：
通过此协议树可以得到被截获数据包的更多信息，如主机的MAC地址（Ethernet II）、IP地址（Internet protocol）、UDP端口号（user datagram protocol）以及UDP协议的具体内容（data）。
最下面是以十六进制显示的数据包的具体内容，如图：
这是被截获的数据包在物理媒体上传输时的最终形式，当在协议树中选中某行时，与其对应的十六进制代码同样会被选中，这样就可以很方便的对各种协议的数据包进行分析。
4、>>

问题四：如何分析数据包判断网络故障从网络抓包是可以分析出很多东西，其中一项就是用来做排错。
根据个人的实际经验，用抓包来排错有分为几种情况：
1、通过数据包的有无来判断故障，一般用于防火墙策略调试等场景，在防火墙上进行抓包，或交换机上镜像抓包，或者这交换机内嵌抓包功能。这种抓包无需进行过多分析。
2、网络故障，已经明确网络设备配置不存在问题的情况下，通过抓包来判断问题，我把这主要分为行为判断和协议判断。
1）最常见的是通过抓包数量来判定网络行为的是否正常，比如ARP病毒爆发一定会收到大量ARP数据包；攻击行为也很多时候体现为大量数据包（但是一般判断这种攻击行为抓包不会放在第一步，只是在确定攻击特征时需要抓包）；当然还有其他很多情况，适用于通过抓包数量来分析的。
2）通信质量判断，抓包存在大量的重传，此时通信质量一般都不太好。另外有视频和语音的应用场景中，有时需要通过时间统计来判断通信毛刺，来分析定位视频和语音通信质量问题。
3）协议判断，比如win2008和win2003通信时因为window
scale不兼容，导致窗口过小，而程序设计适当时，通信变动极其缓慢。这些判断都是建立在抓包协议分析的基础上的；另外不同厂商SIP通信对接也有可能会用到协议分析，其中一种方式就是抓包分析。
综合而言，协议分析时要求比较高，很多人都可以说把基础学好，但是对应实际工作多年的人，TCP/IP的协议学习一般都是多年前的事情，而且不同 *** 作系统，对于协议栈的实现是有区别的，这部分析的工作一般都是出现问题后有针对性查资料来解决的。
说了这么多，针对抓包分析我个人的意见是：排查问题关键是思路，真的用到协议层判断的场景相对而言还是比较少，初学这不必过分纠结。但是从另外一个方面来看，能深入协议层进行排错的网工，都是具备钻研精神的，属于高级排错的一部分。

问题五：怎么通过wireshark分析 Wireshark 一般在抓包的时候无需过滤，直接在数据分析时候过滤出来你想要的数据就成了。
1具体为Capture->Interface->(选择你的网卡)start
这时候数据界面就显示了当前网卡的所有数据和协议了。
2下来就是找到我们想要的数据
教你一些技巧，比如我们要找ip地址为1921682110的交互数据
可以在 Filter:里面填写 ipaddr == 1921682110 （回车或者点Apply就OK）
如果我们只想抓TCP的 ipaddr == 1921682110 && tcp (注意要小写)
如果不想看到ACK ipaddr == 1921682110 && tcp && tcplen != 0
如果要看数据包中含有5252的值的数据（注意此处为16进制）
ipaddr == 1921682110 && tcp && tcplen != 0 && (datadata contains 5252)
3 含有很多过滤方法可以点击Express，里面有一些选项，自己多试试。
用好一个工具很重要，但要长期的积累才行，自己多使用，多看点教程就OK。

问题六：wireshark软件抓包数据怎么查看下载wireshark软件，目前有中文版，为了方便演示，就用中文版的。当然，英文版本的是主流。
打开wireshark软件，运行该软件，进入其界面。wireshark软件的界面布局合理，很精简。
接下来，要选择wireshark的抓包接口。双击接口列表项，于是进入了抓包接口的设置界面。
选择你的电脑现在所使用的网卡。比如，现在这里是使用无线网卡，接口列表上有数字在跳动就是。
点击开始，就进入到抓包的界面，于是开始进行抓包。该界面显示了抓包的动态，记录了抓包的过程。
抓包完成后，就点击停止抓包的按钮，就是红色打叉的那个。
最后选择保存按钮，选择保存的位置。保存的文件以后都可以用wireshark打开，来进行历史性的分析。

问题七：如何查看抓包数据对于标准的>

1、下载安装好工具软件，Fiddler进行安装。安装方法一路NEXT既可！

2、安装完成后打开软件：选择 Tools > Fiddler Options：打开>

3、再次选择Tools > Fiddler Options：打开 connect 标签。按照图中进行勾选！

在图中的端口“8888”自己要记好，后面配置手机时要用到!默认的既可。

4、查看本机IP地址，记好“本机的IP地址”，在手机配置中需要用到。

5、进一步对手机进行配置。打开手机设置——WIFI——选择你当前所用的WIFI，按住不放（大概1秒左右）会出现：清除网络、修改密码、静态IP、代理设置四个选项，在这里选择代理设置进入到下一个设置界面。

6、打开设置界面后：打开代理服务器；在服务器输入第4步中的本地IP地址:19216812；端口输入“8888”，设置完成后点击保存。到此手机端也设置完成。

7、这是你就可以抓包了，切记手机和电脑要在一个局域网内。

第一步：首先必须在ArcCatalog中新建网络数据集，在网络图层点右键，选择新建网络数据集，如图所示，一路默认点击。如果你熟悉，修改其中的参数也可以。{GZK09A)VRT5}06@~YCG)MX第二步：在ArcMap中新增网络分析层保存为MXD文档，注意的是需要安装扩展模块，如果没有，可以在安装光盘中查找。第三步：最后在ArcCatalog或者ArcGIS Server Manager中发布服务时发布，注意的是要选择网络分析服务。也就是NAServer。下面的工作就是在程序中来编写如何来获取最短路径了，分成了两种方式：第一种方式为客户端在地图控件上获取起始点，系统利用Ajax技术将起点与终点的屏幕坐标发送回GIS服务器，并通过服务器处理获取最短路径，以>一台就够用了。
不过要用做数据分析的电脑，需要存储空间大的，看你是台式机还是笔记本了，台式机的话，内存至少8G以上，CPUI5四代以上，硬盘500G以上，如果是笔记本，配置要高一点，内存16G以上，硬盘固态500G,CPU
最好选I7的。
一般公司都会配置相应的电脑，如果没有的话，自己的电脑满足这些配置也是可以的。

1、如果是网吧等公用场所用的话，按每台3000~3500计算。
2、DHCP是为了方便100客户机的地址分配，DNS是为了分配域名解析地址，OS就是 *** 作系统，当然服务器会使用类似WINSERVER 2003这样的系统。
③ 为了使100台客户机与服务器能有效连接并接入公网。路由只要一台就可以了，交换机可根据需要按交换机的口数进行设计，如24口交换机，只要5台就可以了。
④ 通常采用星形网，即从路由→主交换→二级交换机→分组的客户机。
⑤ 多种方式可选，100台规模，至少要20M以上带宽，建议上50M或以上带宽，并选择合适的ISP（服务商），价格不好说，地区不同，服务商不同各不一样。电信的20M在我们这里每月2000元左右。
以上仅供参考！

Web服务器日志

市面上各家网页服务器自发展初随时都会纪录其所有的交易于一个日志档里头。这种特性不久就被网管意识到可以透过软件读取它，以提供网页流行度的相关资料；从而造成网站日志分析软件的兴起。

90年代早期，网站统计资料仅是简单的客户端对网站服务器请求(或者访问)的记数值。一开始这是挺合理的方法，因为每个网站通常只有单一个HTML档案。然而，随着图形进入HTML标准，以及网站扩增至多重HTML档案，这种记数变得没什么帮助。最早真正的商用日志分析器于1994年由IPRO发行。

90年代中期，两种计量单位被引入以更准确的估计人类于网站服务器上的活动总数。它们是网页点阅数(PageViews)以及访问量(Visits，或者节区(Session))。一次的网页点阅数定义为客户端对服务器提出某单一网页读取请求，恰好为对某一图形请求的相反；而一次的访问量则定义为来自于某一唯一已识别的客户端对服务器一连串请求直到闲置一段时间——通常为30分钟——为止。网页点阅数与访问量仍旧在报告上十分常见，不过现今它们被当作是过于简单的量度。

90年代末期，随着网络蜘蛛与机器人问世，伴随着大型企业以及互联网服务提供商使用代理服务器与动态指定IP地址，鉴别某网站单一访客变得更困难。对此，日志分析器以指定Cookie作为追踪访问量的对策，并忽略已知的蜘蛛机器人的读取请求。

网页快取的广泛使用也造成日志分析上的问题。如果某人再度造访某页，第二次的读取请求通常由网页浏览器快取达成，因此网站服务器端不会接受到此请求。这意味着该访问者浏览过该站的“足迹”丢失。快取与否可于设定网站服务器时克服，不过这可能导致降低该网站的效能。

JavaScript标记

由于对日志档案分析于快取存在下准确性的关注，以及渴望能实现把网站分析当作是种外包的服务，导致第二种资料收集方法：加网页标签，或称网虫(Webbug)的出现。

90年代中期，网页计数器已经普及——这些计数器以包含在网页中的图像出现，显示多少次该图像被读取过。而图像内容就是显示大约该页被拜访次数的数目。90年代晚期，这种做法延伸至包括一个微小不可见图像，而非可见的。并且，透过JavaScript，图像请求的某些关于网页和访客的讯息被传递到第三方服务器方。这些资料随后被网站分析公司处理并产生详细的统计资料。

网站分析服务也代管指定cookie到使用者的过程。这种方式可以鉴别各个唯一访客初次以及随后的拜访。

随着Ajax为主解决方案普及，一种利用不可见图像的替代方案实现了从读取页面“回电”服务器的机制。在这个情况下，当某网页被网页浏览器读取，该页某部分Ajax代码将致电回服务器并递送有关用户端的资讯，随后被送到网站分析公司做汇整。这在某些方面还是有漏洞，因为某些浏览器限定哪种Xml>

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/13104474.html

大数据时代SEO数据如何搜集和分析，yunmar很想知道

发表评论

评论列表（0条）