常见的数据采集和分析方法

常见的数据采集和分析方法,第1张

Google处理采集数据的一些分析

点击跟踪

Googlelogs记录了所有用户对其服务项目的正确引导点击(广告、行动、行动点击)。

模式-与用户直接输入数据信息的方式(用户名,登录密码等。),谷歌会记录提交的时间日期和地点。

申请注册Google帐户时的表格

键入类别隐藏的数据信息,用户很难看到或输入特殊行业。

推送给用户后提交(隐藏)的部分。

类型是隐藏的,因此用户不容易看到或访问特殊的数据信息。

应用程序引入数据信息,根据报告,如何将“申请注册”放在用户会点击的位置。

cookie

谷歌使用其网页功能的所有cookies。此外,它还保留广告cookies,以跟踪用户在网站上的个人行为。根据这种方法,谷歌可以在doubleclick和AdSense广告的网站下,跟踪网站上所有用户的个人行为。

存储的cookies目录

存储在日志文件中的Web服务器要求

发送到Googleweb服务器的每个请求都存储在日志文件中,存储的内容取决于请求的类型。

日志文件

http://www.google.com/search?HL=en&;q=seomoz&ie=UTF-8

从用户输入需求中获得的详细IP地址,可以根据这个详细IP地址准确定位用户的实际位置。

具有偏移日期、时间和时区的用户。

用户语言

用户的计算机 *** 作系统

用户的计算机浏览器

其他信息内容不那么关键,但是需要实际描述传输到网络服务器的需求,网络服务器的响应和翻译模块。

Javascript

谷歌的一小部分JavaScript已经被放在互联网技术的许多网站上。当用户的电脑浏览器实现脚本制作时,Google可以知道用户访问习惯的很多重要信息(位置、电脑 *** 作系统、电脑浏览器类型和版本号等。).

URL信标

谷歌将小尺寸的全透明gif照片放入许多清晰的显示器中,就像JavaScript一样,用户免费下载隐形照片,并将他们电脑上的信息内容推送到谷歌。

URL的例子(哪些?你看不见吗?这是关键)

了解一下谷歌是如何解决这类数据信息的

商店

Google使用一个名为BigTable的内部数据库查询来扩展到近100W的网络服务器。

谷歌2006年的数据

数据

大小(TB)

爬网索引

八百

谷歌分析

200

GoogleBase

2

谷歌地球

70

Orkut

个性化搜索

这种缩减的数据信息大小接近TB(1024gB)。谷歌透露的数据信息规模超过1pb(1048578GB)。它甚至不需要考虑AdSense、Gmail、谷歌地图、城市街景、谷歌照片或其他专属数据库查询。而且这种数据信息都是2年前没有的。

大量的数据统计分析

这就像查理和巧克力工厂。我们都知道很多数据信息去Google,也知道很多解决的数据信息会导出。我们只是不知道彼此发生了什么,又是如何改变的。

众所周知,Google本身就有很多算法及其数据信息,PageRank就是其中最著名的一个。据说Google还有很多复杂的垃圾邮件过滤设备,内容复制过滤设备,类别检测算法,自然语言理解分析程序流程,图像识别技术手机软件,还有很多其他复杂的手机软件。

永久备份数据

谷歌上数据信息的最后安息地很可能是永久保存。谷歌的隐私政策提醒一些用户,数据信息永远不容易被完全删除,因为数据早已被永久备份。

了解谷歌对特殊用户的数据收集。

以下是Google在用户与众多网站互动时收集到的用户资料的详细列表。这意味着,实际上有大量数据是谷歌收集的,但没有公布。但其实无知就是幸福。如果你看着它,你可能会觉得很不舒服:

谷歌用户数据收集状态摘要:谷歌用户数据收集状态摘要

你能相信谷歌会帮你保密所有信息吗?你相信谷歌会遵守所有的保密规则吗?

全文地址:http://semwatch.org/2009/11/evil-of-google-data

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/784498.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-04
下一篇 2022-05-04

发表评论

登录后才能评论

评论列表(0条)

保存