随着美国政府利用互联网监视和追踪民众的消息浮出水面,这使得互联网履行其最初使命的前景看似暗淡。现代计算技术正帮助公司和政府准确、快速地分析庞大的数据资源,其中数据库系统、机器学习和Hadoop基础架构三大技术发挥了非常重要的作用。
全球消费者平均每月使用的网络、电子邮件和数据流量图
仅仅在五年之前,诸如美国国家安全局(NaTIonal Security Agency,NSA)这样的政府机构要想通过关键词的方式高效率地分析数百万份电话、文本消息和在线聊天记录,简直是不可能完成的任务。不过目前,一系列新技术的使用则让NSA拥有相对充分的人力和财力做到这一点。尤其考虑到,这些关键词最终有可能避免未来针对美国恐怖袭击的放生。
这些新技术能够在一个单独的数据库里存储大量不同类型的数据,而且不需要使用造价昂贵的硬件设备就能够实现数据的高速处理,同时还无需数据分析专家提前设定假设条件。
哈佛商学院客座教授、数据分析专家汤姆?达文波特(Tom Davenport)指出:“这些新技术为政府部门节省了巨额开支,同时还极大地提高了政府部门分析此类数据的能力。虽然需要配套的数据中心支持才能完成数据分析任务,但这些技术的成本要远比几年前低得多。”
NSA斥资十二亿美元在犹他州打造大型数据中心将于今年秋季投入使用。目前尚不明确的是,到底NSA在覆盖全美的数据中心使用的是何种计算技术。但总体来说,这些技术被分为三大类型:
1. 数据库系统
大多数使用SQL编程语言的传统数据库是把数据存储在由行与列组成的表格中。然而,当遇到存储包括电子邮件或文本信息等字符串时,传统数据库就暴露了能力有限的弊端。而且它们还无法处理图片或视频。
而于2009年年底开始出现的新型数据库NoSQL(Not Only SQL,不仅仅是SQL)则突破了传统数据库的能力限制,可以允许数据分析专家针对所有类型的数据创建信息要求。这些新型数据库包括MongoDB、Cassandra和Simple DB等。
在帮助公司分析超大型数据组方面,NoSQL数据库体现出了非凡的能力。比如,美国保险数据供应商Verisk AnalyTIcs Inc.的分析师就在针对数十亿客户资料不断运行各种不同的数据模式和分析方法,以从中发现虚假保险索赔记录。
Verisk 副总裁兼首席信息官佩里?罗泰拉(Perry Rotella)表示,使用IBM提供的传统DB2数据库“需要通宵达旦地工作6个小时才能完成工作”。此后,分析师还得投入大量时间研究得出的数据结果,并提出新的信息要求,而这恐怕还得再熬一个晚上。他指出,分析师每次都需要花费几周时间才能创建出新的数据模型。Verisk最近刚刚开始使用更换后的NoSQL数据库,分析师仅用30秒就能完成相同类型要求的运行。
罗泰拉表示:“突然之间,你的模型建构告别了几天才更行一次的传统,变成了实时更新状态。通过使用NoSQL数据库,你可以在一天内多次进行数据运行,这极大地缩短了获得数据结果的时间。这项功能简直太强大了。”
对于美国在线图片交易平台服务商Shutterstock Inc.来说,如果没有NoSQL,该公司简直无法生存。Shutterstock拥有超过2,400万张图片的存储库,而且每天还以1万张图片的速度递增。其中的每张图片都拥有相关数据来帮助用户缩小搜索范围。Shutterstock的数据库还记录用户在该网站上的所有网络行为,这些行为不仅包括诸如他们授权何种图片这样的重大决定,而且还包括微小的细节,比如他们的鼠标箭头经常停留在什么地方以及停留的具体时长。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)