学习Java应该了解的大数据和框架_工具

很多人都在知道，计算机行业的发展是非常迅速的，软件开发人员想要跟上时代的发展，最重要的就是不断挑战自己。在学习软件开发的过程，前期学习的知识是远远不够的，需要了解更多的知识，并且挑战更多的复杂性。

现在学习Java语言不能忽略工具和框架的使用，工具和框架的构建越来越复杂。很多人不知道学习工具和框架有什么用？下面昌平电脑培训为大家具体了解Java开发应该了解的大数据工具和框架。

一、MongoDB

这是一种最受欢迎的，跨平台的，面向文档的数据库。

MongoDB的核心优势是灵活的文档模型，高可用性复制集和可扩展的碎片集群。北京java培训建议可以尝试以多种方式了解MongoDB，例如MongoDB工具的实时监控，内存使用和页面错误，连接，数据库 *** 作，复制集等。

二、Elasticsearch

主要是能够为云构建的分布式RESTful搜索引擎。

Elasticsearch主要是使用在Lucene之中的服务器，能够进行分布式多用户能力的全文搜索引擎，并且还是使用在Java的开发中，这是现在很多企业中使用最流行的搜索引擎。ElasticSearch不仅是一个全文搜索引擎，而且是一个分布式实时文档存储，每个字段都能够被索引并且可以被搜索。它也是一个具有实时分析功能的分布式搜索引擎，java课程发现它还可以扩展到数百个服务器存储和处理数PB的数据。

三、Cassandra

这是一个开源的分布式数据库管理系统，最初由Facebook开发，用于处理许多商用服务器上的大量数据，提供高可用性而无单点故障。

ApacheCassandra是一套开源分布式NoSQL数据库系统。集GoogleBigTable的数据模型与AmazonDynamo的完全分布式架构于一身。于2008开源，此后，由于Cassandra良好的可扩展性，被Digg、Twitter等Web20网站所采纳，成为了一种流行的分布式结构化数据存储方案。

四、Redis

开源（BSD许可证）内存数据结构存储，用作数据库，缓存和消息代理。

Redis是一个开源的，基于日志的Key-Value数据库，用ANSIC编写，支持网络，可以基于内存持久化，并提供多种语言的API。Redis有三个主要功能，北京IT培训认为可以将它与许多其他竞争对手区分开来：Redis是一个将数据完全存储在内存中的数据库，仅使用磁盘用于持久性目的。

开门见山，不说废话！Hightopo是由厦门图扑软件科技有限公司独立自主研发，专注于 2D 和 3D 图形界面组件数据可视化领域，用户遍及电信、电力、政府、交通、水利、公安、国防、医疗、金融、科研等行业。提供从 SDK 的 API 组件库到行业图标和三维模型资源库，构成了一站式的数据可视化解决方案。

主打产品 HT for Web（简称HT）是款基于 HTML5 标准浏览器技术、针对监控领域的数据可视化图形组件中间件，用于快速创建和部署，高度可定制化，并具有强大交互功能的拓扑图形及表盘图表等应用。其具有轻量、高效、易用和跨平台等特性，行业丰富的图标和三维模型资源库，一站式的数据可视化解决方案、形成了一整套实践证明的高效开发流程和生态体系，多年来已成为国内电信网管和工业互联网，数据可视化图形组态中间件领域的领导性品牌。

根据现场的 CAD 图、鸟瞰图、设备三视图等资料进行还原外观建模，通过 HT 实现可交互式的 Web 三维场景，可进行缩放、平移、旋转，场景内各设备可以响应交互事件。

HT 工业互联网图形组态可视化，基于纯 HTML5（Canvas/WebGL/WebVR）的标准 Web 技术，满足了工业物联网跨平台云端化部署实施的需求，可快速实现现代化的、高性能的、跨平台的（桌面Mouse/移动Touch/虚拟现实VR）图形展示效果及交互体验。

HT 提供完备流水线作业工具链，从视图组件设计、丰富的图标设计、2D 图纸设计到 3D 场景设计皆有相应可视化，各工具创建的资源可直接共享复用。不仅解决了传统 2D 和 3D 设计分割独立、无法融合一体的痛苦；也解决了传统设计师和程序员使用完全不同的独立设计开发工具，导致设计和最终实现效果不一致且重复劳动的难题，真正实现了 2D 和 3D 无缝融合，设计师和程序员统一工具协同开发模式，达到产品开发的高速迭代，快速将想法变成 2D、25D 和 3D 的最终界面成果。

建立1：1高保真模拟，通过数字工厂三维场景为基础，展现矿业各个生产厂区的建设、运行情况、安全配备以及注意事项，达到逼真震撼的视觉效果。

可以构建现代化的，跨桌面和移动终端的企业应用，无需担忧跨平台兼容性，及触屏手势交互等棘手问题。

常见的非关系型数据库有：1、mongodb；2、cassandra；3、redis；4、hbase；5、neo4j。其中mongodb是非常著名的NoSQL数据库，它是一个面向文档的开源数据库。

常见的几种非关系型数据库：

1、MongoDB

MongoDB是最著名的NoSQL数据库。它是一个面向文档的开源数据库。MongoDB是一个可伸缩和可访问的数据库。它在c++中。MongoDB同样可以用作文件系统。在MongoDB中，JavaScript可以作为查询语言使用。通过使用sharding MongoDB水平伸缩。它在流行的JavaScript框架中非常有用。

人们真的很享受分片、高级文本搜索、gridFS和map-reduce功能。惊人的性能和新特性使这个NoSQL数据库在我们的列表中名列第一。

特点：提供高性能；自动分片；运行在多个服务器上；支持主从复制；数据以JSON样式文档的形式存储；索引文档中的任何字段；由于数据被放置在碎片中，所以它具有自动负载平衡配置；支持正则表达式搜索；在失败的情况下易于管理。

优点：易于安装MongoDB；MongoDB Inc为客户提供专业支持；支持临时查询；高速数据库；无模式数据库；横向扩展数据库；性能非常高。

缺点：不支持连接；数据量大；嵌套文档是有限的；增加不必要的内存使用。

2、Cassandra

Cassandra是Facebook为收件箱搜索开发的。Cassandra是一个用于处理大量结构化数据的分布式数据存储系统。通常，这些数据分布在许多普通服务器上。您还可以添加数据存储容量，使您的服务保持在线，您可以轻松地完成这项任务。由于集群中的所有节点都是相同的，因此不需要处理复杂的配置。

Cassandra是用Java编写的。Cassandra查询语言(CQL)是查询Cassandra数据库的一种类似sql的语言。因此，Cassandra在最佳开源数据库中排名第二。Facebook、Twitter、思科(Cisco)、Rackspace、eBay、Twitter、Netflix等一些最大的公司都在使用Cassandra。

特点：线性可伸缩；；保持快速响应时间；支持原子性、一致性、隔离性和耐久性(ACID)等属性；使用Apache Hadoop支持MapReduce；分配数据的最大灵活性；高度可伸缩；点对点架构。

优点：高度可伸缩；无单点故障；Multi-DC复制；与其他基于JVM的应用程序紧密集成；更适合多数据中心部署、冗余、故障转移和灾难恢复。

缺点：对聚合的有限支持；不可预知的性能；不支持特别查询。

3、Redis

Redis是一个键值存储。此外，它是最著名的键值存储。Redis支持一些c++、PHP、Ruby、Python、Perl、Scala等等。Redis是用C语言编写的。此外，它是根据BSD授权的。

特点：自动故障转移；将其数据库完全保存在内存中；事务；Lua脚本；将数据复制到任意数量的从属服务器；钥匙的寿命有限；LRU驱逐钥匙；支持发布/订阅。

优点：支持多种数据类型；很容易安装；非常快（每秒执行约11万组，每秒执行约81000次）； *** 作都是原子的；多用途工具（在许多用例中使用）。

缺点：不支持连接；存储过程所需的Lua知识；数据集必须很好地适应内存。

4、HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。

HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

5、neo4j

Neo4j被称为原生图数据库，因为它有效地实现了属性图模型，一直到存储层。这意味着数据完全按照白板的方式存储，数据库使用指针导航和遍历图。Neo4j有数据库的社区版和企业版。企业版包括Community Edition必须提供的所有功能，以及额外的企业需求，如备份、集群和故障转移功能。

特点：它支持唯一的约束；Neo4j支持完整的ACID(原子性、一致性、隔离性和持久性)规则；Java API: Cypher API和本机Java API；使用Apache Lucence索引；简单查询语言Neo4j CQL；包含用于执行CQL命令的UI: Neo4j Data Browser。

优点：容易检索其相邻节点或关系细节，无需连接或索引；易于学习Neo4j CQL查询语言命令；不需要复杂的连接来检索数据；非常容易地表示半结构化数据；大型企业实时应用程序的高可用性；简化的调优。

缺点：不支持分片

问题一：脸书靠什么挣钱 facebook, 赚钱, 盈利, 模式, 解析

据说Facebook现在全球注册会员有6000多万，网站流量也排名全球前10了，这样的网站赚钱是不难的，难的是用简单的商业模式持续的赚大钱。无论是Facebook在网站上面搞搞电子商务卖卖商品也好，搞搞网络招聘卖卖人头也好，搞搞游戏卖卖道具也好，都能赚钱，但是这些商业模式有问题：

2、进入特定的分众领域，以Facebook这样的通用SNS网站来说，竞争力根本不及专业的垂直网站，你做电子商务做不过ebay，做网络招聘做不过monster，做网络游戏做不过爆雪，都只能吃点残羹冷炙。而且这种专业领域，你Facebook根本没有积累，你需要花多么大的代价才能摸清楚这里面的水有多深呀。

3、你做这些垂直领域的生意，其实就是和Facebook平台上面的开发商在抢生意，这是一个大忌，会破坏整个Facebook平台的商业生态链条。而这个大忌，校内网正在不遗余力的去犯。

其实在网络广告市场，已经被证明的广告模式只有两种：搜索引擎的关键字广告和媒体网站的媒体广告，也就是Google模式和Yahoo模式，或者说国内的百度模式和新浪模式。前者依靠拍卖广告关键字赚钱，后者依靠网络媒体内容平台传播影响力。

而Facebook的精准广告投放只能依靠CPC（每点击成本）来计费，而我们知道Google的adsense收入是非常可怜的，他的主要广告收入来自竞价排名。Facebook的非UGC特性决定了他是一个没有内容的网站，无法像媒体网站那样卖内容广告，作为一个对比，开放式的SNS网站 MySpace就不同了，他的网站互动产生了巨大的UGC，所以他的广告收入是Facebook的3倍以上。因此光靠广告收入，对于Facebook来说非常的不够。

Facebook现在就是一门心思做平台，不做应用，尽量能开放的数据全部开放出去，不遗余力的培养app开发商，为app开放商创造最好的赚钱途径。Facebook就是一个巨大的网店，而app开发商就是上面免费租赁店面的商家，兜售自己的玩具，吸引用户来玩。app开发商可以去做网络招聘、 app开发商可以去做机票预定、app开发商可以去做电子商务，现在Facebook上面已经有几万个app了，其中真正赚钱的app还不是特别丰富。等到Facebook平台上面有100万个赚钱的app商家的时候，Facebook再面向app商家推出增值服务，你可以想像一下到时候Facebook 赚钱是多么容易的事情。

问题二：facebook靠什么能那么赚钱点击量？谁知道呢

问题三：有没有人在脸书软件赚到钱难不难 30分看你做的是什么主要！总是有人赚到钱！

问题四：谁知道facebook怎么赚钱？facebook盈利模式解析 facebook, 赚钱, 盈利, 模式, 解析

问题五：什么是脸书？怎么登录？ Mark Zuckerberg 马克・扎克伯格

公司: FaceBook 脸谱网

成立日期: 2004年2月4日

资产结构: 由 Peter Thiel and Accel合伙人共同成立

雇员: 32个在帕拉阿图,4个在波士顿

总部: 帕拉阿图

马克・扎克伯格简介：

从外表上看，23岁的美国人马克・扎克伯格和刚刚走出校园的普通年轻人没什么不同。他穿简单的T恤、松垮的牛仔裤、阿迪达斯运动鞋，讲起话来甚至有点腼腆。四年前，扎克伯格还是一名默默无闻的辍学生，而现在他已经成为互联网界炙手可热的人物。作为社区网站Facebook的掌门人，他的身价据说已经超过30亿美元，他也因此成为世界上最年轻的亿万富翁。

“盖茨第二”

扎克伯格的人生就像一个**剧本。他从小就表现出超常的计算机天赋，6年级的时候就开始编程。大学进入众人向往的哈佛，然后又毅然选择退学创业。不到4年的时间，Facebook已经发展成为当今互联网的一个奇迹。目前它的用户数量已经突破6000万，预计今年年底将扩大到2亿，而它的市值估计也已经高达150亿美元。

这个年轻的美国小伙子被人称为“盖茨第二”。的确，他的人生和微软公司创始人比尔・盖茨有着惊人的相似之处。两人都在19 岁开始创业，同样是哈佛大学的辍学生，同样年纪轻轻就赢得世人的尊敬。

1984年5月，扎克伯格出生于纽约的一个富人区。他的父亲是一名牙医，母亲则是一位精神病医师。他是家里唯一的一个儿子，在4个孩子中排行老二。10 岁的时候，他得到第一台电脑，从此开始了一段奇妙的电脑人生。

扎克伯格自学成才，学会了编程。高中的时候，他为一款MP3播放器设计了插件，这个软件可以识别用户的收听习惯，自动创建符合用户口味的播放列表。扎克伯格把这款软件上传到互联网上供人免费下载，他的才华很快得到了一些大公司的赏识，包括美国在线和微软等大公司都向他抛来橄榄枝。但扎克伯格最终决定以学业为重，于是他来到哈佛。

黑客生涯

在哈佛，扎克伯格读的是心理学，不过他仍然痴迷于电脑。在最初的那些日子里，扎克伯格就已经表现出创业者所需要的大胆、自信以及能干的特质。

正是在哈佛的宿舍里，扎克伯格写出了Facebook的网站程序，他甚至还在这里尝试了一下黑客生涯。当时哈佛大学不像其他学校那样提供附有学生照片和基本信息的花名册。扎克伯格想为学校建立一个网络版的花名册，但学校以各种理由拒绝提供相关信息。“我只是想证明这事可以办成，”扎克伯格说。于是这位哈佛大一新生在某个夜里入侵了学校电脑的数据库，获取了里面存储的学生照片。

扎克伯格把这些照片放在他自己设计的网站上，后来这些照片的点击量超过了22万次。校方对他的行为非常不满，给了他一个“留校察看”的处分。扎克伯格最后向他的校友表示道歉，尽管他一直认为自己没错。他说：“我只是认为这些信息应该是公开的。”

“黑客事件”后不久，扎克伯格与他的两个室友莫斯科维茨和休斯一同创建了Facebook网站。他们花了一个星期编写程序，把网站定位为哈佛校友的联系平台。2004年2月，Facebook正式对外推出，它立刻横扫哈佛校园。当月底，就有超过半数的哈佛本科生成为它的注册用户。两个月后，Facebook的影响力已经遍及所有长春藤院校和其他一些学校。截至2004年底，它的注册人数已经突破了100万。

后来扎克伯格选择从哈佛心理学系退学，专心营运Facebook网站。他在2006年接受《福布斯》杂志采访时表示，促使他决定离开哈佛，是比尔・盖>>

问题六：请问求脸书创始人的生平，多谢了原标题：脸书创始人夫妇成去年全美最大慈善家

国际在线报道（记者徐蕾莹）：2013年美国最慷慨的慈善家是谁？美国专业慈善杂志《慈善纪事》给出了答案：社交网站脸书创始人马克・扎克伯格和他妻子捐出了价值将近10亿美元的脸书股票，从而登上了最新的慈善排行榜榜首。

去年，扎克伯格夫妇向硅谷社区基金会捐出了1800万股的脸书公司股票，价值大约97亿美元，折合人民币接近59亿元。这是2013年美国最大的一笔捐款，也使得接受捐款的硅谷社区基金会一跃成为全美规模最大的慈善基金之一。而在《慈善纪事》杂志最新出炉的2013年慈善排行榜中，扎克伯格夫妇也因此登上了榜首。

过去两年中，这对年轻的夫妇一共向硅谷社区基金会捐出了3600万股脸书股票，这些钱将主要投向教育和卫生机构。扎克伯格夫妇不仅是最慷慨的美国人，同时也是慈善排行榜上最年轻的捐款人，一个29岁，一个28岁，两个人都不满30。

和往年相比，新榜单包括了美国去年捐款最多的50个个人或夫妻。榜单上大家比较熟悉的有刚刚卸任的纽约市市长布隆伯格，他在艺术、教育、环保和公共卫生等方面的捐款高达45亿美元；耐克公司董事会主席菲利普・奈特和他的妻子则向癌症研究做出了5亿美元附带条件的捐款承诺。但是比尔・盖茨夫妇这次却并没有上榜，主要原因是这份榜单只计算当年的捐款数额，不得重复计算，而比尔・盖茨夫妇去年的捐款额度此前已经被统计在过往年度的捐款承诺之中。

和往年相比，2013年这份榜单一个最显著的变化就是来自还在世的捐赠者的善款数额有了大幅增长。《慈善纪事》的编辑解读说，这一现象背后的原因是经济逐渐恢复，人们变得更加乐观。

此外，特别值得一提的是，比尔・盖茨夫妇虽然没有出现在去年的慈善排行榜上，但是一直以来他们积极倡议并且身体力行的捐赠活动还是影响到了很多人。2010年，比尔・盖茨夫妇和沃伦・巴菲同发起了一项认捐活动，号召富豪们在生前或死后把自己的一半财产捐给慈善机构。活动发起之后，脸书创始人扎克伯格很快宣布响应号召。而在去年的这份榜单上，有19位个人或是夫妻都已经签字加入了比尔・盖茨发起的这项活动。而自从这项活动发起以来，已经有超过120个最为富有的个人或夫妇宣布加入。

问题七：YouTube和优酷网区别大么靠什么盈利都是视频网站，在内容和形式上区别础大。因为在国外，对内容的限制更少一些。

主要靠网页广告盈利。

最近优酷推出网上影院，也可以盈利。

问题八：如何自己创建公司门面、钱、合作人

漫谈大数据的思想形成与价值维度

清华基于微博分析获得的大数据幸福指数发现人们周六最幸福，相信大家心情不错，因此今天不谈枯燥的技术。关于大数据的思维、理念、方法论已经被反复消费了，本来我想直接进入交互环节，继挺兄还是要求先有一部分规定动作，我就先自d自唱几十分钟，既然是漫谈，也不见得扣题，说到哪里是哪里。各位有问题，我可以择时择机插入讨论。

先说大数据思想的形成吧。自从人类开始文字和数字，数据就开始产生。就数据增长曲线而言，极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。谷歌前CEO埃里克·施密特曾给出了一个有趣的数据：从人类文明曙光初现到2003年一共产生的数据，只相当于2010年两天产生的数据量。而一旦越过拐点，“大数据摩尔定律”的滚滚铁轮下，指数效应爆发：最近两年产生的数据量相当于之前产生的全部数据量。

在漫长的数据蓄水过程中，数学和统计学逐渐发展，人们开始注意对数据的量化分析，在人类进入信息时代以前这样的例子就不胜枚举。比如经济上，黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事，“向林彪学习数据挖掘”的桥段不论真假，其背后量化分析的思想无疑有其现实基础，而这一基础甚至可以回推到2000多年前，孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。

到上世纪50-60年代，磁带取代穿孔卡片机，启动了数据存储的革命。磁盘驱动器随即发明，它带来的最大想象空间并不是容量，而是随机读写的能力，这一下子解放了数据工作者的思维模式，开始数据的非线性表达和管理。数据库应运而生，从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用)，到网状数据库，再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS)，80年代演变到商业智能(BI)和数据仓库，开辟了数据分析——也就是为数据赋予意义——的道路。

那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的，第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个：一是基于retaillink的供应链优化，把数据与供应商共享，指导它们的产品设计、生产、定价、配送、营销等整个流程，同时供应商可以优化库存、及时补货;二是购物篮分析，也就是常说的啤酒加尿布。关于啤酒加尿布，几乎所有的营销书都言之凿凿，我告诉大家，是Teradata的一个经理编的，人类历史上从没有发生过，但是，先教育市场，再收获市场，它是有功的。

仅次于沃尔玛的乐购(Tesco)，强在客户关系管理(CRM)，细分客户群，分析其行为和意图，做精准营销。

这些都发生在90年代。00年代时，科研产生了大量的数据，如天文观测、粒子碰撞，数据库大拿吉姆·格雷等提出了第四范式，是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔)，理论(牛顿被苹果砸出灵感，形成经典物理学定律)，模拟(粒子加速太贵，核试验太脏，于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的，开普勒根据前人对行星位置的观测数据拟合出椭圆轨道，就是数据方法。但是到90年代的时候，科研数据实在太多了，数据探索成为显学。在现今的学科里，有一对孪生兄弟，计算XX学和XX信息学，前者是模拟/计算范式，后者是数据范式，如计算生物学和生物信息学。有时候计算XX学包含了数据范式，如计算社会学、计算广告学。

2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》，引起轩然大波。他主要的观点是有了数据，就不要模型了，或者很难获得具有可解释性的模型，那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。

首先，我们在观察客观世界中采集了三个点的数据，根据这些数据，可以对客观世界有个理论假设，用一个简化的模型来表示，比如说三角形。可以有更多的模型，如四边形，五边形。随着观察的深入，又采集了两个点，这时发现三角形、四边形的模型都是错的，于是确定模型为五边形，这个模型反映的世界就在那个五边形里，殊不知真正的时间是圆形。

大数据时代的问题是数据是如此的多、杂，已经无法用简单、可解释的模型来表达，这样，数据本身成了模型，严格地说，数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子，统一的统计学模型取代了各种语言的理论/模型(如语法)，能从英文翻译到法文，就能从瑞典文翻译到中文，只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题，以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。

当然，科学界不认同《理论的终结》，认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据，机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型，知识疆域的上限就是机器线性增长的计算力，它不能扩展到新的空间。在人类历史上，每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。

2010年左右，大数据的浪潮卷起，这些争论迅速被淹没了。看谷歌趋势，”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家，一家是IDC，每年给EMC做digitaluniverse的报告，上升到泽字节范畴(给大家个概念，现在硬盘是太字节，1000太=1拍，阿里、Facebook的数据是几百拍字节，1000拍=1艾，百度是个位数艾字节，谷歌是两位数艾字节，1000艾=1泽);一家是麦肯锡，发布《大数据：创新、竞争和生产力的下一个前沿》;一家是《经济学人》，其中的重要写手是跟老舍同著《大数据时代》的肯尼思库克耶;还有一家是Gartner，杜撰了3V(大、杂、快)，其实这3V在2001年就已经被编出来了，只不过在大数据语境里有了全新的诠释。

咱们国内，欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。

2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维，现在已经被奉为圭臬，但千万别当作放之四海而皆准的真理了。

比如要数据全集不要采样。现实地讲，1没有全集数据，数据都在孤岛里;2全集太贵，鉴于大数据信息密度低，是贫矿，投入产出比不见得好;3宏观分析中采样还是有用的，盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4采样要有随机性、代表性，采访火车上的民工得出都买到票的结论不是好采样，现在只做固定电话采样调查也不行了(移动电话是大头)，在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5采样的缺点是有百分之几的偏差，更会丢失黑天鹅的信号，因此在全集数据存在且可分析的前提下，全量是首选。全量>好的采样>不均匀的大量。

再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的，但不等于喜欢混杂性。数据清洗比以前更重要，数据失去辨识度、失去有效性，就该扔了。老舍引用谷歌PeterNovig的结论，少数高质量数据+复杂算法被大量低质量数据+简单算法打败，来证明这一思维。Peter的研究是Web文本分析，确实成立。但谷歌的深度学习已经证明这个不完全对，对于信息维度丰富的语音、数据，需要大量数据+复杂模型。

最后是要相关性不要因果性。对于大批量的小决策，相关性是有用的，如亚马逊的个性化推荐;而对于小批量的大决策，因果性依然重要。就如中药，只到达了相关性这一步，但它没有可解释性，无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后，要做随机对照试验，把所有可能导致“治愈的果”的干扰因素排除，获得因果性和可解释性。在商业决策上也是一样，相关性只是开始，它取代了拍脑袋、直觉获得的假设，而后面验证因果性的过程仍然重要。

把大数据的一些分析结果落实在相关性上也是伦理的需要，动机不代表行为。预测性分析也一样，不然警察会预测人犯罪，保险公司会预测人生病，社会很麻烦。大数据算法极大影响了我们的生活，有时候会觉得挺悲哀的，是算法觉得了你贷不贷得到款，谷歌每调整一次算法，很多在线商业就会受到影响，因为被排到后面去了。

下面时间不多了，关于价值维度，我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外，还有数据本身的价值化。这一点不赘述了，引用马云的话吧，“信息的出发点是我认为我比别人聪明，数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人，而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么价值这个V怎么映射到其他3V和时空象限中

再贴上解释。“见微”与“知著”在Volume的空间维度。小数据见微，作个人刻画，我曾用《一代宗师》中“见自己”形容之;大数据知著，反映自然和群体的特征和趋势，我以“见天地、见众生”比喻之。“著”推动“微”(如把人群细分为buckets)，又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“著”又反映了时间维度，数据刚产生时个人价值最大，随着时间decay最后退化为以集合价值为主。

“当下”和“皆明”在Velocity的时间维度。当下在时间原点，是闪念之间的实时智慧，结合过往(负轴)、预测未来(正轴)，可以皆明，即获得perpetual智慧。《西游记》里形容真假孙悟空，一个是“知天时、通变化”，一个是“知前后、万物皆明”，正好对应。为达到皆明，需要全量分析、预测分析和处方式分析(prescriptiveanalytics，为让设定的未来发生，需要采取什么样的行动)。

“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据，辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界，从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。

先看知著，对宏观现象规律的研究早已有之，大数据的知著有两个新特点，一是从采样到全量，比如央视去年“你幸福吗”的调查，是街头的采样，前不久《中国经济生活大调查》关于幸福城市排名的结论，是基于10万份问卷(17个问题)的采样，而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与)，是基于新浪微博数据的全集(托老王的福)，这些数据是人们的自然表达(而不是面对问卷时的被动应对)，同时又有上下文语境，因此更真实、也更有解释性。北上广不幸福，是因为空气还是房价或教育，在微博上更容易传播的积极情绪还是消极情绪，数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”，是过头话，采样和传统的统计分析方法对数据分布采用一些简化的模型，这些模型把异常和长尾忽略了，全量的分析可以看到黑天鹅的身影，听到长尾的声音。

另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学，已经有一批数学家、物理学家成了经济学家、宽客，现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子，它通过几十万用户的数据，主要是反映投资活跃程度和投资收益水平的指标，建立一个量化模型来推知整体投资景气度。

再看见微，我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体，进入到微观和抽象，这时大数据就很重要了。我们更关注社会科学，那是先微观、具体，再宏观、抽象，许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和，我们原来看到是一张抽象派的画，看不懂，通过客户细分慢慢可以形成一张大致看得懂的现实图景，不过是马赛克的，再通过微分、甚至定位个人，形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念)，最简单的是高收入、低收入这类反映背景的，再有就是反映行为和生活方式的，如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇，Nobodywantstobenobodytoday。

了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上，就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼，东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角)，他还要更细分，摇摆州每一个郡每一个年龄段每一个时间段在看什么电视，摇摆州(俄亥俄)1%选民随时间变化的投票倾向，摇摆选民在Reddit上还是Facebook上，都在其掌握之中。

对于企业来说，要从以产品为中心，转到以客户(买单者)甚至用户(使用者)为中心，从关注用户背景到关注其行为、意图和意向，从关注交易形成转到关注每一个交互点/触点，用户是从什么路径发现我的产品的，决定之前又做了什么，买了以后又有什么反馈，是通过网页、还是QQ、微博或是微信。

再讲第三个，当下。时间是金钱，股票交易就是快鱼吃慢鱼，用免费股票交易软件有几秒的延迟，而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命，美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警，已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮，而是结帐完的小票，真正有价值的是当顾客还拎着购物篮，在浏览、试用、选择商品的时候，在每一个触点影响他/她的选择。数据价值具有半衰期，最新鲜的时候个性化价值最大，渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几，原来10年一次的人口普查就是刻舟求剑，而现在东莞一出事百度迁徙图就反映出来了。当然，当下并不一定是完全准确的，其实如果没有更多、更久的数据，匆忙对百度迁徙图解读是可能陷入误区的。

第四个，皆明。时间有限，就简单说了。就是从放马后炮到料事如神(predictiveanalytics)，从料事如神到运筹帷幄(prescriptiveanalytics)，只知道有东风是预测分析，确定要借箭的目标、并给出处方利用草船来借，就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户，需要处方性分析。

辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子，我们的GPS有几十米的误差，但与地图数据结合就能做到精确，GPS在城市的高楼中没有信号，可以与惯性导航结合。

晓意涉及到大数据下的机器智能，是个大问题，也不展开了。贴一段我的文章：有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献，它在大数据背景下出现了传播的误区：一、它其实不是大数据，而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来，奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是，在运用数量化工具的同时，比恩也增加了球探的费用，军功章里有机器的一半，也有人的一半，因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录，以及机器学习(尤其是深度学习)晓意能力的增强，可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画，当这些应用于人力资源，已经或多或少体现了球探承担的作用。

以上是小编为大家分享的关于漫谈大数据的思想形成与价值维度的相关内容，更多信息可以关注环球青藤分享更多干货

问题一：什么是脸书？怎么登录？ Mark Zuckerberg 马克・扎克伯格

公司: FaceBook 脸谱网

成立日期: 2004年2月4日

资产结构: 由 Peter Thiel and Accel合伙人共同成立

雇员: 32个在帕拉阿图,4个在波士顿

总部: 帕拉阿图

马克・扎克伯格简介：

“盖茨第二”

黑客生涯

在哈佛，扎克伯格读的是心理学，不过他仍然痴迷于电脑。在最初的那些日子里，扎克伯格就已经表现出创业者所需要的大胆、自信以及能干的特质。

后来扎克伯格选择从哈佛心理学系退学，专心营运Facebook网站。他在2006年接受《福布斯》杂志采访时表示，促使他决定离开哈佛，是比尔・盖>>

问题二：脸书是什么 Facebook是美国的一个社交网络服务网站，于2004年2月4日上线,于2012年3月6日发布Windows版的桌面聊天软件Facebook Messenger 。主要创始人为美国人马克・扎克伯格。Facebook是世界排名领先的照片分享站点，截至2013年11月每天上传约35亿张照片。

问题三：什么是脸书？脸书又是什么？你是说facebook吧，那是脸谱，不是脸书

问题四：脸书是什么呀，有人来科普吗首先，已经发私信了，用那个可以上脸书。它国外的一个社交网站，目前在中国不能直接访问

问题五：中国大陆屏蔽了脸书，但是对其创始人扎克伯格却不禁止，为什么？人家到中国来是用美国卡上网的啊

问题六：脸书创始人扎克伯格多大年纪扎克伯格

出生日期：1984年05月14日，32岁，现在国内登陆脸书是需要安装君越的客户端才可以的哦。

问题七：脸书创始人扎克伯格自己写了face book的软件完之后，是怎么创立公司的？ 10分英文：Facebook 中文：脸谱（“脸书”为港台地区叫法）、“非死不可” 创始人：马克・扎克伯格（Mark Zuckerberg）公司: FaceBook 成立日期: 2004年2月4日资产结构: 由 Peter Thiel and Accel合伙人共同成立总部: 加利福尼亚州的帕拉阿图雇员分布: 32个在帕拉阿图，4个在波士顿

概述

Facebook是一个社会化网络站点。它于2004年2月4日上线。 Facebook的创始人是Mark Zuckerberg，他是哈佛大学的学生，之前毕业于Asdsley高中。最初，网站的注册仅限于哈佛学院的学生。在之后的两个月内，注册扩展到波士顿地区的其他高校，波士顿学院 Boston College、波士顿大学 Boston University、麻省理工学院 MIT、特福茨大学 Tufts,,以及罗切斯特大学 Rochester、斯坦福 Stanford、纽约大学 NYU、西北大学和所有的长春藤名校。第二年，很多其他学校也被加入进来。最终，在全球范围内有一个大学后缀电子邮箱的人，如 edu，ac，uk等都可以注册。之后，在Facebook中也可以建立起高中和公司的社会化网络。而从2006年9月11日起，任何用户输入有效电子邮件地址和自己的年龄段，即可加入。用户可以选择加入一个或多个网络，比如中学的、公司的、或地区的。据2007年7月数据，Facebook在所有以服务于大学生为主要业务的网站中，拥有最多的用户：三千四百万活跃用户，包括在非大学网络中的用户。从2006年9月到2007年9月间，该网站在全美网站中的排名由第60名上升至第7名。同时Facebook是美国排名第一的照片分享站点，每天上载八百五十万张照片。

名称由来

网站的名字Facebook来自传统的纸质“花名册”。通常美国的大学和预科学校把这种印有学校社区所有成员的“花名册”发放给新来的学生和教职员工，帮助大家认识学校的其他成员。

创始人: Mark Zuckerberg 马克・扎克伯格创始人

公司:FaceBook 脸谱网成立日期: 2004年2月4日资产结构: 由 Peter Thiel and Accel合伙人共同成立雇员: 32个在帕拉阿图，4个在波士顿总部: 帕拉阿图

简介

从外表上看，26岁的美国人马克・扎克伯格和刚刚走出校园的普通年轻人没什么不同。他穿简单的T恤、松垮的牛仔裤、阿迪达斯运动鞋，讲起话来甚至有点腼腆。四年前，扎克伯格还是一名默默无闻的辍学生，而现在他已经成为互联网界的风云人物。作为社区网站Facebook的掌门人，《福布斯》日前评选出十位最年轻的亿万富翁，26岁的马克-扎克伯格以69亿美元的身价排在首位，他也因此成为世界上最年轻的亿万富翁。

学习Java应该了解的大数据和框架

发表评论

评论列表（0条）