piecewise_生活百科

piecewise 机器学习、数据科学、人工智能、深度学习和统计学之间的区别是什么？

»什么是人工智能？它和神经网络、机器学习、深度学习、数据挖掘这类热门词汇有什么关系？撇开复杂的概念和高冷的定义，一图看懂人工智能相关领域的错综复杂的关系。

»由图可见，人工智能、机器学习、深度学习并非是层层包含的关系，而最近火热的神经网络也只是与人工智能有交叉而非人工智能的实现方式或者子集。

»在谷歌趋势上搜索人工智能、大数据、机器学习、深度学习的中英文可以比对不同的关注走向。

»人工智能和大数据此消彼长，早在2004年人工智能就受到中英文领域的双重关注。

在2006-2007年人工智能中文搜索开始下降，大数据的概念开始火过于人工智能。

»在英文搜索领域，大数据的浪潮直到2012年后才开始超过中文领域。

»深度学习在中文领域的搜索热度，一度在2009年和人工智能齐平。

相反在英文领域，深度学习的搜索关注度直到2013年后才开始逐步提升。

尽管“人工智能”、“机器学习”、“深度学习”、“神经网络”、“数据挖掘”，一系列技术词汇堆起了高高的壁垒，看似把普通民众拒之门外，但拥有海量用户的今日头条推出的首份《人工智能影响力报告》显示，中国国民的AI信心指数还是相当高。

AI信心指数是由头条指数和用户问卷调查数据相结合，从AI概念普及度，AI产品/服务的使用普及度，对AI未来发展的期望度等三个维度做出判断——2017年，中国国民的AI信心指数为83。

AI信心指数也是头条指数旗下的第一个行业指数。

不同于微信指数、百度指数和微指数等以天为更新频率的指数产品，头条指数基于今日头条智能分发和机器推荐所产生的海量内容，可以追踪当天的数据，并以小时级更新。

负责头条指数的头条算数中心未来还将推出一系列行业指数。

作为一家正在用人工智能重新定义人类社会连接人与信息的方式的科技公司，今日头条推出《人工智能影响力报告》，旨在记录本轮人工智能浪潮下，国民心中对AI的期盼与恐惧，以及人工智能时代最有影响力的公司、科学家和应用。

数据科学是个广义的学科, Analytics data scientist(Type A)和Builder data scientist(Type B)有所不同，Type A Data Scientists在工作中遇到数据相关时可以写出不错的代码，但是并不必须是专家，这类data scientist可能专业是实验设计、预测、建模、统计推断或者其他统计学研究的典型部分。

但是一般而言，数据科学家的工作产出可不是学术统计学有时候建议的那样“p-values and confidence intervals”(正如有时候传统的药物领域统计学家会用到那样)。

在Google，Type A Data Scientists通常指统计学家、定量分析师、决策支持技术分析师或者数据科学家，可能还有其他的一些。

Type B Data Scientists是building data的。

B类和A类有些相同的统计学背景，但他们还是更好的coders，可能有专业的软件工程的训练。

他们主要对在产品中使用数据感兴趣，他们建立与用户交互的模型，通常是提供推荐的(产品、可能认识的人、广告电影、搜索结果之类)。

1.机器学习 vs 深度学习在深度探讨machine learning和data science的联系之前，这里简要地讨论一下machine learning 和deep learning。

machine learning是一套算法，来训练数据集做预测或者采取行动以使得系统最优化。

举例来说，supervised classification algorithms被用来根据历史数据将想要贷款的客户分成预期好的和预期差的(good or bad prospects)。

对于给定的任务(比如监督聚类)，需要的技术多种多样：naive Bayes、SVM、neural nets、ensembles、association rules、decision trees、logistic regression，或者是很多技术的组合。

所有这些都是数据科学的子集。

当这些算法自动化后，比如无人驾驶飞机或者无人驾驶汽车，这就叫AI了，或者说的具体一点，deep learning。

如果采集的数据来自传感器并且通过互联网传播，那么这就是机器学习或数据科学或深度学习应用于物联网了。

有些人对深度学习有不同的定义，他们认为深度学习是更深层次的神经网络(一种机器学习的技术)。

AI(Artificial Intelligence)是创建于20世纪60年代的计算机科学的一个子领域，是关于解决那些对人类来讲非常容易但是对计算机而言很难的任务。

值得一提的是，所谓的strong AI可能可以做所有人类可以做的事情(可能除了纯粹的物理问题)。

这是相当广泛的，包括各种各样的事情，比如做计划，在世界上到处溜达，识别物体和声音，说话，翻译，社交或者商业交易，还有创造性工作(比如写诗画画)等等。

NLP(Natural language processing)只是AI要处理的语言部分，尤其是写。

Machine learning是这样的一种情况：给出一些可以被以离散形式描述的AI问题(比如从一系列动作中选出对的那个)，然后给定一堆外部世界的信息，在不需要程序员手动写程序的情况下选出那个“正确的”行为。

通常情况需要借助外界的一些过程来判断这个动作对不对。

在数学上，这就是函数：你给一些输入，然后你想要他处理一下得到正确的输出，所以整个问题就简化为用一些自动的方式建立这种数学函数模型。

和AI区分一下：如果我写了一段特别机智的程序有着人类的行为，那这就可以是AI，但是除非它的参量都是自动从数据中学会的，否则就不是机器学习。

Deep learning是当下非常流行的机器学习的一种。

它包含一种特殊的数学模型，可以想成是一种特定类型的简单块的组合(或者说是块的功能的组合)，这些块可以进行调整来更好的预测最终结果。

2. Data Science VS Machine Learning机器学习和统计学都是数据科学的一部分。

Learning这个词在machine learning里意味着依赖于某些数据的算法，被用作一种训练模式集来调整一些模型或者算法参数。

这包含很多技术，比如回归、朴素贝叶斯或者监督聚类。

但不是所有的技术都适合这个分类。

比如，非监督聚类——一种统计学和数据科学的方法——旨在不依靠任何先验知识和训练集监测聚类或聚类结构来帮助分类算法。

需要有人来标注被发现的聚类。

有些技术是混合的，比如半监督分类。

有些模式侦查或者密度评估技术适合这个分类。

然而数据科学比机器学习范围大得多。

数据科学里“data”，可能是也可能不是来自机器或者机械过程的(调查结果可能是人工采集的，临床试验需要一种特殊类型的small data等)，而且可能和上面提到的”learning”一点关系也没有。

但是主要的不同还是因为数据科学实际上涵盖了整个数据处理的范围，而不只是算法或者统计学方面。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/bake/4356787.html

piecewise

发表评论

评论列表（0条）