大数据库和人工智能有什么关系吗？_sql

人工智能里面有一部分算法是需要数据的，首先要进去数据，然后才能学习。

比如一个大数据库叫ImageNet，有十几亿张图片，用了这么大量的图片，我们才能训练我们的深度神经网络去做图片中猫猫、狗狗、车辆的识别。

如果没有这些海量的数据，很多机器学习算法是不能用的，像我们现在看视频网站它是面向百亿特征，千亿参数，万亿样本，你没有万亿样本就支撑不了百亿特征，你可能要有一个亿的样本才有可能支撑百万特征，而且深度学习是需要海量特征做特征工程的，所以这个时候大数据实际是很多机器学习算法得以能够发展的基础，但是发展到一定程度，有些算法它又突然脱离数据了，比如说我们做增强学习，像早期的阿法狗(AlphaGo)，它学了几十万专业棋手之间的对局，它是大师，那它就下得很好，后来的阿法Zero(Alpha Zero)，它是自己和自己下棋，反正有规则，所以它的数据实际不是真的数据，是生成出来的，它没有用真实数据，但是它用了增强学习，所以说它最后下得比阿法狗还强。

大数据和人工智能一直是炒作和讨论的热点，但具体什么是大数据？怎么样才算机器有了智能？是不是数据量大了就是大数据？根据预定好的规则生成特定的结果就是智能了？

所谓机器智能通俗讲就是机器（更多时候指计算机）能够做只有人才能做的事。如何判断一个机器有智能呢？1950年图灵博士提出了测试的方法，即图灵测试-----让机器和人同时隐藏起来回答问题，若提问者分辨不出是机器在回答还是人在回答，那么机器就有了智能。

沿着图灵测试，计算机科学家们认为如果计算机能做下面的几件事，就算有了智能：

1.语音识别：这就好像人能够听懂语言

2.机器翻译：这就好像人能够看懂文字

3.文本的自动摘要或写作：这就好像只有人才懂得抓重点和组合出有意义的段落、文章

4.战胜人类的国际象棋冠军：但其实象棋这种封闭式规则的事情，计算机能够比人更胜任是很正常的。因为计算机可以快速计算和判断最好的走法且不受情绪等环境的影响。所以个人不认为这个能代表计算机有了智能

5.自动回答问题：这就好像人可以理解语言并根据理解给出答案

一直以来，科学家们在让机器有智能上，更多的努力放在怎么样让机器跟人一样的思考，史称机器智能1.0鸟飞派（传统机器智能方法）----让机器像人一样的思考来获得智能。但是收效并不客观，经过20几年的发展，这种方法遇到了很大瓶颈。

直到1970贾里尼克用通信的思路解决这个问题：建立数学模型，并通过机器学习不断训练模型。至此开创了数据驱动的方法来解决智能的问题。贾里尼克开创的采用统计方法的语音识别系统较传统的语音识别方法识别率从70%提高到了90%，使得语音识别从实验室的研究走向了实际的应用。

那么传统的方法和贾里尼克的方法分别是如何实现语音识别的呢？

传统的方法是：整理语法与语义形成规则，当一句话输入时，计算机就根据语法和语义去匹配来识别语音。这就好像我们学英语，要懂得读音、单词的意义、语法，才能懂得一句话。

贾里尼克的方法是：用马尔科夫模型来描述信源和信道，模型中有很多参数，然后用数据来训练最佳的参数取值，最后得到最佳的效果（具体参数是什么？是怎样训练的？训练后怎样转换等涉及的知识很多，不详述）。

可以看到，数据驱动的方法完全抛弃了传统基于像人一样的做法，完全依赖于模型和对模型的训练（训练模型的过程就是机器学习的过程）。

从上文可以看到，数据驱动实现智能的方法对机器学习的依赖，而机器学习效果的好坏依赖于可供学习的数据。

虽然贾里尼克开创了新的实现智能的方法，但是在很多领域，由于积累的数据量不足以支撑训练的需要，因此机器智能的发展并没有很大的提高。比如机器翻译，直到20世纪90年代互联网的兴起，准确性才不断提高，这是因为互联网积累了大量的可供训练的翻译数据，使得可以不断通过机器学习修正模型。

大数据促进机器智能的发展是因为大数据多维度、完备的特征。多维度、完备的数据，可以让计算机学习到所有情况，进而处理问题时，可以处理所有场景。比如机器翻译，大数据包含了所有可能的语句翻译，这让计算机可以学习到所有可能的翻译情况，当需要翻译的时候，只要将结果匹配出来就可以了。

说起大数据，大家都知道它的3v特征：vast、variety、velocity

首先理解后面两个特征：

1.variety：多样：多样性指的是数据包含了不同的方面。比如描述一个人的数据，多样性意味着，能描述这个人从长相、生活、精神等等各个方面。有了不同的方面，意味着可以将数据抽象成不同的维度，然后把不同的维度随意组合联系起来，这样就可以得到单个角度看得不到的结果。

2.velocity：完备：完备性指的是数据覆盖了全部的可能性。而不像统计学上只能通过样本来预测全部，大数据本身就是全集。

有了前两个特征就不难理解vast大量的特征了：覆盖所有维度、包含全部可能性的数据集合起来当然数据量就很大了。

这三个特点对大数据可以说是缺一不可，缺少任何一个，都无法发挥大数据的威力，也无法让大数据促进机器智能的实现。

1.数据的产生：1.全球数字化程度不断提高，使得很多数据实现了电子化（比如纸质的办公转为电脑办公）；数字化使得各种信息系统不断被开发使用和复杂程度越来越高，系统的运行无时无刻不在产生数据。2.传感器技术的大量应用和普及，包括商品上的rfid芯片、交通传感器、穿戴设备等。3.将非数字化的内容数字化，如将纸质书籍转换成电子书。4.互联网2.0的发展使得每个人每天都在产生数据，发的朋友圈、文章、评论等。

2.数据的存储：数据的产生渠道越来越多，数据量也就越来越大，摩尔定律指导下的半导体产业的发展使得存储器的容量不断增长、价格不断降低，这使得将这么多的数据存储可以以低成本存储下来。

3.数据的读取：如果把大量的数据存储下来，但是计算机的处理（单说输入输出）速度跟不上，也无法使用这些数据，固态硬盘容量变大、成本降低使得使用这么多数据成为可能。

4.数据的传输：数据从各个产生端（如传感器）生成后，如何传输到存储器（如服务器）上存储起来，第四代lte和WiFi的发展使得传输不再是问题。

5.数据的处理：如何分析使用这么大量的数据，就需要处理能力很高的处理器，虽然处理器的性能遵循摩尔定律，每18个月翻一番，但数据产生的速度远远超过处理器性能的提升。因此无法用单一处理器处理大数据。并行计算技术的出现解决了这一问题（但并行技术本身又受到交换机、网络速度等条件的限制，2002年Google等公司在解决这些问题上取的了很大进展，使得云计算开始兴起）

数据产生、存储、处理技术的进步和发展，使得使用大数据成为可能，当条件成熟时，大数据自然而然就出现和发展起来了。

是不是有了大数据就能毫无问题地实现机器智能了？显然要实现机器智能，要有完备的数据、要能够处理完备的数据。虽然数据存储、处理的技术在不断发展，但是在实际应用的过程中，仍然还有很大的局限性，这些技术条件是不可逾越的条件：

1.大数据的收集：关键在于如何获得完备、多样的全集数据？尤其是一些不常见场景的数据如何获取到？

2.数据存储：关键在于数据量的增长大于存储器的增长、以及用什么样的结构存储才便于读取和使用？（那么多的维度如何抽象呢？如何检索呢？）

3.数据共享：大数据的完备性，使得单独的公司很难收集到所有的数据，这就要求将不同公司收集的数据集合起来使用（比如从事电商的公司有购买方面的数据、从事出行方面的公司有出行方面的数据，但没有一个公司能够同时收集到这两方面的数据）。不同的公司存储、使用数据的方式不一致，当要集合起来的时候如何统一数据格式来实现共享和共用呢？

4.并行计算：一些特殊的场景无法并行计算，这导致整个计算的最终结果需要等待特殊情况的处理；不同计算器的计算效率不同，整个任务处理由最慢的计算结果决定；因此并行计算并不是只是多加服务器那么简单，还需要优化数据的存储结构和整个计算的算法过程。

5.数据挖掘：杂乱超大量的数据无法直接使用，需要先进行清洗和格式化处理，当数据量达到一定量级时，这一步变得并不容易；尤其是噪声高时，清洗处理的结果直接影响了应用的有效性；数据量大、学习模型复杂，使得机器学习的过程变得很漫长，对并行计算的要求也越高。

所以，当再次听到AI、大数据的时候，是不是就能够判断是真智能还是假智能,是真大数据还是假大数据了。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9233611.html

大数据库和人工智能有什么关系吗？

发表评论

评论列表（0条）