比如一个大数据库叫ImageNet,有十几亿张图片,用了这么大量的图片,我们才能训练我们的深度神经网络去做图片中猫猫、狗狗、车辆的识别。
如果没有这些海量的数据,很多机器学习算法是不能用的,像我们现在看视频网站它是面向百亿特征,千亿参数,万亿样本,你没有万亿样本就支撑不了百亿特征,你可能要有一个亿的样本才有可能支撑百万特征,而且深度学习是需要海量特征做特征工程的,所以这个时候大数据实际是很多机器学习算法得以能够发展的基础,但是发展到一定程度,有些算法它又突然脱离数据了,比如说我们做增强学习,像早期的阿法狗(AlphaGo),它学了几十万专业棋手之间的对局,它是大师,那它就下得很好,后来的阿法Zero(Alpha Zero),它是自己和自己下棋,反正有规则,所以它的数据实际不是真的数据,是生成出来的,它没有用真实数据,但是它用了增强学习,所以说它最后下得比阿法狗还强。
基本不会。AI最重要的是算法,可以用任何语言实现,但考虑到效率问题,目前核心算法都是c/c++实现的,外围则用哪种语言的都有。至于数据库,看你用到什么规模,一般学术实验型的基本不用数据库,各种形式的数据都有;大公司的一般是类似hadoop之类的架构(因为数据太大了,目前流行的关系型数据库处理起来很吃力)。
AI可以帮助数据库进行调优;
利用NLP将自然语言翻译成数据库语言,在用户端可以不用遵循数据库语言就可实现查询;
利用AI进行查询优化;
数据挖掘。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)