在去年锤子手机的发布会上,科大讯飞的语音输入法受到了强烈关注。从2010年到2016年,在受到追捧之前,它是如何从一个想法“默默无闻”到拥有4亿用户的?这个产品是怎么从0到1,再从1到10的?
和汕头姐一起看这篇文章。9分钟后,你就知道后面是什么了。
来源:汕头商学院
导师/翟继波,讯飞输入法创始人,科大讯飞产品总监。
我先说一下整个产品的来历。任何产品从0到1,从0到0.1的阶段都是一个非常重要的过程。在这个过程中,每个产品都有自己的故事。科大讯飞的故事要从2010年说起。
2010年6月,苹果iPhone4发布。苹果的前几代智能机其实都有不错的市场反响,只是真的没有在空之前得到轰动和关注,直到iPhone4。
我就是从那时候开始关注这个产品的,也由此引发了我和leader的讨论。
对于iPhone4,我们尝试从产品和用户的角度做了一些探讨。iPhone4本身就是一款非常震撼的产品。作为一款智能手机,无论是外观还是用户体验都非常优秀。当时我最关心的就是输入交互的问题。
在iPhone4的纯触屏产品上,它的输入是虚拟的纯键盘输入。以前的手机输入大多是用实体硬键盘或者带电阻屏的手写笔。过渡到电容屏和小键盘后会有一些问题。
一方面是用起来不习惯,另一方面效率会打折扣。主要是因为它的屏幕太小,整个触摸屏的触感很难和实体键盘相比。
我们对输入进行了不同的讨论。除了电脑上的物理键盘,或者手机上的物理或虚拟键盘,有没有新的更好的输入法?接下来,我们认为更可实现的方式是语音输入。其实早在PC时代IBM的产品上就出现了语音输入,但是手机端还没有这种产品,电脑端的语音输入也没有真正普及。
我们认为手机上的语音输入应该比电脑上有更好的实现条件。主要原因是键盘和鼠标是电脑交互的主要部分,而手机既没有键盘也没有鼠标。它的传感器主要是屏幕,无论是触摸屏、麦克风还是陀螺仪,在电脑端传感器更丰富。
于是,从技术思维上思考了手机的输入问题后,开始思考如何实现。我花了3天时间做了一个简单的演示,实际上包含了传统的拼音输入和手写输入。但最重要的是,这个Demo是首次在手机上实现基于讯飞语音识别技术的语音输入。
当时我把这个Demo给上级看的时候,大概只是出于技术思维,不想把它做成具体的产品。而且我的上级说这个事情需要好好分析一下行情,看是否需要继续。
所以确实有机会认真深入的分析一下这个市场。之后准备了一个语音输入法的项目,在公司很快就通过了。我们组织了一个四五个人的团队,我们用了三个月左右的时间,封闭式的开发。2010年10月底,第一页出版。
以上是讯飞输入法的诞生过程。纵观整个产品的发展,我们其实更多的是从一个工具产品的角度来衡量,希望市场上有更多的用户使用。
2010年的讯飞输入法其实是一个新产品。
1.选择一个合适的有发展潜力的市场。
当时我们选择的突破点是智能手机这个大市场。更具体的说,整个行业的趋势是,像Android、iPhone这样的智能设备和平台会有一个明显的爆发趋势。我们最早的版本也是设定在Android平台。
2.与公司的技术背景密切相关。
我们选择这个输入方向,也和我们公司的技术背景密切相关。从手机等智能设备变化时关注的角度可以看出。我们本质上是一家从事人工智能和人机交互技术的公司。我们过去在语音合成中所做的就是让机器听起来像人。
所以从智能设备的演进过程来看,是从大型机到小型机到PC,从传统手机到智能手机。如果从人机交互的角度来看,不同的设备形态其实是在交互中变化的。
3.手机更适合语音交互和触摸交互。
比如键盘鼠标交互为主。在手机上,尤其是iPhone、Android等智能手机上,以触摸交互为主。
在手机上,语音交互的比例比电脑上多。因为我们天生就有在手机上交流的需求,这部分语音,尤其是录音,比电脑占的比重要大很多。而且从整个趋势来看,可以看出人在学习和适应机器的交互。在未来,机器会越来越多地了解人类的互动。
我们知道,人与人之间最自然的交流方式是通过手势和声音,而像键盘和鼠标这样的人需要适应和学习机器。所以我们坚信未来的趋势会是越来越自然的交互,特别是像语音交互,可能还包括图像和手势。
所以,我们在手机上首先看到的是交互方式的变化。其实这种交互方式的改变还有一个问题。我们在手机上的交互可以分为两个部分,一个是我们如何控制它,一个是输入部分,输入部分是我们将信息以文字或者图像的形式输入到设备中。
手机上的输入会和电脑上有很大的不同。因为从本质上来说,我们的输入追求的首先是一个效率问题,其次是一个简单方便的问题。
我们认为电脑上的键盘和拼音可以很好的解决这两个问题。首先,它足够高效;其次,相对于汉语,拼音其实是一种实用、简单、方便的方式。但是在手机上会有所改变,因为这种在手机屏幕上的输入几乎没有在电脑上双手打字的效率高。
再加上手机屏幕本身面积有限,所以从 *** 作的便利性来说,对设计是一个很大的挑战。
所以我们当时判断,除了传统的以虚拟键盘的形式把键盘搬到手机上的方式,其实还可以有一种新的形式。比如手写输入,手机上的手写输入,我们觉得够简单了。但是,它的问题在于效率。
有没有既高效又简单的?我们认为语音输入符合这个条件。所以我们认为语音输入未来肯定会在手机上占据一定的比例,这是第一个要看到的点。
第二个问题是,语音输入在技术上是否达到了实用的程度?
在2010年,我们认为语音输入还没有达到实用的程度。
但是我们为什么敢继续往这个方向投资呢?那是因为原来的语音输入在技术上是传统的本地过程。所以IBM的语音输入不普及的原因是电脑上的键盘鼠标交互太强,而且是本地方式。它的技术演进速度与用户群体的增长无关,我们称之为“涟漪效应”。
连锁反应是什么?简单来说,我们在前期引入一项技术的时候,它可能并不是一项可以大面积达到完全使用水平的技术。但是,它仍然会接触到一小部分用户。
对于这一小群用户,如果我们能快速接触到他们,如果系统能根据这一群用户的反馈形成数据。据此,我们再形成一轮迭代,很快第二滴水就会掉下来,涟漪会进一步放大。与最初相比,其适用群体的范围将会扩大。而这样一个过程,如果继续强化,就是“涟漪效应”。
从技术角度来说,其实我们的架构本身就是基于云计算的。所有的技术更新、算法更新、资源更新都在服务器端无缝完成。所以,首先是在迭代机制上,保证不需要漫长的过程。
另一方面,语音的这种算法现在也在使用大数据加模式识别训练。其实几年前我们还是用传统的训练方法,现在都用深度神经网络训练。所以这样的数据越多,它的效果演变的越好。所以我们这样循环往复。
当时我们对语音的核心指标有一个技术预测,比如识别率。随着用户规模达到一定规模,我们整个语音识别效果很快就会达到一个阈值,甚至在未来达到一个完全可用的水平。
所以基于对市场的把握,对设备形态和输入演变的判断,以及对自身技术的分析,把我们产品走向市场的切入点和核心定位放在了语音输入上。
其实我们第一版上线的时候,名字叫讯飞语音输入法。当然,我们不只有拼音输入法,还包括手写输入和拼音输入。但是为了加强我们产品的定位,我们其实用了很长一段时间讯飞语音输入法这个名字。
2010年10月28日,我们正式推出了第一个版本,主要功能是语音输入。
推出之后,我们早期的语音用户中,确实有不少是在电脑时代尝试过语音输入的用户,以及使用过IBM的单机语音产品的用户。其他都是对技术更感兴趣的用户,这和我们之前的预期非常吻合。
虽然我们最初的效果比现在的水平差很多,但是这些用户还是会非常积极的使用,给我们各种改进的建议。这些用户在圈子里的传播速度也很快。
所以语音输入的整个品牌都是在一个小群体中沉淀的。而且我很高兴看到我们对整个行业的判断是正确的,尤其是在苹果发布Siri之后。虽然不解决输入问题,但实际上在业内点燃了一把关于语音技术的火。
然后接下来我们知道的,讯飞在2010年推出语音输入法的时候,是市场上唯一的。短短几年,谷歌、qq、百度、搜狗等主流输入法都配备了语音输入功能。通过这个,说明现在对于语音输入,我们认为它已经成为了手机上的标准输入法。
接下来我们要面对的问题是,我们所定位的产品方向很可能最终会成为一个标准产品,因为大家可能都看好这个。
这是一个非常严重的事实。换句话说,我们必须在我们的核心地位上保持持久的竞争力。因此,我们需要进行持续深入的投资,并进行自主创新。接下来说说我们在讯飞输入法语音功能上的一些思考和创新努力,包括一些成果。
1.语音识别率行业第一,达到97%
对于语音输入,一开始大家最关心的是识别率,这个功能是能否达到使用水平的一个核心门槛。根据我们的分析,识别率至少要达到一定的指标,比如95%以上。这样的功能其实可以达到一个使用门槛。可以说,讯飞是第一家迈过这个门槛的公司。
2012年和2013年,我们的整体识别效果已经达到这个水平。
2014年,我们达到了97%的水平。这个识别率可以说是行业第一。
对于语音输入,很多用户在使用过程中也发现这样的问题。
2.无需联网即可输入语音,克服了网络状况不稳定的问题。
当初,我们首先担心的是网络的依赖性。虽然我们的语音输入是基于云架构的,整个系统的迭代非常快,但是困扰用户的是对网络的依赖性更强,尤其是初期。
那时候我们的4G还没有普及,网络状况还不稳定。即使在4G时代,在高铁上或者一些信号盲区使用语音输入其实也是相当痛苦的。另外,很多用户还是很在意流量的。虽然语音输入不能占太多流量,但他脑子里还是有这个考虑的。
对于网络的依赖性,我们也想一些办法解决。最后,我们的解决方案是使用线上加线下语音。这里的挑战是需要强调离线语音的识别效果,它在手机上的响应速度也是一个很大的挑战。
我举个简单的例子让你知道这个挑战有多高。因为我们的在线语音是在服务器上计算的,从技术角度来说,我们需要依赖的资源通常是按照几百G上T的一个数量级来做,才能达到现在的效果。众所周知,我们现在能放在手机上的语音资源,如果是离线语音包,我们可以做到30M以内,最大的语音包会控制在100M以内。所以要保证好的效果,资源缺口巨大。
另外,服务器都是用GPU做运算,或者多核高性能CPU。目前手机终端虽然号称8核16核,但和服务器的配置还是完全没法比。那么,计算和解码过程如何在手机上完成呢?这些其实都是巨大的技术挑战。
但是我们确实在线下语音上做了,我们整个线下语音的效果已经超过了最初90%的门槛。此外,我们还对网络状态进行了智能判断,以确保在线和离线的无缝结合。
刚才我提到了为什么一般效果达到一定阈值后很难突破。其实有个人差异和环境影响在里面。因为我们实际上用的是语音,不是那么理想。
什么是理想化?不仅我的环境要足够安静,普通话也要达标。然而,我们平时实际使用时却并非如此。我们所处的环境有很多噪音干扰,我们每个人或多或少都会带一点口音。
3.个性化语音
所以这些问题会导致我们在一般的识别上出现一些错误。对于这种错误,我们有针对性的方案是考虑做一些个人学习。
也就是说,我们根据每个人的口音习惯和用词习惯做智能记忆和学习。这类似于大家都有概念的拼音输入法。可以有自己的词汇,用的越多越准确。其实对于发音也有类似的概念。无论是你的发音模式,还是个人使用发音的模式,都是可以和个人一起培养和进化的。
这就是我们在个性化发音中所做的。
而且,我们现在有了一个更容易体验的差异,一个区分明显的地方。我们自己的一些特殊术语,通讯录里的特殊名字,或者自己造的一些词,都可以在讯飞输入法里绑定一个账号,让我们的语音系统自动匹配识别。比如我说通讯录里的人名,我们的声音就可以直接被识别出来,这就是个性化问题的解决方案。
4.支持多语言和跨语言
更何况,即使是我们确实有的非普通话语言,也有它们的应用场景。比如我们发现很多三四线城市和四五线城市的主要语言是方言而不是普通话,甚至一些需要国际交流的用户需要说一些外语。我们都有推出相应语言的支持。我们现在支持的方言在全国都是比较典型的,比如东北话、四川话、粤语、河南话、上海话,有近20种方言。
另外,我们考虑跨语言交流,第一个是中日中韩,我们一直支持汉英翻译,在发音的方向上继续做。而且我们相信在未来,在发音方向出现很多新的问题之后,我们仍然可以保持我们在这个领域的核心定位优势,继续突出我们在这个领域的产品特色。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)