当前位置: 首页> 移动互联




语音云:乘着移动互联网和云计算东风

发布时间:19-11-04

一则荣威车主“调戏”iξVoka的视频在网上流传甚广——iVoka是荣威350上装配的语音云驾驶系统——当车主对着iVoka说“我爱你”的时候,iVoka不无醋意地表示“这句话你也对S¤iri说过吧”,车主只好无奈认栽θ。

  事实上,对于iVoka这种全新的智能语音人机交互装置,逗趣唠嗑只是其“副业”,连接豆瓣点播音乐、查天气、查股票、查航班、查实时新闻资讯等等,才是它的正经功能——在这一应用背后┙,是Ξ一家叫科大讯飞的公司所提供的语音技术。

  2012年3月22日,北京国家会议中心,科大讯飞“新一代语音云平台”发布会现场。科大讯飞CEO刘庆峰拿出一部智能手机,开始演示公司开发的新应用“讯飞语点”。他用自己的声音命令手机发短信、安排日程、查找餐馆,还不忘调侃手机:“你能做什么”?手机回答道:“我正在反思自己的不足。”现场立刻笑声一片。

  一切都像极了当年由乔布斯掌μ控的苹果产品发布会现场。

  苹果公司的Siri大热,将语音技术的消费应用提到了日程上,各行各业都在挖掘自己和语音的结合点;而像科大讯飞这样的语音技术提供商则希望在★更广泛的消费应用方面和不同的开发商合作,找到更广阔的天地。

  移动引爆语音

  人们对下一代语音交互方式的美好畅想,从来就没有停止过。不过,在很长一段时间内,语音技术被看成是鸡肋:弃之可惜,食之无味。微软、谷歌、IBM,这些世界级的IT巨头,一直在语音技术商用方面▕努力探索。然而,前景虽然很美好,语音技术却始终无法实现大规模民用。

  “我当年在微软工作的时候,曾听到比尔盖茨说: ‘语音技△术在5年后将改变世界。’5年之后,我又听到他说了一次;到了第三个5年,比尔盖茨有一次提起语音,他说:‘这话我过去说了两次▒。’”创新工场CEO李开复所讲述的这件往事,折射出语音技术当时所面临的尴尬前景。

  而前谷歌中国的高级研究员、《浪潮之巅》的作者吴军最近在微博里调侃道:“语音识别(在产品上)忽悠人从上世纪90年代开始,大约每10年一个周期,最后的结果相同,就是大家发现这是个⿱玩具,而不是工具……如此∏反复。不过我相信最后有一次不再是忽悠人,但是不是现在这一次?”

  至少,在扑面而来的移动互联网云计算大潮中,想象从来没有像这一次这么像真的:决定语音识别技术精确度的关键性因素在于语料库的丰富程度。

  在过去∠,语料库的建立,主要是通过人工采集声音信号来完成,需要花费大量的时间和精力,语料库的增量非常有限,这也意味着语音技术的精确度提升速度非常低。而在移动互联网时代,语音交互的终端和应用在不断涌现;ↈ另一方面,云计算能够处理比以往更海量的用户语音交互数据,云端的服务器能够不断收集、处理这些数据,在不断反馈训练中持续进化语音理解能力。

  并且,随着移动用户和多种移动终端的爆发式增长,人们对语音应用的需求前所未有的强烈:移动终端设备键盘与屏幕尺ω寸小,用手指输入并不方便,尤其是在移动的应用场景中,眼忙手忙,语音输入作为信息交互最自然、便捷的手段,更能发挥它先天性的≦作用。

  而苹果公司所推出的SКiri功能在全球所引发的疯狂,则成为语音技术在移动互联网上被引爆的直接导火索,也让一直苦于找不到语音卖点的厂商茅塞顿开。苹果的高明之处,在于将Siri的语音技术与苹果封闭系统内的各行各业ì的信息服务、应用进行了无缝的对接,并且整合了三大数据库:Yelp、维基百科、Wolfram Alⓔpha,这就意味着Siri不仅仅是一个被人“调戏”的玩具,而是在某种程度上可以帮人们解决实际问题:查找餐馆、地图、翻译……

  尽管在目前看来,Siri的实用性依然┐有限,但随着用户越来越多,建立的语料数据库就越丰富,就越能通过数据≒的不断纠正变得越来越“聪明”,这就有了“人工智能”的意味。

  在这个→横跨手机、平板电脑、汽车、电视、 导航设备、音乐播放器、个人电脑等领域的绝大市场商机面前,谷歌、微软等国际巨头都加快了将Б语音技术向消费级市场商用的脚步:谷歌计划今年上半年发布平板电脑Google Nexus,并将搭载Majel网络Л语音识别技术;而微软于2007年收购语音技术公司TellMe之后,计划今年将TellMe技术用于Windows 8及下一代Windows Phone系统中;此外,国际语音巨头Nuance已经将语音生意做到了全球,且来势凶猛:今年1月份,Nuance收购了竞争对手 Vlingo,期望整合双方各自的技术优势,在全球迅速膨胀的移动语音消费市场,瓜分更大的蛋糕。

  平台机会

  随着Siri在全球的大热,人们不禁纷纷发出这样的疑问:谁是中国的下一个Siri?作为国内最大的智能语音技术提供商,原本低调隐匿在背后的科大讯飞就这样站在了舞台的正中央。

  在过去,科大讯飞的生意模式更多的是面向B2B市场,主要为电信、金融、教育等企业和各种行业提供语音支撑软件或语音应用系统。尽管也推出了诸如“讯飞口℡讯”这样的消费层面的应用,但始终是扮演着技术提供商的角色,其业务增长稳健而缓慢。“调戏Siri和Siri的人工智能其实只是目前语音相对简单的部分,我们之前做得不够好的地方可能是,我们一直重视产品本身在技术层面的不断精进,却忽视了这些有趣的东西可以给消费者带来更多的乐趣。” 科大讯飞信息科技股份有限公司研究院执行院长胡郁表示。

  当Siri推出不久之后,科大讯飞迅速判断出语音在移动消费级应用上的市场价值,曾经与苹果公司进行过接洽,希望与之合作,开发中文版的Siri。不过,却遭到了苹果的拒绝。“苹果太傲慢了,我们也不会接受。”科大讯飞副总裁江涛说。

  在这种情况下,应对国际巨头最好的办法,℡就是将自己的语音技术、数据库和语音云计算能力开放出去,做“语音云”平台服务。江涛将这比喻成一场应对国际语音巨头的“人民战争”。“我们不是孤军奋战,而是把平台开放出去,让有激情、有智慧的创业者,还有产业链的合作伙伴更好的应๑用。我相信一定会比一个封闭系统能提供的东西更加丰富。” 他说。他将科大讯飞角色描述成“移动互联网时代能力的基础设备”,也就是为各种各样的移动互联设备提供交互的能力。

 ≠ 显然,一旦语音真正成为下一代人机交互核心手段,当各种各样的语音应用百花齐放之时,作为平台级公司的价值,肯定比提供单个语音应用的公司,在产业链上的话语权更为强势。

  事实上,这家公司在最近短短的一◣年时间内,发展速度突飞猛进:在2010◁年科大讯飞首次提出要做“语音云开放平台”之时,由于当时移动互联网市场还没有呈现爆发式增长,Siri还不太为人所知,用户对⊙语音应用的需求远不如现在强烈,当时业内反响并不是很大。到2011年6月以前,科大讯飞语音云平台上的用户规模一直没有超过100万,然而,这一数据在Siri发布之后的2011年下半年,迅速飙升到1000万,而从1000万到现在的3300万,只用Ж了3个月。

  而平台级公司的出现,对于整个语音产业大规模商用所做的推进,也不言而喻。在李开复看来,过去一直困扰语音技术大规模商用的瓶颈之一,τ在于缺乏丰富的语音应用。“一小批语音专家拍脑袋来找应用不是办法,而讯飞语音平台的推出,意味Ω着几千、甚至几十万位开发者都来试一试,尽管成功的几率少,但是摸索到成功应用的概率会增加。”李开复说。

  语音生态圈

  生于1986年的李传峰是智能360的联合创始人之一。李传峰的梦想,是¤※站在像科大讯飞这样的“巨人的肩膀”上,开发出跟苹果Siri一样牛的中文版的“Siri”。

  智能360是去年11月份在安卓平台上线的一款类Siri的中文应用。尽管看起来略显“山寨”,但这款应用目前颇受欢迎,已经获得了150万的用户。智能360采用了科大讯飞所开放的“语音识别”和“语音合成”技术,也就是采用了将用户声音▍输入转化成文字,以及将文字输出成语音这两种技术。

  而智能360的“自然语言处理部分”的技术,也就是将文字进行理解,转化成各种指令,与底层的各种应用进行对接并执行的部分,是由自己的团队开发的。而国内另一款由贵州大学的大学生团队i└TiTa开发的 Airi,采用的也是科大讯飞的语音引擎。

 и “瓦力短信”是一款帮助用户实现个性化短信功能的应用。去年11月,瓦力短信新发布的 Android 3.0版首次采用了科大讯飞的语音技术,让用户能够将声音转化成短信,下载量很快就翻了一番。

  对于小型语音创业团队来说,现在是最好的时代。原因就在于各种™资源的“开放”。一方面,谷歌、Nuance、科大讯飞这样的◀大公司已经或即将开放自己的语音接口,帮∷助开发者解决语音平台海量数据库和技术方面的门槛;另一方面,在应用层面,像百度百科、大众点评这样的平台,也乐于向▨开发者开放自己▊的信息服务和各种数据。“我们需要做的,就是将各种资源整合过来,我们是站在巨人的肩膀上去做事情。”李传峰说。

  除了像智能360这样的将语音作为“品牌”的应用,一些大公司则选择将语音技术作为应用中的插件,在不同的情境下,为用户提供更为便捷的选择。比如,新浪微博、搜狐微博、UC浏览器、大众点评等应用目前都已经采用了科大讯飞的语音技术,推出了语音的插件功能。

  不过,尽管有如此多的大公司也参与了语音应用,在科大讯飞目前所拥有的3300万用户中,真正活跃的用户有多少,依然是一个疑问。一个比较典型的案例就是:尽管新浪、搜狐等都推出了语音发微博的功能,但用户的使用习惯并没有被真正“挑逗”起来。

  如果不能真正吸纳到大量有价值的活跃用户,开发者就摸索不到清晰的商业模式,而如果开发者挣不到钱,科大讯飞也自然不能从中盈利,这就意味着整个生态圈不能真正繁荣起来。另一方面,如果没有来自用户的大≥量语音交互, 基于语音云平台的持续的语义理解进化能力也就是空谈。而“智能化”正是语音技术的↔终极目标。

  也许是意识到了首先要培养用户使用语音的习惯,科大讯飞自己也率先推出了一系列消费类的示范应用,如讯飞口讯、讯飞输入法、讯飞语点等等。“智能语音交互的用户使用习惯培养需要一个过程,尤其是东方人往往比较羞涩,不像西方人有使用电话应答机的习惯,讯飞语点定位是新一代语音云的示范应用,我们希望通过讯飞语点能够培养用户使用语音交互的习惯。”江涛说。

  事实上,语音微博之所以叫好不叫座,除了用户使用习惯方面的障碍,语音δ作为一种私密度高、解码、收听成本高的信息载体,并不适合微博这种媒体形式的传播,这就决定了语音微博只能是特殊场合、特殊人群使用的形式。这给开发者所带来的启示就是:对于自己开发的语音应用究竟能给用户解决什么问题,要有清晰的认识,而不能为“语音”而“语音”。

·。

  正因为亲历了语音技术长达30年的波折起伏,李开复反而对于语音应用始终持有一种“谨慎乐观”的态度。他提醒广大开发者如果要在应用中整合语音,一定要想清楚。在创新工场的47个投资项目中,有五六家是适合用到语╱╲音的,但他给项目负责人的建议却是:要用语音是一个重大决定,要么不做,要做就要做到自然、惊艳。

  “因为语音API和应用接口的整体优化是有难度。”李开复说。他所指的难度主要集中在“语义理解”这种☉相对偏智能的语音技术层面,而语音识别和语音合成这种相对浅层次的技术与应用API的对接难度更小。因此,李开复的建议是,开发者更应该将目光瞄准那些“深语音,浅语义”的应用。

  对于科大讯飞本身来说,要扮演好平台的角色,最重要的并非技术挑战,而是角色的转换:如何从一家面向B2B市场的软件提供商,成功转型成为一家移动互联网平台公司?作为互联网平台公司,更重要的是如何打造繁荣的生态圈,打造品牌,圈住用户,帮助开发者做好营销和服务,帮助它们寻找到清晰的商业模式;并明确自身定位,不能即作“裁判”又做“选手”,给开发者带来安全感。软件提供商的那一套打法,在移动互联网上并不适用。好在,目前的科大讯飞有了一个看上去不错的开始。

移动信息化交流QQ群:一号群:211029692 二号群:344692795 CIO交流群:316076815(需认证)

上一篇: 我从”得到“上得到的一些启示
下一篇: 奥比中光陈挚:用3D视觉构建人脸生态圈