谈论人工智能的梦幻之处,在于常常给人割裂时空、站在世界转折点的错觉。
一旦深入产业,错觉便开始瓦解。规划路线,开发产品,再想办法把它们卖出去。哪一家人工智能公司不是商业公司?哪一件华袍上没有蚤子?
「我们都活在过去长长的阴影中。」
比起天马行空的畅想,「过去」显示出它的谦卑与丰厚。一家技术公司的十八年创业史,也许会给今天的你我一些启示。
一、诞生于 1999 年的技术创业公司
1999 年是中国互联网「元年」。这一年中华网赴美上市,成为第一家登陆纳斯达克的中国互联网公司。随即互联网创业热潮席卷全国,百度、腾讯诞生在这一年,阿里巴巴也诞生在这一年。
1999 年也是语音产业「元年」。这一年 IBM 发明的语音系统被评为「科技领域十大事件之一」,人类第一次实现用语音在电脑上输入信息。这种革命性的体验使得整个科技界为之疯狂,英特尔、摩托罗拉、东芝等巨头纷纷建立语音研发中心,争夺语音市场先机。
时钟再向回拨一年。1998 年,我国 863 项目语音合成比赛中第一次出现了 3 分。当时评测采取 5 分制,播音员发音为 5 分,普通人发音为 4 分,3 分即代表听者可以接受,对合成语音不反感。也就是说,语音合成技术可以应用了。
1999 年的刘庆峰刚满 26 岁,正站在创业狂热与语音浪潮的交叉点。从不知语音系统为何的大二学生,到带头开发语音合成系统,再到参加国家 863 项目比赛拿到第一,他已经在中科大的人机语音实验室埋头工作了 8 年。第一次出现的「3 分」给了他勇气,也许掌握语音合成技术的他,也能成立一家公司。

这年 4 月,刘庆峰拉上实验室里的师兄弟,每人出些钱,共同成立了科大讯飞的前身「安徽硅谷天音科技信息有限公司」。研发投入成本高、消耗快,到年底帐面已是捉襟见肘,300 万资金只剩个位数。还好融资及时到账,由美菱集团和安徽省信托投资公司共同出资 3000 万,「硅谷天音」也正式更名为「科大讯飞」。
3000 万甫一到账,刘庆峰做的第一件事是「资源整合」。除了语音合成,语音处理技术还包含语音识别、声纹识别等等。同时作为典型的交叉学科,语音处理不仅涉及声学、语言学,还有计算机工程设计等不同领域。除了中科大,中科院声学所、社科院语言所、清华大学都在做语音相关研究,各个机构都有自己的擅长之处。
拿着这笔钱,刘庆峰开始逐一拜访这些研究机构,希望能由科大讯飞提供项目经费,共同成立联合实验室。各研究机构不需要改变原有研究领域,由科大讯飞负责产业整合,将语音技术实体落地,并以股权的形式共享利益。
就这样,科大讯飞早早扼住了语音处理核心技术的源头。
二、前世 1999-2009:愈挫愈勇的语音合成公司
天使轮试水,A 轮出产品,B 轮看市场。
2000 年的科大讯飞已经到了拿出产品的「人生阶段」。科大讯飞推出的第一款产品叫「畅言」。与 IBM 的语音系统类似,用户在 PC 上安装「畅言」软件后,就能通过语音进行文本输入、指令输入等操作。不仅如此,「畅言」还支持手写输入,将语音与手写两种输入方式进行了无缝融合。
这款兼顾便捷与效率的产品给了刘庆峰信心,「过不了两三年,科大讯飞的营收就能突破 10 亿,甚至 100 亿」。
可惜的是,疯狂的盗版市场与强劲的竞争对手早已伺机埋伏。当时牢牢抓住手写市场的汉王嗅到先机,1998 年时便将 IBM 语音识别技术植入产品中。虽然技术尚不成熟,但其推出的「汉王读写听」因「非键盘输入」的概念受到热捧。同时其早期入股建立的省会经销渠道发挥了重要作用,汉王促销员们一边高声朗读、一边奋笔疾书,市场反应异常火爆。

2000 年,汉王年销售额破亿。没有商业渠道的「畅言」则被代理商频频退货,陷入失败境地。
从技术上看,当时的语音识别技术上使用的是 GMM(高斯混合模型)与 HMM(隐马尔科夫模型),虽然实验室指标看起来不错,但实际使用起来效果并不好,往往要在非常安静的环境下清晰朗读才行。后来的事实也证明,语音识别产品化的道路在当时很难走通。尽管各国在语音识别上投入的资金已超过阿波罗登月计划,但即使到 2010 年,语音识别也没有在任何领域广泛使用。
技术转化成 To C 产品太早,也许应该面向 B 端。
当时的电话信息平台由人工接听,需要大量客服同时在线。如果使用语音合成技术与客服协作,50 人便可完成 500 人的工作量。初出茅庐的讯飞拿不下电信的单子,就拉上华为负责系统集成,由讯飞开发语音引擎。
从技术到应用,看似相连的两点,中间隔着看不见的鸿沟。除了技术本身的优异,应用还需要兼容系统、运行稳定,即一定的工程化能力。实验室测试完好的语音引擎,放到华为的系统里只能运行几分钟。讯飞的 18 名初始员工只得不眠不休,优化引擎、修改问题。「蜕皮」的一个月后项目通过,讯飞也获得了华为的长期订单。
在华为这位「老师」的指引下,讯飞有了第一次的工程化经验。加上电信案例的加持,讯飞摸索出第一条商业道路——将语音技术嵌入合作方平台中。
2000 年末,讯飞的合作伙伴名单中已经包含中兴、联想、神州等 50 多家大型企业,智能网、呼叫中心、业务系统等需要语音引擎的大公司纷纷找上门来,终于有了收入。不过账面上 500 万元的收入额提醒着刘庆峰,也许短期内,讯飞无法达到最初设想的上亿规模。
2001 年,讯飞开始将电信呼叫中心业务向外延伸,开发出智能语音旅游信息服务、工商税务查询服务等业务。2002 年,讯飞开始承接系统集成业务,带来了一定的现金流和本地影响力。终于, 2004 年的讯飞扭亏为盈。
SP 业务(移动增值业务)的爆发,则为讯飞开辟了另一条生存之路。
2005 年,彩铃自韩国引入中国后,受到消费者的热烈追捧。但令运营商困扰的是,电话只能通过按键选择 1- 9 之间的 9 首彩铃,也许语音是一个不错的选择。
接到需求的讯飞开发了「声动炫铃」——一套可以让消费者使用语音选择彩铃的系统。这套系统被迅速从安徽运营商推广到联通总部,中国电信、中国移动开通彩铃业务后也选择了这套系统。基于此,讯飞进一步探索了个性化彩铃、爱吼网等产品,当时的音乐、彩铃相关语音业务平台几乎都由讯飞负责。

凭借这些业务和收入,讯飞开始了连续 3 年净利润 130% 的复合增长。2007 年营收突破 2 亿元,2008 年,科大讯飞正式上市。
三、今生 2010-2017:向下渗透的人工智能公司
中国第一家在校大学生创业的上市公司、中国语音产业唯一一家上市公司,接下来的路要怎么走?
当时不少中小企业主和开发者找到讯飞,希望使用其语音技术开发产品,但前期的服务器等硬件成本让他们无法承受。受此启发,讯飞开始搭建语音云平台,希望开发者们能通过调用接口,更便捷的使用语音识别、语音合成等技术。
2010 年 10 月,「讯飞语音云」正式发布。这是一步只赚不赔的妙棋,只要有足够的使用者,讯飞就能获得大量语音数据,为技术模型的调整和迭代提供「燃料」。针对大公司收费、针对创业者免费的方针不仅保证了讯飞的收入,还为其挖掘语音相关创业团队提供了最佳来源。同时作为一块未被开辟的市场,越多的用户使用语音相关技术,语音市场就越大。
发布会结束后,云平台的确获得不少关注,但此后的很长时间并没有积累多少用户。试验室环境下运行良好的云平台,在大规模应用时受并发数量、网络延迟等因素限制,许多用户反应甚至无法得到识别结果。
接下来的日子,习惯了 B 端客户、不擅面对互联网产品的讯飞只得不断优化、改进产品。除此之外,语音云平台还在不断吸收、融合其他相关人工智能技术。
2014 年,讯飞与香港中文大学教授汤晓鸥(「人脸识别独角兽」商汤科技创始人)及其研究团队合作,用户可以在讯飞云平台上使用准确率达 98.52%(LFW 数据库上准确率)的人脸识别技术。同时还与哈尔滨工业大学合作推出「语言技术平台 LTP」,为开发者提供中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理技术服务。涉足计算机视觉(CV)、自然语言处理(NLP)的讯飞语音云,完成了向人工智能技术平台的转变,于 2015 年正式更名为「讯飞开放平台」。

这年 3 月 4 日,科大讯飞与京东签署《投资合作协议》,拟共同投资 1.5 亿元设立讯京信息科技有限公司,致力于智能家居硬件产品、语音解决方案及智能硬件平台服务的研发和推广。三个月后,两者便携手发布了支持语音交互叮咚智能音箱。同年年末的年度发布会上,讯飞发布了录音包、录音笔、讯飞听见、智学网、E 听说等众多 C 端产品。
也许是多年的努力和铺垫终于得到回报。2016 年的锤子发布会上,罗永浩现场演示了科大讯飞的语音输入法,几乎一字不差的识别结果引发全场惊呼。科大讯飞的名字仿佛一夜之间家喻户晓,股价也随之一路上涨。
自「畅言」失败后 17 年,科大讯飞再次回到了 C 端世界。

为什么明明不擅长,仍要不断向下渗透?
也许另一位语音巨头 Nuance 的经历能回答这个问题。这家成立于 1992 年、曾经的苹果 Siri 技术提供商,由于大公司纷纷自研语音识别技术,加上人才频频被挖,最终只得沦为行业解决方案公司。
显然讯飞并不想只成为一家解决方案公司。「将技术转换为硬件、流量和对时间的控制,需要与制造业结合。想要在互联网世界成为一家大企业,不要只想用能力换钱,重要的是建立流量。」
未来的十年,科大讯飞走向哪儿?
也许是一家人工智能巨头。2015 年融合 CV、NLP 技术的成果,在今年的讯飞年度发布会上得以显现。演讲中,刘庆峰着重强调了三个人工智能应用的垂直行业:医疗、教育、司法。其医疗影像识别系统已应用于临床实验,准确率达 94%,语音电子病历普及度大幅提高;面对学生的画像系统,可以为每个孩子提供千人千面的作业和课程安排;司法卷宗智能录入准确率已达到 98%,语音庭审的效果也在持续提升中。
四、为什么是科大讯飞?
2000 年前后中国诞生的语音公司有不少,捷通华声、中科模识、中科信利同样拥有强劲的技术背景。为什么二十年后,独占鳌头的是科大讯飞?
答案可能并没有那么简单。
也许是因为一位导师。
1992 年敲开刘庆峰宿舍门、让他见识到语音合成的王仁华教授,是当时语音研究「二王」之一。与大部分导师不同,发论文时他常常让学生把名字写在自己之前,也会放手让学生主导科研项目。
1999 年讯飞创立,王仁华教授任董事长,股份只有学生的三分之一。从不干涉业务、以鼓励为主,2004 年前连年亏损的科大讯飞一直面对着资方压力,「这时总是靠王老师说话,他作为教授专家的地位,是唯一能说上话的」。2009 年讯飞立住脚跟,王仁华教授便卸任退休,只在需要时才来帮忙。

也许是因为志同道合的创业团队。
你问合肥的出租车司机「讯飞怎么样」,他一定会说是合肥代表企业。再问中科大怎么样,他会说科大的学生不一样,「别的学校学生上来,都是男男女女出去玩,科大的学生一眼就能看出来,有礼貌、不怎么说话,打车也是在校区之间往返」。
以「红专并进,理实交融」为校规的中科大,教学楼一层常常贴着一张张写着数学题的黄纸,经过的学生可以「揭榜」答题。常常没过多久题目下就写着解法,「越难越要做」。
这种「轴」在创业中反射成了「踏实」与「钝感」。无论是早期频频受挫,还是互联网风口变换、大公司的诱惑,科大讯飞的的核心团队一直都在,也一直在语音这件事上执着。核心高管 8 人中,6 人是当年的初创成员,18 年来「常务副总监以上的高层干部没有一个人走」。
也许是因为跳出技术公司视角的路径规划。
从语音合成,到语音处理,再到图像处理、自然语言处理;从输出语音合成技术,再到不断推出 C 端产品、向各个垂直行业渗透。不满足于只成为技术解决方案公司,技术圈层与业务圈层一再向外扩大,从来没有停止。
也许是因为恰好踏上了语音技术的应用路径。
在 2006 年 Geoffrey Hinton 提出 DNN,并在语音领域应用之前,语音识别在现实场景中的准确率和效果一直不尽如人意。离产业、离应用最近的,其实是科大讯飞掌握的语音合成技术。
DNN 带来的飞跃式语音识别体验,又恰好在 2010 年科大讯飞发力、推广语音识别时提供了技术基础。「技术产业化的最佳时机是一定的,早了晚了都不行。」
也许是因为刚刚好的运气。
2005 年突入其来的 SP 业务送来大量现金流,2016 年人工智能热的瞬间爆发则带来了资源与目光。
「20 年前研究语音就是研究语音,哪有什么人工智能!」如今语音、计算机视觉、机器学习纷纷被划入「人工智能」概念,加上 AlphaGO 引发的全民 AI 热潮。一年之间,科大讯飞的股价已经翻了一倍。
也许是因为一枚微小的种子。
在这个风云际会的 AI 时代,我们谈论融资、落地,谈论这项激动人心的技术将如何改变人类的未来。却再也找不到一个被农田环绕的大学,骑着自行车穿过四季的风霜雨雪,把青春贡献给单调乏味的实验室。没有英雄主义和自我牺牲的庞大叙事,在一行行机器语言和处理器的噪声中,体味着日复一日的寂寞和偶尔闪过的微小乐趣。直到夜晚寂静,天上有星在颤抖。
1999 年过去了,我们都很想念它。
题图来自网络。
本文及文中图片为「KnowingAI 知智」原创,未经许可,请勿转载。
免责声明:文章内容来自互联网,本站仅提供信息存储空间服务,真实性请自行鉴别,本站不承担任何责任,如有侵权等情况,请与本站联系删除。
转载请注明出处:为什么是科大讯飞 https://www.zentong.com/a/p/21744.html