为什么是科大讯飞

谈论人工智能的梦幻之处，在于常常给人割裂时空、站在世界转折点的错觉。

一旦深入产业，错觉便开始瓦解。规划路线，开发产品，再想办法把它们卖出去。哪一家人工智能公司不是商业公司？哪一件华袍上没有蚤子？

「我们都活在过去长长的阴影中。」

比起天马行空的畅想，「过去」显示出它的谦卑与丰厚。一家技术公司的十八年创业史，也许会给今天的你我一些启示。

一、诞生于 1999 年的技术创业公司

1999 年是中国互联网「元年」。这一年中华网赴美上市，成为第一家登陆纳斯达克的中国互联网公司。随即互联网创业热潮席卷全国，百度、腾讯诞生在这一年，阿里巴巴也诞生在这一年。

1999 年也是语音产业「元年」。这一年 IBM 发明的语音系统被评为「科技领域十大事件之一」，人类第一次实现用语音在电脑上输入信息。这种革命性的体验使得整个科技界为之疯狂，英特尔、摩托罗拉、东芝等巨头纷纷建立语音研发中心，争夺语音市场先机。

时钟再向回拨一年。1998 年，我国 863 项目语音合成比赛中第一次出现了 3 分。当时评测采取 5 分制，播音员发音为 5 分，普通人发音为 4 分，3 分即代表听者可以接受，对合成语音不反感。也就是说，语音合成技术可以应用了。

1999 年的刘庆峰刚满 26 岁，正站在创业狂热与语音浪潮的交叉点。从不知语音系统为何的大二学生，到带头开发语音合成系统，再到参加国家 863 项目比赛拿到第一，他已经在中科大的人机语音实验室埋头工作了 8 年。第一次出现的「3 分」给了他勇气，也许掌握语音合成技术的他，也能成立一家公司。

2011年，语音及语言信息处理国家工程实验室挂牌成立，前身为中科大人机语音通信实验室

这年 4 月，刘庆峰拉上实验室里的师兄弟，每人出些钱，共同成立了科大讯飞的前身「安徽硅谷天音科技信息有限公司」。研发投入成本高、消耗快，到年底帐面已是捉襟见肘，300 万资金只剩个位数。还好融资及时到账，由美菱集团和安徽省信托投资公司共同出资 3000 万，「硅谷天音」也正式更名为「科大讯飞」。

3000 万甫一到账，刘庆峰做的第一件事是「资源整合」。除了语音合成，语音处理技术还包含语音识别、声纹识别等等。同时作为典型的交叉学科，语音处理不仅涉及声学、语言学，还有计算机工程设计等不同领域。除了中科大，中科院声学所、社科院语言所、清华大学都在做语音相关研究，各个机构都有自己的擅长之处。

拿着这笔钱，刘庆峰开始逐一拜访这些研究机构，希望能由科大讯飞提供项目经费，共同成立联合实验室。各研究机构不需要改变原有研究领域，由科大讯飞负责产业整合，将语音技术实体落地，并以股权的形式共享利益。

就这样，科大讯飞早早扼住了语音处理核心技术的源头。

二、前世 1999-2009：愈挫愈勇的语音合成公司

天使轮试水，A 轮出产品，B 轮看市场。

2000 年的科大讯飞已经到了拿出产品的「人生阶段」。

科大讯飞推出的第一款产品叫「畅言」。与 IBM 的语音系统类似，用户在 PC 上安装「畅言」软件后，就能通过语音进行文本输入、指令输入等操作。不仅如此，「畅言」还支持手写输入，将语音与手写两种输入方式进行了无缝融合。

这款兼顾便捷与效率的产品给了刘庆峰信心，「过不了两三年，科大讯飞的营收就能突破 10 亿，甚至 100 亿」。

可惜的是，疯狂的盗版市场与强劲的竞争对手早已伺机埋伏。当时牢牢抓住手写市场的汉王嗅到先机，1998 年时便将 IBM 语音识别技术植入产品中。虽然技术尚不成熟，但其推出的「汉王读写听」因「非键盘输入」的概念受到热捧。同时其早期入股建立的省会经销渠道发挥了重要作用，汉王促销员们一边高声朗读、一边奋笔疾书，市场反应异常火爆。

《教电脑识字》中对汉王读写听的记录

2000 年，汉王年销售额破亿。没有商业渠道的「畅言」则被代理商频频退货，陷入失败境地。

从技术上看，当时的语音识别技术上使用的是 GMM（高斯混合模型）与 HMM（隐马尔科夫模型），虽然实验室指标看起来不错，但实际使用起来效果并不好，往往要在非常安静的环境下清晰朗读才行。后来的事实也证明，语音识别产品化的道路在当时很难走通。尽管各国在语音识别上投入的资金已超过阿波罗登月计划，但即使到 2010 年，语音识别也没有在任何领域广泛使用。

技术转化成 To C 产品太早，也许应该面向 B 端。

当时的电话信息平台由人工接听，需要大量客服同时在线。如果使用语音合成技术与客服协作，50 人便可完成 500 人的工作量。初出茅庐的讯飞拿不下电信的单子，就拉上华为负责系统集成，由讯飞开发语音引擎。

从技术到应用，看似相连的两点，中间隔着看不见的鸿沟。除了技术本身的优异，应用还需要兼容系统、运行稳定，即一定的工程化能力。实验室测试完好的语音引擎，放到华为的系统里只能运行几分钟。讯飞的 18 名初始员工只得不眠不休，优化引擎、修改问题。「蜕皮」的一个月后项目通过，讯飞也获得了华为的长期订单。

在华为这位「老师」的指引下，讯飞有了第一次的工程化经验。加上电信案例的加持，讯飞摸索出第一条商业道路——将语音技术嵌入合作方平台中。

2000 年末，讯飞的合作伙伴名单中已经包含中兴、联想、神州等 50 多家大型企业，智能网、呼叫中心、业务系统等需要语音引擎的大公司纷纷找上门来，终于有了收入。不过账面上 500 万元的收入额提醒着刘庆峰，也许短期内，讯飞无法达到最初设想的上亿规模。

2001 年，讯飞开始将电信呼叫中心业务向外延伸，开发出智能语音旅游信息服务、工商税务查询服务等业务。2002 年，讯飞开始承接系统集成业务，带来了一定的现金流和本地影响力。终于， 2004 年的讯飞扭亏为盈。

SP 业务（移动增值业务）的爆发，则为讯飞开辟了另一条生存之路。

2005 年，彩铃自韩国引入中国后，受到消费者的热烈追捧。但令运营商困扰的是，电话只能通过按键选择 1- 9 之间的 9 首彩铃，也许语音是一个不错的选择。

接到需求的讯飞开发了「声动炫铃」——一套可以让消费者使用语音选择彩铃的系统。这套系统被迅速从安徽运营商推广到联通总部，中国电信、中国移动开通彩铃业务后也选择了这套系统。基于此，讯飞进一步探索了个性化彩铃、爱吼网等产品，当时的音乐、彩铃相关语音业务平台几乎都由讯飞负责。

「声动炫铃」业务收入，来自科大讯飞招股说明书

凭借这些业务和收入，讯飞开始了连续 3 年净利润 130% 的复合增长。2007 年营收突破 2 亿元，2008 年，科大讯飞正式上市。

三、今生 2010-2017：向下渗透的人工智能公司

中国第一家在校大学生创业的上市公司、中国语音产业唯一一家上市公司，接下来的路要怎么走？

当时不少中小企业主和开发者找到讯飞，希望使用其语音技术开发产品，但前期的服务器等硬件成本让他们无法承受。受此启发，讯飞开始搭建语音云平台，希望开发者们能通过调用接口，更便捷的使用语音识别、语音合成等技术。

2010 年 10 月，「讯飞语音云」正式发布。这是一步只赚不赔的妙棋，只要有足够的使用者，讯飞就能获得大量语音数据，为技术模型的调整和迭代提供「燃料」。针对大公司收费、针对创业者免费的方针不仅保证了讯飞的收入，还为其挖掘语音相关创业团队提供了最佳来源。同时作为一块未被开辟的市场，越多的用户使用语音相关技术，语音市场就越大。

发布会结束后，云平台的确获得不少关注，但此后的很长时间并没有积累多少用户。试验室环境下运行良好的云平台，在大规模应用时受并发数量、网络延迟等因素限制，许多用户反应甚至无法得到识别结果。

接下来的日子，习惯了 B 端客户、不擅面对互联网产品的讯飞只得不断优化、改进产品。除此之外，语音云平台还在不断吸收、融合其他相关人工智能技术。

2014 年，讯飞与香港中文大学教授汤晓鸥（「人脸识别独角兽」商汤科技创始人）及其研究团队合作，用户可以在讯飞云平台上使用准确率达 98.52%（LFW 数据库上准确率）的人脸识别技术。同时还与哈尔滨工业大学合作推出「语言技术平台 LTP」，为开发者提供中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理技术服务。涉足计算机视觉（CV）、自然语言处理（NLP）的讯飞语音云，完成了向人工智能技术平台的转变，于 2015 年正式更名为「讯飞开放平台」。

讯飞开放平台提供的业务总览，包括语音识别、合成，人脸识别等功能

这年 3 月 4 日，科大讯飞与京东签署《投资合作协议》，拟共同投资 1.5 亿元设立讯京信息科技有限公司，致力于智能家居硬件产品、语音解决方案及智能硬件平台服务的研发和推广。三个月后，两者便携手发布了支持语音交互叮咚智能音箱。同年年末的年度发布会上，讯飞发布了录音包、录音笔、讯飞听见、智学网、E 听说等众多 C 端产品。

也许是多年的努力和铺垫终于得到回报。2016 年的锤子发布会上，罗永浩现场演示了科大讯飞的语音输入法，几乎一字不差的识别结果引发全场惊呼。科大讯飞的名字仿佛一夜之间家喻户晓，股价也随之一路上涨。

自「畅言」失败后 17 年，科大讯飞再次回到了 C 端世界。

科大讯飞总部展示厅中展示的智能阅卷系统

为什么明明不擅长，仍要不断向下渗透？

也许另一位语音巨头 Nuance 的经历能回答这个问题。这家成立于 1992 年、曾经的苹果 Siri 技术提供商，由于大公司纷纷自研语音识别技术，加上人才频频被挖，最终只得沦为行业解决方案公司。

显然讯飞并不想只成为一家解决方案公司。「将技术转换为硬件、流量和对时间的控制，需要与制造业结合。想要在互联网世界成为一家大企业，不要只想用能力换钱，重要的是建立流量。」

未来的十年，科大讯飞走向哪儿？

也许是一家人工智能巨头。2015 年融合 CV、NLP 技术的成果，在今年的讯飞年度发布会上得以显现。演讲中，刘庆峰着重强调了三个人工智能应用的垂直行业：医疗、教育、司法。其医疗影像识别系统已应用于临床实验，准确率达 94%，语音电子病历普及度大幅提高；面对学生的画像系统，可以为每个孩子提供千人千面的作业和课程安排；司法卷宗智能录入准确率已达到 98%，语音庭审的效果也在持续提升中。

四、为什么是科大讯飞？

2000 年前后中国诞生的语音公司有不少，捷通华声、中科模识、中科信利同样拥有强劲的技术背景。为什么二十年后，独占鳌头的是科大讯飞？

答案可能并没有那么简单。

也许是因为一位导师。

1992 年敲开刘庆峰宿舍门、让他见识到语音合成的王仁华教授，是当时语音研究「二王」之一。与大部分导师不同，发论文时他常常让学生把名字写在自己之前，也会放手让学生主导科研项目。

1999 年讯飞创立，王仁华教授任董事长，股份只有学生的三分之一。从不干涉业务、以鼓励为主，2004 年前连年亏损的科大讯飞一直面对着资方压力，「这时总是靠王老师说话，他作为教授专家的地位，是唯一能说上话的」。2009 年讯飞立住脚跟，王仁华教授便卸任退休，只在需要时才来帮忙。

右为王仁华教授

也许是因为志同道合的创业团队。

你问合肥的出租车司机「讯飞怎么样」，他一定会说是合肥代表企业。再问中科大怎么样，他会说科大的学生不一样，「别的学校学生上来，都是男男女女出去玩，科大的学生一眼就能看出来，有礼貌、不怎么说话，打车也是在校区之间往返」。

以「红专并进，理实交融」为校规的中科大，教学楼一层常常贴着一张张写着数学题的黄纸，经过的学生可以「揭榜」答题。常常没过多久题目下就写着解法，「越难越要做」。

这种「轴」在创业中反射成了「踏实」与「钝感」。无论是早期频频受挫，还是互联网风口变换、大公司的诱惑，科大讯飞的的核心团队一直都在，也一直在语音这件事上执着。核心高管 8 人中，6 人是当年的初创成员，18 年来「常务副总监以上的高层干部没有一个人走」。

也许是因为跳出技术公司视角的路径规划。

从语音合成，到语音处理，再到图像处理、自然语言处理；从输出语音合成技术，再到不断推出 C 端产品、向各个垂直行业渗透。不满足于只成为技术解决方案公司，技术圈层与业务圈层一再向外扩大，从来没有停止。

也许是因为恰好踏上了语音技术的应用路径。

在 2006 年 Geoffrey Hinton 提出 DNN，并在语音领域应用之前，语音识别在现实场景中的准确率和效果一直不尽如人意。离产业、离应用最近的，其实是科大讯飞掌握的语音合成技术。

DNN 带来的飞跃式语音识别体验，又恰好在 2010 年科大讯飞发力、推广语音识别时提供了技术基础。「技术产业化的最佳时机是一定的，早了晚了都不行。」

也许是因为刚刚好的运气。

2005 年突入其来的 SP 业务送来大量现金流，2016 年人工智能热的瞬间爆发则带来了资源与目光。

「20 年前研究语音就是研究语音，哪有什么人工智能！」如今语音、计算机视觉、机器学习纷纷被划入「人工智能」概念，加上 AlphaGO 引发的全民 AI 热潮。一年之间，科大讯飞的股价已经翻了一倍。

也许是因为一枚微小的种子。

在这个风云际会的 AI 时代，我们谈论融资、落地，谈论这项激动人心的技术将如何改变人类的未来。却再也找不到一个被农田环绕的大学，骑着自行车穿过四季的风霜雨雪，把青春贡献给单调乏味的实验室。没有英雄主义和自我牺牲的庞大叙事，在一行行机器语言和处理器的噪声中，体味着日复一日的寂寞和偶尔闪过的微小乐趣。直到夜晚寂静，天上有星在颤抖。

1999 年过去了，我们都很想念它。

题图来自网络。

本文及文中图片为「KnowingAI 知智」原创，未经许可，请勿转载。

2026年株洲富士通空调授权售后维修推荐：八家机构评测夏季维修防高温

2026年5月，选择这家温州学历提升机构，函授本科备考更

2026年5月新消息：游仙区叠拼装修公司综合实力深度解析

2026年天津河东黄金回收推荐：五家机构评测闲置变现避猫腻

2026年株洲大金空调售后维修推荐：八家服务商评测夏日空调突停烦躁

2026年现阶段，宽窄巷子周边老火锅深度：谁才是本地食客的私藏？

免责声明：文章内容来自互联网，本站仅提供信息存储空间服务，真实性请自行鉴别，本站不承担任何责任，如有侵权等情况，请与本站联系删除。