讯飞语音输入法
科大讯飞开发的输入法软件
讯飞语音输入法,一般指科大讯飞股份有限公司所开发的讯飞输入法(英文:iFLYTEK Input Method) ,于 2010 年 10 月 28 日上线,支持语音输入、拍照输入、手写输入、方言输入等输入模式。讯飞输入法首推语音输入,截至 2023 年 10 月 17 日已完成对四川话、东北话、上海话、山东话、武汉话等 26 种方言的语音识别支持,还支持英语、韩语、日语、波斯语、泰米尔语、土耳其语、乌克兰语、波兰语等 30 种外国语言以及 5 种民族语言的语音输入,进一步扩大了使用场景。截至 2023 年 10 月 17 日,讯飞输入法官网提供 iOS、Android、Windows、macOS、Linux、OpenHarmony 平台软件下载,全面覆盖各平台设备。
讯飞输入法是行业领先的语音输入解决方案,可实现 1 分钟输入 400 字,识别准确率可达 98%。截至 2020 年 10 月,讯飞输入法的日语音交互次数超过 10 亿次,语音输入累计服务设备超过 5 亿台,语音用户占比超过 70%。
截至 2023 年 10 月,讯飞输入法已实现方言免切换、面对面即时翻译、拍照 OCR 识别、无障碍语音文字表情输入、AI 校正等多项领先技术;并且基于其不断创新的语音模型,讯飞输入法在不同场景下的使用效率与准确率不断得到提升。
发展历程
公司创立与上市(2010 年以前)
20 世纪 90 年代,世界智能语音产业萌芽。1997 年,IBM 推出 IBM ViaVoice——第一个多语种的连续听写产品,并在其中文普通话系统最初推出时向时任中国国家主席江泽民进行了演示。当时中国的语音市场几乎完全由跨国公司掌握,而中国培养的语音领域人才,也相继外流。彼时,就读于中国科学技术大学刘庆峰,本科大五时成为“人机语音通信实验室”研究团队的带头人;在 1998 年“国家高技术研究发展计划”的语音识别核心技术测评上,刘庆峰第一个将语音合成技术做到可实用级别。
1999 年 12 年 30 日,拒绝微软数万美元奖学金的刘庆峰,组建了一支 18 人创业团队,在安徽合肥正式成立了科大讯飞股份有限公司,主要从事智能语音、自然语言理解、计算机视觉等 AI 技术研究。
2008 年,科大讯飞在深圳证券交易所中小板挂牌上市(股票代码:002230),成为中国第一家在校大学生创业成功上市的公司,也是当时中国语音产业界唯一上市企业
技术突破阶段(2010 年 - 2014 年)
2010 年 10 月 28 日,基于互联网和移动互联网的语音识别和语音合成引擎“讯飞语音云”正式发布;讯飞输入法横空出世,将 HMM(Hidden Markov Model,隐马尔可夫模型)运用于语音识别系统中,集语音、手写、拼音等多种输入方式于一体,极大方便了用户手机输入的使用,提高了输入的效率。
21 世纪 10 年代前后,人类开始尝试复制人脑聆听和处理人类语音的方式,DNN(Deep Neural Networks,深度神经网络)在语音识别方面的应用具有革命性的突破。在此背景下,科大讯飞开始开展 DNN 语音识别研究,并于 2012 年上线了全球首个中文语音识别 DNN 系统,并运用于讯飞输入法中,使得识别率相对提升 35%,准确率提升至 80%。
同时,讯飞输入法也进行着对 PC 端输入法的探索与尝试。2013 年 7 月 10 日,讯飞输入法 PC 版正式对外发布,其集语音、手写、拼音输入于一体,具有强大的语音识别能力和创新的触摸板手写输入方式。
此后,SDT-DNN(Sequence Discriminative Training Deep Neural Networks,序列区分性训练-深度神经网络)、VAD(Voice Activity Detection,语音端点检测)、UB-LSTM(Unidirectional and Bidirectional Long Short Term Memory,单向与双向长短期记忆)等关键技术先后被运用于讯飞输入法中,在提高其语音识别准确率的同时,实现了一系列的重要功能。2013 年,离线语音识别初步实现;2014 年,讯飞输入法语音识别率达到 95%。
由于时空性和地域性因素,中国地方方言识别一直以来都是语音识别界的难题。基于云计算、大数据,方言口音适配、深度神经网络等技术手段,科大讯飞于 2014 年 1 月成功研发出具备自动纠错能力和智能联想能力的方言语音识别引擎。同时,科大讯飞与中国国家语言文字工作委员会达成合作,征集了各地方言的语音数据用于模型训练。2014 年 2 月 27 日,科大讯飞正式推出四川话语音识别技术,并率先应用于讯飞输入法,识别准确率超过 85%。同年,河南话(包括晋语邯新片和中原官话)、东北话(东北口音普通话、沈阳话、长春话、哈尔滨市话)、天津话、湖南话(长沙话)、山东话、武汉话、合肥话、陕西话、南京话的语音识别功能相继推出。
AI 战略 1.0:应用探索期(2015 年 - 2018 年)
讯飞输入法持续在方言语音识别领域深耕,取得了一系列的成果。在 2015 年之后,讯飞输入法又陆续实现了贵州话、客家话等方言的语音识别功能,并开始探索民族语言的语音识别领域。
2017 年,讯飞输入法联合中国声谷发起“方言保护计划”,建立“中国方言库”,通过智能语音方式推动方言融入到普通生活中,解决地域使用少、收集难的问题,致力于长期保护和留存方言的公益活动,也为其语音识别技术积累了海量方言数据。同年,得益于基于高速缓冲存储器的快速适应技术(Cache based Fast Adaptation),讯飞输入法推出“语音智适应”功能,其基于用户对识别结果的修正,即时对用户个性化语言模型进行优化,从而避免再次输入时仍发生同样的错误,旨在解决反复修改的痛点。
截至 2018 年底,讯飞输入法已支持 23 种方言以及部分民族语言和外语的语音识别。
AI 战略 2.0:红利兑现期(2019 年至今)
在 AI 战略 2.0 阶段,讯飞输入法实现了业务的快速扩张。
2019 年 5 月 21 日,讯飞输入法 9.0 推出。该版本搭载了基于注意力机制的 Encode-Deconde 模型,推出了中英文免切换,普通话、粤语免切换功能,初步实现了不同语种混合输入。同年 11 月,讯飞输入法 Linux 版正式发布,实现了与 Deepin 的无缝对接,并且适配了龙芯、飞腾等中国国产处理器。
此外,在 2021 年 11 月发布的讯飞输入法 11.0 中,前沿 AI 技术的全面赋能使得 AI 助手的智能化水平提升到了新高度。新版本推出了适配多场景的助手功能,覆盖“整句预测”“AI 校对”“AI 会聊”等使用场景,为用户带来更强大的输入功能、更智能的输入体验。而在 2022 年 11 月发布的讯飞输入法 12.0 中,基于全新的 AI 智能化输入引擎,内置的 AI 助手已内置 22 种 AI 功能,覆盖聊天、发布、搜索、评论、评价、个性表达 6 大输入场景。
2023 年 5 月 6 日,科大科大讯飞推出讯飞星火认知大模型;8 月 15 日,讯飞输入法基于星火大模型推出“AI 创作助手,成为中国首款支持大模型的输入法产品。
截至 2023 年 9 月 22 日,讯飞输入法“方言保护计划”贡献人数超 85 万,收集方言条数近 170 万条。
产品功能
文字输入方式
多方言、多语种语音识别
自 2014 年 2 月推出四川话语音识别技术后,讯飞输入法相继推出河南话(包括晋语邯新片和中原官话)、东北地区话(东北口音普通话、沈阳话、长春话、哈尔滨市话)、天津话、湖南话(长沙话)、山东话、武汉话等 26 种方言与藏语、维吾尔语彝语等 5 种民族语言以及英语、朝鲜语日语波斯语泰米尔语土耳其语乌克兰语波兰语等 30 种外国语言的语音输入,通用语音识别率高达 98%。用户在输入法键盘上长按空格键即可选择方言或语种开始语音输入,也可以通过 App 内 “AI 输入 - 语音面板”来进行沉浸式语音输入。
2017 年,讯飞输入法 iOS 7.0.1726 正式上架 App Store,实现了 iOS 首例第三方语音输入免跳转,极大的提高了用户在语音输入时的效率。
方言免切换
2019 年 5 月 21 日,讯飞输入法 9.0 推出了中英文免切换,汉语、粤语免切换功能,初步实现了不同语种混合输入;在 2022 年上线的 12.0 版本中,讯飞输入法正式推出了“方言免切换”语音识别模式,实现了不用频繁切换也能识别多种方言,大大提高了输入的效率。在语音输入面板中点击语言选择,在“方言”下即可选择“方言免切换”模式。
智能拍照输入
2021 年,科大讯飞输入法发布了“智能拍照输入”功能,开创拼音、语音、手写之外全新的输入交互方式以搞定各类复杂信息的录入,截至 2023 年 10 月 9 日,支持中文、英文、日语、韩语和德语的文字识别,英语和日语拍照翻译,数理公式一键上屏,数学作业智能批改以及拍照便捷生成 Office 电子文档等功能。用户在讯飞输入法菜单面板可直接点击“拍照输入”进入拍照输入模式。
无障碍输入
为了满足视障群体对无障碍输入个性化、多元化的功能需求,讯飞输入推出“无障碍输入”模式。通过开启系统设置中的 TalkBack 服务,用户就可以接收到讯飞输入法提供的实时语音反馈,为视障群体无障碍使用电子设备提供了解决方案。2021 年 12 月,小米 MIUI 团队与讯飞输入法联合打造的无障碍输入法上线。
离线输入
离线输入功能于 2021 年 7 月推出,包括完全离线的拼音、语音以及手写输入。用户在离线输入模式下无法使用拼音云、语音、翻译和斗图等云端输入服务,但仍支持语义联想、错别字校正等功能;并且基于其内置的 AI 离线识别引擎,识别速度和准确率均能达到可使用水平。截至 2023 年 10 月 17 日,离线语音仅支持普通话。
表情包
用户在输入法键盘上点击“表情”按钮,在表情输入面板中选择“表情包”即可浏览、下载众多表情包,包括卡通、影视、动漫、游戏、综艺分类。
斗图
讯飞输入法在表情输入面板中的“斗图”板块内提供了网络上活跃的众多表情包供用户选择发送,包含萌宠、沙雕、emoji、动漫、卡通、萌娃、暴漫、小表情、精神状态分类。
AI 助手
会聊
用户处于“会聊”界面时,讯飞输入法会根据当前输入框中的内容使用 AI 技术进行内容的推荐与替换,让表达更加多样。用户可以在不同的使用场景下使用提示词(如“生日快乐”“谢谢”等)来获取 AI 助手的推荐语句,若不满意,可以点击“换一换”进行替换。
BiuBiu 趣聊
BiuBiu 趣聊可以对用户输入的文本进行修饰与加工,实现多样的聊天形式的切换。截至 2023 年 10 月,BiuBiu 趣聊支持单字刷屏模式、说三遍模式、咆哮模式、中英文装 X 模式、emoji 模式、乱序模式、倒序模式、火星文模式、密语模式、成语接龙模式、拆字模式。
A.I 校对
基于 AI 技术,讯飞输入法实现了对汉语文本中拼写、语法、标点等多种问题的纠错校对,提示错误位置并返回修改建议,截至 2023 年 10 月 17 日已支持政法、教育行业的专业词汇的智能校对。当用户完成输入后,点击 “A.I 校对”即可显示错别字和正确结果,再点击“纠错”即可完成替换。
其他
皮肤 DIY
讯飞输入法提供海量的键盘皮肤供用户选择,同时支持用户自己上传图片进行皮肤 DIY。用户在讯飞输入法 App 首页即可看到皮肤商城与皮肤 DIY 的入口。
语音便签
讯飞输入法在 App 内提供“语音便签”功能以便于用户在有需求时直接在输入法中记录信息,不必切换应用即可记录灵感,一定程度上避免了遗忘误事的情况发生。用户在 App 中的 “AI 输入 - 语音便签”中即可使用该功能。
面对面翻译
2018 年 6 月,讯飞输入法推出“面对面翻译”功能,支持中英、中俄、中日、中韩四种对话翻译模式,并配备有真人发音。用户在 App 中的 “AI 输入 - 面对面翻译”中即可使用该功能,而且实现了翻译文字结果同步上屏、语音播报等便利功能。
相关合作
合作腾讯御安全
2017 年 3 月,讯飞输入法与腾讯御安全展开了深度合作,致力于共同为手机用户打造无忧的移动安全体验,共建网络安全新生态。
腾讯御安全基于其漏洞扫描引擎协助讯飞输入法对安全漏洞进行扫描御修复,并且通过代码级的加壳、混淆、插花等各种防逆向、防篡改、防动态调试功能,进一步提升了讯飞输入法的安全性。
在此次合作中,腾讯御安全集成了腾讯手机管家在安全领域积累的诸多经验,为讯飞输入法提供漏洞扫描和加固服务,全面保护讯飞输入法的应用层、so 文件和 SDK 库,由此保护应用的自身安全以及用户的信息安全,防止信息外泄。
合肥万象城“科大讯飞 A.I. 互动体验中心”
2019 年 8 月 31 日,讯飞输入法与合肥万象城携手打造“科大讯飞 A.I. 互动体验中心”。双方跨界合作,致力于打造购物中心场景体验的新主题,为消费者带来全新的线下体验。
讯飞输入法“声音实验室”定位于“开放的实验室”,由“你的声音实验区”“A.I. 造物体验区”“A.I. 互动大屏”三部分组成。“声音实验室”中间是一块超大互动屏,能让市民全方位了解前沿的 A.I. 产品和服务。
A.I. 互动大屏的右侧区域为“你的声音实验区”,包括 “A.I. 变声体验区”和 “A.I. 音色鉴定区”:在 “A.I. 变声体验区”面向“变声盒子”说话,即可听见由科大讯飞“实时变声”技术实现的变声重复;在 “A.I. 音色鉴定区”,A.I.可以多维度提取说话人的语音特征,判断说话人的性别 / 年轻 / 情绪等,提供 14 种不同的声音鉴定结果。
A.I. 互动大屏左侧区域则是侧重用户体验的 “A.I. 造物体验区”:用户可以亲手把玩可翻译语言覆盖全球近 200 个国家和地区的讯飞翻译机 3.0,搭载 10.3 英寸的新一代 E-ink 柔性屏,集录音、手写、阅读等功能于一体的讯飞智能办公本,一小时录音五分钟成稿的讯飞智能录音笔等产品,实现用户体验和推广效果的有机结合。
接入 iFLYOS
2019 年 10 月,讯飞输入法于 “2019 科大讯飞全球 1024 开发者节”上与 iFLYOS宣布技术合作,并致力于将讯飞输入法打造成实时响应的语音助手。
iFLYOS 语义服务于 2019 年 11 月在讯飞输入法上线,覆盖编辑文本、搜索表情、搜索皮肤、打开辅助、个性化设置五大输入法核心功能。语义服务将通过语音口令访问,或使用“小飞小飞”唤醒来明确语音口令。此外,在 iFLYOS 蓝牙协议的加持下,未来讯飞输入法可代替蓝牙设备在手机上的客户端,无需下载 App 即可快速为蓝牙设备赋能。用户可以通过输入法语音入口快速控制蓝牙设备。iFLYOS 也将逐步为讯飞输入法定制丰富的语音技能,为亿级用户提供会话式语音体验。同时通过深度优化基于输入文本的语义处理,实现智能回复、写作辅助。
基于本次合作,讯飞输入法与 iFLYOS 将会形成统一用户体系,共享多终端数据,统一画像,进一步提升讯飞产品群高品质的用户体验,形成更完整的讯飞生态链。
联合瑞声科技 - 自定义振感输入法
2021 年 9 月 26 日,讯飞输入法联合瑞声科技推出全球首款由用户自定义振感的输入法,向用户开放振感调节模块,让体验息息相关的每一个细节均由用户做主。
此次更新的讯飞输入法 Android 新版对手机的线性马达进行了适配,实现了用户可自定义个性触感,且不止于振动强度,还能精细调整振动的锐度。Android 阵营的高品质机型用户可以率先体验自定义振感。此外,瑞声科技旗下的 RichTap 触觉反馈方案为讯飞输入法用户精心设计、定制了清脆、弹柔、灵动、深沉四种触感,让键盘打字的体验更进一步。
截至 2023 年 10 月 17 日,讯飞输入法 iOS 端未支持自定义振感。
联合小米打造“无障碍模式”
2021 年 12 月 3 日,讯飞输入法与小米 MIUI 携手打造的为提升残疾人士输入体验的“无障碍模式”上线。该无障碍输入法实现了打字面板、功能面板的操作震动反馈,同时拥有语音提示,为视障群体提供听觉反馈。为进一步提升视障群体打字体验,丰富表达,讯飞输入法在基础无障碍输入之外适配了 emoji 表情的无障碍发送功能,当点击 emoji 时,讯飞输入法能播报表情名称以及所处位置,让对方充分理解文字之外的情绪。此外,“无障碍模式”内置方言识别,方便带口音或说方言的视障群体,进一步降低语音输入的门槛。
用户通过开启系统设置中的 TalkBack 服务,就可以接受到讯飞输入法提供的实时语音反馈。
公益事件
“方言保护计划”
2017 年,讯飞输入法联合中国声谷发起“方言保护计划”,助力建立“中国方言库”。
2019 年 4 月 23 日,讯飞输入法联合新华书店在广州四阅书店打造了“方言保护计划公益联名店”,旨在推进“方言保护计划” 深入粤语区。
2020 年 5 月 18 日,暨第 44 个国际博物馆日,讯飞输入法携手苏州博物馆开展“用姑苏软语传承千年文化”活动,一起探索方言保护新形式;同年 10 月,讯飞输入法携手《我和我的家乡》电影发起“声音的 100 个家乡”大型线上活动,稳步有力推进“方言保护计划”。
2021 年 4 月 22 日,讯飞输入法携手中国方言研究院,重点围绕方言文化数字化典藏项目,共同推进“方言保护计划”,共建浙江方言文化影视典藏,深入探索方言文化的传承机制;同年 11 月 12 日,讯飞输入法联合中国方言研究院,在浙江省锦麟公益基金会,红石慈善基金会支持下,共同发起童话乡音,儿童浙方言文化传承公益活动;12 月 21 日,讯飞输入法与科大讯飞苏州研究院联合中国文化 IP 蜃楼志推出《姑苏琐记》方言文化公益短片,用 AI 留下多彩乡音。
2022 年 4 月 23 日,在第 27 个世界图书与版权日上,讯飞输入法携手海南民生广播在“方言保护计划官网”上线《海南方言小课堂》视频,旨在传播方言文化,关注方言保护;同年 6 月 23 日,讯飞输入法联合中国蓝 TV 为共同推进 “AI + 公益”的“方言保护计划”,发起“寻找杭州市乡音发音人”活动,探索新时代的文化传承路径;9 月 21 日,讯飞输入法携手总台中央广播电台中国之声特别策划文化类有声专题节目《声音里的中国》,共同推进“方言保护计划”。
“方言保护计划”通过智能语音方式推动方言融入到普通生活中,解决地域使用少、收集难的问题,致力于长期保护和留存方言的公益活动,也为其语音识别技术积累了海量方言数据。截至 2023 年 10 月 17 日,讯飞输入法“方言保护计划”贡献人数超 85 万,收集方言条数近 170 万条。
无障碍服务
作为中国最早适配无障碍功能的 App 之一以及中国盲人协会认证的首个输入法产品,讯飞输入法将业界领先的 AI 技术应用到无障碍模式上,依托无障碍语音输入、表情输入等功能,为视障人群铺设了通向互联网世界的“盲道”,满足了 1700 多万视障群体对无障碍输入个性化、多元化的功能需求。此外,讯飞输入法从 2019 年起,连续三年在 10 月 15 日国际盲人节上携手黄子韬林永健李乃文等明星,联合中国盲人协会发起“和我一起看见”公益活动,致力于聚焦视力障碍群体,倡导信息无障碍。
品牌荣誉
影响评价
社会影响
讯飞输入法推出了业界首个中文语音输入模式,从此宣布移动互联网迈入了语音时代。随后谷歌、搜狗、百度集团陆续加入语音输入。作为首款同时支持普通话和粤语的输入法,讯飞输入法通过推出无需网络不用流量极速识别的“离线语音”,改变了“语音输入必须联网”的传统观念。此后,讯飞输入法又在方言识别、多语种、无障碍适配上不断进行创新,始终走在行业前列。
中国日报网指出,“语音输入相较拼音手写等输入形式,输入效率更高、交互更自然。同时,随着语音识别准确率不断提高,语音输入会成为未来信息输入与传递的重要形式,更多用户习惯于高效的语音输入方式后,甚至为输入法行业的市场格局带来变革的契机”;“随着人工智能时代的到来,讯飞输入法将探索更多应用场景和落地创新功能。”
批评
在经历 2021 年因违规收集数据而被强制下架后,澎湃新闻指出讯飞输入法在使用过程中并未提及其收集数据回传云端的过程,讯飞输入法在构建数据库过程中对数据进行收集的范围是否合理还有待商;同时,鉴于此事件之后科大讯飞股价跌停,科大讯飞靠收集用户信息,研究智能产品与服务的盈利模式的合理性也受到了质疑。
争议事件
版权纠纷
2016 年 10 月 9 日,讯飞输入法官方新浪微博发布消息,科大讯飞已经起诉百度集团商标侵权和不正当竞争。科大讯飞要求百度停止侵权及不正当竞争行为、赔礼道歉、消除影响并赔偿经济损失 100 万元,相关法院已经受理此案。在讯飞输入法诉讼书微博曝光后,百度方面撤销了涉嫌侵权的推广,但并未有其他官方说明和回应。
违规下架
2021 年 6 月,讯飞输入法遭苹果公司华为等多个应用商店下架。对此,科大讯飞表示,讯飞输入法 App 因未完全满足网信办 5 月 1 日公布的相关整改要求而被应用商店下架,主要下架原因是:讯飞输入法新版本未弹窗提示用户选择是否开启。而在用户关闭弹窗提示后,出现二次弹窗要求用户确认。截至 6 月 11 日,讯飞输入法 App 已完成整改,正在配合相关部门检测,确保合规后重新上架。
其他
2023 年 2 月,赵露思起诉讯飞输入法侵权其肖像权,未经允许上线“赵露思皮肤”。该案将于2月23日在成都铁路运输法院开庭审理。
参考资料
科大讯飞股份有限公司.爱企查.2023-09-22
讯飞输入法.华为应用市场.2023-10-16
Pioneering Speech Recognition.IBM - Technical Breakthroughs.2023-10-17
讯飞简介 - 科大讯飞.科大讯飞.2023-09-22
科大讯飞 - 发展历程.科大讯飞.2023-10-17
讯飞输入法首家推出四川话语音识别.科大讯飞 - 讯飞新闻.2023-09-22
讯飞输入法推出河南话语音识别.科大讯飞 - 讯飞新闻.2023-09-22
讯飞输入法正式推出东北话识别.科大讯飞 - 讯飞新闻.2023-09-22
讯飞输入法新增天津话语音输入.科大讯飞 - 讯飞新闻.2023-09-22
科大讯飞推出山东话方言识别.科大讯飞 - 讯飞新闻.2023-09-22
科大讯飞发布武汉话方言识别.科大讯飞 - 讯飞新闻.2023-09-22
科大讯飞发布合肥话方言识别.科大讯飞 - 讯飞新闻.2023-09-22
科大讯飞发布陕西话识别.科大讯飞 - 讯飞新闻.2023-09-22
金陵雅音来斯 讯飞输入法新增南京话识别.科大讯飞 - 讯飞新闻.2023-09-22
方言保护计划.讯飞输入法.2023-09-22
方言保护计划.方言保护计划.2023-09-22
极客公园创新大会.极客公园.2023-09-23
荣誉奖项.讯飞输入法.2023-09-23
目录
概述
发展历程
公司创立与上市(2010 年以前)
技术突破阶段(2010 年 - 2014 年)
AI 战略 1.0:应用探索期(2015 年 - 2018 年)
AI 战略 2.0:红利兑现期(2019 年至今)
产品功能
文字输入方式
多方言、多语种语音识别
方言免切换
智能拍照输入
无障碍输入
离线输入
表情包
斗图
AI 助手
会聊
BiuBiu 趣聊
A.I 校对
其他
皮肤 DIY
语音便签
面对面翻译
相关合作
合作腾讯御安全
合肥万象城“科大讯飞 A.I. 互动体验中心”
接入 iFLYOS
联合瑞声科技 - 自定义振感输入法
联合小米打造“无障碍模式”
公益事件
“方言保护计划”
无障碍服务
品牌荣誉
影响评价
社会影响
批评
争议事件
版权纠纷
违规下架
其他
参考资料