首个支持30种方言混讲语音大模型发布
科技日报记者 崔爽
AI正在为传承语言文化注入全新生命力。记者从25日召开的第七届数字中国建设峰会上获悉,中国电信人工智能研究院发布业内首个支持30种方言自由混讲的语音识别大模型——星辰超多方言语音识别大模型。其打破单一模型只能识别特定单一方言的困境,可并且识别理解粤语、上海话、四川话、温州话等30多种方言,是国内支持最多方言的语音识别大模型。
据统计,全国仍有约20%的人口未普及一般话,他们常被隔绝在智能信息服务之外。并且,不少方言在社会经济快速进展中不断消亡,保护方言传承语言文化已迫在眉睫。
基于几亿用户和丰富应用场景优势,中国电信人工智能研究院构建超30种、超30万小时的高质量方言数据库,推出星辰语音大模型。研发团队经过超大规模语音预训练和多方言联合建模,领先实现单一模型支持30种方言自由混讲语音识别,是国内支持方言最多、覆盖人口最多的语音大模型;团队首创“蒸馏+膨胀”联合训练算法,解决超大规模多场景数据集和大规模参数条件下,预训练坍缩的咨询题,实现1B参数80层模型稳定训练;星辰语音大模型也是业内首个开源的基于离散语音表征的语音识别大模型,将推理时语音传输比特率降低数十倍。
据悉,星辰语音大模型已在福建、江西、广西等地的智能客服试点应用,接入大模型后,智能客服秒懂30种方言,日均处理约200万通电话。星辰语音大模型还落地多地市12345平台,赋能客服人员,提升沟通效率,助力政务工作智能化升级。
来源:中国科技网