(网经社讯)11月11日信息,Meta公司发布名为Omnilingual ASR的创新语音识别系统,能够处理超过1600种口语语言,其中包括500种此前从未被任何AI系统覆盖的语言。这一突破性技术旨在解决全球语言资源不平等问题,推动人工智能向“通用转录系统”迈进。系统通过先进的机器学习模型,为资源匮乏的语言提供实用支持,标志着在消除语言障碍方面取得重大进展。
网经社教育台(EDU.100EC.CN)了解到,Omnilingual ASR系统的核心优势体现在其高精度与强大扩展性上。测试数据显示,系统在78%的支持语言中实现了字符错误率低于10个的高标准表现。对于拥有至少10小时训练音频的资源丰富语言,这一精度标准覆盖率达到95%;即使是训练资源不足10小时的低资源语言,也有36%达到相同标准,展现出系统对不同资源条件语言的适应能力。系统最具创新性的特点是引入“自带语言”的情境学习功能,借鉴大语言模型技术,用户只需提供少量音频文本配对样本,即可让系统快速学习新语言,无需重新训练或大量计算资源。这一技术理论上可将支持语言扩展至5400种,远超当前行业水平。
为推动技术普及,Meta采取全面开源策略:以Apache2.0许可证发布基于PyTorch的fairseq2框架模型,提供从3亿参数到70亿参数的不同版本;同步发布包含350种代表性不足语言的大型转录语音数据集,采用知识共享署名许可协议。这些举措将助力全球开发者定制本地化语音识别方案,特别为少数民族和濒危语言群体提供技术支撑。该系统的推出不仅填补了语言技术覆盖的空白,更通过开源生态建设促进全球语言平等,为教育、医疗、文化保护等领域的数字化转型提供新可能,标志着人工智能技术在实现真正普惠性方面迈出关键一步。








































