印度Sarvam AI称其模型在OCR与语音识别上超越Gemini和ChatGPT

发布时间：2026-02-19 10:01

印度人工智能初创公司Sarvam AI宣布，其开发的AI模型在关键性能指标上超越了Gemini和ChatGPT等全球主流模型。该公司专注于为印度市场量身定制AI解决方案。

Sarvam AI推出的Sarvam Vision模型在光学字符识别（OCR）基准测试中表现突出。该模型能够解读复杂表格、理解图表、识别现实场景中的文本并生成描述。同时，其Bulbul V3模型负责文本转语音系统。两款模型均支持印度全部22种官方语言。

该公司指出，主流AI聊天机器人在处理英语等语言时表现出色，但在面对印度复杂的文字体系或地区语言细微差别时，性能会有所下降。Sarvam AI的模型正是为了弥补这一缺口而构建，特别考虑了印度语言的复杂性。其文本转语音系统拥有多个语音选项，旨在更准确地捕捉当地语言的节奏和语调，提升用户的使用舒适度。

在应用层面，高质量的OCR技术至关重要，它支撑着从手机扫描文档到数字化历史档案等多种场景。字符识别错误、姓名误读或上下文缺失都会带来实际问题。Sarvam AI表示，其技术能帮助小企业主和政府机构更快速、准确地将记录转换为可搜索的档案。

Sarvam AI将自己定位为“主权AI”的构建者，旨在区别于外国平台，开发真正理解印度数据、满足印度特定需求的工具。该公司的出现也引发了关于创新起源的讨论，表明解决特定问题的专注团队也能取得突破。

当然，基准测试仅是性能的瞬时反映，其实际影响力最终将取决于市场采用程度。如果其声称的性能属实，也可能促使更大的AI公司改进其对更多语言和文字的支持。Sarvam AI的案例表明，关注细节与文化特异性，同样能在AI领域与大规模通用模型展开竞争。