Cohere声称其新的Aya Vision AI模型是一流的
该实验室声称,AI初创公司Cohere的非营利性研究实验室的AI,本周发布了多模式的“开放” AI模型Aya Vision,该实验室声称是一流的。
Aya Vision可以执行任务,例如编写图像标题,回答有关照片的问题,翻译文本以及以23种主要语言生成摘要。 Cohere也是通过WhatsApp免费提供Aya Vision,称其为“使全球研究人员可以取得成功的技术突破迈出的重要一步。”
Cohere在博客文章中写道:“尽管AI取得了重大进展,但模型在不同语言中的表现仍然存在很大的差距,这在涉及文本和图像的多模式任务中变得更加明显。” “ Aya Vision旨在明确帮助缩小这一差距。”
Aya Vision有几种口味:Aya Vision 32B和Aya Vision 8b。这两个中越复杂的Aya Vision 32B设置了Cohere说,“新边界”的大小优于2倍,包括Meta的Llama-3.2 90B视觉,在某些视觉理解基准上。同时,根据Cohere的说法,AYA Vision 8b在某些评估上的得分要比模型10倍更好。
这两种型号均可从AI Dev平台在Creative Commons 4.0许可下与Cohere的可接受使用附录一起提供。它们不能用于商业应用。
Cohere说,AYA视觉是使用英语数据集的“不同的池”训练的,该数据集将其翻译并用于创建合成注释。注释,也称为标签或标签,有助于模型在培训过程中理解和解释数据。例如,训练图像识别模型的注释可能采用图像中描述的每个人,位置或对象的对象或字幕上的标记形式。
Cohere的Aya视觉模型可以执行一系列视觉知性nding任务。图像学分:cohere
Cohere对合成注释的使用(即AI产生的注释)正在趋势。尽管具有潜在的弊端,但包括OpenAI在内的竞争对手越来越多利用合成数据来训练模型,因为现实世界数据的井井会变干。研究公司Gartner估计,去年用于AI和分析项目的数据中有60%是合成的。
根据Cohere的说法,培训AYA对合成注释的愿景使实验室能够在实现竞争性能的同时使用较少的资源。
Cohere在博客中写道:“这表明了我们对效率的关注,并使用较少的计算来表达更多的事情。” “这也为研究界提供了更大的支持,他们通常对计算资源的访问机会更有限。”
Cohere与Aya Vision一起发布了新的基准套件AyavisionBench,旨在探究模型在“视觉”任务中的技能例如确定两个图像之间的差异并将屏幕截图转换为代码。
AI行业正处于某些人所说的“评估危机”之中,这是基准的普遍结果,这些基准的普及使总分数与大多数AI用户关心的任务相关的总分数与熟练程度相关。 Cohere断言,AyavisionBench是纠正这一点的一步,为评估模型的跨语性和多模式理解提供了一个“广泛而充满挑战的”框架。
幸运的是,确实如此。
Cohere研究人员在一篇关于拥抱面孔的文章中写道:“数据集是评估多语言和现实世界中视觉模型的强大基准。” “我们将此评估集提供给研究社区,以推动多语言多模式评估。”
上一篇
Crogl斥资3000万美元为安全分析师打造了一款人工智能“钢铁侠套装”
2025-03-07
下一篇
发布评论