苹果公司的研究人员开发了一种训练大型语言模型(LLM)的新方法,可以无缝地整合文本和视觉信息。
该公司的发现详细载于一篇题为《MM1:多模式LLM预训的方法、分析和见解》的研究论文中,展示了一种创建更智能、更灵活的人工智能系统的新方法。苹果公司声称,通过利用包括图像-字幕对、交错的图像-文本文档和纯文本数据在内的各种数据集,MM1模型为人工智能高精度执行图像字幕、视觉问题回答和自然语言推理等任务的能力设定了新的标准。
苹果的研究重点是不同类型的训练数据和模型架构的组合,这使人工智能能够理解并基于视觉和语言线索生成语言。这种能力对于需要对世界有细微差别的理解的任务至关重要,例如解释复杂的图像或回答涉及视觉元素的问题。
文章还强调了MM1模型在上下文中的卓越学习能力,特别是在该模型的最大300亿参数配置中。这个版本显然展示了非凡的能力,可以使用极少的“思维链”提示在多个图像上进行多步推理,这是一种允许人工智能基于最少的例子执行复杂的开放式问题解决的技术。