最近,Siri 在 CarPlay 或通知播报功能中尝试描述收到的图片,结果却时好时坏。然而,苹果依然坚持其对人工智能的雄心壮志。在最新发表的一篇研究论文中,苹果的人工智能专家们阐述了一个全新的系统,这个系统能让 Siri 做到的远不止识别图片内容那么简单。更令人兴奋的是,他们认为其中一个模型在基准测试中的表现甚至超过了 ChatGPT 4.0。
在该论文(ReALM:语言建模中的引用分辨)中,苹果提出了一个可以显著提升语言模型增强的语音助手实用性的方案。ReALM 考虑了屏幕上显示的内容和正在进行的任务。论文中描述了这项工作的要点:
1. 屏幕上的实体(On-screen Entities):目前显示在用户屏幕上的实体。
2. 对话实体(Conversational Entities):与对话相关的实体。这些实体可能是用户之前对话的一部分(例如,用户说“给妈妈打电话”时,“妈妈”的联系方式就是相关实体),也可能来自虚拟助手(例如,当助手提供一系列地点或闹钟供用户选择时)。
3. 背景实体(Background Entities):与背景进程相关的实体,这些进程可能并不直接显示在用户的屏幕上,也不直接与虚拟助手的互动有关;例如,响起的闹钟或在背景播放的音乐。
[xyz-ihs snippet=”Google-Adsense-Article”]
如果这一系统运转良好,那将是一个更智能、更实用的 Siri 的关键。苹果还对其在完成这样的任务上的速度表示信心。其基准测试结果与 OpenAI 的 ChatGPT 3.5 和 ChatGPT 4.0 进行了比较:
作为另一种基准测试,我们运行了 GPT-3.5(Brown 等人,2020年;Ouyang 等人,2022年)和 GPT-4(Achiam 等人,2023年)版本的 ChatGPT,截至 2024 年 1 月 24 日的数据,并进行了上下文学习。就像在我们的设置中一样,我们的目标是让这两个版本预测出一个可用集中的实体列表。对于只接受文本输入的 GPT-3.5,我们提供的输入仅包括提示本身;而对于也能够处理图像上下文的 GPT-4,我们为屏幕上的实体引用任务提供了系统截图,我们发现这大大提高了性能。
那么苹果的模型表现如何呢?
我们证明了,与具有相似功能的现有系统相比,我们在不同类型的引用上取得了显著提升,其中最小的模型在屏幕实体引用方面取得了超过 5% 的绝对进步。我们还将其与 GPT-3.5 和 GPT-4 进行了基准测试,发现即使是我们最小的模型,其性能也媲美 GPT-4,而更大的模型则远超过 GPT-4。
论文最后部分总结道:
我们证明了 ReaLM 不仅超越了之前的方法,在性能上与当今最先进的大语言模型(LLM),即 GPT-4 相当,而且在参数数量上远少于 GPT-4,即使仅限于屏幕上的文本引用。它在特定领域的用户话语上也超越了 GPT-4,这使得 ReaLM 成为理想选择,作为一种实际的引用分辨系统,它可以内嵌在设备中,而且不会损失性能。
对于苹果来说,“在设备上而不损失性能”似乎是关键所在。未来几年的平台开发将会非常有趣,我们希望从 2024 年 6 月 10 日举办的 iOS 18 和 WWDC 2024 开始就能看到。
- 最易用的ChatGPT 和 Midjourney,戳👉AI思维车间网页版
- AI思维车间全新AI工具-MeetingMate,语音识别,实时翻译,1分钟生成会议纪要,现已正式上线