根据人工智能分析领域的权威机构Artificial Analysis最新发布的报告,OpenAI旗下的旗舰大型语言模型GPT-4o(用于ChatGPT)在近期遭遇了显著的性能下滑,其表现已接近规模较小、性能明显落后的GPT-4o-mini模型。
这一分析结果的发布时间距OpenAI宣布GPT-4o模型升级不到24小时。在升级公告中,OpenAI通过其官方渠道X表示:“GPT-4o模型的创意写作能力已得到显著提升,其写作更加自然流畅、引人入胜,且更具针对性,从而大幅增强了内容的相关性和可读性。此外,该模型在处理上传文件方面也表现出色,能够提供更深入的见解和更全面的回应。”然而,这些声明如今正面临严峻质疑。
Artificial Analysis部门在周四通过X平台发布消息称:“我们已于昨日完成了对OpenAI GPT-4o版本的独立评估,结果显示,其评估分数远低于8月份发布的GPT-4o版本。”该机构进一步指出,GPT-4o的人工智能分析质量指数已从77降至71,与GPT-4o-mini当前的水平持平。
同时,GPT-4o在GPQA Diamond基准测试上的表现也从51%下滑至39%,而在MATH基准测试上的成绩则从78%下降到69%。尽管如此,研究人员发现,该模型的响应速度有了显著提升,从每秒约80个输出令牌加速至大约180个令牌/秒。研究人员指出:“我们通常会观察到OpenAI模型在发布首日速度有所加快(这可能是由于OpenAI在正式采用前进行了容量配置),但此前从未见过如此显著的速度提升,达到了两倍之差。”
他们继续分析道:“基于上述数据,我们推断,OpenAI于11月20日发布的GPT-4o模型很可能比8月版本的规模更小。鉴于OpenAI尚未对11月20日的版本进行降价处理,我们建议开发人员在没有经过充分测试的情况下,不要轻易将工作负载从8月版本迁移至新版本。”
GPT-4o于2024年5月首次亮相,旨在超越先前的GPT-3.5和GPT-4模型。OpenAI曾表示,GPT-4o在语音、多语言和视觉任务中均取得了最先进的基准测试结果,使其成为实时翻译、对话式AI等高端应用的优选方案。