ChatGPT 的最新模型可能在性能上有所退步

根据人工智能分析领域的权威机构Artificial Analysis最新发布的报告，OpenAI旗下的旗舰大型语言模型GPT-4o（用于ChatGPT）在近期遭遇了显著的性能下滑，其表现已接近规模较小、性能明显落后的GPT-4o-mini模型。

这一分析结果的发布时间距OpenAI宣布GPT-4o模型升级不到24小时。在升级公告中，OpenAI通过其官方渠道X表示：“GPT-4o模型的创意写作能力已得到显著提升，其写作更加自然流畅、引人入胜，且更具针对性，从而大幅增强了内容的相关性和可读性。此外，该模型在处理上传文件方面也表现出色，能够提供更深入的见解和更全面的回应。”然而，这些声明如今正面临严峻质疑。

Artificial Analysis部门在周四通过X平台发布消息称：“我们已于昨日完成了对OpenAI GPT-4o版本的独立评估，结果显示，其评估分数远低于8月份发布的GPT-4o版本。”该机构进一步指出，GPT-4o的人工智能分析质量指数已从77降至71，与GPT-4o-mini当前的水平持平。

同时，GPT-4o在GPQA Diamond基准测试上的表现也从51%下滑至39%，而在MATH基准测试上的成绩则从78%下降到69%。尽管如此，研究人员发现，该模型的响应速度有了显著提升，从每秒约80个输出令牌加速至大约180个令牌/秒。研究人员指出：“我们通常会观察到OpenAI模型在发布首日速度有所加快（这可能是由于OpenAI在正式采用前进行了容量配置），但此前从未见过如此显著的速度提升，达到了两倍之差。”

他们继续分析道：“基于上述数据，我们推断，OpenAI于11月20日发布的GPT-4o模型很可能比8月版本的规模更小。鉴于OpenAI尚未对11月20日的版本进行降价处理，我们建议开发人员在没有经过充分测试的情况下，不要轻易将工作负载从8月版本迁移至新版本。”

GPT-4o于2024年5月首次亮相，旨在超越先前的GPT-3.5和GPT-4模型。OpenAI曾表示，GPT-4o在语音、多语言和视觉任务中均取得了最先进的基准测试结果，使其成为实时翻译、对话式AI等高端应用的优选方案。

相关文章