推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

ChatGPT 已经能够倾听和说话。很快它或许也能看见

ChatGPT 已经能够倾听和说话。很快它或许也能看见缩略图

根据ChatGPT最新测试版中潜藏的代码线索,其高级语音模式——一个让用户能与聊天机器人实时互动的功能,即将迎来视觉能力的加持。尽管OpenAI尚未正式公布这一新功能的发布日期,但Android Authority在ChatGPT v1.2024.317测试版中发现的代码暗示,一个名为“实时摄像头”的功能或即将面世。

今年5月,OpenAI首次以alpha形式展示了ChatGPT高级语音模式的视觉功能。在当时的演示中,该系统能够借助手机摄像头识别物体,如识别出正在观看的狗、根据过往互动认出这只狗、识别出狗旁边的球,并将狗与球的关系(如玩捡球游戏)联系起来。这一功能迅速赢得了alpha测试者的青睐,例如X用户Manuel Sainsily就巧妙地利用该功能,通过摄像头视频源回答了关于他的新小猫的口头提问。

随后,在9月,高级语音模式以测试版形式向Plus和Enterprise用户开放,但当时并未新增视觉功能。然而,这并未阻碍用户热情探索其语音交互的极限。据公司介绍,高级语音模式“提供更为自然的实时对话体验,允许用户随时打断,并能感知和响应用户的情绪”。

数字视觉的融入无疑将使ChatGPT的高级语音模式在竞争中脱颖而出,特别是与主要对手谷歌和Meta相比。近几个月来,这两家公司也推出了自己的对话功能,但Gemini Live虽能支持40多种语言,却尚不具备环境感知能力(至少在Project Astra项目启动前如此);而Meta在Connect 2024活动上首秀的自然语音交互功能,同样无法利用摄像头输入。

此外,OpenAI今日还宣布,高级语音模式现已扩展至桌面版ChatGPT Plus付费账户。此前,该功能仅限于移动设备使用,现在用户也可直接在笔记本电脑或PC上享受这一便捷体验。

滚动至顶部