OpenAI推新文字转影片AI工具「Sora」，一键生成1080p画质、1分钟短影片！

OpenAI全新推出的文字转视频生成式AI——「Sora」，已经惊艳亮相！据官方实测，Sora已经能够生成高达1080p分辨率、时长1分钟的短片。在昨日（15日）OpenAI发布晚间消息后，创始人山姆·阿特曼（Sam Altman）在个人X（前身为Twitter）上发文，鼓励包括Red Teamers（网络安全专家）在内的已获得测试资格的用户，分享通过Sora生成的动画作品。

Sora不仅支持从文字生成视频，还能将静态图片转化为短片，即便是多个不同角度的分镜画面，也能在影片结尾以相同的画面完美呈现，如缆车的起始站到终点站的全过程。从OpenAI官网发布的动画中可以看出，除了个别细微之处的小瑕疵，Sora生成的视频高度还原了真实的街道、风雪场景、人物行走时的衣着五官细节、动物奔跑时的表情，甚至手持手机拍摄时的晃动感、镜子中反射的人脸等都能清晰展现。

Sora具备重现现实世界风景、人物、动物等高复杂度视频生成的能力。OpenAI在Sora的官方介绍页面中指出：“Sora对语言有深入的理解，能够精确解读提示词，并生成引人注目的内容来表达充满活力的情感。”同时强调，“Sora不仅理解用户在提示词中提出的要求，还能知晓这些元素在物理世界中的存在方式。”换言之，Sora是一个能够读懂三维世界的AI。

Sora之所以拥有如此强大的性能，部分归功于其使用了共计1万小时的高清视频进行训练，以及继承了OpenAI在2021年发布的文字转图片生成式AI工具「DALL-E」模型，并结合了2023年9月推出的DALL-E 3与ChatGPT的重述提示词技术。这使得Sora能够精确解读用户输入的提示词，找到最符合用户需求的答案，在生成视频的同时，还能帮助用户修正作品中的小细节。

在动画制作中，常见的远近切换、持续移动、360度全景、模拟三维世界Minecraft（我的世界）等场景都难不倒Sora，生成的图片分辨率更是高达2048×2048。然而，Sora目前仍存在一些技术上的挑战需要克服，如对特定词汇的解释可能存在偏差（如咬过的饼干可能没有咬痕、跑步机上跑步的人可能方向相反），以及对左右空间等物理场景（如玻璃杯破碎与液体飞溅）的解读还不够精确。

OpenAI补充说，Sora具体向公众开放使用的时间尚未确定，也并未透露是否会开源供开发者使用。目前，已有部分政府机要人员、艺术家、教育工作者加入测试研究。同时，为了确保最终AI生成的作品不会被滥用，OpenAI已经针对暴力、成人内容、仇恨歧视、名人肖像、特定IP作品等做出了影像生成的防范措施。

相关文章