您的位置:首页 >> 科技前沿

科技前沿

OpenAI推新款大模型Sora,可根据文本生成60秒视频
来源:科学网    发布时间:2024-02-18 17:11:17         [关闭本页]

·Sora可根据文本指令生成60秒视频,可生成具有多个角色、特定类型运动及精确主题和背景细节的复杂场景,并在单个生成视频中创建多个镜头,准确保留角色和视觉风格。

·OpenAI正在教AI理解和模拟运动中的物理世界,目标是训练模型来“帮助人们解决需要现实世界互动的问题”。不过,Sora在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例。

Sora生成的视频:几只巨大的猛犸象穿过一片白雪覆盖的草地,长毛在风中轻轻飘动,远处是白雪覆盖的树木和大山。

开发出热门聊天机器人ChatGPT后,OpenAI继续在生成式人工智能上玩出新花样。2月16日,OpenAI推出新的AI大模型Sora,该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。

OpenAI表示,Sora能够根据文本指令生成长达60秒的视频,同时保持视觉质量并遵守用户提示。Sora可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解,能够准确领会提示,生成令人信服的角色。Sora还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。

Sora生成的视频:一只猫叫醒了正在睡觉的主人。

“这个模型不仅能理解用户在提示中要求什么,还能理解这些东西在现实世界中是如何存在的。”OpenAI表示,正在教人工智能理解和模拟运动中的物理世界,目标是训练模型来“帮助人们解决需要现实世界互动的问题”。

除了能够仅从文本指令生成视频外,该模型还能够利用现有的静止图像从中生成视频,精确地将图像内容动画化,也可以利用现有视频进行扩展或填充缺失的帧。

Sora有时会生成不合情理的动作,譬如在跑步机上倒着跑步。

不过,Sora仍在开发中,存在明显“弱点”,特别是在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例,比如制作了一个视频,视频中有人咬了一口饼干,但之后饼干上没有咬痕。

Sora生成的视频:五只小狼在一条砾石路上嬉戏追逐,周围长满了草。Sora的缺点是动物或人会凭空出现,特别是在包含许多实体的场景中。

Sora生成的视频中,动物或人会凭空出现,特别是在包含许多实体的场景中。此外,Sora难以精确描述随时间推移发生的事件,例如跟踪摄像机的特定轨迹。

Sora生成的视频:一把普通的塑料椅子在沙漠中被发现,人们小心翼翼地挖掘并掸去沙子。在这个例子中,Sora没有将椅子建模为一个刚性物体,导致不准确的物理交互。

对于模型安全性的考量,OpenAI表示,计划与一个专家团队合作测试最新模型,密切关注错误信息、仇恨内容和偏见等。OpenAI还表示正在开发帮助检测误导性信息的工具,比如检测分类器可以判断视频是何时由Sora生成的。其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等。“我们还开发了鲁棒性的图像分类器,用于审查每个生成视频的帧,以帮助确保它在显示给用户之前符合我们的使用政策。”

OpenAI表示,Sora将首先提供给网络安全教授,以评估产品的危害或风险。一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限,以此收集关于创意专业人士如何使用Sora的反馈。

Sora生成的视频:在“赛博朋克”背景下,一个机器人的生活故事。

市场研究公司ABI research高级分析师里斯·海登(Reece Hayden)表示,尽管多模态大模型并不新鲜,而且文生视频的模型已经存在,但OpenAI声称Sora具有的长度和准确性使其与众不同。海登认为,这类人工智能模型可能会对数字娱乐市场产生重大影响,新的个性化内容将在各个渠道传播,“一个明显的用例是电视,创造简短的场景来支持叙事。”

设为首页 | 加入收藏 | 领导信箱 | 监督举报 | 咨询留言 | 征集调查 |
Copyright ©2001-2025 濮阳市科学技术局主办 濮阳市科技创新综合服务中心承办
备案编号: 豫ICP备2021001807号       政府网站标识码:4109000036
Tel:0393-6661626 科技局办公室电话:0393-6666200 传真:0393-6666200

本网原创内容可免费转载,转载时请注明“来源:濮阳市科学技术局”。转载或引用本网内容必须是目的合理、善意引用,
不得对本网内容原意进行曲解、修改,并自负版权等法律责任。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,
本网不承担责任,并有追究转载方法律责任的权利。