品玩8月28日讯,据 Github 页面显示,字节跳动近日推出视频生成模型OmniHuman-1.5。
OmniHuman-1.5 可基于单张图像和一段语音轨道,生成与语音节奏、韵律及语义内容一致的富有表现力的角色动画,还可通过可选文本提示进一步优化。受大脑 “系统 1 与系统 2” 认知理论启发,我们的架构将多模态大语言模型与扩散 Transformer 相结合,模拟两种不同思维模式:缓慢、审慎的规划与快速、直觉的反应。这种强大的协同作用使其能够生成超一分钟的视频,具备高度动态的动作、连续的镜头移动以及复杂的多角色互动。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。!
本文链接:https://www.uzhan365.com/article-14368-1.html