前沿科技:OmniHuman 引领数字人新时代
在科技飞速发展的当下,人工智能领域的每一次突破都如同一颗投入湖面的石子,激起层层涟漪,引发广泛关注。2 月 6 日,字节跳动数字人团队推出全新多模态数字人方案 OmniHuman,这一消息瞬间在行业内掀起波澜,犹如一颗璀璨的新星照亮了数字人技术发展的新征程。
OmniHuman 作为一款端到端的多模态模型,其最大亮点在于能够从单张照片生成逼真全身动态视频。它可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。想象一下,只需提供一张静态图片和一段音频,就能快速生成一个活灵活现的数字人视频,这在以往简直是难以想象的事情。
从技术原理来看,OmniHuman 通过引入多模态条件驱动和全条件训练策略,成功解决了人类动画生成领域长期存在的数据扩展和泛化能力问题。在传统的数字人模型中,数据扩展和泛化能力一直是两大难题。由于训练数据的局限性,模型往往只能在特定的场景和条件下表现良好,一旦遇到新的、复杂的情况,就容易出现生成效果不佳的问题。而 OmniHuman 采用基于 DiT 架构的多模态运动条件混合训练策略,将扩散模型和 Transformer 相结合,实现了高质量图像生成和细节精准控制,还能融合文本、音频、姿势等多模态信息。这种 “全条件” 训练方式,让模型从更广泛的数据集中学习,有效解决了传统数字人模型训练信息单一、泛化能力不足的问题。
例如,在以往的音频驱动面部生成任务中,模型可能只能实现简单的口型同步,对于面部表情的细微变化和身体动作的协调表现则力不从心。而 OmniHuman 通过多模态条件驱动,能够综合考虑音频、姿势等多种因素,生成的数字人不仅口型与音频完美同步,面部表情也更加丰富自然,身体动作也更加协调流畅,仿佛是一个真正的人在进行表演。
在人物视频生成中常见的手势崩坏问题,OmniHuman 相比现有方法也取得了显著的改善。以往的模型在生成人物手势时,常常会出现不自然、不协调甚至崩坏的情况,这极大地影响了数字人的真实感和可信度。而 OmniHuman 凭借其先进的技术,能够精准地捕捉和生成人物的手势,使其与人物的动作和语言完美配合,进一步提升了数字人的自然度和表现力。
此外,OmniHuman 对动漫、3D 卡通等非真人图片输入的支持效果也较为出色,生成的视频能保持特定风格和原有的运动模式。这意味着无论是想要制作逼真的真人数字人视频,还是充满创意的动漫、卡通数字人视频,OmniHuman 都能轻松胜任,为创作者们提供了更加广阔的创作空间。