阿里大模型让照片跳舞，朋友圈掀起斗舞潮

电科技辛雯01-04 12:05

2024年第一个工作日开始，兵马俑、马斯克以及各地网友跳科目三和网红舞的视频就陆续在国内社交媒体和朋友圈刷屏。这些大约10秒左右的视频都不是真人出镜，均由大模型生成，这种低门槛的「跳舞」方式引发了网友的广泛体验，掀起了一波斗舞潮。各路网友金句频出：AI治愈了我的四肢不协调、科目三的风吹到了考古界、再也不用担心跳科目三崴脚……

图片1.png

这是阿里云通义千问APP上线的免费功能，在通义千问APP内输入“通义舞王”、“全民舞王”等口令后，即可进入体验页面。用户按照提示要求上传照片后，十几分钟即可生成神形兼备的舞蹈视频，生成的视频能较好地保留原形象的面部表情、身材比例、服装以及背景等特征。目前，通义千问首批为用户提供了科目三、蒙古舞、划桨步、鬼步舞等12种热门舞蹈模板。

WX20240104-120818@2x.png

据悉，该功能背后的算法为阿里通义实验室自研视频生成模型Animate Anyone。早在11月底，该研究便在推特、Youtube等海外社交媒体平台爆火，相关视频播放量超1亿，项目在Github上的Star短短数日就超过1万，是近期大模型领域最受欢迎的大模型算法之一，国外开发者和网友集体称赞该算法效果，并发出“开放体验入口”的呼声。

WX20240104-120806@2x.png

除了惊艳的生成效果之外，该算法的技术路线也被广泛关注。视频生成是大模型领域最热门的研究方向之一，谷歌、Meta、Runway等国外科技公司都在积极布局，但一直以来，人物形象的视频生成面临诸多技术挑战，例如人物形象一致、动作流畅可控、时序无瑕疵的人物动作视频。

根据公开论文显示，Animate Anyone集成了多项创新技术，引入了ReferenceNet，用于捕捉和保留原图像信息，可高度还原人物、表情及服装细节；此外，该算法使用了高效的Pose Guider姿态引导器，保证了动作的精准可控；另外，通过时序生成模块，有效保证视频帧间的连贯流畅性。在相同数据集的测试下，Animate Anyone的性能表现显著优于国内外同类模型。

今年9月，通义千问成国内首批通过备案的大模型，通义千问APP上线后功能持续升级，目前可提供文本对话、语音对话、翻译、PPT大纲助手、小红书文案、视频生成等几十项功能。

电科技（）是一家专注于全球TMT行业的领先资讯媒体。

作为今日头条青云计划、百家号百+计划获得者，2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者，曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。

投稿、商务合作请联络微信公众号

声明：本站原创文章文字版权归电科技所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表电科技立场，图文版权归原作者所有。如有侵权，请联系我们删除。