高达1万+star，却被称为阿里式开源，这个数字人开源仓库为什么引来如此争议-武穆逸仙 In May 2025

公众号关注 “GitHub AI 开源”

设为 “星标”，每天看看 AI 开源项目！

高达 1 万+star，却被称为阿里式开源，这个数字人开源仓库为什么引来如此争议

Animate Anyone 可以根据静态的图片生成角色的视频，短短四个月的时间就收获了 13.8K 的 star。

虽然收获了这么多的 star，但是Animate Anyone 并没有公开自己的源码，只是公开了论文和演示的视频 demo。

虽然Animate Anyone 团队在公告中发布表明他们正在积极准备公开发布的演示和代码，但是却无法承诺具体的发布日期。

目前给出的理由是：我们的目标不仅是共享代码，还要确保它是健壮和用户友好的，将其从学术原型过渡到更完善的版本，以提供无缝体验。

当然，并不是所有的人都相信这份声明，所以在 issues 区就出现了很多有意思的评论，比如“会不会创造出一个新名词：阿里式开源”，“这里是 github，不是 tiktok 或者 IG，来获得粉丝的”，更有直接说“删库”或者说是“骗子项目”的。

高达 1 万+star，却被称为阿里式开源，这个数字人开源仓库为什么引来如此争议

还有人直接说，不要相信这份声明，或者说自己已经 60 岁了，应该是等不到Animate Anyone 团队公开源码了。

高达 1 万+star，却被称为阿里式开源，这个数字人开源仓库为什么引来如此争议

Animate Anyone 项目虽然还没有公开源码，但是目前已经公开了论文和演示视频demo。

根据团队公开的论文，可以看到他们将图片生成视频的方法如下：

高达 1 万+star，却被称为阿里式开源，这个数字人开源仓库为什么引来如此争议

姿态序列最初使用 Pose Guider 进行编码，并与多帧噪声融合，然后由 Denoising UNet 进行去噪过程以生成视频。

去噪 UNet 的计算块由空间注意力、交叉注意力和时间注意力组成，如右侧虚线框所示。

参考图像的集成涉及两个方面。首先，通过 ReferenceNet 提取详细特征并用于空间注意力。其次，通过 CLIP 图像编码器提取语义特征进行交叉注意力;时间注意力在时间维度上运作。最后，VAE 解码器将结果解码为视频剪辑。

视频演示 demo：

人类舞蹈的生成

Human Dance Generation 专注于在现实世界的舞蹈场景中制作动画图像。利用 TikTok 数据集，其中包含 340 个训练视频和 100 个测试单人舞蹈视频（长 10-15 秒）。在复杂的舞蹈序列中，Animate Anyone在整个动作中保持视觉连续性方面表现的也很出色，并在处理不同角色外观方面表现出很强的鲁棒性。

再来看一个 demo:

Anime/Cartoon 动漫/卡通

和生成人类舞蹈动作一样，生成卡通人物的视频同样只需要一张卡通人物的图片和和对应的 driving pose skeleton，就能生成相应的动作视频。

demo 2:

Humanoid 人形

类人的图像物体，也可以识别出来

demo2:

时尚视频合成

时尚视频合成旨在使用驱动姿势序列将时尚照片变成逼真的动画视频。实验在 UBC 时尚视频数据集上进行，该数据集由 500 个训练视频和 100 个测试视频组成，每个视频包含大约 350 帧。合成的视频有效地保持了服装细节的一致性。

换装

为任何人着装：适合任何服装和任何人的超高品质虚拟试穿。

图像到会说话的视频

图像到视频（如 Gen2）+会说话的头部生成（基于 VividTalk 的内部项目）

从Animate Anyone 目前展示出来的能力来看，Animate Anyone 公布之后，我们的生活会出现非常大的变化。

所有人都可以成为网络上舞王了。只需要上传自己的照片，就能生成自己跳舞视频，还是非常专业的那种。

网上购物会变得更加得方便，消费者只需要将自己上传自己的全身图片，就可以实现在线试穿，以前到货后，上身效果不好的情况会大大减少。

对视频行业来说，假视频会越来越多，对观众的鉴别能力是一个不小的挑战。当然也有好处，特效动作会变得更加简单，所有人都可以使用照片合成自己的想要的视频，实现很多之前无法完成的事情。

往期精彩回顾

博主的文章没有高度、深度和广度，只是凑字数。利用读书、参考、引用、抄袭、复制和粘贴等多种方式打造成自己的纯镀 24k 文章！如若有侵权，请联系博主删除。

☆ END ☆

武穆逸仙

喜欢就点个赞吧

姿态序列最初使用 Pose Guider 进行编码，并与多帧噪声融合，然后由 Denoising UNet 进行去噪过程以生成视频。

去噪 UNet 的计算块由空间注意力、交叉注意力和时间注意力组成，如右侧虚线框所示。

参考图像的集成涉及两个方面。首先，通过 ReferenceNet 提取详细特征并用于空间注意力。其次，通过 CLIP 图像编码器提取语义特征进行交叉注意力;时间注意力在时间维度上运作。最后，VAE 解码器将结果解码为视频剪辑。

Anime/Cartoon 动漫/卡通

Humanoid 人形

为任何人着装：适合任何服装和任何人的超高品质虚拟试穿。

图像到视频（如 Gen2）+会说话的头部生成（基于 VividTalk 的内部项目）

MetaGPT：多智能体编程框架，使 GPTs 组成软件公司，协作处理更复杂的任务

sora 最强的文本生成视频 AI 模型，免费分享官网 48 条视频最全合集

马斯克宣布正式开源 grok-1 源码

姿态序列最初使用 Pose Guider 进行编码，并与多帧噪声融合，然后由 Denoising UNet 进行去噪过程以生成视频。

去噪 UNet 的计算块由空间注意力、交叉注意力和时间注意力组成，如右侧虚线框所示。

参考图像的集成涉及两个方面。首先，通过 ReferenceNet 提取详细特征并用于空间注意力。其次，通过 CLIP 图像编码器提取语义特征进行交叉注意力;时间注意力在时间维度上运作。最后，VAE 解码器将结果解码为视频剪辑。

Anime/Cartoon 动漫/卡通

Humanoid 人形

为任何人着装：适合任何服装和任何人的超高品质虚拟试穿。

图像到视频（如 Gen2）+会说话的头部生成（基于 VividTalk 的内部项目）

MetaGPT：多智能体编程框架，使 GPTs 组成软件公司，协作处理更复杂的任务

sora 最强的文本生成视频 AI 模型，免费分享官网 48 条视频最全合集

马斯克宣布正式开源 grok-1 源码

高达1万+star，却被称为阿里式开源，这个数字人开源仓库为什么引来如此争议

扫描/识别二维码阅读全文