加入收藏
举报
当前仅显示指定条件回帖 [ 展开查看全部 ]
02-14 22:25
#
文件名称:
2D数字人生成基础.md
所在目录:
数字人基础
文件大小:
7.55 KB
下载地址:
WeThinkIn/Interview-for-Algorithm-Engineer
   
免责声明:本网站仅提供指向 GitHub 上的文件的链接,所有文件的版权归原作者所有,本网站不对文件内容的合法性、准确性或安全性承担任何责任。
文本预览:
# 目录
## 第一章 可控数字人生成
- [1.2D数字人生成有什么方向?](#1.2D数字人生成有什么方向?)
- [2.如何基于一个图像生成模型扩展到视频?](#2.如何基于一个图像生成模型扩展到视频?)
- [3.人体驱动的方法有哪些?](#3.人体驱动的常用方法有哪些?)
- [4.可控人体生成的目的是什么,如何做到驱动?](#4.可控人体生成的目的是什么,如何做到驱动?)
- [5.如何提升人体驱动生成中脸部的ID相似度?](#5.如何提升人体驱动生成中脸部的ID相似度?)
- [6.Animate-Anyone的模型结构和原理](#6.Animate-Anyone的模型结构和原理)
- [7.ID保持图像生成和换脸的区别](#7.ID保持图像生成和换脸的区别)
- [8.有哪些专注人像生成的预训练模型?](#8.有哪些专注人像生成的预训练模型?)
## 第一章 可控数字人生成

1.2D数字人有什么方向?


目前,2D数字人生成的方向包括:
1. 可控人体生成
- ‌**人体驱动**
- **虚拟换衣**
2. 可控人脸生成
- **人脸属性编辑**
- **换脸**
- **目标人脸引导的人脸驱动生成**
- **音频引导的人脸驱动生成**
3. ID保持的人体图像/视频生成
- **视频写真**

2.如何基于一个图像生成模型扩展到视频?


基于GAN的方案构造视频数据集抽帧进行训练即可,无需添加额外的帧间一致性模块,测试时就可以达到不错的帧间稳定性。由于扩散模型方案建模的多样性强,如果直接逐帧进行推理会导致帧间一致性较差,目前常用的解决方式是采用SD1.5或者SDXL基底模型的基础上,第一阶段使用人脸或人体数据集将底模调整到对应的domain,第二阶段插入一个类似AnimateDiff中提出的Motion Module提升帧间一致性。

3.人体驱动的方法有哪些?


| | T2V model | Pose Condition | Injection Type | Others |
|--------------------------------------------------------------|-------------------------------|--------------------------------------|--------------------------------------------------------|---------------------------|
| Magic Animate | AnimateDiff | DensePose | ReferenceNet+ControlNet | w/o. alignment |
| Animate Anyone | AnimateDiff | DWPose | ReferenceNet+Pose Encoder+CLIP | w/o. alignment |
| Moore-Animate Anyone (AA unofficial implementation) | AnimateDiff | DWPose | ReferenceNet+Pose Encoder+CLIP | w/o. alignment |
| MusePose | AnimateDiff | DWPose | ReferenceNet+Pose Encoder+CLIP | w/. alignment (2d) |
| Champ | AnimateDiff | DensePose/DWPose/Normal/Depth | ReferenceNet+Pose Encoder+CLIP | w/. alignment (2d) |
| UniAnimate | AnimateDiff | DWPose | Pose Encoder+CLIP | w/. alignment (2d) |
| ViVidPose | Stable Video Diffusion | DWPose/SMPLX-Shape | ReferenceNet+Pose Encoder+CLIP+Face Encoder | w/. alignment (3d) |

4.可控人体生成的目的是什么,如何做到驱动?



不管是文本生成、图像生成、视频生成,如果没有具备可控性,AI作为一个工具,本身能够带来的效能的提升就非常的有限。可控人体生成的目的就是希望通过输入一段目标的姿态序列和一张参考人像图片,能够保持参考人像的背景,人物特征的同时,生成其按照目标序列进行运动的人像视频。

5.如何提升人体驱动生成中脸部的ID相似度?


人脸生成,是 AI 生成视频中最难的场景之一。首先是因为人类对人脸本身就很敏感。一个细微的肌肉表情,就能被解读出不同的含义。人们自拍经常要拍几十张相似的照片,才能挑到合适的角度。因此涉及到人脸的一些形变,很容易就会引起我们的注意。在早期的人体驱动工作中,研究者们并没有过多的采用一些额外的模块约束参考人像和生成人像的脸部ID一致性,仅采用ReferenceNet和CLIP Image Encoder来提取了参考人像信息。在此基础上,有几种方式可以提升脸部ID一致性:
1. 在训练过程中,计算生成人脸和参考人脸的ID Similarity,并加入ID Loss,
2. 对于参考人像的人脸区域,使用人脸识别网络提取对应的ID信息,在主干网络中注入

6.Animate-Anyone的模型结构和原理


AnimateAnyone是一种能够将角色图像转换为所需姿势序列控制的动画视频的方法,继承了Stable Diffusion模型的网络设计和预训练权重,并在UNet中插入Motion Module以适应多帧输入。为了解决保持外观一致性的挑战,引入了ReferenceNet,专门设计为UNet结构来捕获参考图像的空间细节。
![](./imgs/animate_anyone.png)

7.ID保持图像生成和换脸的区别


ID保持图像生成和换脸都可以达到生成和参考人脸相似的人体图像。这两者区别在于,ID保持图像生成是在生成过程中保持了参考图像的ID信息,而换脸则是将目标图像的人脸替换为参考图像的人脸。ID保持图像生成的目的是生成一个新的图像,使其在视觉上与参考图像相似,但不是完全相同。而换脸则是将目标图像的人脸替换为参考图像的人脸,使得目标图像的人脸与参考图像的人脸完全一致。其中,换脸还需要保持目标图像的其他信息不变,如头发、衣服等,而ID保持图像生成则不需要保持这些信息。

8.有哪些专注人像生成的预训练模型?


随着大规模预训练模型的发展,专注人像生成的预训练模型也在不断涌现。目前,一些专注人像生成的预训练模型包括:
- **CosmicMan**: 一个基于文本的高保真人物图像生成模型,能够产生与文本描述精确对齐的逼真人物图像。CosmicMan在图像质量和文本-图像对齐方面优于现有模型,如Stable Diffusion和Imagen。它在2D和3D人物生成任务中展现了实用性和潜力。
- **Arc2Face**: 专注于使用人脸识别技术的核心特征来引导图像的生成,从而实现在各种任务中保持人脸身份的一致性。这意味着Arc2Face可以用于创建非常符合特定人物身份特征的人脸图像,为人脸识别、数字娱乐以及安全领域等提供了新的可能性。
![](./imgs/arc2face.png)
点赞 回复
回帖
支持markdown部分语法 ?