CoDi-多模态 AI 大模型
CoDi是什么?
CoDi (Composable Diffusion) 是一个新颖的生成模型,能够从任何组合的输入模态(如语言、图像、视频或音频)生成任何组合的输出模态。
与现有的生成 AI 系统不同,CoDi 可以并行生成多种模态,其输入不仅限于文本或图像等子集模态。尽管许多模态组合的训练数据集不存在,但我们提出在输入和输出空间中对模态进行对齐。这使 CoDi 能够自由地根据任何输入组合进行条件设置,并生成任何模态组,即使它们在训练数据中不存在。CoDi 采用了一种新颖的可组合生成策略,该策略涉及通过在扩散过程中建立对齐来构建共享的多模态空间,从而实现交织模态(如时间对齐的视频和音频)的同步生成。CoDi 高度定制化和灵活,实现了强大的联合模态生成质量,并与单模态合成的最新技术相媲美或者在同等水平。
CoDi 的模型架构使用了多阶段训练方案,使其能够仅对线性数量的任务进行训练,但对所有输入和输出模态的组合进行推理。
CoDi 的使用示例包括:
- 多输出联合生成:模型接受单个或多个提示(包括视频、图像、文本或音频),生成多个对齐的输出,如伴有声音的视频。
- 多条件生成:模型接受多个输入(包括视频、图像、文本或音频)生成输出。
- 单对单生成:模型接受单个提示(包括视频、图像、文本或音频)生成单个输出。
数据评估
关于CoDi-多模态 AI 大模型特别声明
本站做视频AI导航网提供的CoDi-多模态 AI 大模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由做视频AI导航网实际控制,在2023年10月24日 下午10:56收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,做视频AI导航网不承担任何责任。
相关导航
Jurassic Models官网入口网址,Jurassic...
InstructAvatar:AI文本驱动头像生成工具
InstructAvatar是一款基于文本指导的情感和动作控...
蓝心大模型-vivo自研AI大模型应用平台
蓝心大模型官网入口网址,vivolm蓝心大模型,vivo自研...
孟子 GPT
帮助用户完成特定场景中的多种工作任务,孟子 GPT官网入口网...
西湖心辰-AI大模型技术研究与应用平台
西湖心辰是一家专注于AI大模型技术研究与应用的公司,推出了A...
Animate Anyone一键生成角色动画的AI工具
Animate Anyone是一款创新的角色动画生成产品,可...
Qwen2官网 | 阿里云多语言大模型解决方案
Qwen2是阿里云Qwen团队开发的大型语言模型系列,提供多...
SiliconCloud – 低成本大模型API整合专家
聚合主流开源大模型API服务的AI云服务平台SiliconC...
暂无评论...
