当前位置: 首页 > 科技

智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等

IT之家 10 月 29 日消息,北京智源人工智能研究院(BAAI)推出了新的扩散模型架构 OmniGen,这是一种用于统一图像生成的多模态模型。

▲ 文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合▲ 文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合

官方表示,OmniGen 具有以下特点:

  • 统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计算机视觉任务,将其转换为图像生成任务。

  • 简单性:OmniGen 的架构高度简化。此外,与现有模型相比,它更加用户友好,可以通过指令完成复杂的任务,而不需要冗长的处理步骤和额外的模块 (如 ControlNet 或 IP-Adapter),从而大大简化了工作流程。

  • 知识迁移:受益于统一格式的学习,OmniGen 有效地跨不同任务迁移知识,应对未见过的任务和领域,并展示新颖的功能。我们还探讨了模型的推理能力和思维链机制的在图像生成领域的潜在应用。

▲ 指代表达生成▲ 指代表达生成

IT之家附相关链接如下:

  • 论文:https://arxiv.org/pdf/2409.11340

  • 代码:https://github.com/VectorSpaceLab/OmniGen

  • 演示:https://huggingface.co/spaces/Shitao/OmniGen

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

新浪众测 新浪众测 新浪科技公众号 新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

相关新闻
本文来源于网络,不代表西藏新闻热线立场,转载请注明出处
转发到:
拓展阅读
  • 快科技12月9日消息,近日,作为开源软件世界和云计算领域重要的操作系统发行版社区,Alpine Linux正式发布了3.21最新版本,完整原生支持龙芯的LoongArch龙架构。Alpine Linux是云计算领域最重要的基础设施之一,具备[全文]
    2024-12-10 04:31
  • 探寻游戏世界巅峰之作!第一人称射击游戏哪个最好玩?权威盘点揭示十大必玩经典之作。从刺激的战役到沉浸式体验,这份排行榜将带你领略射击游戏的精髓,无论是老玩家重温经典还是新晋粉丝寻找最爱,不容错过!立即一探究竟,感受最震撼的游戏之旅吧!这款游戏[全文]
    2024-12-10 04:30
  • 这篇文章深入探讨了在游戏世界中,那些凭借丰富多样的故事架构赢得玩家热烈追捧的游戏。它精心挑选了一系列人气爆棚的佳作,揭示了好的故事设计如何驱动游戏体验,让读者期待着探索那些深入人心、情节曲折的游戏世界。无论是剧情深度还是叙事技巧,这些精选游[全文]
    2024-12-09 04:20
  • 探索游戏世界的新潮趋势,本文带你领略高人气氛围游戏的魅力。寻找乐趣与沉浸感的巅峰体验?想知道哪些氛围游戏深受玩家喜爱?紧跟潮流的脚步,这篇文章将为你揭示那些备受瞩目的游戏亮点,让你的游戏之夜更加精彩纷呈!《幽灵部员》是一款恐怖冒险游戏,玩家[全文]
    2024-12-09 04:14
  • 【靓点拍】2024自拍杆三脚架桌面手机支架喜欢自拍的你,一定不能错过这款【靓点拍】2024自拍杆三脚架桌面手机支架!只需49.9元即可入手,优惠幅度可见一斑。接下来就让我们一起来看看这款产品的魅力吧。【产品介绍】作为一款自拍杆,【靓点拍】2[全文]
    2024-12-08 04:26
  • 来源:DeepTech深科技“李存璞老师,宝藏男孩本孩。河南省开封市理科状元,本硕博清华。最近我们惊奇地发现,他唱歌竟然也好听!!!他的 QQ 个性签名是:不想当厨子的运动员不是好老师。(他还是)B 站 up 主,造福了很多考研党。”在知乎[全文]
    2024-12-08 04:22
阿里云服务器
腾讯云秒杀
Copyright 2003-2025 by 西藏新闻热线 xz.zhxinw.cn All Right Reserved.   版权所有