当前位置: 首页 > 科技

智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等

IT之家 10 月 29 日消息,北京智源人工智能研究院(BAAI)推出了新的扩散模型架构 OmniGen,这是一种用于统一图像生成的多模态模型。

▲ 文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合▲ 文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合

官方表示,OmniGen 具有以下特点:

  • 统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计算机视觉任务,将其转换为图像生成任务。

  • 简单性:OmniGen 的架构高度简化。此外,与现有模型相比,它更加用户友好,可以通过指令完成复杂的任务,而不需要冗长的处理步骤和额外的模块 (如 ControlNet 或 IP-Adapter),从而大大简化了工作流程。

  • 知识迁移:受益于统一格式的学习,OmniGen 有效地跨不同任务迁移知识,应对未见过的任务和领域,并展示新颖的功能。我们还探讨了模型的推理能力和思维链机制的在图像生成领域的潜在应用。

▲ 指代表达生成▲ 指代表达生成

IT之家附相关链接如下:

  • 论文:https://arxiv.org/pdf/2409.11340

  • 代码:https://github.com/VectorSpaceLab/OmniGen

  • 演示:https://huggingface.co/spaces/Shitao/OmniGen

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

新浪众测 新浪众测 新浪科技公众号 新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

相关新闻
本文来源于网络,不代表西藏新闻热线立场,转载请注明出处
转发到:
拓展阅读
  • 佳能原装HG-100TBR蓝牙三脚架手柄BR-E1遥控器是一款专为V1 R50 V G7X3 R8 R7 R100 R5 R6二代R7 R10相机EOS系列设计的高品质无线快门线,具备稳定的蓝牙连接性能与便捷的操作体验,可有效提升拍摄效率和[全文]
    2025-07-02 00:21
  • 文|陈洪杰编辑|张颖馨6月30日,国家金融监督管理总局批复,核准白雨石恒丰银行董事、行长的任职资格。“(恒丰银行)应督促上述核准任职资格人员持续学习和掌握经济金融相关法律法规,牢固树立风险合规意识,熟悉任职岗位职责,忠实勤勉履职。”国家金融[全文]
    2025-07-02 01:25
  • 6月24日消息,型号为MTN-AN00和MTN-AN80的两款荣耀新机近期在中国3C认证平台数据库中现身,同时获得无线电发射设备型号核准代码(CMIIT),其电池额定容量显示为8100mAh,预计上市后宣传的典型值为8200mAh。此前消息[全文]
    2025-06-24 23:41
  • 2025年06月24日 16:00:57日本跨国企业集团Nittobo旗下子公司日东纺2025年6月2日发布调价通知:自2025年8月1日起,玻璃纤维价格上调20%传统玻纤布持续涨价,成长周期有望迎来共振,Q2业绩弹性有望开始显现。宏和科技[全文]
    2025-06-25 00:01
  • 天猫TIGERFIRE 虎辉照明旗舰店,虎辉照明电蚊拍(钉锤款)日常售价 19.9 元,今日可领 7 元券,首次购买用户叠加 1 元首购礼金,到手价 11.9 元:750℃ 阻燃塑料 + 三层高密防防护电网 + 分离式开关 + 自动消除余电[全文]
    2025-06-24 22:43
  • 日前,网上有不少小伙伴在社交平台发帖称,现在微信朋友圈评论区支持发表情包和图片。图源:微博也就是说,时隔整整六年,微信朋友圈自定义表情包评论这一功能终于又要“重出江湖”了。现在在微信朋友圈评论朋友圈动态时有了新变化。你会发现评论输入框旁边,[全文]
    2025-06-24 00:56
阿里云服务器
腾讯云秒杀
Copyright 2003-2025 by 西藏新闻热线 xz.zhxinw.cn All Right Reserved.   版权所有