腾讯混元文生图大模型全面开源!Sora同架构更懂中文可免费商用

2024-05-16 12:18:45
浏览次数:
返回列表

  腾讯混元文生图大模型全面开源!Sora同架构更懂中文可免费商用该模型已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,与腾讯混元文生图产品最新版本完全一致,基于腾讯海量应用场景训练,可供企业与个人开发者

  跟其他业界开源模型对比,混元DiT在多个维度上无短板,并在美学和清晰度维度上具有一定优势。其综合指标在所有开源和闭源算法中排名第三,实现开源版本中的SOTA。

  评测数据显示,腾讯混元文生图模型效果远超开源的Stable Diffusion模型及其他开源文生图模型,是目前效果最好的开源文生图模型;整体能力属于国际领先水平。

  升级后的混元文生图大模型采用了与Sora、Stable Diffusion 3一致的DiT架构,可支持文生图,也可作为视频等多模态视觉生成的基础。

  混元文生图整体模型主要由3个部分组成:a)多模态大语言模型,支持用户文本改写以及多轮绘画;b)双语文本编码器,构建中英文双语CLIP理解文本,同时具备双语生成能力;c)生成模型,从U-Net升级为DiT,采用隐空间模型,生成多分辨率的图像,确保图像整体的稳定结构。

  在芦清林看来,此前开源与闭源文生图模型的差距逐渐拉大,他希望腾讯混元文生图大模型的开源后能够将差距缩小。

  腾讯混元已面向社会全面开放,企业级用户或开发者可通过腾讯云使用腾讯混元大模型,个人用户可通过网页端与小程序体现腾讯混元的能力。

  过去,视觉生成扩散模型主要基于U-Net架构,但随着参数量提升,基于Transformer架构的扩散模型(DiT)展现出了更好的扩展性。

  U-Net只懂图片,遇到难题易卡壳,而Transfomer能懂不同模态信息,参数/数据量越多越厉害。DiT是结合扩散模型和Transformer架构的创新技术,有高扩展和低损失的优势,更易扩展,有助于提升模型的生成质量及效率。

  该架构通过Transformer block堆叠,可极大提升模型性能,并最大程度缓解U-Net下采样引入的信息压缩,提升图像生成精度和创造力。

  一是强大建模能力,将文生图架构从自研U-Net架构升级为更大参数的DiT模型,提升图像质量和扩展能力,让DiT架构具备了长文本理解能力,支持最长256个字符的图片生成指令;同时利用多模态大语言模型,对简单/抽象的用户指令文本进行强化,转写成更丰富/具象的画面文本描述,最终提升文生图的生成效果。

  二是增加中文原生的理解能力,自主训练中文原生文本编码器,让中文语义理解能力更强,对中文新概念学习速度更快,对中文认知更深刻,同时让模型更细致地分辨不同粒度文本信息。

  三是增强多轮对话能力,与自研大语言模型结合,让模型具备上下文连贯的理解能力,同时通过技术手段控制同一话题与主体下图片主体的一致性。

  学术界去年提出基础DiT架构,混元DiT在此之上进一步升级,有更强语义编码,针对更长、更复杂的文本能理解得更准确,原生中英双语支持,尺寸更易扩展。

  混元DiT架构具备更稳定的训练过程,通过优化模型结构,支持数十亿参数和1024分辨率的模型稳定训练。它还拥有更好的生态兼容性,可灵活支持ControlNet、LoRA、IP-Adapter、Photomaker等Stable Diffusion社区的插件。

  同时,该架构支持输出多分辨率图像,提升不同分辨率生成图像的质量,包括1:1、4:3、2:4、16:9、9:16等多种分辨率,支持768~1280分辨率图像生成。

  混元文生图是首个中文原生的DiT模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素生成上表现出色。

  通过语言编码器升级,混元DiT架构对中文的认知更加深刻,相比核心数据集以英文为主的Stable Diffusion等主流开源模型,能更好理解中国的语言、美食、文化、习俗、地标等。

  比如在生成昆曲艺术家表演的图像时,混元文生图在理解昆曲艺术方面明显比其他国外主流文生图模型更准确。

  升级的混元文生图能更细致地分辨不同信息。其训练方式是把数据做成正负样本,对比学习损失,让模型学会什么是对、什么是错,做到理解和表达更细致的属性。

  比如输入一段涉及大量细节描述的文字,混元文生图能够精细理解文字要求,生成符合各种细节的图像。

  混元文生图在算法层面创新实现了多轮生图和对话能力,可在一张初始生成图片的基础上通过自然语言描述进行调整,达到更满意的效果。

  比如起初输入指令“生成一朵长在森林中的白色玫瑰”,再要求“改成百合花”、“改成粉色”、“改成动漫风格”;起初输入指令“画一只色彩斑斓的折纸小狐狸折纸”,再要求“把背景换成沙漠”、“把狐狸换成小狗”。

  模型交互难度进一步降低,用户无需进行复杂生图提示词指令编写。混元文生图能实现多轮图文指令理解,支持多轮交互式图片编辑生成,支持十轮以上的对线月投入DiT研发,从零开始训练,全链路自研

  2023年7月起,业界研究DiT的团队还不多,当时混元文生图就明确了基于DiT架构的模型方向,并启动了长达半年的研发、优化、打磨。今年年初,混元文生图大模型已全面升级为DiT架构,并在多个评测维度超越了基于U-Net的文生图模型。

  过去业界文生图大多基于Stable Diffusion,开源社区有数量庞大的开发者和创作者,基于Stable Diffusion精调出了丰富的垂直场景模型,同时衍生出大量国内外模型分享与流通社区。

  即使国外有些论文公开,这些架构更多偏英文,对中文理解差,而且没在大众中做验证,在中文应用场景受限。由中文翻译成英文可能会导致出图有歧义,比如中文“一只很热的狗在餐厅”翻译成英文“A very hot dog in the restaurant”就变味了,会生成“一盘热狗(hot dog)”图博业体育官网

  此次把最新一代模型完整开源出来,腾讯混元团队希望与行业共享在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。

搜索