NekoTeco
标题:
美团LongCat团队发布开源图像生成模型LongCat-Image
[打印本页]
作者:
未来视野
时间:
昨天 23:14
标题:
美团LongCat团队发布开源图像生成模型LongCat-Image
美团LongCat团队宣布正式发布并开源其图像生成模型——LongCat-Image。该模型通过高性能的架构设计、系统性的训练策略以及精细的数据工程,在仅6B参数规模下,成功在文生图及图像编辑的核心能力上逼近了更大尺寸模型的效果。
LongCat-Image模型采用了文生图与图像编辑同源的架构设计,并结合了渐进式学习策略,实现了指令遵循精准度、生图质量与文字渲染能力的高效协同提升。在图像编辑领域,该模型在多个重要基准测试中(如GEdit-Bench、ImgEdit-Bench)均达到了开源SOTA(State Of The Art)水平,尤其在单图编辑的可控性和文字生成的汉字覆盖度方面展现出显著优势。
为实现图像编辑的高度可控性,LongCat-Image基于文生图Mid-training阶段模型进行初始化,并采用指令编辑与文生图多任务联合学习机制,深化对复杂多样化指令的理解。同时,通过预训练阶段的多源数据及指令改写策略,以及SFT阶段引入的人工精标数据,模型在指令遵循精准度、泛化性和编辑前后视觉一致性上均得到了显著提升。
针对中文文本渲染的行业痛点,LongCat-Image通过课程学习策略提升了字符覆盖度和渲染精准度。预训练阶段,模型基于千万量级合成数据学习字形,覆盖了通用规范汉字表的8105个汉字;SFT阶段则引入真实世界文本图像数据,提升在字体、排版布局上的泛化能力。此外,RL阶段融入OCR与美学双奖励模型,进一步提升了文本准确性与背景融合自然度。这些改进有效支持了海报设计、商业广告作图等场景中复杂笔画结构汉字的渲染,以及古诗词插图、对联、门店招牌、文字Logo等设计场景的生僻字渲染。
在数据筛选与对抗训练方面,LongCat-Image同样表现出色。预训练和中期训练阶段严格过滤AIGC数据,避免陷入“塑料感”纹理的局部最优;SFT阶段所有数据均经过人工精筛来对齐大众审美;RL阶段则创新性地引入AIGC内容检测器作为奖励模型,利用其对抗信号逆向引导模型学习真实世界的物理纹理、光影和质感。
客观基准测试结果显示,LongCat-Image在图像编辑任务中,ImgEdit-Bench(4.50分)、GEdit-Bench中英文得分(7.60/7.64分)均达到开源SOTA水平,且逼近头部闭源模型水平;在文字渲染方面,ChineseWord评测以90.7分的成绩大幅领先所有参评模型,实现常用字、生僻字的全量精准覆盖;文生图任务上,GenEval 0.87分、DPG-Bench 86.8分的表现,使其在生图基础能力上相比头部开源与闭源模型依然具备强竞争力。主观评测方面,LongCat-Image在文生图的真实度、文本-图像对齐与合理度上达到开源SOTA水平,在图像编辑的综合编辑质量、视觉一致性上显著超越了其他开源方案。
目前,美团LongCat团队已全面开源文生图的多阶段模型(Mid-training、Post-training)和图像编辑模型,旨在无缝支持从前沿研究到商业应用的全流程。开发者可通过Hugging Face和GitHub平台获取相关资源,共同探索视觉生成的更多可能。
欢迎光临 NekoTeco (https://nekoteco.com/)
Powered by NekoTeco X3.5