HiDream-O1-Image-1.5 刷新国产图像生成模型纪录：砍掉 VAE，是图像模型的未来吗？

{
"title": "HiDream-O1-Image-1.5登顶：砍掉VAE，图像模型新范式",
"summary": "智象未来发布HiDream-O1-Image-1.5闭源版本，在Artificial Analysis榜单上跃居文生图模型第三，超越Google Nano Banana 2，与GPT-Image 1.5仅差1分。新版本延续UiT架构，砍掉VAE，强调“先想再画”的慢思考逻辑。八维评测显示，其在复杂中文文字渲染、构图和材质表现上显著领先，尤其在产品广告图等商业场景中展示了高完成度。文章探讨了图像模型是否需要推理能力以及VAE去除对底层架构的影响。",
"content": "文生图领域的竞争正从“画得漂亮”转向“画得准确”。智象未来最新发布的HiDream-O1-Image-1.5版本，在Artificial Analysis榜单上跃升至文生图模型排名第三，超越了Google的Nano Banana 2，与OpenAI的GPT-Image 1.5综合评分差距仅1分。更引人注目的是，这款模型砍掉了传统VAE组件，采用全新的UiT架构，试图重新定义图像生成的底层逻辑——先想后画，而非直接拼凑像素。

在八维评测中，HiDream-O1-Image-1.5展现了复杂Prompt下的真实优势。以一张高端白酒电商海报为例，模型需要同时处理玉瓷材质、浮雕古诗、水面涟漪和背景松树等元素。对比Nano Banana 2，HiDream在文字渲染上表现惊人：崔颢的《黄鹤楼》全诗被完整呈现，竖排中文排列接近真实产品包装，避免了常见模型在文字上的错乱和语义断裂。而在小猫花园场景中，它完美还原了“oversized flowers”的视觉冲击，花朵巨大、色彩饱和，童话氛围浓郁。评测将能力拆解为Prompt遵循度、构图、摄影语言理解、材质表现、细节准确性等八个维度，HiDream在商业完成度上尤其突出。

砍掉VAE是HiDream-O1-Image-1.5最核心的架构变革。传统扩散模型依赖VAE将图像压缩到潜空间再重建，但这一过程会丢失细节，尤其对文字和复杂结构不友好。UiT架构直接处理像素级信息，并通过“慢思考”机制在生成前进行推理，类似大语言模型的Chain-of-Thought。这解释了为何模型在文字渲染和构图逻辑上更胜一筹。智象未来官方表示，8B开源版只是窗口，200B+参数的Pro版本才是真正的风景，暗示更大的模型将带来更强的推理能力。

对于AI从业者而言，HiDream-O1-Image-1.5的发布意味着两个趋势：一是图像模型正在吸收语言模型的推理范式，从“生成”走向“理解+生成”；二是VAE的移除可能成为未来架构的标配，尤其在需要高精度文本和复杂场景的商业应用中。目前，模型已在Artificial Analysis上开放API测试，开发者可体验其商业级输出。如果你正在构建需要高质量图像生成的工具，不妨对比测试其在产品图、广告海报等场景下的表现——准确性与视觉美学的平衡，或许正是下一代图像模型的决胜点。"

HiDream-O1-Image-1.5 刷新国产图像生成模型纪录：砍掉 VAE，是图像模型的未来吗？

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%