{
"title": "HiDream-O1-Image-1.5登顶:砍掉VAE,图像模型新范式",
"summary": "智象未来发布HiDream-O1-Image-1.5闭源版本,在Artificial Analysis榜单上跃居文生图模型第三,超越Google Nano Banana 2,与GPT-Image 1.5仅差1分。新版本延续UiT架构,砍掉VAE,强调“先想再画”的慢思考逻辑。八维评测显示,其在复杂中文文字渲染、构图和材质表现上显著领先,尤其在产品广告图等商业场景中展示了高完成度。文章探讨了图像模型是否需要推理能力以及VAE去除对底层架构的影响。",
"content": "文生图领域的竞争正从“画得漂亮”转向“画得准确”。智象未来最新发布的HiDream-O1-Image-1.5版本,在Artificial Analysis榜单上跃升至文生图模型排名第三,超越了Google的Nano Banana 2,与OpenAI的GPT-Image 1.5综合评分差距仅1分。更引人注目的是,这款模型砍掉了传统VAE组件,采用全新的UiT架构,试图重新定义图像生成的底层逻辑——先想后画,而非直接拼凑像素。

在八维评测中,HiDream-O1-Image-1.5展现了复杂Prompt下的真实优势。以一张高端白酒电商海报为例,模型需要同时处理玉瓷材质、浮雕古诗、水面涟漪和背景松树等元素。对比Nano Banana 2,HiDream在文字渲染上表现惊人:崔颢的《黄鹤楼》全诗被完整呈现,竖排中文排列接近真实产品包装,避免了常见模型在文字上的错乱和语义断裂。而在小猫花园场景中,它完美还原了“oversized flowers”的视觉冲击,花朵巨大、色彩饱和,童话氛围浓郁。评测将能力拆解为Prompt遵循度、构图、摄影语言理解、材质表现、细节准确性等八个维度,HiDream在商业完成度上尤其突出。

砍掉VAE是HiDream-O1-Image-1.5最核心的架构变革。传统扩散模型依赖VAE将图像压缩到潜空间再重建,但这一过程会丢失细节,尤其对文字和复杂结构不友好。UiT架构直接处理像素级信息,并通过“慢思考”机制在生成前进行推理,类似大语言模型的Chain-of-Thought。这解释了为何模型在文字渲染和构图逻辑上更胜一筹。智象未来官方表示,8B开源版只是窗口,200B+参数的Pro版本才是真正的风景,暗示更大的模型将带来更强的推理能力。

对于AI从业者而言,HiDream-O1-Image-1.5的发布意味着两个趋势:一是图像模型正在吸收语言模型的推理范式,从“生成”走向“理解+生成”;二是VAE的移除可能成为未来架构的标配,尤其在需要高精度文本和复杂场景的商业应用中。目前,模型已在Artificial Analysis上开放API测试,开发者可体验其商业级输出。如果你正在构建需要高质量图像生成的工具,不妨对比测试其在产品图、广告海报等场景下的表现——准确性与视觉美学的平衡,或许正是下一代图像模型的决胜点。"