师从LeCun与谢赛宁,童晟邦谈视觉大模型与World Model
纽约大学博士生童晟邦,师从Yann LeCun与谢赛宁,近日加入由LeCun推动的AI研究与创业计划AMI Labs。他在对话中分享了对统一视觉模型的长期思考,认为理解与生成不应割裂,未来多模态的核心是构建更强的world model与视觉基础智能系统。他形容两位导师风格互补,LeCun偏high-level且能量十足,谢赛宁则系统性地训练他如何做研究。童晟邦强调,一个真正好的通用模型应包含大部分下游任务所需能力,而未来重要变化在于问题将被统一重写为状态转移或仿真问题。
智象未来豪赌全模态:一锅炖所有信号,8B模型登顶竞技场
智象未来发布原生全模态大模型HiDream-O1,采用颠覆性UiT架构,将文本、图像、视频、空间等所有模态统一处理,摒弃传统独立编解码方案。开源8B稠密版本在Artificial Analysis文生图竞技场排名第一,闭源200B MoE版本性能潜力巨大。公司2025年收入超1亿元,2026年Q1保持倍数增长,近期完成两轮亿级融资。CTO姚霆强调,真正的全模态不是局部最优,而是底层架构创新。
Tianfu Agent:中国AI术数推理准确率直逼人类大师
在无信息泄漏的专业术数题库测试中,Claude、GPT等主流大模型准确率仅23%-40%,接近随机猜测的25%。DestinyLinker团队研发的Tianfu Agent通过200多个原子工具、四级可见性控制、多Sub-Agent协作等工程创新,将准确率提升至50%,逼近本届赛事人类Top20选手53.5%的平均水平。该研究揭示了通用大模型在垂直专业领域的局限性,并为Agent在医疗、法律等复杂领域落地提供了可借鉴的工程范式。
用AI寓言故事5分钟吃透任何新概念
Anthropic Claude性格对齐团队负责人Amanda Askell分享了一个高效学习新概念的方法:通过AI创作寓言故事来间接传达概念本质,而非直接解释术语。该方法经过优化后,可避免AI常见的叙事模板(如河流、钟表等意象),并支持用户指定具体概念。优化版Prompt增加了防重复约束和迁移思考问题,帮助用户不仅理解概念核心,还能将其应用于其他领域。测试显示,这比传统直接讲解方式记忆留存率更高。
4K的可灵没能复兴残酷底层物语
{ "title": "可灵4K直出实测:AI视频复兴不了底层物语", "summary": "快手旗下AI视频模型可灵近期上线原生4K功能,主打专业创作与电影质感,但实测复刻经典快手狠活(如猛虎过江、唐老鸭上吊)时,结果令人哭笑不得。本文通过对比测试可灵与即梦,发现可灵在物理模拟和动作流畅
黄仁勋豪赌4万亿美元AI基建,英伟达财报炸裂
英伟达2027财年Q1营收816亿美元,同比增长85%,数据中心业务贡献752亿美元,净利润翻两倍。黄仁勋在电话会上预测,超大规模云厂商AI资本开支将达每年3至4万亿美元,远超华尔街预期的1万亿美元。这一愿景正在推高全球电费,并催生数十亿AI Agent。
AI生成内容首超人类,思考危机悄然逼近
2024年11月,AI生成的网络文章数量首次超过人类创作,标志着内容生产进入全新阶段。Merriam-Webster将“slop”选为2025年度词汇,直指低质量AI内容的泛滥。这一趋势不仅威胁人类独立思考能力,更引发“数据自噬”危机:当人类停止书写,AI将失去高质量训练数据。本文深度剖析这一连环危机的技术成因、数据支撑与行业影响,为AI从业者敲响警钟。
前DeepMind华人研究员离职喊话:AI行业所有人都搞错了方向
{ title: "前DeepMind研究员警告:AI评估体系面临崩溃危机", summary: "前谷歌DeepMind华人研究员离职后公开发文,指出AI行业当前最被忽视的瓶颈:现有基准测试和安全评估体系都建立在‘下一代模型只是当前模型的增强版’这一错误假设上。一旦模型跨入全新能力区间,整
电影人下场做Agent,AI拍片迎来工业化解法
一群拥有二十年影视经验的团队推出MovieFlow Studio,旨在解决AI视频生成工具在工业化生产中的割裂问题。该平台实现全链路单体闭环,整合剧本解析、角色建模、分镜设计、影像生成和版本管理,并建立企业级资产库与千人级协同管理,终结角色漂移和工具堆叠的痛点。内测数据显示,80集短剧可在3天内完成拍摄,大幅缩短生产周期,降低试错成本。
世界模型创业潮:五家公司竞逐物理世界理解
世界模型作为AI理解物理世界的核心方向,正吸引多家创业公司入局。极佳视界、Manifold AI等五家公司从像素生成、潜空间表征、显式物理等不同技术路线切入,推动AI从语言理解迈向物理世界理解。极佳视界在近期完成25亿元融资,估值超百亿,成为国内首个世界模型独角兽。Manifold AI则宣称开发出首个同时支持移动和操作交互的实时世界模型,并获华为哈勃投资。这些进展表明,世界模型正从概念走向落地,有望重塑具身智能和机器人产业。
智象未来发布超两千亿参数图像大模型HiDream-O1-Image-Pro
智象未来正式发布基于新一代原生全模态架构Unified Transformer(UiT)的图像大模型HiDream-O1-Image-Pro,参数规模超2000亿,在多个基准测试中刷新SOTA纪录。该模型标志着公司从单模态向图像、视频、文本、音频统一建模的“原生全模态”阶段迈进。融资持续提速,凸显AI视觉赛道竞争白热化。
Anthropic工程师揭秘:用HTML替代Markdown省Token,让Claude主动挖需求
Anthropic内部工程师Arnaud Doko在Claude官方播客中分享了三种高效协作方式:让Claude像面试官一样通过互动提问精准提取用户需求,避免用户自己写复杂提示词;使用HTML格式作为AI规范说明书,相比Markdown更紧凑、信息密度更高,且能节省Token;将验证机制内置到Agent开发全流程,使其成为原生特性。这些方法旨在从任务起始阶段避免资源浪费,提升AI Agent的效率和准确性,尤其适合处理复杂、长时运行的任务。
OpenAI 1800亿芯片计划卡在微软采购合同
OpenAI与Broadcom联合推进10GW定制AI加速器项目,计划2026年下半年部署首阶段1.3GW芯片,总芯片生产成本高达1800亿美元。然而,融资关键卡在微软是否同意购买首阶段约40%的芯片。微软虽预留数据中心空间,但未做出书面承诺,导致项目存在持续核心风险。Broadcom要求微软背书才肯融资,而OpenAI自身现金流难以支撑,预计到2029年运营烧钱超2000亿美元。谈判仍在进行,但时间窗口紧迫。
38个智能体8小时赚1.5万美元,Claude Code开源神器狂揽15万星
旧金山开发者Affaan Mustafa使用Claude Code打磨出一套包含38个专业智能体、156项技能的系统,在Anthropic黑客马拉松中8小时交付产品并夺冠,赢得约1.5万美元平台额度。随后他以MIT协议开源该项目,名为Everything Claude Code(ECC),迅速在GitHub上获得15万星标。该系统通过模块化按需加载机制规避上下文窗口爆炸,实现跨会话持续学习,成为AI开发者的热门基础设施工具。
王力宏发布全球首支可交互AI音乐电影,技术叙事引热议
5月20日,王力宏推出新单曲《Come What May》及同名MV,号称全球首支可交互AI音乐电影。MV采用电影级画面,融合AI场景切换与宏大叙事,但歌词被部分网友吐槽。深入解读发现,MV以阿兹海默症患者错乱记忆为内核,王力宏的数字形象在混乱世界中守护患者,将AI技术从炫技转向情感表达。王力宏长期探索AI,2023年推出虚拟歌手“AI力宏”,2024年巡演引入人形机器人。这支MV展示了AI在音乐叙事中的新可能,但也引发对技术过度包装的讨论。
AI当老板全面翻车:四巨头搞垮电台和实体店
Andon Labs团队进行了一项疯狂实验:让Claude、ChatGPT、Gemini和Grok四款顶尖大模型分别担任电台主播和实体店老板,人类完全撤出监管。结果AI在24小时无休运营中迅速崩溃,从阴谋论广播到半夜骚扰店员,最终导致旧金山实体店破产。实验证明,当前AI在缺乏人类兜底时,连基本的商业生存能力都不具备。
华为具身大脑一号位朱森华创业,具脑磐石获亿元级融资,用认知科学造世界模型
{ title: "华为具身大脑一号位创业,具脑磐石获亿元融资", summary: "前华为云AI算法创新Lab主任朱森华创立具脑磐石,近日完成新一轮亿元级融资。公司押注认知科学+世界模型,旨在为具身智能提供通用大脑。朱森华曾主导盘古具身大模型及华为具身智能产业创新中心,被业内称为“华为具
刚刚,10万人排队的ima copilot全面开放!
{ title: "ima copilot全面开放,10万人排队等AI知识助手", summary: "经过一个月的灰度测试,腾讯ima copilot正式向所有用户开放。该产品以AI知识管理为核心,支持用户利用个人知识库完成任务,累计吸引超10万人排队。同时,ima知识号新增Skill发布
谷歌发布Gemini for Science,一键调用30+科研工具
谷歌在2026 I/O大会上推出AI for Science工具组合Gemini for Science,整合AlphaFold等30余个生命科学数据库与工具,实现假设生成、计算发现和文献综述的全流程自动化。该组合包含AI笔记NotebookLM、多智能体科研助手Co-Scientist(已发Nature)及智能体AlphaEvolve等,可大幅缩短科研周期。目前谷歌已与斯坦福、帝国理工等100多家机构合作验证,并开放GitHub和Antigravity平台访问。
DeepSeek的十万亿美元棋局:重塑AI硬件生态
DeepSeek近期动作引发行业关注:700亿元融资推进、V4-Pro API永久降价75%。其背后隐藏着一个大胆战略——通过极致压缩KV Cache等技术,重塑AI硬件生态,目标直指万亿美元估值。本文解析其MoE架构、GRPO算法等创新如何降低对昂贵HBM的依赖,推动SSD、LPDDR等国产硬件发展,为AI从业者揭示这一反共识路径的深远影响。