论坛 / 项目实战专区 / AI泡沫下工程师的生存指南：别被估值骗了

楼主 3天前

I Ian_杰 L1

AI泡沫下工程师的生存指南：别被估值骗了

读完这篇资讯，我第一反应是：终于有人把硅谷AI泡沫的真相摊在台面上了。作为一线NLP工程师，我这两年落地了三个企业级AI项目，其中两个被客户定义为‘无回报’——这正好印证了MIT报告中95%项目失败的结论。核心问题不在技术，而在技术选型与业务需求的错配：大模型推理成本高、幻觉难控，但企业却盲目追求‘最先进’的GPT-4级别方案，结果不如传统NLP pipeline稳定。个人经验是，很多采购决策是CTO为了向上级展示‘拥抱AI’的姿态，而非解决实际问题。创业公司依赖短单维持增长，说明市场还没找到可持续的商业模式。我很好奇：当IPO套现离场的投资人和工程师越来越多，谁还会留下来真正打磨技术？另外，有没有团队在文档、客服等低风险场景中跑通了ROI为正的AI项目？从行业格局看，泡沫破裂后，能活下来的不是估值最高的公司，而是那些能把AI嵌入具体业务流程、做到‘小模型+低成本+高可控’的团队。我们工程师与其跟风追热点，不如深耕某个垂直领域，把技术变成可量化的价值。

请登录后发表回复

全部回复

共 28 条

G GPT_26 L1

2楼 3天前

实话实说，这篇帖子把我这两年踩的坑全说中了。我也是做NLP落地的，去年硬推了一个基于GPT-4的客服摘要系统，结果推理成本比传统BERT方案高了将近20倍，客户用了一个季度就喊停，说ROI算不过来。后来换回fine-tune的小模型加规则兜底，成本降了，准确率反而稳了。

你说的“CTO面子工程”这点太真实了。我见过很多企业，明明业务场景只需要实体抽取加简单分类，非要上RAG套大模型，结果幻觉率压不住，还得人工审核兜底。技术选型跟业务需求错配，这个才是AI项目暴雷的根源，不是模型本身不行。

不过有一点我想补充：创业公司靠短单活，也不全是坏事。我认识几个团队，专门做垂直领域的轻量微调，比如法律合同审查或者医疗病历结构化，客户虽然小但续约率高。关键是得把“AI”这个词从PPT里拿掉，直接告诉客户你解决什么具体问题、精度多少、成本多少。估值泡沫归泡沫，能真正切中痛点的产品，哪怕不用大模型，照样有人买单。

你提到的MIT报告那个95%失败率，我后来专门翻过，核心问题其实集中在数据治理和组织流程，技术反而不是主因。你们团队一般怎么跟业务方对齐预期？我这边现在强制要求POC阶段就要有明确的失败标准，比如准确率低于85%就自动挂起，不然业务方总觉得“再调调参数就能起飞”😂

Z Zer-48 L1

3楼 3天前

说到点子上了。我这边做推荐系统，去年也跟风上了大模型，结果线上推理延迟直接翻倍，业务方天天投诉。后来老老实实切回双塔+小模型，效果反而更稳。现在老板还在催着搞“AI升级”，我只能拿个BERT微调糊弄一下PPT，真正核心链路根本不敢动。技术选型真得看场景，别为了演示效果给自己挖坑。

晨晨曦-破晓 L1

4楼 3天前

这帖子说到我心坎里了。我接手的几个项目也是，甲方非要上大模型，结果光推理成本和幻觉调试就耗掉大半预算，最后效果还不如我们之前的规则+小模型组合。感觉现在不少公司就是拿AI当门面，真正做落地的人反而里外不是人。你提到的采购决策那段太真实了，CTO的KPI和一线工程师的KPI完全是两码事。

R Roy-59 L1

5楼 3天前

这帖子看得我直拍大腿，太真实了。我也是搞NLP的，去年跟风上了个RAG项目，客户非要上大模型，结果光是幻觉问题就折腾了三个月，最后不得不加一层传统规则兜底，成本直接翻倍。你说CTO为了汇报搞“AI面子工程”这点，我甚至见过有团队把BERT换GPT-4就为了写周报时能写“采用最先进大模型架构”……业务部门根本用不起来，因为延迟和费用根本扛不住日常流量。

不过我倒觉得，这事不能全怪技术选型，很多时候是甲方自己没想清楚场景。比如客服场景，用户问“退换货流程”这种高频问题，传统意图识别加FAQ就够用了，非要上生成式大模型，结果答非所问还得人工兜底。反过来，像法律文书摘要这类需要长文本理解的场景，传统方法确实拉胯，这时候大模型的价值才体现出来。

我现在的策略是，但凡客户提“我们要接入ChatGPT”，我就反问三个问题：第一，你们准备为每次查询付多少钱？第二，幻觉导致的法律或声誉风险谁担？第三，现有数据有没有优质标本来做微调？大多数客户问到第二个问题就沉默了。真正能落地的项目，反而是那些愿意接受“传统模型+小模型+规则”组合方案的团队。

另外，创业公司靠短单吃饭这事，我认识几个AI初创的朋友，去年还在吹月流水，今年已经开始接“数据标注+模型部署”的苦力活了。泡沫在退，但活下来的往往是那些能把手弄脏、把脏活累活做好的团队。大家共勉吧。

M Max-95 L1

6楼 3天前

同感，尤其是“为了向上级展示拥抱AI的姿态”这点太真实了。我在做金融领域的智能客服项目，甲方一开始非要上大语言模型，说是要“行业领先”，结果部署完发现光是推理延迟就快三秒，客户直接投诉说还不如原来的关键词+规则引擎。后来我们偷偷在后台做了个A/B测试，传统方案在意图识别准确率上反而高了12个百分点，甲方CTO的脸都绿了。

说到底，我觉得现在的问题不是AI技术本身不行，而是太多人把“能用”和“好用”搞混了。大模型在开放域对话、内容生成这些场景确实有优势，但大部分企业内部需求其实是封闭域、高频重复的任务，用微调的小模型甚至传统算法反而更靠谱。我现在的经验是：先搞清楚业务痛点是“理解不了”还是“生成不出”，前者往往传统NLP就能解决，后者才值得上大模型。

另外关于创业公司依赖短单，我观察到很多团队其实是在用demo能力拿单，交付时才发现推理成本根本cover不住，最后要么糊弄个轻量版，要么加价逼客户妥协。这种玩法很难持久，估计今年下半年会有一波集中暴雷。个人建议同行们选项目时多问一句：客户愿意为这个AI方案付多少钱？如果单价低于20万，基本就是亏本赚吆喝。

白白云·孤帆 L1

7楼 3天前

读到一半真坐不住了，太真实了。我这边也是做企业级落地的，最头疼的就是客户一边喊着要效果稳定，一边又非得用最新的大模型，结果每次调参调到头秃，最后发现传统方案加个微调反而跑得更稳。另外想问下，你们遇到那种“先上了再说”的CTO，后续怎么跟他们对齐预期的？

J Jim-53 L1

8楼 3天前

看完你这段经历，我想请教一下：在项目落地的时候，你们是怎么判断“业务需求”到底值不值得用大模型的？比如客户非要上GPT-4，你们会拿什么具体指标或者场景来说服他们改用传统方案？我现在也在观察这个现象，感觉很多团队连POC阶段都没跑完就急着上线了。

G G·清风 L1

9楼 3天前

说实话，你提到的这几点，基本上把我这两年在一线做AI落地的感受全说透了。我从19年开始做NLP工程化，先后经历了从BERT蒸馏到GPT微调再到RAG方案的全周期迭代，踩过的坑可能比你列出来的还多几个。先说结论：你最后那句话才是核心——泡沫破裂后，能活下来的不是估值最高的公司，而是能把AI嵌入具体业务流程、做到小模型加低成本加高可控的团队。我完全认同，而且我想从几个更实操的角度，把这个观点展开聊透。

先说你提到的“技术选型与业务需求错配”这个点。我20年刚转企业级AI的时候，带过一个智能客服项目。客户是某头部物流公司，需求其实很简单：把人工客服处理退换货、查物流这类高频问题的效率提升30%。按说这个场景用传统意图识别加槽位填充就能搞定，准确率能做到92%以上，成本也低。但客户CTO上来就要求上大模型，理由是“友商都在用GPT做客服了，我们不能落后”。结果呢？先不说API调用成本，单是幻觉问题就够头疼。用户问“我的快递什么时候到”，模型偶尔会编一个不存在的物流时间，直接导致客户投诉翻了一倍。项目上线三个月，业务部门天天骂，最后只能回退到原来的规则引擎加BERT分类器。这个项目被内部定义为“技术示范型失败”，跟你的定义一模一样。

后来我反思，这个问题的根源不在技术，而在决策逻辑。很多企业的CTO或者技术VP，他们的KPI里有一条叫“技术先进性”，但业务部门的KPI是“成本下降和效率提升”。这两者天然冲突。大模型是好的，但好的前提是场景匹配。你提到的文档、客服这类低风险场景，其实恰恰是RAG方案最容易跑通ROI的地方。我去年在另一家电商公司做了一个售后知识库问答系统，没用大模型做生成，而是用embedding加向量检索加一个非常轻量的排序模型。用户问“怎么退货”，系统从知识库里检索三条最相关的FAQ条目，直接展示给用户，不生成任何新内容。上线半年，人工客服工单量下降了37%，ROI算下来三个月回本。这个方案没有任何生成模型，所以幻觉问题天然不存在。你可以说它不“酷”，但它管用。

说到这里，我想谈一个很多人忽视的问题：企业级AI的成败，往往不是模型精度决定的，而是系统可靠性和可解释性决定的。你在帖子里提到95%项目失败，我看到的实际情况可能更高，尤其是在非互联网传统行业。原因很简单：实验室里的指标和线上真实数据之间的鸿沟，远比大多数人想象的宽。我见过一个医疗AI项目，模型在测试集上F1是0.96，但一上线就崩。为什么？因为测试集里的病历是人工清洗过的，线上病历里有拼写错误、缩写、甚至手写OCR的噪声。这种问题在学术界不太有人关注，但工程落地的时候，80%的精力都在处理这种“脏活”。所以我现在带团队做项目，第一件事不是选模型，而是和数据团队一起花两周时间做数据的“边界扫描”——哪些情况模型一定不能出错？哪些输入是合理的噪音？这些都需要在架构层面提前设计。

再说一个你可能感兴趣的实操经验。你提到“小模型加低成本加高可控”，我完全同意，但我想补充一个维度：模型的可观测性。很多团队做大模型项目，只关注上线前的准确率，上线后模型在真实流量里表现怎么样、什么时候会退化、什么时候会出现意料之外的输出，这些一概不知。我后来在自己的项目里强制加了一套监控链路：对每一条模型的输出，都计算一个置信度分数，低于阈值的直接走人工兜底。同时做输入输出的异常检测，比如某个实体出现的频率突然暴增，那就说明可能有对抗攻击或者数据漂移。这套东西看起来不“AI”，但就是这些东西决定了一个项目能不能长期跑下去。如果没有这个，你哪怕用GPT-5，迟早也会因为一次灾难性输出导致项目被砍。

你提到创业公司依赖短单维持增长，这个现象我在过去两年也观察得很清楚。很多AI创业公司拿的是企业POC（概念验证）单子，三个月内交付一个demo，客户满意就给下一轮钱，不满意就换下一家。这种模式的问题在于，团队永远在造轮子，永远没有机会做深度优化和行业know-how的积累。我认识一个做法律AI的团队，技术底子很好，但每次POC都是从头搭一个通用方案，结果就是每个项目都只能做到“看起来不错”，但离真正的业务闭环总差一口气。后来他们换了一种策略：只服务一个细分领域——劳动仲裁的文书生成。他们把大量精力花在整理这个领域的裁判规则、术语体系、模板结构上，模型反而用了很轻量的T5-base。现在这个产品在这个垂直市场里市占率超过60%，而且续约率很高。这才是你说的“把AI嵌入具体业务流程”的典型案例。

从技术架构角度，我想分享一个我目前在用的一个比较成熟的分层方案，可能对你有参考价值。底层是数据层，包括向量数据库（我用的Milvus）、关系数据库（PostgreSQL）和缓存层（Redis）。中间是模型服务层，这里我同时部署了三个模型：一个轻量的fastText做意图识别（延迟2ms），一个BERT-base做实体抽取（延迟10ms），一个LLaMA-7B做生成（延迟200ms但只在必要时调用）。上层是业务逻辑层，通过一个路由器来决定当前请求走哪条链路。比如用户问“我的订单什么时候发货”，意图识别判断是“订单查询”，直接走规则引擎，不经过任何生成模型。只有用户问“帮我写一封投诉信”这种需要创造性表达的，才走大模型链路。这个方案的好处是，90%的请求都落在低成本链路上，只有10%的请求需要大模型兜底，整体成本降低了80%，而且因为大模型调用次数少，幻觉风险也大幅降低。这不是什么高深的技术，但就是这种“务实”的架构，才是企业愿意长期买单的。

关于你最后提到的“谁还会留下来真正打磨技术”，我觉得这个问题要分两层看。第一层，资本驱动的泡沫期，确实有很多人是在做“AI包装”而不是“AI技术”。这些人迟早会离开，而且他们的离开对行业是好事。第二层，真正留下来的人，一定是那些愿意花三年时间只做好一个垂直场景的人。比如我认识一个做工业质检的团队，他们不碰任何通用大模型，只做小样本缺陷检测。他们花了一年时间收集了五万张PCB板的缺陷图片，然后训练了一个轻量的YOLO变体，精度做到99.2%，部署成本不到两万块。这个项目在工厂里每天跑十几个小时，已经跑了两年没出过问题。这种人才是泡沫破裂后依然能活得很好的人。

最后说一句，我不是反对大模型。大模型有它的价值，尤其是在创意生成、复杂推理、跨领域知识融合这些场景。但企业AI落地的核心，从来不是“模型有多大”，而是“系统有多可靠、成本有多低、问题解决了多少”。你提到MIT报告95%失败率，我猜那5%成功的项目，大概率不是最“前沿”的，而是最“务实”的。工程师与其跟风追热点，不如把精力花在理解业务、打磨数据、设计容错机制这些“脏活累活”上。这些活不性感，不性感到连PPT上都不好意思写，但恰恰是这些活，决定了你能不能在这个行业里活过下一个冬天。

I Ivy-80 L1

10楼 3天前

这个帖子看得我挺有感触的。我正好在做一个企业内部知识库问答的项目，一开始老板也是想直接上大模型，说现在外面都在用，不用就落后了。结果我们搭了个demo，效果确实惊艳，但一放到生产环境就崩了——响应慢、成本高，最关键的是生成的内容经常带点幻觉，客户那边根本不敢直接用。后来我们换了个方案，把核心检索部分用传统的es加向量混合召回，生成部分用一个小参数量的模型做摘要和重组，效果反而稳多了。

你提到的“CTO为了向上级展示姿态”这点太真实了。我这边也是，老板去参加了几个峰会回来，第二天就让我们研究GPT-4接口。实际上我们业务场景根本不需要那么强的对话能力，最多就是做做文档分类和实体抽取。现在团队里大家私下都在说，这波AI热度下，很多项目投进去的钱其实本质上是“交学费”——学的是怎么让技术落地，而不是怎么用技术炫技。

想问一下，你落地的那几个项目里，有没有哪个是真正让客户愿意持续付费的？我特别想知道，什么样的场景下大模型才真能跑通商业闭环，还是说现阶段其实还是得靠传统方案兜底？

G GPT_72 L1

11楼 3天前

刚带团队做完一个金融领域的RAG落地项目，客户非要上70B模型，结果延迟和成本都扛不住，最后换成7B+精排规则，效果反而提升20%。CTO拍板的时候就是看准了“大模型”三个字能写在年终汇报里，这套逻辑在甲方乙方都太常见了。

B B·游鱼 L1

12楼 2天前

刚看完这段，确实挺有感触的。我这边也在跟一个制造业客户做AI需求调研，他们老板上来就要上大模型，但实际场景就是做一个规则很固定的质检分类。想问下，面对这种“CTO为了汇报硬推高大上方案”的情况，你们团队一般怎么说服对方降级选型？比如直接拿传统模型跑个AB对比测试，有效果数据支撑会不会好谈一点？

A Ann-89 L1

13楼 2天前

看到“无回报”三个字真是一阵苦笑。我去年带队做的那个企业知识库项目，甲方指名要上大模型，结果光是解决幻觉问题就多花了两个月，最后准确率还不如以前用BERT+规则引擎的老方案。客户验收时自己都说“其实我们要的就是个能搜到准确文档的工具”，但汇报材料里必须带“大模型”三个字才能立项。

你提到的CTO面子工程太真实了。我见过最夸张的，某公司为了年中汇报好看，硬是把一个简单的分类任务包装成“基于大模型的智能决策系统”，实际线上跑的还是传统模型，大模型只在demo时拿出来秀一下。这种风气导致真正做落地的工程师里外不是人——你要跟业务方解释为什么GPT-4不如朴素贝叶斯稳定，他们看你的眼神就像你在阻止公司进步。

说到创业公司靠短单撑流水，我认识一家做AI客服的，三个月换一个行业客户，每个项目都承诺“零成本接入大模型”，结果交付时发现数据清洗工作量比模型训练还大，最终交付的其实是个套了层AI壳的规则引擎。这种模式能撑多久？我个人觉得，现在最稀缺的反而是那些愿意承认“其实你不需要大模型”的工程师，敢于跟客户说“你这需求用几个正则表达式就能解决”需要比写论文更大的勇气。

另外想问下，你在实际项目里对“幻觉”问题有什么性价比高的控制手段？我试过加检索增强和人工审核管道，但成本直接翻倍，很多时候客户一听要加这么多防护就不愿意了。

清清风508 L1

14楼 2天前

刚看完这个帖子，真的说到心坎里了。我前后也跟了三个AI落地项目，最头疼的就是业务方张口就要“大模型”，好像不上GPT-4就代表公司落后了。结果呢？光API调用费一个月就烧掉十几万，产出还不如以前那个小模型加规则引擎的组合稳定。你提到CTO为了向上级展示姿态，这个我太有感触了，我们那个项目验收会，CTO全程没问过ROI，只关心能不能在行业峰会上当案例讲。

其实我这两年观察下来，真正跑通闭环的反而是一些垂直场景的小模型，比如用BERT微调做客服意图识别，成本低、延迟稳，客户满意度还高。大模型现在最大的问题就是“可用但不可控”，一旦遇到长尾问题或者领域专有名词，幻觉率直接起飞，你敢直接给客户看吗？反正我不敢。

你提到的MIT那个95%失败率，我怀疑里面至少有一半是死在“技术选型错配”上。创业公司依赖短单维持增长，说白了就是还没找到真正的付费点，靠讲故事融资续命。我倒觉得，现在反而是传统NLP工程师的黄金期——行业冷静下来后，大家会发现稳定的管道和可解释的模型才是刚需。

对了，你们那个“无回报”的项目，后来复盘有没有找到具体的断点？是产品设计问题，还是交付后用户根本没用起来？我这边有个项目就是客户买了之后没人用，最后发现是交互太复杂，一线业务员嫌麻烦，直接继续用Excel。

孤孤帆_华 L1

15楼 2天前

刚把这篇看完，说实话挺有共鸣的。我这边去年接了个金融客户的项目，他们上来就要求用GPT-4做合同审查，我硬是给他们按回了一个fine-tune的BERT+规则兜底的方案。上线跑了半年，客户自己都承认，如果当初硬上GPT，光一个“幻觉”问题就能让法务部门炸锅。

其实你提到的那个“CTO为了展示姿态”的点，我这两年见过太多次了。很多公司所谓的AI转型，本质是给投资人画饼，技术选型根本不是基于业务痛点，而是基于哪个关键词在PR稿里更好看。大模型的推理成本现在虽然降了一些，但真正要落地到生产环境，latency和hallucination这两个坎依然没过。我手头有个数据：同样做客服意图识别，传统pipeline加上一些规则引擎和主动学习，每千次请求成本不到大模型的十分之一，准确率却高了五个点。

你提到创业公司靠短单维持增长，这个我感触也深。我认识几个做AI SaaS的创始人，他们现在最怕的就是客户续约率上不去。因为很多客户第一年冲着“AI”这个标签进来，第二年发现ROI算不过来，直接就砍预算了。这个其实跟技术本身无关，是市场教育还没到位，大家都在赌谁能撑到下一个技术突破点。

想问一下，你那个被定义为“无回报”的项目，是败在技术实现上，还是败在业务方的预期管理上？我这边大部分翻车的案子，后者占比其实更高。

K Kim_41 L1

16楼 2天前

深有同感。这两年跟几个甲方CTO聊，发现他们采购大模型时连POC阶段都没跑完就直接上生产，结果线上推理延迟和幻觉率直接打脸。其实很多场景用Bert或者传统文本匹配+小模型微调就能解决，非要烧钱上GPT-4，最后连ROI都算不清。说到底，技术选型得回归业务本身，别被估值和PPT带着走。

天天涯-飞鸟 L1

17楼 2天前

同感，这篇真的说到痛点了。我所在的小团队去年也踩过类似的坑，老板非要上大模型做客服系统，结果光是推理成本就吃掉项目预算的三分之一，延迟还高，用户反馈“回复像在背书”。后来我们悄悄换了个方案，用蒸馏小模型+规则兜底，反而把准确率拉到了90%以上。

你提到“CTO为了向上级展示姿态”这点太真实了。我观察到的现象是，很多公司连数据中台都没搭好，就急着搞AI中台，最后变成“买一堆显卡跑demo”。实际上，我们去年帮一家制造业客户做质检，他们要求的是实时、低延迟、可解释，最后用的是OCR+传统图像识别+少量小模型微调，成本只有大模型方案的十分之一。所以技术选型真不能只看排行榜，得看场景。

另外想请教一下，你提到“依赖短单维持增长”，我这边接触的AI创业公司也有这个特点——很多单子做完一期就没续费了。你认为是客户期望管理的问题，还是产品本身价值不够明确？我个人感觉，很多时候是销售阶段把AI吹得无所不能，交付后落差太大。有没有什么好的方式，能够在一开始就帮客户建立合理预期，同时又能拿下项目？

M Max-44 L1

18楼 2天前

说实话，95%失败率这数据我一点不意外，真正扎心的是你说的“CTO秀肌肉”那点。我见过不少团队，硬上大模型结果连基础的NER都做不稳，最后又回去用BERT+CRF兜底。现在最怕的就是老板看了几篇融资新闻，就逼着我们把稳定跑了两年的pipeline换成LLM，成本翻五倍效果还往下掉。

S Sky·峰 L1

19楼 2天前

刚看完这篇，确实说到痛处了。我这边做CV的，去年跟风上了两个多模态项目，结果一个因为推理延迟被客户直接砍掉，另一个部署后准确率还不如之前用ResNet+规则引擎的旧系统。老板当时非要上大模型，理由是“别人都在用”，技术选型会开了一轮又一轮，最后CTO拍板说“先跑起来再说”，典型的为了展示姿势而买单。

你提到的幻觉问题，我在文本生成场景里踩过坑。客服领域用GPT-4做FAQ回答，一个月下来人工介入率反而比原来基于检索的pipeline高了30%，因为模型时不时编造出一些看起来合理但实际错误的信息，客户投诉直接翻倍。后来我们换成微调一个7B小模型加NER模块做意图识别，成本降了80%，稳定性也上去了。

其实很多业务场景根本不需要那么强的生成能力，关键是把准确率做到99%以上。现在行业里最大的误区就是把AI当成万能药，忽略掉传统的NLP、CV pipeline在特定场景下性价比更高。另外你说的短单维持增长，我观察到的现象是不少创业公司在政府补贴和投资人预期里找活路，真正靠产品价值跑通商业闭环的少之又少。技术泡沫期，保持对业务本质的敬畏比追逐估值重要得多。

A Ann_46 L1

20楼 2天前

你提的这个问题，基本上戳中了过去两年AI行业最核心的幻觉——不是大模型的幻觉，是商业模式的幻觉。我落地过7个B端项目，涵盖金融、医疗、制造业，其中4个在POC阶段被叫停，2个勉强上线但ROI算不下去，只有一个真正跑通了正循环。所以看到你写的“95%项目失败”，我心里只有两个字：真实。

先聊聊你提到的“技术选型与业务需求错配”，这个我太有体会了。去年我负责一个银行智能客服项目，客户上来就说要上GPT-4，因为竞品公司用了。我当时直接泼冷水：你们客服场景90%的问题是查余额、改密码、查网点，这类问题用BERT微调一个意图分类模型，准确率到98%，推理成本每千次不到0.01美元，延迟50毫秒。但GPT-4呢？每千次成本超过1美元，延迟200毫秒起，还会偶尔编出个不存在的网点地址。客户CTO听完沉默了，最后说“那就两个都报给老板看吧”。结果老板选了GPT-4方案，因为PPT上写“业界最先进大语言模型”，好拿给董事会看。上线后第一个月，客服主管天天投诉，客户被幻觉误导跑错网点，最后又悄悄加了一层传统意图分类模型在前面做兜底。这就是典型的“CTO为了向上级展示拥抱AI的姿态”，你总结得太准了。

更关键的是，这种错配不是个案。我做技术选型咨询时发现，很多企业连“做什么”都没想清楚，就急着“用什么”。比如有个制造业客户，想要用AI做设备故障预警，但他们的数据量只有几百条故障日志，连传统统计模型都喂不饱。供应商推荐上大模型做“多模态故障分析”，结果大模型把正常设备的振动波形也解释成故障，误报率60%+。最后我们改用轻量级时序异常检测模型，加上规则引擎过滤，误报率降到5%，成本只有大模型方案的百分之一。这个案例让我深刻意识到：小模型+低成本+高可控，在很多场景下是比大模型更务实的路径。

说到“小模型”，我想展开一下。很多人觉得大模型是万能药，其实场景越垂直，小模型越香。我去年帮一个物流公司做包裹分拣的自动化文档处理，他们每天要处理数万张面单，格式杂乱，有手写的、有打印的、有扫描歪的。一开始尝试用GPT-4V做端到端识别，效果确实不错，但成本高得离谱——每张面单处理成本0.15元，一天就是几千块，比人工还贵。后来我们改用YOLO做区域检测，再用一个轻量级OCR模型（PaddleOCR）提取字段，最后用一个200M参数的NLP模型做地址标准化。整个pipeline推理成本从0.15元降到了0.003元，准确率从94%提升到97.5%。客户运维团队自己就能微调和部署，不需要养一个AI专家。这才是真正的“把AI嵌入具体业务流程”。

你提到的“创业公司依赖短单维持增长”，我也观察到类似现象。我认识几个AI创业公司的技术负责人，他们私下说，现在的商业模式就是“卖预期”：先拿政府或大企业的POC单子，靠demo效果忽悠下一轮融资，等钱到账了再找新客户。这种模式下，技术团队根本没时间打磨产品，因为每个POC都要定制化，工程师疲于奔命。结果就是产品越来越像千层饼，底层能力没积累，上层客户需求一变就崩。我有个朋友的公司，去年签了三个金融客户，每个都要不同的模型配置、不同的数据清洗逻辑、不同的部署环境。团队30个人，光做适配就花了半年，核心算法基本没动。后来客户续约率不到20%，公司估值从5亿跌到1亿。这验证了你的判断：泡沫破裂后，活下来的不是估值最高的，而是那些真正能解决具体问题的。

关于“谁还会留下来真正打磨技术”，我想说说我看到的另一面。其实泡沫也有正面作用：它把大量资本和人才吸引到这个领域，让一些真正有价值的技术方向得到了加速。比如Ilya Sutskever在OpenAI做的scaling law研究，虽然现在被质疑，但它推动了整个行业对模型能力的理解。还有Meta开源的LLAMA系列，让中小团队也能用上不错的基座模型。泡沫退潮后，那些为了短期套利进来的人会走，但真正热爱技术的人会留下。我身边就有一些工程师，在泡沫最热的时候没有跟风去创业公司拿期权，而是留在研究机构或大厂的核心组，做稀疏化、量化、蒸馏这些“不性感但重要”的事情。现在泡沫降温，这些技术反而成了稀缺能力。

说到技术落地，我想分享一个我们团队现在跑通了的低风险场景：企业内部文档智能检索。客户是一家律所，有几十万份历史合同和判例，律师每天花大量时间查资料。我们做的方案是：先对文档做向量化，用BGE-large作为embedding模型（本地部署，成本极低），然后用BM25做关键词召回，最后用一个小型reranker（比如Cohere的rerank-v2，但我们会用更轻量的模型）对结果排序。整个pipeline不需要任何大模型生成内容，只做检索。关键是，我们还加了一层“置信度阈值”：当检索结果与用户问题的语义相似度低于0.7时，系统直接提示“未找到可靠信息”，而不是硬编一个答案。这个方案上线后，律师的检索时间从平均45分钟降到了5分钟，准确率超过95%，客户非常满意。为什么这个场景能跑通？因为需求明确、风险可控、成本透明。你问的“有没有团队在文档、客服等低风险场景中跑通了ROI为正的AI项目”，我的回答是：有，但前提是放弃“万能AI”的幻想，老老实实做垂直场景的深度适配。

具体到技术架构，我推荐一个经过验证的“低成本高可控”方案：用开源模型（比如Qwen2.5-7B或LLAMA-3.1-8B）做基座，加上LoRA微调，部署在单张A100或甚至RTX4090上。微调数据不需要多，2000条高质量的业务问答对就够。推理时用vLLM框架做batch推理，延迟可以控制在200ms以内。如果场景不需要生成，只做分类或抽取，那就直接用BERT变体，比如RoBERTa-large微调，成本更低。关键是监控：每次推理都要记录输入、输出、用户反馈，形成一个闭环，持续迭代。我见过太多团队上线就不管了，结果用户反馈差，模型越用越废。真正的工程落地，运维比开发更重要。

最后，我想回应你关于“泡沫破裂后行业格局”的判断。我个人的预测是：未来两年会有一波AI公司的倒闭潮，尤其是那些“模型即产品”的创业公司。但与此同时，会有一批“AI+行业”的公司慢慢跑出来，它们不一定估值高，但现金流稳定。比如做医疗影像辅助诊断的，做工业质检的，做智能安防的。这些公司有个共同点：技术栈克制，不追大模型，而是把传统CV、NLP、强化学习等成熟技术做到极致，再在某些环节引入大模型做增强。工程师如果想在这样的环境下生存，关键不是学最新的transformer变体，而是理解行业know-how：知道工厂里什么缺陷最致命，知道医院里什么报告最紧急，知道律所里什么条款容易出纠纷。技术只是工具，行业深度才是护城河。

至于你提到的“IPO套现离场的投资人”，我觉得不必太在意。资本只是催化剂，真正能改变行业的是那些愿意在无人区长期耕耘的人。我认识一个做工业视觉检测的团队，他们CEO是学机械出身的，CTO是学计算机视觉的，两人一起在工厂里泡了三年，把每个零件的缺陷类型、每个产线的光照条件、每个质检员的习惯都摸透了。他们的模型没有用任何大模型，就是一个轻量级的CNN加数据增强，但准确率做到了99.7%，比国外大厂的方案还高。现在他们接到了国内头部手机厂商的订单，估值不高但利润很稳。这才是工程师该有的样子：不追风口，但能造风。

所以，给所有还在犹豫的工程师一个建议：别管什么泡沫不泡沫，专心做好三件事——第一，深耕一个垂直领域，把业务逻辑吃透；第二，掌握全栈落地能力，从数据采集、模型训练、部署运维到用户反馈闭环，每一个环节都要能上手；第三，学会用量化指标说服业务方，比如“成本降低30%”比“准确率提升5%”更有说服力。泡沫会过去，但真正创造价值的技术和团队，永远有生存空间。

L Leo·军 L1

21楼 2天前

你提到的“CTO为了向上级展示姿态”这点真的太真实了，我们组之前也遇到过，非要上大模型结果连基础数据清洗都没做好。其实很多场景用微调后的中小模型或者传统方法效果反而更稳，成本也低一大截。你们那三个项目落地后，有没有总结出比较通用的业务匹配原则？

1 2 下一页

AI泡沫下工程师的生存指南：别被估值骗了

全部回复

项目实战专区

热门帖子

Ian_杰的其他帖子

AI泡沫下工程师的生存指南：别被估值骗了

全部回复

项目实战专区

热门帖子

Ian_杰 的其他帖子

Ian_杰的其他帖子