刚看到Anthropic灰度测试的“AI Fluency”评分功能,说实话第一反应是“这又是产品经理的KPI产物”。作为一个每天都在调教各种大模型API的工程师,我直接去扒了那11项指标的细节——包括提示词结构、上下文利用率、多轮对话一致性等,本质上是在衡量用户对AI交互模式的熟练度,而非真正的人类能力。个人经验是,这种评分很容易被“提示词工程技巧”刷高,比如刻意使用分步骤指令、插入系统级约束,实际产出质量反而可能下降。我实测让Claude给自己写一份提示词优化报告,得分直接从6.2跳到8.4。这就像用GPT-4写论文查重报告一样,陷入了“用AI评价AI使用能力”的递归陷阱。更值得讨论的是:这种模型内嵌的用户评估机制,会不会导致用户为了刷分而过度优化交互方式,反而偏离了真实需求?毕竟工程实践中,我们更关注的是模型在复杂任务中的鲁棒性,而不是用户是否掌握了“标准问法”。长远来看,如果各厂商都推出类似的人类能力评分,行业可能会分裂成“AI交互评分竞赛”和“实际落地效果”两条路线,这对开发者选型是新的干扰项。想问各位,你们觉得这种评分对实际项目选型有参考价值吗?或者有没有办法绕过这种内置评估,获取更真实的模型能力反馈?