技术文档

AI 原生工作 2026:信任鸿沟、驾驭工程与知识飞轮

腾讯研究院用十个关键词解码人与 AI 的协作困境——它不是能力问题,而是系统设计问题;最终能沉淀为壁垒的,是你在实践中编织的知识网络。

发布于 2026-06-05约 9 分钟阅读数据来源: 腾讯研究院
AI原生工作驾驭工程Harness信任鸿沟多智能体知识工程去技能化上下文工程

腾讯研究院《AI原生工作报告2026》以「信任鸿沟」为棱镜,勾勒从「用了 AI」到「驾驭 AI」的学习曲线:AI 编程工具采用率升至 84%,信任度却跌到 29%;用户自觉提速 20%、实际却慢了 19%。报告指出,人与 AI 的协作困境不是能力问题,而是系统设计问题——出路是「驾驭工程」(设计 AI 的运行环境,而非盯产出),并以记忆、技能、评估、上下文四根支柱重组端到端工作流;而最终能沉淀为壁垒的,是把实践写下来、记下来、连起来的「知识工程飞轮」。

29%
AI 编程工具信任度(采用率却升至 84%)——信任剪刀差 · Stack Overflow
39个百分点
AI 使用者「感知快 20%」与「实际慢 19%」之间的裂缝 · METR
1.9
重新设计工作流的初创公司,收入达对照组的 1.9 倍 · INSEAD
79%
多智能体生产失败中,源自规范与协调的比例 · UC Berkeley

全景:一条伪装成信任问题的学习曲线

腾讯研究院以「信任鸿沟」为棱镜,用十个关键词——驾驭工程、记忆、技能、评估、上下文、工作流、多智能体、加法偏见、去技能化、知识工程——绘制了一条从「用了 AI」到「驾驭 AI」的学习曲线。主线只有一句话:人与 AI 的协作困境不是能力问题,而是系统设计问题;最终能沉淀为壁垒的,不是某个模型或工具,而是人在实践中编织的知识网络。

报告骨架:从诊断到沉淀的五层递进
诊断层信任鸿沟
采用 ≠ 信任 → 行为失控 → 感知失真 → 组织断层。
方法层驾驭工程
设计 AI 的运行环境,而非盯产出;四根支柱:记忆 · 技能 · 评估 · 上下文。
系统层工作流 · 多智能体
端到端重设计,而非单任务加速;用好一个,再扩多个。
警示层加法偏见 · 去技能化
AI 把人的加法本能再放大;判断力在静默中萎缩。
沉淀层知识工程飞轮
写下来 → 记下来 → 连起来 → 飞轮转起来。

诊断层:信任鸿沟

信任鸿沟有四个递进的症状:采用率和信任度背道而驰、行为上的「说一套做一套」、对自身速度的错误感知,以及组织上层与一线的认知断层。它们共同说明:问题不在 AI 不够强,而在我们还没学会与一个「概率性同事」共事。

信任剪刀差:用得越多,信得越少

Stack Overflow 年度开发者调查显示:AI 编程工具采用率从 2023 年的 70% 升到 2025 年的 84%,而对其的信任度却从 40% 跌到 29%——一把越张越大的剪刀。

AI 编程工具:采用率↑ 与 信任度↓(2023 → 2025)%
0255075100%20232025采用率信任度

行为悖论:96% 不信,48% 不查

嘴上不信 vs 手上在查(Sonar 调查)
不完全信任 AI 代码功能正确性
96%
提交前始终检查 AI 代码
48%
觉得审查 AI 代码比审人类代码更费力
38%

几乎所有人都说「我不信 AI 代码」,却有一半人说完就点了提交。背后是一次隐蔽的成本转移:AI 砍掉了「写」的工作量,却顶上了「查」的负担;当查的成本超出预期,很多人就索性不查了。

感知-现实裂缝:更自信,但更差

用 AI 后的速度:自我感知 vs 客观现实(METR 2025)
自我感知
+20%
以为自己更快了
客观现实
-19%
实际反而更慢了

METR 让 16 名资深开源开发者在自己贡献多年的仓库里用前沿模型工作:他们自觉提速 20%,实测却慢了 19%——感知与现实差了 39 个百分点。更早的斯坦福实验(CCS 2023)也发现:用 AI 助手的人写出更多不安全代码,却对 AI 评分更高。一个典型案例:AI 写出语法完美的 300 行基础设施代码,引用的资源和配置却大部分是编造的。

信任动态三阶段:崩塌之后可以更强

信任的形成 → 冲击 → 修复(首尔国立大学,样本 189 + 294 人)
形成
基于能力线索
初次接触,信任通常偏高。
冲击
一个可见错误
信任断崖下降——人对 AI 的容错度远低于对人(「完美自动化图式」)。
修复
解释 + 划界
解释错误原因、指出能力边界后,信任可超过初始基线(「信任加速悖论」)。

组织信任断层:高管热情 vs 一线冷淡

对 AI 的热情:高管以为 vs 一线实际(BCG + 哥伦比亚商学院)
高管认为员工对 AI 热情
76%
一线员工实际有此感受
31%
95%
企业 AI 试点未产生可衡量业务回报(MIT 斯隆)
7%
真正整合进业务流程(88% 在用,仅 7% 整合)
42%
高管承认 AI 正在「撕裂公司」

断层不止于感知:仅 44% 的员工接受过 AI 培训,却有 57% 不愿告诉团队自己在用 AI,31% 甚至主动破坏 AI 推广。MIT 研究者的结论很直接:规模化的核心障碍不是基础设施、不是监管、不是人才,而是学习。

四类组织抵触:不是守旧,是信号

抵触类型它在说什么例证
工具抵触试过了,发现不好用法律团队拒用合同分析 AI,是出于保护公司
策略抵触AI 部署位置与价值位置不匹配半数预算流向销售营销,最高回报却来自后台自动化
信任抵触领导说「增强你」,同时宣布裁员不是恐技,是对矛盾信号的理性回应
能力抵触用了但不确定用得对44% 受过培训,57% 不愿说自己在用 AI
员工的抵触往往是组织在发出信号(福布斯技术委员会)。

方法层:驾驭工程(Harness Engineering)

如果信任鸿沟是系统设计问题,那么解法就是换一种工作方式:不再优化「怎么跟 AI 说话」,而是设计 AI 在其中干活的运行环境——约束、反馈、验证、状态管理。这就是 2026 年的关键词:驾驭工程。

范式三代跃迁:从说话到造环境

提示词 → 上下文 → 驾驭工程
2023
提示词工程
优化怎么跟 AI 说话,调措辞、加示例。天花板低——只优化一次性输入。
2025
上下文工程
优化 AI 看到什么背景信息(Karpathy 推动)。本质仍是「给 AI 看什么」。
2026
驾驭工程
设计 AI 的运行环境:约束、反馈、验证、状态。质变——AI 在你造的办公室里干活。

Harness 四象限:大多数人只做了前馈

前馈 × 反馈 · 确定性 × 推理性(Boeckeler / ThoughtWorks)
前馈控制方向反馈
前馈 × 确定性
模板、规范、脚手架
前馈 × 推理性
AGENTS.md、设计原则、价值观
反馈 × 确定性
linter、测试、pre-commit hook
反馈 × 推理性
AI 互审、专家评审
确定性执行类型推理性

人机协作四阶段:从「环内」到「环上」

人在协作中的四种位置(Fowler 团队)
环外
Outside the Loop
给任务、听天由命——「氛围编程」。
环内
In the Loop
审查每一行产出,人成了瓶颈——「AI 没省时间」的常见抱怨。
环上
On the Loop
不修产出,修「产生产出的系统」——从做事者变为环境设计者。
飞轮
Agentic Flywheel
用 Agent 改进 Harness 自身,Harness 开始自我迭代。

约束的三种经济学

规则、工具、架构——三种不同的博弈
规则约束
零和
文本指令消耗上下文:人工写 ≤60 行规则 +4%,AI 自动生成 200+ 行反降 3%(ETH Zurich + 清华)
工具约束
正和
在上下文窗口外运行,不耗注意力,确定性执行——每次违规都是一次「微型培训」
架构约束
乘数
3 名工程师、5 个月、0 行手写代码,产出百万行级生产产品(OpenAI Codex)

四根支柱:记忆 · 技能 · 评估 · 上下文

记忆 ①|精确遗忘:砍掉 45% 存储,保住 82% 关键事实

记忆系统的核心挑战不是「怎么记住更多」,而是「怎么忘得更精确」。FadeMem 模仿艾宾浩斯遗忘曲线(长期层半衰期约 11 天、短期层约 5 天),在大幅削减存储的同时保住了最高的关键事实保留率。

各记忆方法的关键事实保留率(LTI-Bench)%
Fixed-16K50.2%LangChain71.2%MemGPT75.6%Mem078.4%FadeMem82.1%
82.1%
FadeMem 关键事实保留率(仅用 55% 存储)
45%
存储量削减幅度
29.43
有记忆管理的多跳推理 F1(无管理仅 5.17,差近 5 倍)

记忆 ②|三条工程路线,尚无一条通吃

路线机制认知科学映射
A · 选择性事实提取(Mem0)从对话中自动提取离散事实,去重更新——「我知道什么」语义记忆
B · 文档化自主管理(Anthropic)Agent 自维护文档集合,自决写什么、怎么组织——「发生了什么」情景记忆(多个小而聚焦文件 > 少量大文件)
C · 结构化知识图谱(Neo4j / Zep)实体 + 关系 + 时间图谱,含推理记忆——「什么跟什么有关」关系记忆
三条路线信任的对象不同,对应认知科学的不同记忆类型;腾讯研究院的做法是同一底层数据、调用时采取不同机制。

技能:从膨胀到精简——超 60% 是噪声

SkillReducer 分析了 55,315 个公开 Skill,发现其中超过 60% 的内容是噪声。按内容拆解:真正可操作的规则只占三分之一强,背景解释反而最多。

公开 Skill 的内容构成(SkillReducer)%
  • 可操作规则38.5%
  • 背景解释40.7%
  • 示例12.9%
  • 模板与冗余7.9%
工具选择准确率随工具数断崖(Berkeley BFCL)
4 个工具
43%
51 个工具
2%
断崖式崩溃

评估:分离生成者与评判者

同一模型:同上下文自评 vs 新上下文独立审查
同上下文自评
100%
满分通过(107 个训练样本)
新上下文独立审查
5.5/10
暴露 5 个严重缺陷

解法是受 GAN 对抗反馈启发的 PGE 三角色架构:规划者(Planner)+ 生成者(Generator)+ 评估者(Evaluator)。Anthropic 工程实战中每轮迭代 5–15 次、有时长达 4 小时,评估者还配了浏览器自动化测试。但 AI 裁判并不可靠:受控实验里它与人类一致率 >80%,到生产环境错误率却 >50%(四种系统性偏见);兰德公司 2026 的结论是——没有任何一个 AI 裁判能跨基准保持一致可靠。

三层信任梯度(瑞士奶酪模型)

确定性检查 + AI 审查 + 人类判断,单独哪层都不够(Anthropic)
人类判断 · 屋顶
覆盖面最广,最慢最贵——改系统而非改产出。
AI 审查 · 楼层
能看到语义问题,但有位置偏见、冗长偏见、自偏好、家族偏见。
确定性检查 · 地基
最可信,覆盖面最窄——硬性条件兜底。

上下文:从第一个 Token 就在退化

Chroma 评测 18 个前沿模型、固定任务难度只变输入长度,发现性能从输出的第一个 token 就在退化,无一例外;甚至打乱句子顺序后所有模型表现反而更好(结构化的填充内容反让模型分心)。SWE-rebench 维护者观察到性能天花板大约在 100 万 token 处。这是 Transformer 的 n² 成本特性使然:10 个 token 有 100 对关系,10,000 个 token 就有 1 亿对。

MCP 懒加载前后的 token 消耗(Claude Code 2.1.7)
懒加载前
~77,000
tokens
懒加载后
~8,700
减少 85%,准确率也涨了

系统层:工作流与多智能体

工作流重设计:INSEAD 实验的 1.9 倍差距

INSEAD + 哈佛商学院对 515 家全球初创公司做了 10 周 RCT:同样的人、同样的工具、同样的培训,唯一区别是是否重新审视整条流程。结果如下。

实验组 vs 对照组(INSEAD + 哈佛 RCT,515 家初创)
总收入
1.9×
达对照组的 1.9 倍
AI 用例发现
+44%
获付费客户概率
+18pt
资本需求
39.5%
降低——同样的人,更少的钱

AI 能独立完成的任务时长在指数增长

任务时长 vs 成功率(METR,当前最强模型)
4 分钟内任务
~100%
成功率接近 100%
超 4 小时任务
<10%
成功率跌至 10% 以下

过去六年,AI 能独立完成的任务时长约每 7 个月翻一倍。耐人寻味的是,三个互不知情的独立项目——Manus(task_plan.md)、OpenClaw(MEMORY.md)、Claude Code(CLAUDE.md + Skills)——为了管理长任务,都不约而同地收敛到了「文件系统」方案。

多智能体四大陷阱

1,642
分析的多 Agent 轨迹(UC Berkeley)
79%
失败源自规范与协调(生产失败率 41%–86.7%)
3–5
Anthropic 建议的管理幅度(研究任务;编码任务 1–2 个)
陷阱表现
① 过度委托单 Agent 配好工具就能处理绝大多数场景,盲目拆分反添乱
② 规格不足给 Worker 的描述要像给第一天入职的初级工程师写工单,否则子 Agent 重复调查同一方向
③ 协调开销分发 + 执行 + 合成可能 5–10 次 API 调用,单 Agent 只需 1–2 次
④ 电话游戏效应信息在每次传递中衰减——建议子 Agent 直接写文件系统
1,642 条轨迹显示,79% 的失败来自规范和协调,而非模型能力。

多智能体真正的价值不是「更聪明」,而是更多并行计算容量:OpenAI 在 BrowseComp 上发现,token 用量能解释 80% 的性能方差。所以原则是——用好一个,再扩多个。


警示层:加法偏见与去技能化

加法偏见:人 60% vs AI 88–100%

面对问题,优先用「加法」而非「减法」的比例(Uhler 2026)
人类
~60%
GPT-4o
88–100%
把人的偏见进一步放大
英语语料词频:add vs subtract(伯明翰大学 2023)
add / more 相关词
361,246
subtract / less 相关词
1,802

Nature 2021 的 8 个实验早已发现:无提示时只有 41% 的人想到减法,加上「removing is free」这 8 个词的提示后升到 61%。AI 从语言中训练,而语言本身就偏向「加」——于是形成双重偏见叠加:人的本能 + AI 的放大。更糟的是,给 GPT-4 一道「减法更高效」的题,它用加法的比例反而更高——效率信号产生了反向作用。

去技能化:AI 组学习得分低 17%

学一个新 Python 库后的测验得分(Anthropic RCT 2026.01,n=52)
AI 组
50%
对照组
67%
高出 17 个百分点

差别不在于「用不用 AI」,而在于认知参与的多少。得分最低的三种模式是:AI 委托(全交给 AI)、渐进依赖(逐步交出一切)、迭代调试(粘贴报错却不问为什么)。得分最高的三种是:概念查询(只问概念、自己写)、混合代码-解释(要代码也要解释)、生成后理解(先让 AI 生成,再追问到懂)。

结肠镜检出率:用 AI 三个月后再移除 AI(Lancet 2025)
AI 辅助期
28.4%
移除 AI 后
22.4%
技能并未真正长在自己身上

沉淀层:知识工程飞轮

方法会过时,工具会迭代——最终能留下、能复利的,是你编织的知识网络。知识工程是一条螺旋:把教过 AI 的做事方式写下来(Skill,解决「重复教」)、把决策与失败教训记下来(Memory,解决「反复忘」)、再让积累连起来(产生关系与因果链,连接才是真正的价值)。

写下来 → 记下来 → 连起来 → 飞轮
Skill
把教过 AI 的做事方式变成可复用模板。
Memory
决策、偏好、失败教训留痕。
Knowledge Eng.
让积累产生关系和因果链。
飞轮
上下文→知识库;指令→Skill;工作流→操作手册;失败→防护栏。
结构化知识图谱提升准确率(OpenKG,同一模型 DeepSeek)
无图谱
80.7%
有图谱
86.1%
更好的结构化知识 = 更高准确率
8
AI 生成代码重复率增长(GitClear)——资产会腐烂
86%
增量更新比整体重建减少的漂移(Stanford ACE)
10–15
个人 Skill 的合理数量(不是 89 个)
大数据时代已经结束,大知识时代正在开始。
KPMG 2026 白皮书

结语:壁垒不在模型,在你编织的网络

把十个关键词连成一句话:信任鸿沟逼我们承认这是系统设计问题;驾驭工程让我们从「盯产出」转向「设计环境」;记忆、技能、评估、上下文是四根支柱;工作流与多智能体把它们串成系统;加法偏见与去技能化提醒我们不要在静默中失去判断;而知识工程,是把这一切沉淀成壁垒的飞轮。

最终能沉淀为壁垒的,从来不是某个模型或某个工具——它们都会过时。真正属于你的,是你在一次次实践中写下来、记下来、连起来的那张知识网络。每一块数据,都已是一张图的种子。

证据池:关键数据一览

指标数值时点 / 区间出处
AI 编程工具采用率70% → 84%2023 → 2025Stack Overflow
AI 编程工具信任度40% → 29%2023 → 2025Stack Overflow
不完全信任 AI 代码正确性96%2025Sonar
提交前始终检查 AI 代码48%2025Sonar
METR 实际速度变化 / 自我感知-19% / +20%2025METR
感知-现实差距39 个百分点2025METR
企业 AI 试点无可衡量回报95%2026MIT 斯隆
在用 AI / 真正整合进流程88% / 7%2026MIT 斯隆
高管以为热情 / 一线实际76% / 31%2026BCG + 哥伦比亚
高管承认 AI 撕裂公司42%2026BCG + 哥伦比亚
人工 ≤60 行规则 / AI 200+ 行规则+4% / -3%2026ETH Zurich + 清华
腾讯研究院规则精简200 → 50 行2026腾讯研究院
Codex 团队:工程师 / 周期 / 手写代码3 人 / 5 月 / 0 行2026OpenAI Codex
FadeMem 关键事实保留 / 存储削减82.1% / 45%2026FadeMem
有 / 无记忆管理 F129.43 / 5.172026FadeMem
分析的公开 Skill 数55,315 个2026SkillReducer
压缩版 / 原版功能得分0.742 / 0.7222026SkillReducer
工具选择准确率(4 / 51 个工具)43% / 2%2026Berkeley BFCL
LLM-as-Judge 一致率 / 生产错误率>80% / >50%2026多项研究
MCP 懒加载前 / 后 token~77,000 / ~8,7002026Claude Code
INSEAD 实验组总收入倍数1.9 倍2026INSEAD + 哈佛
INSEAD 实验组资本需求降低39.5%2026INSEAD + 哈佛
用 AI 团队 / 自认工作流高效84% / 21%2025Telerik
AI 任务时长翻倍周期~7 个月近 6 年METR
多 Agent 轨迹 / 生产失败率1,642 条 / 41%–86.7%2026UC Berkeley
多 Agent 失败来自规范与协调79%2026UC Berkeley
人类 / GPT-4o 加法策略使用率~60% / 88%–100%2026Uhler / Nature
add / subtract 词频361,246 / 1,802语料统计伯明翰大学
Anthropic 学习 RCT:AI 组 / 对照组50% / 67%2026.01Anthropic
柳叶刀肠镜:AI 辅助期 / 移除后检出率28.4% / 22.4%2025Lancet
结构化知识图谱提升 DeepSeek 准确率80.7% → 86.1%2026OpenKG
增量更新比整体重建减少漂移86%2026Stanford ACE
数据均引自报告所列出处,发布前已人工核对原文口径;如「采用率 vs 信任度」「感知 vs 现实」等对比,请结合上文语境理解。

常见问题

什么是「驾驭工程」(Harness Engineering)?

它是 2026 年的关键范式:不再优化「怎么跟 AI 说话」(提示词工程)或「给 AI 看什么」(上下文工程),而是设计 AI 在其中干活的运行环境——约束、反馈、验证、状态管理。公式是 Agent = 模型 + Harness。LangChain 实证:同一前沿模型只改周围基础设施,TerminalBench 名次就跃升 20 多位。

为什么 AI 编程工具「用得越多,信得越少」?

Stack Overflow 调查显示采用率从 70%(2023)升到 84%(2025),信任度却从 40% 跌到 29%。这不代表 AI 变差,而是使用者越来越清楚它会在哪里出错——是一条伪装成信任问题的学习曲线。

用了 AI 真的会更快吗?

不一定。METR 让 16 名资深开发者在熟悉仓库里用前沿模型,他们自觉提速 20%,实测却慢了 19%——感知与现实差了 39 个百分点。速度收益高度依赖任务与工作流是否被重新设计。

多智能体(multi-agent)一定比单 Agent 强吗?

不一定。UC Berkeley 分析 1,642 条轨迹,生产失败率 41%–86.7%,其中 79% 的失败来自规范与协调,而非模型能力。原则是「用好一个,再扩多个」;Anthropic 建议研究任务管理幅度 3–5 个、编码任务 1–2 个。

重新设计工作流到底有多大差别?

INSEAD + 哈佛对 515 家初创做 10 周 RCT:在人、工具、培训都相同的情况下,重新审视整条流程的实验组总收入达对照组的 1.9 倍,AI 用例发现多 44%,资本需求还低了 39.5%。唯一变量就是「工作流重设计思维」。

用 AI 会让人「去技能化」吗?怎么避免?

会,但取决于认知参与。Anthropic RCT(n=52)显示 AI 组学习得分比对照组低 17 个百分点;柳叶刀研究中,结肠镜医生用 AI 三个月后移除 AI,检出率从 28.4% 跌到 22.4%。避免之道是采用高认知参与模式:只问概念自己写、要代码也要解释、先生成再追问到懂——尤其要守住判断力这类「构成性」能力。

数据来源TD 2026
腾讯研究院
《AI原生工作报告2026》 · 2026
AI-NATIVE-WORK-2026-TENCENT

本文为基于公开报告的独立梳理、提炼与数据可视化;原始数据与观点版权归原作者所有。

返回报告列表