技术文档

AI 原生工作 2026：信任鸿沟、驾驭工程与知识飞轮

Name: AI 原生工作 2026：信任鸿沟、驾驭工程与知识飞轮
Creator: 腾讯研究院
Published: 2026-06-05T00:00:00.000Z
Keywords: AI原生工作, 驾驭工程, Harness, 信任鸿沟, 多智能体, 知识工程, 去技能化, 上下文工程

腾讯研究院用十个关键词解码人与 AI 的协作困境——它不是能力问题，而是系统设计问题；最终能沉淀为壁垒的，是你在实践中编织的知识网络。

发布于 2026-06-05约 9 分钟阅读数据来源: 腾讯研究院

AI原生工作驾驭工程Harness信任鸿沟多智能体知识工程去技能化上下文工程

腾讯研究院《AI原生工作报告2026》以「信任鸿沟」为棱镜，勾勒从「用了 AI」到「驾驭 AI」的学习曲线：AI 编程工具采用率升至 84%，信任度却跌到 29%；用户自觉提速 20%、实际却慢了 19%。报告指出，人与 AI 的协作困境不是能力问题，而是系统设计问题——出路是「驾驭工程」（设计 AI 的运行环境，而非盯产出），并以记忆、技能、评估、上下文四根支柱重组端到端工作流；而最终能沉淀为壁垒的，是把实践写下来、记下来、连起来的「知识工程飞轮」。

29%

AI 编程工具信任度（采用率却升至 84%）——信任剪刀差 · Stack Overflow

39个百分点

AI 使用者「感知快 20%」与「实际慢 19%」之间的裂缝 · METR

1.9倍

重新设计工作流的初创公司，收入达对照组的 1.9 倍 · INSEAD

79%

多智能体生产失败中，源自规范与协调的比例 · UC Berkeley

全景：一条伪装成信任问题的学习曲线

腾讯研究院以「信任鸿沟」为棱镜，用十个关键词——驾驭工程、记忆、技能、评估、上下文、工作流、多智能体、加法偏见、去技能化、知识工程——绘制了一条从「用了 AI」到「驾驭 AI」的学习曲线。主线只有一句话：人与 AI 的协作困境不是能力问题，而是系统设计问题；最终能沉淀为壁垒的，不是某个模型或工具，而是人在实践中编织的知识网络。

报告骨架：从诊断到沉淀的五层递进

诊断层信任鸿沟

采用 ≠ 信任 → 行为失控 → 感知失真 → 组织断层。

方法层驾驭工程

设计 AI 的运行环境，而非盯产出；四根支柱：记忆 · 技能 · 评估 · 上下文。

系统层工作流 · 多智能体

端到端重设计，而非单任务加速；用好一个，再扩多个。

警示层加法偏见 · 去技能化

AI 把人的加法本能再放大；判断力在静默中萎缩。

沉淀层知识工程飞轮

写下来 → 记下来 → 连起来 → 飞轮转起来。

诊断层：信任鸿沟

信任鸿沟有四个递进的症状：采用率和信任度背道而驰、行为上的「说一套做一套」、对自身速度的错误感知，以及组织上层与一线的认知断层。它们共同说明：问题不在 AI 不够强，而在我们还没学会与一个「概率性同事」共事。

信任剪刀差：用得越多，信得越少

Stack Overflow 年度开发者调查显示：AI 编程工具采用率从 2023 年的 70% 升到 2025 年的 84%，而对其的信任度却从 40% 跌到 29%——一把越张越大的剪刀。

AI 编程工具：采用率↑ 与信任度↓（2023 → 2025）（%）

行为悖论：96% 不信，48% 不查

嘴上不信 vs 手上在查（Sonar 调查）

不完全信任 AI 代码功能正确性

96%

提交前始终检查 AI 代码

48%

觉得审查 AI 代码比审人类代码更费力

38%

几乎所有人都说「我不信 AI 代码」，却有一半人说完就点了提交。背后是一次隐蔽的成本转移：AI 砍掉了「写」的工作量，却顶上了「查」的负担；当查的成本超出预期，很多人就索性不查了。

感知-现实裂缝：更自信，但更差

用 AI 后的速度：自我感知 vs 客观现实（METR 2025）

自我感知

+20%

以为自己更快了

客观现实

-19%

实际反而更慢了

METR 让 16 名资深开源开发者在自己贡献多年的仓库里用前沿模型工作：他们自觉提速 20%，实测却慢了 19%——感知与现实差了 39 个百分点。更早的斯坦福实验（CCS 2023）也发现：用 AI 助手的人写出更多不安全代码，却对 AI 评分更高。一个典型案例：AI 写出语法完美的 300 行基础设施代码，引用的资源和配置却大部分是编造的。

信任动态三阶段：崩塌之后可以更强

信任的形成 → 冲击 → 修复（首尔国立大学，样本 189 + 294 人）

形成

基于能力线索

初次接触，信任通常偏高。

冲击

一个可见错误

信任断崖下降——人对 AI 的容错度远低于对人（「完美自动化图式」）。

修复

解释 + 划界

解释错误原因、指出能力边界后，信任可超过初始基线（「信任加速悖论」）。

组织信任断层：高管热情 vs 一线冷淡

对 AI 的热情：高管以为 vs 一线实际（BCG + 哥伦比亚商学院）

高管认为员工对 AI 热情

76%

一线员工实际有此感受

31%

95%

企业 AI 试点未产生可衡量业务回报（MIT 斯隆）

真正整合进业务流程（88% 在用，仅 7% 整合）

42%

高管承认 AI 正在「撕裂公司」

断层不止于感知：仅 44% 的员工接受过 AI 培训，却有 57% 不愿告诉团队自己在用 AI，31% 甚至主动破坏 AI 推广。MIT 研究者的结论很直接：规模化的核心障碍不是基础设施、不是监管、不是人才，而是学习。

四类组织抵触：不是守旧，是信号

抵触类型	它在说什么	例证
工具抵触	试过了，发现不好用	法律团队拒用合同分析 AI，是出于保护公司
策略抵触	AI 部署位置与价值位置不匹配	半数预算流向销售营销，最高回报却来自后台自动化
信任抵触	领导说「增强你」，同时宣布裁员	不是恐技，是对矛盾信号的理性回应
能力抵触	用了但不确定用得对	44% 受过培训，57% 不愿说自己在用 AI

员工的抵触往往是组织在发出信号（福布斯技术委员会）。

方法层：驾驭工程（Harness Engineering）

如果信任鸿沟是系统设计问题，那么解法就是换一种工作方式：不再优化「怎么跟 AI 说话」，而是设计 AI 在其中干活的运行环境——约束、反馈、验证、状态管理。这就是 2026 年的关键词：驾驭工程。

范式三代跃迁：从说话到造环境

提示词 → 上下文 → 驾驭工程

2023

提示词工程

优化怎么跟 AI 说话，调措辞、加示例。天花板低——只优化一次性输入。

2025

上下文工程

优化 AI 看到什么背景信息（Karpathy 推动）。本质仍是「给 AI 看什么」。

2026

驾驭工程

设计 AI 的运行环境：约束、反馈、验证、状态。质变——AI 在你造的办公室里干活。

Harness 四象限：大多数人只做了前馈

前馈 × 反馈 · 确定性 × 推理性（Boeckeler / ThoughtWorks）

前馈控制方向反馈

前馈 × 确定性

模板、规范、脚手架

前馈 × 推理性

AGENTS.md、设计原则、价值观

反馈 × 确定性

linter、测试、pre-commit hook

反馈 × 推理性

AI 互审、专家评审

← 确定性执行类型推理性 →

人机协作四阶段：从「环内」到「环上」

人在协作中的四种位置（Fowler 团队）

环外

Outside the Loop

给任务、听天由命——「氛围编程」。

环内

In the Loop

审查每一行产出，人成了瓶颈——「AI 没省时间」的常见抱怨。

环上

On the Loop

不修产出，修「产生产出的系统」——从做事者变为环境设计者。

飞轮

Agentic Flywheel

用 Agent 改进 Harness 自身，Harness 开始自我迭代。

约束的三种经济学

规则、工具、架构——三种不同的博弈

规则约束

零和

文本指令消耗上下文：人工写 ≤60 行规则 +4%，AI 自动生成 200+ 行反降 3%（ETH Zurich + 清华）

工具约束

正和

在上下文窗口外运行，不耗注意力，确定性执行——每次违规都是一次「微型培训」

架构约束

乘数

3 名工程师、5 个月、0 行手写代码，产出百万行级生产产品（OpenAI Codex）

四根支柱：记忆 · 技能 · 评估 · 上下文

记忆 ①｜精确遗忘：砍掉 45% 存储，保住 82% 关键事实

记忆系统的核心挑战不是「怎么记住更多」，而是「怎么忘得更精确」。FadeMem 模仿艾宾浩斯遗忘曲线（长期层半衰期约 11 天、短期层约 5 天），在大幅削减存储的同时保住了最高的关键事实保留率。

各记忆方法的关键事实保留率（LTI-Bench）（%）

82.1%

FadeMem 关键事实保留率（仅用 55% 存储）

45%

存储量削减幅度

29.43分

有记忆管理的多跳推理 F1（无管理仅 5.17，差近 5 倍）

记忆 ②｜三条工程路线，尚无一条通吃

路线	机制	认知科学映射
A · 选择性事实提取（Mem0）	从对话中自动提取离散事实，去重更新——「我知道什么」	语义记忆
B · 文档化自主管理（Anthropic）	Agent 自维护文档集合，自决写什么、怎么组织——「发生了什么」	情景记忆（多个小而聚焦文件 > 少量大文件）
C · 结构化知识图谱（Neo4j / Zep）	实体 + 关系 + 时间图谱，含推理记忆——「什么跟什么有关」	关系记忆

三条路线信任的对象不同，对应认知科学的不同记忆类型；腾讯研究院的做法是同一底层数据、调用时采取不同机制。

技能：从膨胀到精简——超 60% 是噪声

SkillReducer 分析了 55,315 个公开 Skill，发现其中超过 60% 的内容是噪声。按内容拆解：真正可操作的规则只占三分之一强，背景解释反而最多。

公开 Skill 的内容构成（SkillReducer）（%）

可操作规则38.5%
背景解释40.7%
示例12.9%
模板与冗余7.9%

工具选择准确率随工具数断崖（Berkeley BFCL）

4 个工具

43%

51 个工具

断崖式崩溃

评估：分离生成者与评判者

同一模型：同上下文自评 vs 新上下文独立审查

同上下文自评

100%

满分通过（107 个训练样本）

新上下文独立审查

5.5/10

暴露 5 个严重缺陷

解法是受 GAN 对抗反馈启发的 PGE 三角色架构：规划者（Planner）+ 生成者（Generator）+ 评估者（Evaluator）。Anthropic 工程实战中每轮迭代 5–15 次、有时长达 4 小时，评估者还配了浏览器自动化测试。但 AI 裁判并不可靠：受控实验里它与人类一致率 >80%，到生产环境错误率却 >50%（四种系统性偏见）；兰德公司 2026 的结论是——没有任何一个 AI 裁判能跨基准保持一致可靠。

三层信任梯度（瑞士奶酪模型）

确定性检查 + AI 审查 + 人类判断，单独哪层都不够（Anthropic）

人类判断 · 屋顶

覆盖面最广，最慢最贵——改系统而非改产出。

AI 审查 · 楼层

能看到语义问题，但有位置偏见、冗长偏见、自偏好、家族偏见。

确定性检查 · 地基

最可信，覆盖面最窄——硬性条件兜底。

上下文：从第一个 Token 就在退化

Chroma 评测 18 个前沿模型、固定任务难度只变输入长度，发现性能从输出的第一个 token 就在退化，无一例外；甚至打乱句子顺序后所有模型表现反而更好（结构化的填充内容反让模型分心）。SWE-rebench 维护者观察到性能天花板大约在 100 万 token 处。这是 Transformer 的 n² 成本特性使然：10 个 token 有 100 对关系，10,000 个 token 就有 1 亿对。

MCP 懒加载前后的 token 消耗（Claude Code 2.1.7）

懒加载前

~77,000

tokens

懒加载后

~8,700

减少 85%，准确率也涨了

系统层：工作流与多智能体

工作流重设计：INSEAD 实验的 1.9 倍差距

INSEAD + 哈佛商学院对 515 家全球初创公司做了 10 周 RCT：同样的人、同样的工具、同样的培训，唯一区别是是否重新审视整条流程。结果如下。

实验组 vs 对照组（INSEAD + 哈佛 RCT，515 家初创）

总收入

1.9×

达对照组的 1.9 倍

AI 用例发现

+44%

获付费客户概率

+18pt

资本需求

39.5%

降低——同样的人，更少的钱

AI 能独立完成的任务时长在指数增长

任务时长 vs 成功率（METR，当前最强模型）

4 分钟内任务

~100%

成功率接近 100%

超 4 小时任务

<10%

成功率跌至 10% 以下

过去六年，AI 能独立完成的任务时长约每 7 个月翻一倍。耐人寻味的是，三个互不知情的独立项目——Manus（task_plan.md）、OpenClaw（MEMORY.md）、Claude Code（CLAUDE.md + Skills）——为了管理长任务，都不约而同地收敛到了「文件系统」方案。

多智能体四大陷阱

1,642条

分析的多 Agent 轨迹（UC Berkeley）

79%

失败源自规范与协调（生产失败率 41%–86.7%）

3–5个

Anthropic 建议的管理幅度（研究任务；编码任务 1–2 个）

陷阱	表现
① 过度委托	单 Agent 配好工具就能处理绝大多数场景，盲目拆分反添乱
② 规格不足	给 Worker 的描述要像给第一天入职的初级工程师写工单，否则子 Agent 重复调查同一方向
③ 协调开销	分发 + 执行 + 合成可能 5–10 次 API 调用，单 Agent 只需 1–2 次
④ 电话游戏效应	信息在每次传递中衰减——建议子 Agent 直接写文件系统

1,642 条轨迹显示，79% 的失败来自规范和协调，而非模型能力。

多智能体真正的价值不是「更聪明」，而是更多并行计算容量：OpenAI 在 BrowseComp 上发现，token 用量能解释 80% 的性能方差。所以原则是——用好一个，再扩多个。

警示层：加法偏见与去技能化

加法偏见：人 60% vs AI 88–100%

面对问题，优先用「加法」而非「减法」的比例（Uhler 2026）

人类

~60%

GPT-4o

88–100%

把人的偏见进一步放大

英语语料词频：add vs subtract（伯明翰大学 2023）

add / more 相关词

361,246

subtract / less 相关词

1,802

Nature 2021 的 8 个实验早已发现：无提示时只有 41% 的人想到减法，加上「removing is free」这 8 个词的提示后升到 61%。AI 从语言中训练，而语言本身就偏向「加」——于是形成双重偏见叠加：人的本能 + AI 的放大。更糟的是，给 GPT-4 一道「减法更高效」的题，它用加法的比例反而更高——效率信号产生了反向作用。

去技能化：AI 组学习得分低 17%

学一个新 Python 库后的测验得分（Anthropic RCT 2026.01，n=52）

AI 组

50%

对照组

67%

高出 17 个百分点

差别不在于「用不用 AI」，而在于认知参与的多少。得分最低的三种模式是：AI 委托（全交给 AI）、渐进依赖（逐步交出一切）、迭代调试（粘贴报错却不问为什么）。得分最高的三种是：概念查询（只问概念、自己写）、混合代码-解释（要代码也要解释）、生成后理解（先让 AI 生成，再追问到懂）。

结肠镜检出率：用 AI 三个月后再移除 AI（Lancet 2025）

AI 辅助期

28.4%

移除 AI 后

22.4%

技能并未真正长在自己身上

沉淀层：知识工程飞轮

方法会过时，工具会迭代——最终能留下、能复利的，是你编织的知识网络。知识工程是一条螺旋：把教过 AI 的做事方式写下来（Skill，解决「重复教」）、把决策与失败教训记下来（Memory，解决「反复忘」）、再让积累连起来（产生关系与因果链，连接才是真正的价值）。

写下来 → 记下来 → 连起来 → 飞轮

写

Skill

把教过 AI 的做事方式变成可复用模板。

记

Memory

决策、偏好、失败教训留痕。

连

Knowledge Eng.

让积累产生关系和因果链。

转

飞轮

上下文→知识库；指令→Skill；工作流→操作手册；失败→防护栏。

结构化知识图谱提升准确率（OpenKG，同一模型 DeepSeek）

无图谱

80.7%

有图谱

86.1%

更好的结构化知识 = 更高准确率

8倍

AI 生成代码重复率增长（GitClear）——资产会腐烂

86%

增量更新比整体重建减少的漂移（Stanford ACE）

10–15个

个人 Skill 的合理数量（不是 89 个）

大数据时代已经结束，大知识时代正在开始。
— KPMG 2026 白皮书

结语：壁垒不在模型，在你编织的网络

把十个关键词连成一句话：信任鸿沟逼我们承认这是系统设计问题；驾驭工程让我们从「盯产出」转向「设计环境」；记忆、技能、评估、上下文是四根支柱；工作流与多智能体把它们串成系统；加法偏见与去技能化提醒我们不要在静默中失去判断；而知识工程，是把这一切沉淀成壁垒的飞轮。

最终能沉淀为壁垒的，从来不是某个模型或某个工具——它们都会过时。真正属于你的，是你在一次次实践中写下来、记下来、连起来的那张知识网络。每一块数据，都已是一张图的种子。

证据池：关键数据一览

指标	数值	时点 / 区间	出处
AI 编程工具采用率	70% → 84%	2023 → 2025	Stack Overflow
AI 编程工具信任度	40% → 29%	2023 → 2025	Stack Overflow
不完全信任 AI 代码正确性	96%	2025	Sonar
提交前始终检查 AI 代码	48%	2025	Sonar
METR 实际速度变化 / 自我感知	-19% / +20%	2025	METR
感知-现实差距	39 个百分点	2025	METR
企业 AI 试点无可衡量回报	95%	2026	MIT 斯隆
在用 AI / 真正整合进流程	88% / 7%	2026	MIT 斯隆
高管以为热情 / 一线实际	76% / 31%	2026	BCG + 哥伦比亚
高管承认 AI 撕裂公司	42%	2026	BCG + 哥伦比亚
人工 ≤60 行规则 / AI 200+ 行规则	+4% / -3%	2026	ETH Zurich + 清华
腾讯研究院规则精简	200 → 50 行	2026	腾讯研究院
Codex 团队：工程师 / 周期 / 手写代码	3 人 / 5 月 / 0 行	2026	OpenAI Codex
FadeMem 关键事实保留 / 存储削减	82.1% / 45%	2026	FadeMem
有 / 无记忆管理 F1	29.43 / 5.17	2026	FadeMem
分析的公开 Skill 数	55,315 个	2026	SkillReducer
压缩版 / 原版功能得分	0.742 / 0.722	2026	SkillReducer
工具选择准确率（4 / 51 个工具）	43% / 2%	2026	Berkeley BFCL
LLM-as-Judge 一致率 / 生产错误率	>80% / >50%	2026	多项研究
MCP 懒加载前 / 后 token	~77,000 / ~8,700	2026	Claude Code
INSEAD 实验组总收入倍数	1.9 倍	2026	INSEAD + 哈佛
INSEAD 实验组资本需求降低	39.5%	2026	INSEAD + 哈佛
用 AI 团队 / 自认工作流高效	84% / 21%	2025	Telerik
AI 任务时长翻倍周期	~7 个月	近 6 年	METR
多 Agent 轨迹 / 生产失败率	1,642 条 / 41%–86.7%	2026	UC Berkeley
多 Agent 失败来自规范与协调	79%	2026	UC Berkeley
人类 / GPT-4o 加法策略使用率	~60% / 88%–100%	2026	Uhler / Nature
add / subtract 词频	361,246 / 1,802	语料统计	伯明翰大学
Anthropic 学习 RCT：AI 组 / 对照组	50% / 67%	2026.01	Anthropic
柳叶刀肠镜：AI 辅助期 / 移除后检出率	28.4% / 22.4%	2025	Lancet
结构化知识图谱提升 DeepSeek 准确率	80.7% → 86.1%	2026	OpenKG
增量更新比整体重建减少漂移	86%	2026	Stanford ACE

数据均引自报告所列出处，发布前已人工核对原文口径；如「采用率 vs 信任度」「感知 vs 现实」等对比，请结合上文语境理解。

常见问题

什么是「驾驭工程」（Harness Engineering）？

它是 2026 年的关键范式：不再优化「怎么跟 AI 说话」（提示词工程）或「给 AI 看什么」（上下文工程），而是设计 AI 在其中干活的运行环境——约束、反馈、验证、状态管理。公式是 Agent = 模型 + Harness。LangChain 实证：同一前沿模型只改周围基础设施，TerminalBench 名次就跃升 20 多位。

为什么 AI 编程工具「用得越多，信得越少」？

Stack Overflow 调查显示采用率从 70%（2023）升到 84%（2025），信任度却从 40% 跌到 29%。这不代表 AI 变差，而是使用者越来越清楚它会在哪里出错——是一条伪装成信任问题的学习曲线。

用了 AI 真的会更快吗？

不一定。METR 让 16 名资深开发者在熟悉仓库里用前沿模型，他们自觉提速 20%，实测却慢了 19%——感知与现实差了 39 个百分点。速度收益高度依赖任务与工作流是否被重新设计。

多智能体（multi-agent）一定比单 Agent 强吗？

不一定。UC Berkeley 分析 1,642 条轨迹，生产失败率 41%–86.7%，其中 79% 的失败来自规范与协调，而非模型能力。原则是「用好一个，再扩多个」；Anthropic 建议研究任务管理幅度 3–5 个、编码任务 1–2 个。

重新设计工作流到底有多大差别？

INSEAD + 哈佛对 515 家初创做 10 周 RCT：在人、工具、培训都相同的情况下，重新审视整条流程的实验组总收入达对照组的 1.9 倍，AI 用例发现多 44%，资本需求还低了 39.5%。唯一变量就是「工作流重设计思维」。

用 AI 会让人「去技能化」吗？怎么避免？

会，但取决于认知参与。Anthropic RCT（n=52）显示 AI 组学习得分比对照组低 17 个百分点；柳叶刀研究中，结肠镜医生用 AI 三个月后移除 AI，检出率从 28.4% 跌到 22.4%。避免之道是采用高认知参与模式：只问概念自己写、要代码也要解释、先生成再追问到懂——尤其要守住判断力这类「构成性」能力。