随着大语言模型(LLM)技术的突破,人工智能正从"语言专家”演变为具备行动能力的 智能体。大语言模型驱动的图形用户界面(GUI)智能体革新了传统 GUI 的自动化方式,不 再依赖脚本或规则,而是通过自然语言理解、屏幕解析和自主决策,高效、灵活地执行任务。 本书系统介绍这一新兴领域的发展背景、核心技术与应用场景,涵盖 GUI 智能体的架构设计、 数据采集,以及大行动模型(LAM)构建、关键评估指标和应用,帮助读者掌握 GUI 智能体 的完整方法论,并深入探讨 GUI 智能体当前面临的挑战与未来发展趋势。 全书配有丰富的图示与实践案例,涵盖多种真实场景下的智能 GUI 自动化方案,帮助读 者轻松上手。针对研究人员与开发者,本书提供了示例代码与实践指南,从系统搭建到核心算 法调参,都配有注释。对于希望提高企业自动化能力的工程师,也可借鉴书中切实可行的落地 经验。针对复杂的跨平台操作或大规模界面测试,本书给出了行之有效的思路与实现路径,使 GUI 智能体自动化不再是遥不可及的概念。
张朝运微软首席研究员,专注于大语言模型驱动的GUI智能体与人机交互前沿技术。作为Windows系统首个GUI智能体——UFO的核心开发者,带领团队实现了多模态交互与高效自动化,相关项目在GitHub获得超过7000星,受到国内外主流科技媒体广泛报道。博士毕业于英国爱丁堡大学信息学院,获深度学习与智能移动网络方向博士学位,其间荣获爱丁堡全球研究奖学金等多项荣誉。在国际顶级会议与期刊发表高水平论文40余篇,谷歌学术引用超5000次。作为主要发明人,拥有多项中、美发明专利。长期致力于大语言模型智能体、智能运维等领域的创新研究,推动GUI智能体技术在桌面操作系统、行业生产力工具等场景的应用落地。秦思微软首席研究经理,IEEE高级会员。博士毕业于美国维拉诺瓦大学,在国际会议与期刊上发表论文50余篇,并拥有10多项授权专利。曾多次获得国际学术奖,包括IEEE国际微波与毫米波技术会议“最佳学生论文奖”、IEEE信号处理学会“青年作者最佳论文奖”,以及欧洲信号处理协会“最佳论文奖”等。现专注于智能运维和大语言模型技术研究,相关技术已成功应用于多个微软产品,曾获“微软亚洲研究院年度最佳技术转化奖”及“微软亚太研发团队奖”,微软机器学习、人工智能与数据科学大会“杰出贡献奖”。李立群微软首席研究员,专注于研发基于大语言模型的智能体应用,同时是TaskWeaver智能体开源框架的主要贡献者之一。于2012年获得中国科学院软件研究所博士学位,2006年获得清华大学计算机科学与技术学士学位,曾于2009年访问密歇根州立大学。研究兴趣包括物联网、移动、大数据、机器学习和云计算等领域,在Mobisys、Mobicom、NSDI、ATC、ICSE、ESEC/FSE、ICDCS、RTSS、TPDS和TOSN等顶级会议和期刊上发表40余篇论文。2022年在ESEC/FSE会议上获得SIGSOFT Distinguished Paper奖项。何世林现就职于字节跳动,曾任微软亚洲研究院高级研究员,博士毕业于香港中文大学计算机科学与工程系。主要研究方向包括大模型、智能体及软件智能化等。已发表40余篇国际顶级会议和期刊文章,学术引用4000余次,曾获得FSE杰出论文奖和ISSRE 最有影响力论文奖。任FSE、ISSTA等国际顶级会议的程序委员会委员。TaskWeaver、UFO、LogPAI等开源项目的核心开发人员。GitHub总星数过万。
前言 III
第 1 部分:基础理论与背景
第 1 章 大语言模型驱动下
的人机交互革命 2
1.1 人机交互演进简史 3
1.1.1 从 CLI 到 GUI:易用性与效率的折中 3
1.1.2 GUI 的优势与局限 4
1.2 大语言模型的发展与影响 5
1.2.1 大语言模型的关键特征 5
1.2.2 大语言模型驱动智能体的诞生 7
1.3 大语言模型驱动的 GUI 智能体的兴起 8
1.3.1 GUI 智能体的定义和意义 8
1.3.2 关键技术和形成动因 9
1.3.3 研究现状和初步应用概览 11
1.4 与 API-Only 智能体的比较与互补 12
1.4.1 API-Only 智能体:成熟度与早期优势 12
1.4.2 GUI 智能体:多模态下的交互变革 13
1.4.3 关键差异与适用场景 13
1.4.4 融合趋势:混合式智能体的未来 14
1.5 本章小结 15
第 2 章 GUI 自动化的发展之路 16
2.1 早期 GUI 自动化 17
2.1.1 传统 GUI 自动化方法概览 17
2.1.2 典型工具与软件 19
2.2 GUI 自动化的智能之路 .20
2.2.1 机器学习在 GUI 自动化中的作用 20
2.2.2 计算机视觉在 GUI 自动化中的作用 21
2.2.3 自然语言处理在 GUI 自动化中的作用 22
2.2.4 强化学习在 GUI 自动化中的独特优势 22
2.3 本章小结 23
第 3 章 大语言模型与通用智能体 24
3.1 大语言模型基础 25
3.1.1 预训练 25
3.1.2 微调 25
3.1.3 后训练 26
3.1.4 视觉与文本的融合 26
3.2 通用智能体 27
3.2.1 推理分析 28
3.2.2 记忆存储 30
3.2.3 工具调用 32
3.3 本章小结 34
第 2 部分:核心技术与方法
第 4 章 GUI 智能体的体系结构与核心设计 36
4.1 基础架构与工作流程 37
4.1.1 总体架构概览 37
4.1.2 工作流程总览 38
4.2 环境感知与平台适配 39
4.2.1 平台特性与适配挑战 39
4.2.2 环境状态捕获 41
4.3 提示工程 44
4.4 推理策略 47
4.4.1 规划 47
4.4.2 动作推断 48
4.4.3 补充输出 48
4.5 动作执行 49
4.5.1 GUI 操作 49
4.5.2 原生 API 调用 50
4.5.3 AI 工具辅助 50
4.6 记忆管理 51
4.6.1 短期记忆:支撑运行时上下文连贯 52
4.6.2 长期记忆:沉淀经验与跨任务泛化 52
4.7 本章小结 54
第 5 章 GUI 智能体的高级增强与自我演进 56
5.1 基于计算机视觉的 GUI 控件识别 57
5.1.1 OCR、目标检测与控件识别 .57
5.1.2 多模态在复杂 GUI 解析中的实践:以 OmniParser 为例 58
5.2 多智能体协作 60
5.2.1 专业化分工 60
5.2.2 智能体间协作 61
5.3 强化学习 62
5.3.1 GUI 智能体在交互式环境下的建模 62
5.3.2 基于强化学习的 GUI 智能体训练 63
5.4 自我反思与自我进化 64
5.4.1 自我反思 64
5.4.2 自我进化 65
5.5 本章小结 67
第 3 部分:实践案例与应用
第 6 章 大语言模型驱动的GUI 智能体框架与平台实践 69
6.1 网页端 GUI 智能体 70
6.1.1 常见流程与关键技术 70
6.1.2 典型的网页端 GUI 智能体示例 71
6.2 移动端 GUI 智能体 74
6.2.1 常见流程与关键技术 74
6.2.2 典型的移动端 GUI 智能体示例 75
6.3 桌面端 GUI 智能体 76
6.3.1 常见流程与关键技术 76
6.3.2 典型桌面端 GUI 智能体示例 77
6.4 跨平台 GUI 智能体 80
6.4.1 “一次开发,多端适配”的挑战 80
6.4.2 框架迁移与版本管理 80
6.4.3 典型跨平台 GUI 智能体示例 81
6.5 工业界案例 82
6.5.1 Anthropic Computer Use 82
6.5.2 OpenAI Computer-UsingAgent 和 Operator 83
6.6 本章小结 85
第 7 章 GUI 智能体数据集的采集与构建 87
7.1 数据的类型与来源 88
7.2 数据采集管线 89
7.3 现有数据集案例 89
7.3.1 网页端数据集 90
7.3.2 移动端数据集 91
7.3.3 桌面端数据集 91
7.3.4 跨平台数据集 92
7.4 本章小结 93
第 8 章 GUI 智能体的大行动模型训练 95
8.1 从理解到执行:大行动模型的崛起 96
8.2 不同平台的大行动模型应用 97
8.2.1 网页端 GUI 场景:从指令到控件操作 98
8.2.2 移动端与桌面端大行动模型的对比与关键技术差异 99
8.2.3 跨平台大行动模型的融合与挑战 101
8.3 模型训练与微调 103
8.3.1 数据收集与准备 103
8.3.2 大行动模型训练主流框架详解 104
8.4 大行动模型案例分析 108
8.4.1 设计思路与架构概览 108
8.4.2 模型训练方法 109
8.4.3 集成部署与在线效果评估 113
8.5 本章小结 116
第 9 章 GUI 智能体评测方法与展望 117
9.1 评测体系概览 .118
9.2 测试用例设计 .119
9.2.1 测试用例设计中的挑战 119
9.2.2 设计原则 120
9.2.3 用例类型 121
9.3 评估指标 122
9.3.1 成功率维度 122
9.3.2 效率维度 122
9.3.3 合规性与安全性维度 123
9.3.4 稳健性维度 123
9.3.5 用户满意度维度 124
9.4 度量标准 124
9.4.1 文本匹配 124
9.4.2 图像匹配 125
9.4.3 元素匹配 125
9.4.4 动作匹配 126
9.4.5 状态校验 126
9.5 常见评测平台与基准集 126
9.5.1 主流评测平台介绍 126
9.5.2 GUI 智能体评测基准示例 128
9.6 未来发展展望 .131
9.7 本章小结 132
第 10 章 详解 WindowsGUI 智能体UFO 133
10.1 项目背景与时代意义 134
10.1.1 Windows 平台的自动化挑战 134
10.1.2 UFO 项目的提出与定位 134
10.2 UFO 系统总体架构 134
10.2.1 架构设计理念 134
10.2.2 核心架构流程总览 134
10.2.3 虚拟化与安全隔离设计 135
10.2.4 多智能体协同模式 135
10.3 HostAgent:系统级编排与执行控制 136
10.3.1 模块定位与功能概述 136
10.3.2 体系结构与主要流程 136
10.3.3 工程实现细节 137
10.3.4 有限状态机与可靠性保障 138
10.3.5 内存管理与状态同步机制 139
10.4 AppAgent:应用专属智能体 139
10.4.1 模块定位与功能概述 139
10.4.2 架构原理与工作机制 139
10.4.3 本地有限状态机 141
10.4.4 内存管理与状态协同 142
10.5 关键技术模块详解 142
10.5.1 混合控件检测机制 142
10.5.2 统一 GUI-API 动作编排引擎 143
10.5.3 知识基座与持续增强机制 145
10.5.4 推测性多步动作执行优化 146
10.6 典型使用流程与案例分析 147
10.6.1 典型流程与案例解析 147
10.6.2 实践建议与常见问题 149
10.7 本章小结 150
第 11 章 GUI 智能体的商业化落地与应用 151
11.1 GUI 智能体应用现状概览 152
11.2 GUI 智能体产品分析 152
11.2.1 基于网页浏览器的GUI 智能体 152
11.2.2 跨平台 GUI 智能体 154
11.2.3 中国本土化 GUI 智能体产品 156
11.3 按应用场景分类的实际落地案例 157
11.3.1 企业办公自动化 157
11.3.2 电子商务与客户服务 158
11.3.3 软件开发与测试 159
11.4 实施经验与挑战分析 160
11.4.1 成功实施的关键因素 160
11.4.2 常见挑战与解决方案 161
11.5 新兴技术与未来趋势 161
11.5.1 多智能体协作技术 161
11.5.2 无代码 GUI 自动化平台 162
11.5.3 行业特定解决方案 162
11.6 实施教训与最佳实践 162
11.6.1 从失败案例中汲取的经验 162
11.6.2 最佳实践建议 163
11.7 结论与建议 .163
11.7.1 总体评估 163
11.7.2 企业应用建议 163
11.8 本章小结 164
第 4 部分:未来展望与挑战
第 12 章 面向未来的挑战与研究方向 166
12.1 隐私保护:桌面端智能体的核心壁垒 167
12.1.1 背景与挑战 167
12.1.2 研究与工程应对策略 167
12.2 延迟、性能与交互流畅性 167
12.2.1 背景与挑战 167
12.2.2 研究与工程应对策略 168
12.3 安全性与可靠性:守住自动化底线 168
12.3.1 背景与挑战 168
12.3.2 研究与工程应对策略 168
12.4 人机协作与交互智能 169
12.4.1 背景与挑战 169
12.4.2 研究与工程应对策略 169
12.5 个性化与用户定制 170
12.5.1 背景与挑战 170
12.5.2 研究与工程应对策略 170
12.6 伦理与合规治理 171
12.6.1 背景与挑战 171
12.6.2 研究与工程应对策略 171
12.7 大规模泛化与可持续进化 171
12.7.1 背景与挑战 171
12.7.2 研究与工程应对策略 171
12.8 本章小结 172
第 13 章 本书总结 173
13.1 内容回顾与关键技术总结 174
13.2 实际应用与案例启示 174
13.3 面临的挑战与应对策略 174
13.4 未来研究方向与发展趋势 174
13.5 结语 175
参考文献 176