大语言模型GUI智能体：人机交互新时代_张朝运等_9787121514074

随着大语言模型（LLM）技术的突破，人工智能正从"语言专家”演变为具备行动能力的智能体。大语言模型驱动的图形用户界面（GUI）智能体革新了传统 GUI 的自动化方式，不再依赖脚本或规则，而是通过自然语言理解、屏幕解析和自主决策，高效、灵活地执行任务。本书系统介绍这一新兴领域的发展背景、核心技术与应用场景，涵盖 GUI 智能体的架构设计、数据采集，以及大行动模型（LAM）构建、关键评估指标和应用，帮助读者掌握 GUI 智能体的完整方法论，并深入探讨 GUI 智能体当前面临的挑战与未来发展趋势。全书配有丰富的图示与实践案例，涵盖多种真实场景下的智能 GUI 自动化方案，帮助读者轻松上手。针对研究人员与开发者，本书提供了示例代码与实践指南，从系统搭建到核心算法调参，都配有注释。对于希望提高企业自动化能力的工程师，也可借鉴书中切实可行的落地经验。针对复杂的跨平台操作或大规模界面测试，本书给出了行之有效的思路与实现路径，使 GUI 智能体自动化不再是遥不可及的概念。

张朝运微软首席研究员，专注于大语言模型驱动的GUI智能体与人机交互前沿技术。作为Windows系统首个GUI智能体——UFO的核心开发者，带领团队实现了多模态交互与高效自动化，相关项目在GitHub获得超过7000星，受到国内外主流科技媒体广泛报道。博士毕业于英国爱丁堡大学信息学院，获深度学习与智能移动网络方向博士学位，其间荣获爱丁堡全球研究奖学金等多项荣誉。在国际顶级会议与期刊发表高水平论文40余篇，谷歌学术引用超5000次。作为主要发明人，拥有多项中、美发明专利。长期致力于大语言模型智能体、智能运维等领域的创新研究，推动GUI智能体技术在桌面操作系统、行业生产力工具等场景的应用落地。秦思微软首席研究经理，IEEE高级会员。博士毕业于美国维拉诺瓦大学，在国际会议与期刊上发表论文50余篇，并拥有10多项授权专利。曾多次获得国际学术奖，包括IEEE国际微波与毫米波技术会议“最佳学生论文奖”、IEEE信号处理学会“青年作者最佳论文奖”，以及欧洲信号处理协会“最佳论文奖”等。现专注于智能运维和大语言模型技术研究，相关技术已成功应用于多个微软产品，曾获“微软亚洲研究院年度最佳技术转化奖”及“微软亚太研发团队奖”，微软机器学习、人工智能与数据科学大会“杰出贡献奖”。李立群微软首席研究员，专注于研发基于大语言模型的智能体应用，同时是TaskWeaver智能体开源框架的主要贡献者之一。于2012年获得中国科学院软件研究所博士学位，2006年获得清华大学计算机科学与技术学士学位，曾于2009年访问密歇根州立大学。研究兴趣包括物联网、移动、大数据、机器学习和云计算等领域，在Mobisys、Mobicom、NSDI、ATC、ICSE、ESEC/FSE、ICDCS、RTSS、TPDS和TOSN等顶级会议和期刊上发表40余篇论文。2022年在ESEC/FSE会议上获得SIGSOFT Distinguished Paper奖项。何世林现就职于字节跳动，曾任微软亚洲研究院高级研究员，博士毕业于香港中文大学计算机科学与工程系。主要研究方向包括大模型、智能体及软件智能化等。已发表40余篇国际顶级会议和期刊文章，学术引用4000余次，曾获得FSE杰出论文奖和ISSRE 最有影响力论文奖。任FSE、ISSTA等国际顶级会议的程序委员会委员。TaskWeaver、UFO、LogPAI等开源项目的核心开发人员。GitHub总星数过万。

你还可能感兴趣

我要评论