本书旨在介绍近年来作者在强化学习和随机优化交叉领域的研究成果,主要内容包括随机优化的定量稳定性分析,求解多阶段随机优化的新型情景树生成、约减方法,机会约束规划问题的模型转换、凸逼近与求解,非平稳强化学习的样本复杂度与泛化能力分析,随机优化和强化学习的统一模型及其基本性质,风险厌恶马氏决策过程与强化学习,分布鲁棒机会约束马氏决策过程及其转换与求解算法设计,连续状态集合、连续动作集合下无限智能体的连续时间平均场强化学习问题的性质与Actor-Critic型求解算法,以及强化学习在多期投资组合选择中的应用。本书的目的是帮助读者掌握如何应用强化学习或随机优化来处理不确定环境下的复杂动态决策问题、如何开展强化学习和随机优化的交叉研究,以便他们能够尽快进入相应研究领域的前沿。
更多科学出版社服务,请扫码获取。
1982年9月—1986年7月,西安交大数学系,本科生,获理学学士学位
1986年9月—1989年6月,西安交大数学系,硕士研究生,获理学硕士学位
1989年9月—1992年6月,西安交大数学系,博士研究生,获理学博士学位1992.07 — 1994.10 西安交大数学系任讲师
1994.11 — 1995.06 荷兰 Eindhoven 工业大学作访问研究员
1995.07 — 1996.04 西安交大理学院科学计算与应用软件系任讲师
1996.05 — 1997.12 英国 Cambridge 大学作博士后研究员
1998.03 — 1998.06 香港中文大学作博士后研究员
1998.07 至今 西安交大理学院科学计算与应用软件系任副教授、教授数学、运筹学、人工智能长期从事随机规划理论及其应用、分布式鲁棒优化、强化学习、金融风险度量与投资分析等领域的研究,取得了一系列较好的成果。《OR Spectrum》编委,《Big Data and Information Analytics》编委、《工程数学学报》编委、编辑部主任;现任中国运筹学会常务理事,中国运筹学会金融工程与金融风险管理分会副理事长,中国管理科学与工程学会金融计量与风险管理研究会常务理事。现任西安交通大学西安数学与数学技术研究院常务副院长、国家天元数学西北中心副主任。
目录:
《大数据与数据科学专著系列》序
前言
主要符号表
第1章 随机优化与强化学习简介 1
1.1 随机优化 1
1.1.1 两阶段有补偿优化问题 1
1.1.2 两阶段混合整数随机优化 5
1.1.3 多阶段随机优化 7
1.1.4 机会约束规划 10
1.1.5 分布鲁棒随机优化 13
1.2 马氏决策过程 16
1.2.1 马氏决策过程的基本概念 17
1.2.2 决策规则与策略分类 18
1.2.3 性能准则与最优策略 19
1.2.4 最优性方程与算法 22
1.3 强化学习 28
1.3.1 强化学习的基本要素 28
1.3.2 TD类方法 32
1.3.3 策略梯度方法 36
1.3.4 Dyna-Q方法 38
1.4 小结 40
第2章 随机优化的定量稳定性 41
2.1 预备知识 41
2.2 全随机两阶段随机优化问题的定量稳定性 46
2.2.1 模型基本性质 46
2.2.2 定量稳定性结果 50
2.3 风险厌恶全随机两阶段随机优化问题的定量稳定性 53
2.3.1 模型基本性质 54
2.3.2 定量稳定性结果 57
2.4 两阶段混合整数随机优化问题的定量稳定性 61
2.4.1 固定补偿情形 62
2.4.2 随机补偿情形 67
2.5 连续二次全随机补偿的两阶段随机优化问题的定量稳定性 69
2.5.1 模型基本性质 70
2.5.2 定量稳定性结果 72
2.6 混合整数二次补偿的两阶段随机优化问题的定量稳定性 79
2.6.1 模型基本性质 80
2.6.2 定量稳定性结果 82
2.7 多阶段随机优化问题的定量稳定性 86
2.7.1 多阶段随机线性优化模型的基本性质 86
2.7.2 多阶段随机线性优化问题的定量稳定性 88
2.7.3 风险厌恶多阶段随机优化问题的基本性质 91
2.7.4 风险厌恶多阶段随机优化问题的定量稳定性 93
2.8 小结 96
第3章 求解多阶段随机优化的情景树方法 97
3.1 随机优化求解算法概述 97
3.1.1 分解类方法 97
3.1.2 抽样型方法 99
3.1.3 情景树方法 101
3.2 情景树方法发展概述 102
3.2.1 情景树的基本概念 102
3.2.2 情景树方法研究现状 103
3.3 情景树生成方法 107
3.3.1 基于VAR-MGARCH模型和矩匹配的情景树生成方法 107
3.3.2 基于动态混合Copula函数的情景树生成方法 113
3.4 情景树约减方法 118
3.4.1 基于合并节点的情景树约减方法 118
3.4.2 基于随机优化定量稳定性的情景树约减方法 130
3.5 数值实验 137
3.5.1 情景树生成方法的数值分析 138
3.5.2 情景树约减方法的数值分析 141
3.6 小结 144
第4章 机会约束规划 145
4.1 机会约束几何规划问题 145
4.2 正态分布下的机会约束 149
4.2.1 凸几何逼近 150
4.2.2 序列凸逼近 152
4.3 基于矩信息的分布鲁棒机会约束 154
4.3.1 基于前两阶矩的IRGP 154
4.3.2 基于前两阶矩的JRGP 160
4.4 基于K-L散度的分布鲁棒机会约束 165
4.4.1 基于K-L散度的IRGP 165
4.4.2 基于K-L散度的JRGP 168
4.5 基于Wasserstein距离的分布鲁棒机会约束 171
4.5.1 基于Wasserstein距离的IRGP 171
4.5.2 基于Wasserstein距离的JRGP 179
4.6 数值实验 183
4.6.1 分片线性逼近 185
4.6.2 独立和联合机会约束的比较 186
4.6.3 正负相关的影响 187
4.6.4 机会约束的满足情况 187
4.6.5 数据驱动问题 190
4.7 小结 191
第5章 非平稳强化学习的样本复杂度与泛化能力 192
5.1 样本复杂度与泛化能力 192
5.2 强化学习的蒙特卡罗抽样方法 194
5.2.1 有限期强化学习 194
5.2.2 无限期强化学习 202
5.3 主动强化学习的样本平均近似方法 204
5.3.1 有限期强化学习 205
5.3.2 无限期强化学习 210
5.4 小结 211
第6章 随机优化和强化学习的统一模型 212
6.1 引言 212
6.2 统一模型导出 214
6.2.1 内生随机性及外生随机性 215
6.2.2 统一模型 217
6.2.3 统一模型与现有模型的关系 218
6.3 统一模型的基本性质 220
6.4 定量稳定性分析 235
6.4.1 关于内生随机性的定量稳定性 236
6.4.2 关于外生随机性的定量稳定性 244
6.5 小结 267
第7章 风险厌恶马氏决策过程与强化学习 268
7.1 预备知识 268
7.1.1 几类新近提出的MDP模型 268
7.1.2 贝叶斯复合风险度量 269
7.2 贝叶斯复合风险MDP 271
7.3 有限期BCR-MDP问题 275
7.4 无限期BCR-MDP问题 279
7.4.1 贝尔曼方程与最优性条件 279
7.4.2 收敛性分析 283
7.5 基于BCR-MDP的价值迭代算法和策略迭代算法 292
7.5.1 价值迭代 292
7.5.2 策略迭代 295
7.6 针对BCR-MDP的样本平均近似算法 297
7.7 数值实验 301
7.7.1 有限期赌博问题 301
7.7.2 无限库存控制问题 305
7.8 小结 305
第8章 机会约束马氏决策过程与强化学习 306
8.1 机会约束马氏决策过程 306
8.1.1 通常机会约束马氏决策过程 309
8.1.2 分布鲁棒机会约束马氏决策过程 309
8.2 基于矩信息的分布鲁棒机会约束马氏决策过程 310
8.2.1 J-DRCCMDP问题的等价转化形式 310
8.2.2 J-DRCCMDP问题的求解算法 312
8.3 基于K-L散度的分布鲁棒机会约束马氏决策过程 314
8.3.1 独立K-L DRCCMDP 317
8.3.2 联合K-L DRCCMDP 320
8.4 分布鲁棒机会约束优化的强化学习方法 323
8.4.1 数值实验 328
8.5 小结 328
第9章 平均场强化学习 329
9.1 多智能体系统 329
9.2 有限智能体系统的离散平均场强化学习 330
9.2.1 有限多智能体的随机博弈 330
9.2.2 纳什Q学习 332
9.2.3 平均场强化学习 332
9.2.4 平均场近似 334
9.2.5 算法实现 334
9.2.6 数值实验 336
9.3 无限智能体系统的连续平均场强化学习 339
9.3.1 无限智能体平均场博弈的策略梯度 339
9.3.2 连续平均场博弈的策略评估 350
9.3.3 连续平均场博弈的Actor-Critic算法 350
9.3.4 数值实验 359
9.4 小结 362
第10章 强化学习在多期投资组合选择中的应用 364
10.1 多期投资组合投资概述 364
10.2 强化学习鲁棒投资组合选择模型 366
10.3 强化学习鲁棒投资组合选择模型的求解 368
10.3.1 基于渐近相对效率的双层分解算法 368
10.3.2 增广拉格朗日乘子法 369
10.3.3 参考分布更新 370
10.4 实证研究 371
10.5 小结 376
参考文献 377
《大数据与数据科学专著系列》已出版书目 411