InfraRL 论文发布

less than 1 minute read

Published:

InfraRL: A Benchmark for Constrained Resource Allocation in Large-Scale Infrastructure Asset Management

InfraRL:面向大规模基础设施资产管理中受约束资源分配问题的强化学习基准

InfraRL 论文动漫引入图

发布时间:2026年,ICML 2026

论文收录:ICML 2026 / PMLR 306

作者:Yantian Wang, Wenhao Li, Bo Jin

单位:School of Computer Science and Technology, Tongji University, China

单位:Shanghai Research Institute for Intelligent Autonomous Systems

摘要

本文提出了 InfraRL,一个面向大规模基础设施资产管理的离线受约束强化学习基准。基础设施维护通常需要在有限年度预算下,对大量桥梁等资产进行长期维护决策,但真实场景中无法通过在线试错进行策略学习。

InfraRL 基于美国 National Bridge Inventory(NBI)桥梁数据构建,通过动作识别、因果验证和区域化采样,将真实行政记录转化为可用于离线强化学习的多智能体决策任务。该基准关注结构健康收益、预算约束满足、行为一致性和长期泛化能力,并比较了行为克隆、离线强化学习、受约束强化学习、多智能体强化学习、规划方法和启发式方法等多类算法。

主要内容

本文的核心目标是将基础设施维护建模为一个真实的 offline constrained RL 问题,而不是依赖在线仿真或无约束控制任务。InfraRL 使用真实 NBI 桥梁记录构建离线 CMDP 数据集,并通过因果验证过滤“有记录但缺乏结构改善证据”的虚假维护行为。

在任务建模方面,InfraRL 将桥梁维护动作定义为 No Action、Minor Repair、Major Repair、Replacement,并引入年度硬预算约束,使算法必须在有限资源下选择最有价值的维护行为。为了模拟真实资源竞争,桥梁被划分为区域级多智能体 episode,共享年度预算。

在实验评估方面,论文比较了多类代表性方法,包括 BC、CQL、MultiTask-CPQ、QMIX-CQL-MF、MPC+Forecasting、CQL-Heuristic 等。结果显示,CQL 和 CPQ 等价值学习方法能够在较低原始预算违规率下带来明显健康收益;纯模仿方法容易受历史策略上限限制;而结合启发式指导的 CQL-Heuristic 在长期评估中表现出更好的稳定性和泛化潜力。

总体而言,InfraRL 为基础设施资产管理中的离线受约束决策问题提供了一个真实数据驱动的 benchmark,也为研究预算约束、资源分配、长期维护和多智能体协同提供了统一测试平台。