Research on Coordinated Control Strategy of Fuel Cell Anode Pressure and Flow Based on Deep Reinforcement Learning

Abstract

In view of the control problem of hydrogen pressure and flow coupling in the anode subsystem of the Proton Exchange Membrane Fuel Cell (PEMFC) under dynamic load conditions, this paper proposes an intelligent control framework based on the deep deterministic policy gradient (DDPG) algorithm. Firstly, a dynamic model of the fuel cell anode system is established to transform the multivariable coupling control problem into a reinforcement learning state space; secondly, a multi-objective reward function integrating pressure tracking accuracy, hydrogen utilization efficiency and actuator smoothness is designed, and a dual-channel Actor-Critic network structure with time series feature extraction capability is constructed to achieve transient complex condition control. Simulation experiments show that compared with the traditional model predictive control (MPC), the DDPG controller reduces the anode pressure fluctuation amplitude by 40.6% and the hydrogen excess coefficient overshoot by 20.2% under step load scenarios.

Share and Cite:

Lu, W. (2025) Research on Coordinated Control Strategy of Fuel Cell Anode Pressure and Flow Based on Deep Reinforcement Learning. Open Access Library Journal, 12, 1-8. doi: 10.4236/oalib.1113537.

1. Introduction

质子交换膜燃料电池(PEMFC)作为清洁能源转换装置,其动态响应性能与寿命可靠性高度依赖于阳极子系统的气体供给控制[1]。在车辆变载工况下,阳极需实时平衡氢气压力稳定性与流量供给效率[2]。然而,阳极系统的强非线性和强耦合性、执行机构响应延迟以及负载扰动的随机性,使得传统基于模型的控制器设计面临严峻挑战。

当前阳极控制普遍采用PID与模型预测控制实现阳极压力流量调节。如Pukrushpan [3]等人建立的线性化模型,可以实现稳态控制,但难以处理电堆电流剧烈变化时的非高斯噪声干扰;郭爱[4]等人提出的多变量模型预测方案虽改善了动态性能,但存在计算复杂难以满足实时性需求的问题。近年来,强化学习在能源控制场景中展现出优势,但其在PEMFC气体供给系统的应用仍存在以下瓶颈:

状态空间维度灾难:阳极动态涉及压力、流量、湿度等多物理场耦合,传统Q-learning难以处理高维连续状态;奖励稀疏性问题:系统安全约束(如压力超限)仅在故障时触发惩罚信号,导致策略收敛速度慢[5]

针对上述挑战,本文提出基于深度确定性策略梯度(DDPG)的阳极智能控制框架,主要贡献包括:

建立燃料电池系统模型,构建包含时序关联特征的状态空间,解决传统RL状态表征不完整问题;设计压力流量短期指标与膜电极损伤长期指标相结合的分层奖励函数。

2. 系统建模与问题描述

2.1. 系统模型建立

PEMFC氢气供气系统主要包括氢气减压阀、氢气循环泵和引射器等部分,如图1所示。氢气供给系统主要功能是为电堆阳极提供合适的氢气流量和压力。

1. 燃料电池供氢系统结构

本文参考文献[6][7]建立氢气循环结构的氢气供给系统,主要动态模型描述如下:

1) 氢气循环泵模型

{ d ω HCP dt = τ 1 τ 2 J HCP τ 1 = η HCP k t R cm ( u HCP k v ω HCP ) τ 2 = C p ω cp T rm η cp [ ( P sm P rm ) γ1 γ 1 ] W HCP (1)

其中, J HCP 泵是转动惯量, u HCP 是控制电压, W HCP 是泵输出质量流量, ω HCP 是泵转速, k t k v R cm 为电机参数。

2) 引射器模型

混合室喉部马赫数 M a t 与面积比关系:

A t A p * = 1 M a t ( 2 γ+1 ( 1+ γ1 2 M a t 2 ) ) γ+1 2( γ1 ) (2)

其中: A t 喉部截面积, A p * 一次流临界截面积, γ=1.4 氢气比热比。

定义引射比 ω= m ˙ s m ˙ p ,其简化表达式为:

ω= P s P p · T p T s ( γ+1 2 ) γ+1 γ1 ( P s P p ) γ1 γ 1 (3)

式中: P p P s 为一次/二次流入口压力, m ˙ p m ˙ s 为一次流二次流质量流量

3) 阳极流道模型

通过理想气体状态方程,燃料电池阳极氢气压力计算公式如下:

P an = m H2 R H2 T an V an M H2 +min{ 1, m v V an R v T st m v V an P sat st } P sat st + m N2 R N2 T an V an M N2 (4)

式中: T an 为电池阳极温度, P H2 氢气的分压力, V an 阳极和阴极的激活电压降。

2.2. 模型验证

引射器模型验证使用电堆实验数据,建立的模型验证结果如图2所示。

3. DDPG控制算法设计

3.1. 算法原理

深度确定性策略梯度算法(DDPG)是一种基于行动者–评论家(Actor-Critic)的深度强化学习算法,可用于处理连续状态和动作的问题,含有策略网络和价值网络,策略网络根据观测的环境输出确定的动作,价值网络对状态–动作进行评价,指导策略网络更新[8]。DDPG的策略网络表示为 μ( s;θ ) ,价值网络表示为 Q( s,a;ω ) 。策略网络目标函数的梯度如式所示:

2. 映射器模型验证

θ J( θ )= i=1 M θ Q( s,a;w )| s= s i ,a=μ( s i ) μ( a t | s t ;θ ) (5)

价值网络表示为 Q( s,a;ω ) ,用它来近似真实的动作值函数。定义DDPG的目标函数为:

y i = r i +γQ( s i+1 ,μ( s i+1 ;θ );ω ) (6)

定义损失函数如下:

L ω = 1 n i=1 n ( y i Q( s i , a i ;ω ) ) 2 (7)

DDPG通过目标函数梯度上升更新策略参数 θ ,通过最小化损失函数来更新价值网络参数 ω ,使其愈加接近动作值函数 Q π ( s,a )

3.2. 控制目标设计

氢气作为燃料电池的燃料,其成本十分昂贵,需要保证氢气浓度在一个合理的范围,过氢比(Hydrogen Excess Ratio, HER)作为关键控制参数,定义为阳极输入的氢气流量与化学反应消耗的氢气流量之比:

HER= W H 2 ,in W H 2 ,react (8)

式中: W H 2 ,in 为进入的氢气流量, W H 2 ,react 为消耗的氢气流量。

HER过低易引发氢饥饿,导致催化剂活性下降和电压波动;HER过高则加剧氢气浪费,显著提升燃料成本,同时增加氢气渗透风险,加速质子交换膜老化。为了实现氢气供给效率与系统寿命的全局最优,本文设计过氢比控制目标为1.8。

阳极压力对燃料电池有着至关重要的影响。当阳极压力过低时,参与电化学反应的氢气不足,导致发生“氢饥饿”电堆峰值功率。但过高的阳极压力会导致氢气向阴极渗透,降低氢气利用率,并且会导致“氧饥饿”,增大动态负载下的电压下冲量。因此本文参考某电堆手册进行阳极压力控制。

3.3. 控制框架设计

DDPG智能体通过传感器实时获取燃料电池系统多物理场状态观测向量,其中包含阳极压力动态、氢气过量比、电堆负载特性及历史控制动作序列等。Actor网络基于当前策略输出执行器动作向量(氢气阀开度、氢气循环泵电压)。燃料电池在动作向量驱动下产生动态响应,并计算目标奖励信号,此时再根据奖励信号对critic网络更新,最终达成控制策略的渐进式优化。控制框架如图3所示。

3. DDPG控制框架

3.4. 智能体设计

氢气供给系统智能体设置主要包括状态变量、动作变量、奖励函数和网络结构设计。

1) 状态变量

对于氢气供给系统控制智能体的状态变量 s pan 选取,应充分体现阳极的工作状态。

s pan =[ e pan ( t ) e HER ( t )I d e HER ( t ) dt d e pan ( t ) dt θ an ( t1 ) θ an max V HCP ( t1 ) V HCP max ] (9)

式中: e HER ( t ) e pan ( t ) I分别为过氢比偏差与阴极压力偏差和电流。

2) 动作变量

PEMFC氢气供给系统过氢比控制的执行器是流量阀开度,用来控制氢气压力设置背压阀开度变化量作为动作变量:

a Pan =[ Δ θ rm Δ V HCP ] (10)

式中: Δ θ rm ( t ) 满足 Δ θ rm max <Δ θ rm ( t )<Δ θ rm max Δ V HCP ( t ) 满足 Δ V HCP max <Δ V HCP ( t )<Δ V HCP max

t时刻的氢气循环泵的电磁阀开度:

θ rm ( t )= θ rm ( t1 )+Δ θ rm ( t ) (11)

t时刻的氢气循环泵的电压:

V HCP ( t )= V HCP ( t1 )+Δ V HCP (12)

3) 奖励函数

阳极系统控制智能体主要的控制目标是保证氢气压力与流量满足系统需求值,设计分层奖励函,短期指标与膜电极损伤风险长期约束相结合的奖励函数:

r Pan ={ [ ω 1 e p an 2 ( t )+ ω 2 e HER 2 ( t ) ] e p an <2000pa 10 e p an >2000pa (13)

式中: ω 1 为阳极压力偏差值系数, ω 2 过氢比偏差系数,由于阴极压力与过氢比之间存在耦合作用,所以通常 ω 1 ω 2 设置为0.5,但通过多次设置定值实验发现 ω 1 取0.6, ω 2 取0.4训练效果更佳。

4) 网络结构设计

网络结构设计如图4所示,策略网络包括1层输入层、4层隐藏层和1层输出层。它的输入层设有7个神经元,与状态变量维度一致,输出层对应动作变量维度为2个神经元,4层隐藏层中,每层均包含128个神经元。评价网络用于近似替代动作值函数,以此评估当前状态动作对的优劣。策略网络与评价网络采用全连接方式。

4. 网络结构设计

4. 实验与结果分析

基于前文搭建的燃料电池模型与控制策略,使用100 - 300 A随机阶跃工况训练智能体,收敛后在Matlab/Simulink中进行离线仿真验证,其结果如图5所示:

仿真实验表明,本文提出的DDPG控制框架在动态工况下展现出显著优势。在100到200 A阶跃负载场景中,阳极压力最大超调量仅为7.8% (较MPC降低40.6%),同时氢气阀的动作更加缓慢有助于提升部件寿命;经济性提升:过氧比维持在1.8左右,在工况变化时过氢比最大超调量仅为52.8% (较MPC降低20.2%),同时氢气循环泵的电压变化更平缓,有助于提升氢气循环泵寿命。

(a) (b)

(c) (d)

5. 控制结果对比

5. 结论

本文阐述了当前燃料电池阳极系统控制存在的问题,并设计基于DDPG的控制算法,最后通过仿真验证,证明所提出的控算法相较于MPC控制在动态响应和超调量控制方面展现更优的性能。

Conflicts of Interest

The author declares no conflicts of interest.

Appendix 1. Abstract and Keywords in Chinese

基于深度强化学习的燃料电池阳极压力与流量协同控制策略研究

摘要:针对质子交换膜燃料电池(Proton Exchange Membrane Fuel Cell, PEMFC)阳极子系统在动态负载工况下,存在氢气压力与流量耦合的控制难题,本文提出一种基于深度确定性策略梯度(DDPG)算法的智能控制框架。首先,建立燃料电池阳极系统动态模型,将多变量耦合控制问题转化为强化学习状态空间;其次,设计融合压力跟踪精度、氢气利用效率与执行器平滑性的多目标奖励函数,并构建具有时序特征提取能力的双通道Actor-Critic网络结构,实现瞬态复杂工况控制。仿真实验表明:相较于传统模型预测控制(MPC),DDPG控制器在阶跃负载场景下将阳极压力波动幅度降低40.6%,氢气过量系数超调量降低20.2%。

关键词:质子交换膜燃料电池,深度学习,预测控制,阳极系统

Conflicts of Interest

The author declares no conflicts of interest.

References

[1] 张思龙, 梁满志, 孙珩凯, 等. 燃料电池氢气供应系统多功能测试平台设计[J]. 汽车工程, 2024, 46(7): 1147-1156.
[2] 张家明, 马天才, 丛铭, 等. 大功率燃料电池氢气系统建模与控制[J]. 汽车技术, 2021(2): 23-27.
[3] Pukrushpan, J.T., Stefanopoulou, A.G. and Peng, H. (2004) Control of Fuel Cell Breathing. IEEE Control Systems Magazine, 24, 30-46.[CrossRef
[4] 郭爱, 陈维荣, 李奇, 等. 车用燃料电池氢气供应系统的预测控制[J]. 太阳能学报, 2013, 34(8): 1484-1491.
[5] Garcia, M. and Dong, W. (2024) Reinforcement Learning-Based Optimal Control of Uncertain Nonlinear Systems. International Journal of Control, 97, 2839-2850.[CrossRef
[6] He, J., Ahn, J. and Choe, S. (2011) Analysis and Control of a Fuel Delivery System Considering a Two-Phase Anode Model of the Polymer Electrolyte Membrane Fuel Cell Stack. Journal of Power Sources, 196, 4655-4670.[CrossRef
[7] Tri, D.T.L., Vu, H.N., Nguyen, H.L., et al. (2023) A Comparative Study of Single and Dual Ejector Concepts for Anodic Recirculation System in High-Performance Vehicular Proton Exchange Membrane Fuel Cells. International Journal of Hydrogen Energy, 48, 27344-27360.[CrossRef
[8] Gao, Q., Liu, Y., Zhao, J., et al. (2021) Hybrid Deep Learning for Dynamic Total Transfer Capability Control. IEEE Transactions on Power Systems, 36, 2733-2736.[CrossRef

Copyright © 2026 by authors and Scientific Research Publishing Inc.

Creative Commons License

This work and the related PDF file are licensed under a Creative Commons Attribution 4.0 International License.