解决拥有连续状态空间以及模型未知的倒立摆系统长久以来是个难题。文章将强化学习(Reinforcement Learning)与神经网络(ELM网络和BP网络)相融合,运用神经网络的抽象和泛化能力,采用Actor-Critic架构,提出基于ELM-BP的强化学习倒立摆控制方法。针对连续空间,BP充当动作网络,根据输入的状态映射出要执行的动作,ELM也叫极速学习机充当评价网络近似逼近函数值,输出评价。同时为了降低样本空间大小提高收敛速度,引入滚动时间窗机制和适合度轨迹。经过训练和学习,能够有效解决具有连续状态空间的倒立摆系统的问题。通过Matlab软件仿真模拟倒立摆的环境进行实验,运用提出的新方法进行控制,在衡量倒立摆算法的几个指标上(尝试次数,所需时间,角度最大绝对值,位移最大绝对值等)均得到了良好的效果。