CN101379447A

CN101379447A - 设备的控制装置和控制方法及火力发电设备及其控制方法

Info

Publication number: CN101379447A
Application number: CNA2006800530571A
Authority: CN
Inventors: 关合孝朗; 清水悟; 山田昭彦
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-03-08
Filing date: 2006-12-27
Publication date: 2009-03-04
Anticipated expiration: 2026-12-27
Also published as: WO2007102269A1; JP2007241624A; US20090099667A1; JP4573783B2; CN101379447B; US8185216B2

Abstract

本发明提供决定用于使控制对象的测量信号达到运行目标值的模型输出目标值的控制装置，其利用模拟控制对象的特性的模型，学习达到模型输出目标值的模型输入的生成方法，根据学习结果生成操作信号。具备：对将操作信号发送给控制对象时获得的测量信号的值进行预测的模型；为使模型输出达到模型输出目标值而学习模型输入的生成方法的功能；根据学习的结果来决定发送向控制对象的操作信号的功能；保存预先设定的测量信号的限制值的数据库；接收控制对象的测量信号的外部输入接口；保存接收到的测量信号的值的测量信号数据库；以及利用将保存在测量信号数据库中的测量信号的平均值、最大值、最小值中至少一个进行计算后的结果和测量信号的限制值来决定模型输出目标值的初始值的功能。

Description

设备的控制装置和控制方法及火力发电设备及其控制方法

技术领域

本发明涉及设备(plant)的控制装置和控制方法。另外，涉及火力发电设备及其控制方法。

背景技术

在设备的控制装置中，对从作为控制对象的设备中获取的测量信号进行处理，算出发送给控制对象的操作信号。在控制装置中，安装有计算操作信号的阿拉伯式计数法(algorithm)，以使设备测量信号达到运行目标。

作为设备的控制中使用的控制阿拉伯式计数法，有PI(比例、积分)控制算法。该算法是通过对运行目标值和测量信号的偏差乘以比例增益，并对所得值加上将偏差进行时间积分后的值，从而导出操作信号。另外，还已知使用学习算法导出设备的操作信号。

另外，近年来，在无老师的学习领域中，有被称为强化学习的方法。强化学习被公知是通过与控制对象的试行错误的相互作用，以使从控制对象获取到的测量信号为理想的信号的方式，对发送给控制对象的操作信号的生成方法进行学习的学习控制的组成。

在强化学习中，着手于使用从控制对象获取的信号而计算出的数量(scalar)的评价值(强化学习中，被称为报酬)，以从目前状态到将来为止获得的评价值的期待值达到最大的方式，来学习操作信号的生成方法。

在非专利文献1中，记载有这样的方法，在测量信号达到运行目标值时给予正的评价值，并使用Actor-Critic、Q学习、实际时间DynamicProgramming等的算法，来学习操作信号的生成方法。另外，作为发展该方法的方式，介绍了被称为Dyna-体系结构的组成。该组成中，在控制装置内具有模拟控制对象的模型。模型将发送给控制对象的操作信号作为模型输入进行收纳，算出控制对象的测量信号的预测值亦即模型输出。该模型使用物理式或统计的手法而建成。另外，着眼于使用模型输出而计算出来的评价值，学习模型输入的生成方法。

在Dyna-体系结构中，为了达到模型输出目标值，而预先学习模型输入的生成方法，并根据该学习结果决定施加到控制对象的操作信号。

非专利文献1：“强化学习”(Reinforcement Learning)、三上贞芳·皆川雅章共译、森北出版株式会社，2000年12月20日出版，第142～172页，第247～253页

在设计上述的设备的控制装置时，需要合适地设定运行目标值以及模型输出目标值。特别是在决定模型输出目标值时，需要解决以下问题。

上述的模型输出有时是控制对象测量信号的评价值。假如，运行目标值和模型输出目标值被设定成相同的值，则即便对控制对象发送根据达到该模型输出目标值的模型输出而生成的操作信号，测量信号仍有可能达不到运行目标。在操作信号为恒定条件下，运行控制对象，且此时得到的测量信号变动的情况下，测量信号的平均值在运行目标值以下，在某一时间段内仍有可能超过运行目标值。此时，即使模型输出达到运行目标值，测量信号仍无法达成运行目标。因此，为了使测量信号达到运行目标值，需要考虑测量信号的变动幅度来决定模型输出目标值。

发明内容

本发明的目的在于提供一种可解决上述问题的具备计算运行目标值的功能的设备控制装置以及控制方法。

本发明在于提供一种设备的控制装置，该控制装置具备生成向作为控制对象的设备所发送的操作信号的操作信号生成部，其特征是，利用：模型、即预测在向上述控制对象发送操作信号时所得到的测量信号的值的模型；模型输出目标值决定单元、即利用由上述控制对象中得到的测量信号和预先设定的测量信号的限制值，决定模型输出目标值的模型输出目标值决定单元；和学习单元、即学习模型输入的生成方法，以使上述模型的预测结果亦即模型输出达到模型输出目标值的学习单元，

一边参见数据库、即保存有对达到模型输出目标值的模型输入的生成方法进行学习的结果的数据库，一边在上述操作信号生成部中生成操作信号。

本发明的控制装置，具备利用设备的测量信号、预先设定的测量信号的限制值来决定模型输出目标值的功能。通过使用该功能，可以处理测量信号，导出测量信号的平均值、最大值、最小值。

在测量信号变动的情况下，可以将从测量信号的限制值中，减去测量信号的最大值和平均值的差值的绝对值后的值作为模型输出目标值。

如果根据实现该模型输出目标值的模型输入的生成方法，来决定发送给作为控制对象的设备的操作信号，则模型输出目标值和测量信号的平均值一致。其结果，即便测量信号变动，测量信号也不会超过其限制值。

因此，在测量信号变动的情况下，只要将本发明的设备的控制装置的操作信号发送给设备，就可以抑制测量信号超过限制值的情况发生。

附图说明

图1是表示将本发明的一实施方式所涉及的控制装置应用于控制对象时的控制系统的构成的框图。

图2是表示由本发明的一实施方式所涉及的控制装置控制的火力发电设备的构成的框图。

图3是表示由本发明的一实施方式所涉及的控制装置控制的火力发电设备的管路部以及气体加热器部的放大图。

图4是表示本发明的一实施方式所涉及的控制装置之中的测量信号数据库中存储的数据的形态的说明图。

图5是表示本发明的一实施方式所涉及的控制装置之中的操作信号数据库中存储的数据的形态的说明图。

图6是表示本发明的一实施方式所涉及的控制装置中使用的控制-评价(Actor-Critic)法的形态的说明图。

图7是表示本发明的一实施方式所涉及的控制装置中运用的算法的流程图。

图8是本发明的一实施方式所涉及的控制装置中运用的算法的流程中，1间歇(episode)学习执行时的动作的流程图。

图9是应用在本发明的一实施方式所涉及的控制装置的学习部的评价器中的用片编码(tile coding)的说明图。

图10是表示本发明的一实施方式所涉及的控制装置之中的学习信息数据库中存储的数据的一例的说明图。

图11是应用在本发明的一实施方式所涉及的控制装置的学习部的控制器中的、利用正规分布决定模型输入变更幅度的方法的说明图。

图12是表示本发明的一实施方式所涉及的控制装置之中的学习信息数据库所存储的数据的另一例的说明图。

图13是表示本发明的一是实施方式所涉及的控制装置之中的学习参数数据库中存储的数据的形态的说明图。

图14是表示本发明的一实施方式所涉及的控制装置之中的评价值计算参数数据库中存储的数据的形态的说明图。

图15是本发明的一实施方式所涉及的控制装置中第一目标值设定部的动作流程图。

图16是与测量数据的最大、最小、平均有关的说明图。

图17是本发明的一实施方式所涉及的控制装置中的第二目标值设定部的动作流程图。

图18是显示在本发明的一实施方式所涉及的图象显示装置上的初始画面。

图19是显示在本发明的一实施方式所涉及的图象显示装置上的控制逻辑编辑画面。

图20是显示在本发明的一实施方式所涉及的图象显示装置上的学习条件设定画面。

图21是显示在本发明的一实施方式所涉及的图象显示装置上的显示信息设定画面。

图22是显示在本发明的一实施方式所涉及的图象显示装置上测量值的趋势曲线。

图23是对从火力发电设备中排出的CO、NO_x的基本特性进行说明的图。

图24是对利用本发明的一实施方式所涉及的控制装置，控制火力发电设备时的效果进行说明的图。

符号说明如下：

100…控制对象；200…控制装置；210…外部输入接口；220…外部输出接口；230…测量信号数据库；240…操作信号数据库；250…控制逻辑数据库；260…学习参数数据库；270…评价值计算参数数据库；280…学习信息数据库；300…操作信号生成部；400…学习部；500…模型；600…评价值计算部；700…第一目标值设定部；800…第二目标值设定部；900…输入装置；901…键盘；902…鼠标；910…维护工具；920…外部输入接口；930…数据收发处理部；940…外部输出接口；950…图象显示装置。

具体实施方式

在本发明中，还提出有以下的实施方式。

(1)一种设备的控制装置，该控制装置，是以在向作为控制对象的设备发送操作信号时所获得的测量信号的值达到上述控制对象的运行目标值的方式，生成操作信号，其具有：模型，其预测在向上述控制对象发送操作信号时所得到的测量信号的值；学习功能，学习对上述模型赋予的模型输入的生成方法，以使作为上述模型的预测结果、即模型输出达到模型输出目标值；和根据学习的结果来决定对控制对象赋予的操作信号的功能，其中

具备：数据库，其保存预先设定的测量信号的限制值；外部输入接口，其接收上述控制对象的测量信号；测量信号数据库，其保存接收到的测量信号的值；利用将保存在上述测量信号数据库中的测量信号的平均值、最大值、最小值中至少一个进行计算后的结果和上述测量信号的限制值来决定上述模型输出目标值的功能，利用上述学习功能进行学习，以达到所决定的目标值。

(2)根据(1)所述的设备的控制装置，其中，决定上述模型输出目标值的功能，是从测量信号的限制值中，减去测量信号的最大值与平均值之差的绝对值，从而决定的功能。

(3)根据(1)所述的设备的控制装置，其中，还具备计算用于学习的评价值的评价值计算部，在该评价值计算部中，在达到模型输出目标值的情况下，算出正或负的评价值，利用上述学习功能对使上述评价值的期待值达到最大或最小的操作方法进行学习。

(4)根据(1)所述的设备的控制装置，其中，具备用于输入测量信号的限制值的用户接口。

(5)一种设备的控制装置，该控制装置具备生成对作为控制对象的设备所发送的操作信号的操作信号生成部，其中，利用：模型、即预测在向上述控制对象发送操作信号时所得到的测量信号的值的模型；学习单元、即学习模型输入的生成方法，以使上述模型的预测结果亦即模型输出达到模型输出目标值的学习单元；模型输出目标值决定单元、即利用由上述控制对象中得到的测量信号和预先设定的测量信号的限制值，决定模型输出目标值的初始值的模型输出目标值决定单元；和增加或减少模型输出目标值的模型输出目标值变更单元，

首先以能够达到模型输出目标值的初始值的方式学习模型输入的生成方法，接着以能够达成变更后的模型输出目标值的方式学习模型输入的生成方法，并一边参照保存有该学习到的学习结果的数据库，一边在上述操作信号生成部中生成操作信号。

(6)一种设备的控制装置，该控制装置，是以在向作为控制对象的设备发送操作信号时所获得的测量信号的值达到上述控制对象的运行目标值的方式，生成操作信号，其具有：模型，其预测在向上述控制对象发送操作信号时所得到的测量信号的值；学习功能，学习向上述模型发送的模型输入的生成方法，以使作为上述模型的预测结果、即模型输出达到模型输出目标值；和根据学习的结果来决定发送向控制对象的操作信号的功能，其中。

具备：数据库，其保存预先设定的测量信号的限制值；外部输入接口，其接收上述控制对象的测量信号；测量信号数据库，其保存接收到的测量信号的值；利用将保存在上述测量信号数据库中的测量信号的平均值、最大值、最小值中至少一个进行计算后的结果和上述测量信号的限制值，来决定上述模型输出目标值的初始值的功能；以及在上述模型输出达到上述模型输出目标值时减少或增加模型输出目标值的功能，

利用上述学习功能进行学习，以达到上述初始值和变更后的模型输出目标值。

(7)根据(6)所述的设备的控制装置，其中，决定模型输出目标值的初始值的功能，是从测量信号的限制值中减去测量信号的最大值与平均值之差的绝对值，从而决定的功能。

(8)根据(6)所述的设备的控制装置，其中，还具备计算用于学习的评价值的评价值计算部，在该评价值计算部中，在达到模型输出目标值的情况下，算出正或负的评价值，利用上述学习功能对使上述评价值的期待值达到最大或最小的操作方法进行学习。

(9)根据(6)所述的设备的控制装置，其中，具备用于输入测量信号的限制值的用户接口。

(10)一种火力发电设备的控制装置，控制装置，以在向作为控制对象的火力发电设备发送操作信号时所获得的测量信号的值达到控制对象的运行目标值的方式，生成操作信号，具备：

模型，其预测在向上述控制对象发送操作信号时所得到的测量信号的值；

学习功能，学习向上述模型发送的模型输入的生成方法，以使作为上述模型的预测结果、即模型输出达到模型输出目标值；

根据上述学习的结果来决定发送向控制对象的操作信号的功能；

保存预先设定的测量信号的限制值的数据库；

接收上述控制对象的测量信号的外部输入接口；

保存接收到的测量信号的值的测量信号数据库；以及

利用将保存在上述测量信号数据库中的测量信号的平均值、最大值、最小值中至少一个进行计算后的结果和上述测量信号的限制值，来决定上述模型输出目标值的初始值的功能，

利用上述外部输入接口，在火力发电设备的测量信号中至少接收一氧化碳浓度和氮氧化物浓度中的一个，并将至少一氧化碳浓度和氮氧化物浓度中的一个的环境限制值作为测量信号的限制值，保存于保存有上述测量信号的限制值的数据库中，在决定上述输出目标值的初始值的功能中，至少决定一氧化碳浓度和氮氧化物浓度的模型输出目标值的初始值，并利用上述学习功能学习达到上述初始值的模型输入的生成方法，在决定上述操作信号的功能中，根据学习结果至少生成空气阻尼器(dumper)开度的操作信号。

(11)一种火力发电设备的控制装置，控制装置，以在向作为控制对象的火力发电设备发送操作信号时所获得的测量信号的值达到控制对象的运行目标值的方式，生成操作信号，具备：

保存预先设定的测量信号的限制值的数据库；

接收上述控制对象的测量信号的外部输入接口；

保存接收到的测量信号的值的测量信号数据库；

利用将保存在上述测量信号数据库中的测量信号的平均值、最大值、最小值中至少一个进行计算后的结果和上述测量信号的限制值来决定上述模型输出目标值的初始值的功能；以及

在上述模型输出达到上述模型输出目标值的情况下减少或增加模型输出目标值的功能，

利用上述外部输入接口，在火力发电设备的测量信号中至少接收一氧化碳浓度和氮氧化物浓度中的一个，并将至少一氧化碳浓度和氮氧化物浓度中的一个的环境限制值作为测量信号的限制值，保存于保存有上述测量信号的限制值的数据库中，在决定上述输出目标值的初始值的功能中，至少决定一氧化碳浓度和氮氧化物浓度的模型输出目标值的初始值，并利用上述学习功能学习达到上述初始值的模型输入的生成方法，在上述模型输出达到上述模型输出目标值的情况下，在减少或增加上述模型输出目标值的功能中，决定减少或增加氮氧化物的模型输出目标值的修正模型输出目标值，由上述学习功能学习达到上述修正模型输出目标值的模型输入的生成方法，在决定上述操作信号的功能中，根据学习结果至少生成空气阻尼器开度的操作信号。

(12)一种设备的控制方法，是以发送操作信号给作为控制对象的设备时所获得的测量信号的值达到上述控制对象的运行目标值的方式，而生成上述操作信号的控制方法，利用对向控制对象发送操作信号时所获得的测量信号的值进行预测的模型，来预测发送给上述控制对象操作信号时得到的测量信号的值，对发送给上述模型的模型输入的生成方法进行学习，以使模型的预测结果、即模型输出达到模型输出目标值，根据学习的结果来决定发送给控制对象的操作信号，其中，

利用上述控制对象的测量信号的平均值、最大值、最小值中至少一个的值，和预先设定的测量信号的限制值，来决定上述模型输出目标值，并以能达到该目标值的方式学习模型输入的生成方法。

(13)一种设备的控制方法，是以发送操作信号给作为控制对象的设备时所获得的测量信号的值达到上述控制对象的运行目标值的方式，而生成上述操作信号的控制方法，利用对向控制对象发送操作信号时所获得的测量信号的值进行预测的模型，来预测发送给上述控制对象操作信号时得到的测量信号的值，对发送给上述模型的模型输入的生成方法进行学习，以使模型的预测结果、即模型输出达到上述模型输出目标值，根据学习的结果来决定发送给控制对象的操作信号，其中，

利用上述控制对象的测量信号的平均值、最大值、最小值中至少一个的值，和预先设定的测量信号的限制值来决定上述模型输出目标值，以能够达到该目标值的方式学习模型输入的生成方法，在上述模型输出达到上述模型输出目标值的情况下，增加或减少模型输出目标值，学习模型的生成方法以达到该变更后的目标值。

(14)根据(12)所述的设备的控制装置，其中，上述模型输出目标值，是从测量信号的限制值中，减去测量信号的最大值与平均值的差值的绝对值而算出的。

(15)根据(13)所述的设备的控制装置，其中，上述模型输出目标值的初始值，是从测量信号的限制值中，减去测量信号的最大值与平均值的差值的绝对值而算出的。

(16)根据(12)所述的设备的控制装置，其中，在模型输出达到模型输出目标值的情况下，算出正或负的评价值，在学习模型输入的生成方法时，学习使上述评价值的期待值达到最大或者最小的操作方法。

(17)根据(13)所述的设备的控制装置，其中，在模型输出达到模型输出目标值的情况下，算出正或负的评价值，在学习模型输入的生成方法时，学习使上述评价值的期待值达到最大或者最小的操作方法。

(18)一种火力发电设备的控制方法，该设备的控制方法，是以发送操作信号给作为控制对象的设备时所获得的测量信号的值达到上述控制对象的运行目标值的方式，而生成上述操作信号的控制方法，利用对向控制对象发送操作信号时所获得的测量信号的值进行预测的模型，来预测发送给上述控制对象操作信号时得到的测量信号的值，对发送给上述模型的模型输入的生成方法进行学习，以使模型的预测结果、即模型输出达到上述模型输出目标值，根据学习的结果来决定发送给控制对象的操作信号，其中，

在上述测量信号中，设定一氧化碳和氮氧化物中的至少一个的环境限制值作为限制值，

利用设定了上述限制值的测量信号的平均值、最大值、最小值中的至少一个值、和上述限制值来决定上述模型输出目标值的初始值，

以能达成该初始值的方式学习模型输入的生成方法，根据该学习结果，至少生成空气阻尼器的开度的操作信号。

本发明中，第一发明和第二发明的较大的区别在于，第一发明的特征是：具备如下功能，即利用将测量信号的平均值、最大值、最小值中的至少一个进行计算的结果、和上述测量信号的限制值来决定上述模型输出目标值，而第二发明的特征是：具备如下功能，在通过上述第一发明决定初始值，且模型输出达到模型输出目标值的初始值的情况下，减少或者增加模型输出目标值。

在第一发明中，在测量信号变动时，考虑到变动幅度，可能将模型输出目标值修正到比测量信号的限制值更小的值，测量信号总是可以达到限制值。

对于设备而言，有时将某一特定的测量信号的值尽可能地接近于0是运行目标。假如将模型输出目标值设定为0，在该值为不可达到的值的情况下，在第一发明中，将产生无法学习模型输入的生成方法的情况。为了避免这一现象，需要在应用的模型输入的生成方法的学习过程中，对模型输出目标值的设定方法上花费功夫。

在第二发明中，对于尽可能接近于0的是，关于运行目标的测量信号，其模型输出目标值的初始值为某种程度的大值，该值逐渐接近于0。因此不会产生无法学习达到模型输出目标值的模型输入的生成方法的情况。

以下，参见附图对最优良的实施方式的控制装置进行说明。但是本发明并不局限于以下的实施方式。

图1是将本实施方式所涉及的控制系统，应用于控制对象100中的例子的框图。对控制对象100进行控制的控制系统，包括：控制装置200、输入装置900、维护工具910、图象显示装置950。控制装置200，经由外部输入接口210，接收来自控制对象100的测量信号。而且，在控制装置200中，通过外部输出接口220，向控制对象100发送操作信号16。

由外部输入接口210接收到的测量信号2，向操作信号生成部300传送的同时，还被保存于测量信号数据库230中。另外，由操作信号生成部300生成的操作信号15，被向外部输出接口220传送的同时，还被保存在操作信号数据库240中。

在操作信号生成部300中，使用保存在学习信息数据库280的学习信息9、和保存在控制逻辑数据库250中的控制逻辑信息6，生成操作信号15，令来自控制对象100的测量信号1达到运行目标值。

保存在学习信息数据库280中的信息，由学习部400生成。学习部400连接于模型500和评价值计算部600。

模型500具有模拟控制对象100的特性的功能。即，与将操作信号16发送给控制对象100，结果得到测量信号1的方式相同，将用来使模型500动作的模型输入12发送给模型500，作为该结果得到模型输出13。模型输出13是测量信号1的预测值。该模型500，是对控制对象100的特性进行模拟的产物，具有利用基于物理法则的模型式、或者统计的方法而针对模型输入12计算模型输出13的功能。

评价值计算部600，具有利用被保存在评价值计算参数数据库270中的评价值计算参数8和模型输出13生成评价值14的功能。在保存于评价值计算参数数据库270的信息的一部分中，存在模型输出13的目标值。该模型输出目标值，由第一目标值设定部700以及第二目标值设定部800生成。

第一目标值设定部700，利用保存在测量信号数据库230中的测量信号3、和保存在评价值计算参数数据库270中的限制值信号17，生成第一目标值信号4。另外，第二目标值设定部800，利用保存在测量信号数据库230中的测量信号3、保存在评价值计算参数数据库270中的上次目标值信号18、和模型输出13，生成第二目标值信号5。

学习部400，利用保存于学习信息数据库280中的上次学习信息11、保存于学习参数数据库260中的学习参数7、模型输出13，生成模型输入12。利用由模型500计算出来的模型输出13，向学习部400输入由评价值计算部600计算出来的评价值14。在学习部400中，利用评价值14更新学习信息，并将更新学习信息10向学习信息数据库280发送。

作为控制对象100的设备的运行员，通过利用由键盘901和鼠标902构成的输入装置900、和与图象显示装置950连接的维护工具910，可以访问设置在控制装置200中的各种的数据库中保存的信息。

维护工具910，由外部输入接口920、数据收发处理部930以及外部输出接口940构成。

由输入装置900生成的输入信号31，经由外部输入接口920被维护工具910接收。在数据收发处理部930中，按照输入信号32的信息，取得设置在控制装置200的数据库信息30。另外，在数据收发处理部930中，将处理数据库信息30后结果所得到的输出信号33，向外部输出接口940发送。输出信号34，显示于图象显示装置950上。

此外，在本实施方式中，尽管所有的数据库被配置在控制装置200的内部，但是也可以将它们配置在控制装置200的外部。另外，在本实施方式中，用来生成操作信号16的信号处理功能虽然被全部配置于控制装置200的内部，但也可以将它们配置在控制装置200的外部。

以下，将选取将本发明的控制系统应用于火力发电设备的情况作为示例，对于保存在数据库中的信息和信号处理功能进行说明。

图2是对火力发电设备进行说明的图。首先，对于火力发电设备的发电组成进行说明。作为燃料的煤(粉煤)和煤搬送用的一次空气、以及燃烧调整用的二次空气，经由烧嘴(burner))102被供给到锅炉101中。煤和一次空气被管路134所引导，二次空气被管路141所引导。另外，将二级燃烧用的补充气体，经由补充气体口103投入到锅炉101中。该补充气体由管路142引导。

通过煤的燃烧而产生的高温气体，在沿锅炉101的路径流过之后，经过气体加热器104。之后，进行排气处理之后，通过烟囱而排放到大气中。

循环于锅炉101的给水，经由给水泵105而导向锅炉101中，并在热交换器106被气体过热，变成高温高压的蒸气。此外，在本实施方式中，虽然将热交换器的数量设为一个，但也可以配置多个热交换器。

经过了热交换器106的高温高压的蒸气，经由蜗轮调速器107而导向汽轮机108。利用蒸气所具有的能量来驱动汽轮机108，通过发电机109发电。

在火力发电设备中，配置有各种测量器，而且从该测量器中取得的信息，被作为测量信号1向控制装置200发送。例如，图2中图示出：流量测量器150、温度测量器151、压力测量器152、发电输出测量器153、以及浓度测量器154。在流量测量器150中，对从给水泵105向锅炉101供给的给水的流量进行测量。另外，在温度测量器151以及压力测量器152中，对向汽轮机108供给的蒸气的温度或压力进行测量。利用发电输出测量器153测量由发电机109发电的电力量。对于与经过锅炉101中的气体中含有的成分(CO、NO_x等)的浓度的信息，可以由浓度测量器154进行测量。此外，通常情况下，除了图2所示的以外，也有多个测量器被配置在火力发电设备中，但图2中予以省略。

接着，对于从烧嘴102投入的一次空气和二次空气、以及从补充气体口103投入的补充气体的路径进行说明。

一次空气从风扇120被导入到管路130中，途中分岔到经过气体加热器104的管路132和未经过的管路131中，并在管路133再次合流，被导入到磨机110中。经过气体加热器104的空气被气体过热。利用该一次空气，将在磨机110中生成的煤粉向烧嘴102搬送。

二次空气以及补充气体，从风扇121被导入到管路140中，在受到气体加热器104过热后，分岔到二次空气用的管路141和补充气体用的管路142中，并分别导入到烧嘴102和补充气体口103中。

图3是一次空气和二次空气以及补充气体所经过的管路部以及气体加热器104的放大图。如图3所示，在管路中配置有空气阻尼器160、161、162、163。通过控制空气阻尼器，可以改变管路中空气所经过的面积，因此，可以通过空气阻尼器的操作来调整经过管路的空气流量。

利用在控制装置200中生成的操作信号16，来操作给水泵105、磨机110、空气阻尼器160、161、162、163等设备。

接着，对保存于测量信号数据库230、以及操作信号数据库240中的信息进行说明。图4以及图5，是对分别保存于测量信号数据库230以及操作信号数据库240中的信息的形态进行说明的图。

如图4所示，测量信号数据库230中，由控制对象100测量到的信息，按每个测量器与各测量时刻一起被保存起来。例如，由图2中的流量测量器150、温度测量器151、压力测量器152、发电输出测量器153、浓度测量器154测量的流量值F₁₅₀、温度值T₁₅₁、压力值P₁₅₂、发电输出值E₁₅₃、排气中所含有的NO_x浓度D₁₅₄，与时间信息一起被保存起来。此外，图4中虽以一秒周期对数据进行保存，但可以任意设定数据收集的采样周期。另外，保存于操作信号数据库240中的信息也同样，如图5所示，给水流量的指令信号等的操作信号，与时间信息一起被保存。

接着，对于学习部400、模型500、评价值计算部600的动作进行说明。

学习部400，以模拟控制对象100的特性的模型500为对象，学习模型输入12的生成方法，以使模型输出13达到模型输出目标值。在学习部400中，利用将模型输出13作为输入的评价值计算部600的输出亦即评价值14，执行该学习。

作为执行该学习的算法，有记载于非专利文献1中的强化学习理论。强化学习，是着眼于评价值(报酬)信息，通过学习部400和模型500的相互作用，学习用于达成模型输出目标值的模型输入12的生成方法。通过应用强化学习，可以学习能够使从目前时刻到将来所得到的评价值的期待值达到最大的模型输入12的生成方法。

在本实施例中，作为强化学习算法，以应用控制-评价(Actor-Critic)法的例子进行叙述。此外，作为本发明的控制装置200中的学习方法，除强化学习法以外，可以应用遗传的算法或线形、非线形计划法等的最佳化技术。

图6是对控制-评价法的简要进行说明的图。如图6所示，在控制-评价法中，具备生成模型输入12的控制器450、评价状态的价值的评价器460。在评价器460中，基于模型输出13计算状态价值，获取评价值计算部600的输出信号亦即评价值14，利用(1)式计算TD误差信号470。

(数1)

δ＝r+γV(S_t+1)-V(S_t)…(1)

其中，δ是TD误差，γ是折扣率，V(s)是状态s的价值。

从评价器460，向控制器450传送由(1)式计算出的TD误差信号470。

图7和图8是对控制-评价法的流程进行说明的图。此外，本流程的执行所需要的设计参数(例如，折扣率γ)被保存于参数数据库260、评价值计算参数数据库270、以及学习信息数据库280。保存于这些数据库中的信息的形态以及将设计参数注册在数据库中的方法会在后边叙述。

如图7所示，在步骤301中，取得控制的采样周期T。接着，在步骤302中执行1间歇学习。在该步骤302中，学习部400、模型500以及评价值计算部600发生动作，执行上述的强化学习算法。在步骤303中执行学习结束判定。该步是为了在控制的采样周期以下结束学习而设定的步骤，在学习执行时间小于T的期间返回步骤302，一旦超过T即结束学习。图7的流程反复执行控制控制对象100的期间。

图8是对图7中的步骤302的1间歇学习执行时的动作进行说明的流程图。

首先在步骤401中，将模型输入的初始值设定为任意。接着，在步骤402，将由步骤401中生成的模型输入12向模型500输入，得到模型输出13。

在步骤403中，在评价值计算部600，比较模型输出13和保存于评价值计算参数数据库270的模型输出的目标值，当模型输出13达到模型输出目标值后，结束间歇，未达到的情况下进入步骤404。

在步骤404中，在学习部400，利用保存于学习信息数据库280中的信息，决定模型输入变更范围Δa。Δa的决定方法后边叙述。

在步骤405中，利用(2)式来决定模型输入12。

(数2)

α(t+1)＝α(t)+Δα…(2)

在步骤406中，向模型500输入在步骤405中决定的模型输入12，取得模型输出13。

在步骤407中，利用由步骤406所得到的模型输出13，在评价值计算部600中计算评价值信号14。

在步骤408中，利用保存在学习信息数据库280中的信息和(1)式计算TD误差。

在步骤409中，利用步骤408中所计算出的TD误差更新控制器450的参数，并将该更新后的结果保存于学习信息数据库280中。

在步骤410中，利用步骤408中所计算出的TD误差更新评价器460的参数，并将该更新后的结果保存于学习信息数据库280中。

在步骤411中，利用与步骤403同样的方法实施结束判定。

以下，对于在控制器450中利用正规随机数生成模型输12，在评价器460中利用用片编码(tile coding)法计算状态价值的情况进行叙述。此外，使用本实施例所用方法以外的方法，也可以构成控制器450和评价器460。

在评价器460中，利用用片编码来分割状态。图9是对用片编码法进行说明的图。用片编码，是分割输入空间，判别属于哪一区域，从而将连续的状态作为离散的状态进行识别的方法。一个一个区域被称作用片(tile)。

例如，向模型500输入的输入信号12是输入信号A和输入信号B的二维，输入信号A处于0和1之间、输入信号B处于1和2之间的情况，属于图9中的状态编号1的用片。在学习信息数据库280中，在图10所示的状态下，保存有状态编号和价值参数对应的信息。在评价器460中，利用得到模型输出13时的输入信号12的值和保存于学习信息数据库280中的信息，计算状态的价值。

另外，在评价器460中，利用TD误差δ₁，按照(3)式更新状态价值。其中β₁为学习率。

(数3)

V(S_t)←V(S_t)+β₁δ_t…(3)

图11是对步骤404中计算模型输入变化幅度的方法、和步骤409中控制器参数的更新方法进行说明的图。

图11所示的正规分布，是利用正规分布的中心和标准偏差这两个参数而产生的。其中横轴是模型输入变化幅度，纵轴是发生概率。因此，根据正规随机数分布来决定模型输入变化幅度。

接着，对控制器450的参数的更新方法进行说明。

首先，在某状态下，产生图11(a)所示的随机，基于该随机值修正模型输入，结果假设TD误差为正。其意思是指通过执行该模型输入，得到比预期更加理想的评价值。于是，在接下来达到相同状态时，更新参数，以增大选择该随机值的概率。具体而言，如图11(b)所示，使中心沿正的方向移动，而且所产生的随机数位于标准偏差的内侧，因此以标准偏差的值缩小的方式更新。

正规分布的中心c(St)以及标准偏差σ(St)，分别按照(4)式以及(5)式更新。其中，β₂以及β₃是学习率。

(数4)

c(S_t)←c(S_t)+β₂δ_t(α_t—c(S_t))…(4)

(数5)

σ(S_t)←σ(S_t)+β₃δ_t(|a_t|—σ(S_t))…(5)

图12是保存在学习信息数据库280中的信息，是与控制器450相关的信息。如上述那样，为了产生图11的正规分布，需要中心和分散这两个参数，对每个状态编号赋予该参数，该参数值与状态编号建立对应，并以图12那样的形态保存于学习信息数据库280中。

图13是对保存于学习信息数据库260中的信息的形态进行说明的图。如图13所示，保存有执行图8的流程中的步骤409、步骤410所需的学习率等的参数。

在步骤407中，利用评价值计算参数数据库260和模型输出13生成评价值14。

在强化学习中，由于为使评价值14的期待值达到最大，而学习模型输入12的生成方法，因此理想地，在模型输出13达到模型输出目标值的情况下，评价值14的值增大。

作为该评价值14的生成方法，有模型输出13，在达到模型输出目标值的情况下，采用正值例如“1”作为评价值的方法。另外，在未达到模型输出目标值的情况下，有利用与模型输出目标值和模型输出13的误差呈反比例的参数，计算评价值14的方法。另外，也考虑组合这些方法来计算评价值14的方法。

在评价值计算参数数据库270中，保存有与模型输出13的目标值相关的信息。

图14是对保存于评价值计算参数数据库270中的信息的形态进行说明的图。如图14所示那样，保存有测量信号1的限制值、要求以及模型输出13的控制目标值。限制值、要求，由控制对象100的运行员来设定，其设定方法后边叙述。限制值是测量信号1的限制值，是从控制对象100获得的测量信号1不会超过的值。图14所记载的要求，是指该限制值所具有的属性，即对测量信号1在限制值以下是目标吗、或者测量信号1在限制值以下，或为尽可能小的值是目标吗等进行定义的属性。最后，图14中记载的目标值，是设定某一模型输入12时的模型输出13的目标值。

利用图1中的第一目标值设定部700、以及第二目标值设定部800，来设定图14中的运行目标值。

图15是表示第一目标值设定部700的动作的流程图。

首先，在步骤710中，从评价值计算参数数据库270所保存的测量信号评价项目中，抽取出以限制值达成为目的的测量信号的项目、及其限制值。接着，在步骤720中，对于由步骤710中抽出的被控制量，取得保存于测量信号数据库230中的数据。在步骤730中，基于步骤720中所取得的数据，计算测量信号的最大值、最小值、平均值。图16，是对测量信号的最大值、最小值、平均值进行说明的图。这些值由第一目标值设定部700来计算。在步骤740中，利用(6)式来计算模型输出目标值。

(数6)

D_i(k)＝H_i(k)-(M_i(k)-A_i(k)) 0≤i≤k…(6)

其中，Dj(k)是模型输出目标值，Hj(k)是限制值，Mj(k)是最大值，Aj(k)是平均值，k是在步骤710中所抽取出来的测量信号的项目数。

最后，在步骤750中，将由(6)式计算出来的目标值保存在评价值计算参数数据库270中。

下面，利用图17对第二目标值设定部800的动作进行说明。图17是第二目标值设定部800的动作的流程图。

首先，在步骤810中，从评价值计算参数数据库270所保存的测量信号评价项目中，抽取出达成限制值、且以尽可能降低为运行目的的测量信号的项目和其限制值以及运行目标值。接着，在步骤820中，对于由步骤810中抽出的测量信号项目，取得保存于测量信号数据库230中的数据。在步骤830中，基于步骤820中所取得的数据，计算每一测量信号的最大值、最小值、平均值。另外在步骤850中，利用(7)式来计算模型输出目标值的初始值。

(数7)

D_j(k)＝H_j(k)-(M_j(k)-A_j(k)) 0≤j≤1…(7)

其中，Dj(k)是模型输出目标值，Hj(k)是限制值，Mj(k)是最大值，Aj(k)是平均值，1是在步骤810中所抽取出来的测量信号的评价项目数。

在执行图7的流程中，当模型输出13的值小于Dj(k)时，利用(8)式将模型输出目标值更新成较小的值。

(数8)

D_j(k+1)＝D_j(k)-ψ…(6)

其中，ψ是运行员所设定的参数。

另外，还可以将实施学习之中得到的模型输出的最小值设定为模型输出目标值。

此外，在本实施例中，虽然对将模型输出目标值更新成小的值的情况进行了叙述，但当欲将测量信号设定成尽可能大的值的情况下，还可以将模型输出目标值更新成较大的值。

由此，在学习部400中，对于以尽可能降低作为目标的测量信号的项目而言，能够以满足该要求的方式学习模型输入12的生成方法。

接着，对于控制对象100的运行员利用维护工具910，将数据库的信息显示在图象显示装置950上的方法进行说明。图18～图23，是显示在图象显示装置950上的画面的示例。运行员，利用键盘901、鼠标902来执行输入参数值等的操作。

图18是显示在图象显示装置950上的初始画面。运行员，从控制逻辑做成按钮951、学习条件设定按钮952、信息显示按钮953中选择必要的按钮，利用鼠标902移动光标954，通过点击鼠标902来触压按钮。

图19是在点击控制逻辑做成按钮951时所显示的控制逻辑编辑画面。运行员，从预先登记的标准要素模块963中选择必要的模块，并将之向逻辑编辑画面961移动。模块间，用结线/擦除962来连接。由图19做成的控制逻辑画面，通过点击保存按钮964，经过数据收发处理部930保存在控制逻辑数据库250中。在操作信号生成部300中，利用该控制逻辑画面的信息，生成输入测量信号2时的操作信号15。另外，在操作信号生成部300中，兼用保存在学习信息数据库280中的信息，可以生成操作信号15。通过利用学习信息数据库280中保存的图12的信息的状态编号和中心的信息，可以生成具有和可使模型输出13达到理想值的模型输入12相同值的操作信号15。

在未保存图19中做成的控制框图的情况下，点击取消按钮965。另外，通过点击返回按钮966，返回图18的画面。

图20是对学习条件设定画面进行说明的图。图18中，通过点击学习条件设定按钮952，来显示图20的画面。

运行员，在限制值输入栏971中，输入被控制量和与其限制值相关的信息。另外，在以该被控制量在限制值以下为目的的情况下，在要求栏中输入“A”，在限制值以下，且尽可能降低的情况下在要求栏中输入“B”。在参数设定栏972中，输入为执行图7的流程所必要的设定参数。在操作端设定栏973中，输入用于根据图7的流程而学习操作方法的操作端名称、动作范围、以及用片编码用的分割数。

通过点击图20中的保存按钮974，可以将输入在限制值输入栏971中的信息保存在评价值计算参数数据库270中，将输入在参数设定栏972中的信息保存在学习参数数据库260中，将输入在操作端设定栏973中的信息保存在学习信息数据库280中。

如果点击取消按钮975，输入在限制值输入栏971、参数设定栏972、操作端设定栏973中的信息即被取消。另外，通过点击返回按钮976，返回图18的画面。

图21，是为了将测量信号数据库230以及操作信号数据库240中保存的信息显示于图象显示装置950上，而设定其条件的画面。图18中，通过点击信息按钮953而显示出图21。

运行员，将欲显示在图象显示装置950上的测量信号或者操作信号，与其范围(上限/下限)一起输入在输入栏981中。另外，将欲显示的时间输入在时刻输入栏982中。

通过点击显示按钮983，如图22所示，趋势曲线显示在图象显示装置950上。通过点击图22的返回按钮991，返回图21的画面。

另外，在图21中，通过点击返回按钮984，可以返回图18的画面。

此外，除以上所述的图像以外，还可以将保存在控制装置200内的数据库中的任意的信息，以任意的形态显示在图象显示装置950上。

以下，将对于在控制对象100为火力发电设备的情况下，应用本发明的控制装置200的效果进行说明。

利用本发明的控制装置200，通过操作火力发电设备的空气阻尼器，可以控制CO、NO_x。以下，将对利用控制装置200来控制CO、NO_x的效果进行说明。

图23，是对CO、NO_x的基本特性进行说明的图。如图23那样，通常CO和NO_x处于折衷的关系，欲降低CO则NO_x增加，欲降低NO_x则CO增加。

对于从火力发电设备的烟囱中排放的CO以及NO_x已有限制，特别对于NO_x，是将锅炉出口的气体导向脱硝装置，经过该处的处理后遵守限制。脱硝装置中使用的氨的消耗量，随着脱硝装置入口的NO_x浓度的升高而变多。如果尽可能降低脱硝装置入口NO_x量，抑制氨消耗量，会降低运行成本。

因此，希望使CO不超过限制值，而且尽可能地降低NO_x。

图24是说明，在控制装置200的操作信号生成部300中，在执行使用保存于学习信息数据库280中的信息的操作的前后，脱硝装置入口的CO浓度和NO_x浓度的趋势的图。

如图24所示，CO以及NO_x的值，与时间一起变动。与该变动有关的信息，由图15的步骤730以及图17的步骤830来计算。

在步骤740和步骤840中计算的目标值，是通过(6)式和(7)式计算，从限制值中减去信号的最大值与平均之差而得到的，因此测量信号即便变动，超过限制值的可能性也很低。也就是，第一目标值设定部700以及第二目标值设定部800所计算的目标值，是考虑到测量值的变动量的值，其为即便测量值变动，也不超过限制值的模型输出目标值。

由此，由操作信号生成部300生成的操作信号15，是利用保存有与能够满足上述的运行目标值的控制方法有关的信息的学习信息数据库280的信息，而生成的信号。

因此，如图24所示，在操作后CO也不会超过限制值。而且，得到NO_x比操作前进一步降低的效果。

Claims

1.一种设备的控制装置，该控制装置具备生成向作为控制对象的设备发送的操作信号的操作信号生成部，还具有：

模型，其预测在向上述控制对象发送操作信号时所得到的测量信号的值；模型输出目标值决定单元，其利用由上述控制对象得到的测量信号和预先设定的测量信号的限制值，决定模型输出目标值；以及学习单元，其学习模型输入的生成方法，以使上述模型的预测结果、即模型输出达到模型输出目标值，

在上述操作信号生成部中，一边参照保存由上述学习单元学习到的结果的数据库，一边生成操作信号。

2.根据权利要求1所述的设备的控制装置，其特征在于，

具备：数据库，其保存预先设定的测量信号的限制值；外部输入接口，其接收上述控制对象的测量信号；测量信号数据库，其保存接收到的测量信号的值；利用将保存在上述测量信号数据库中的测量信号的平均值、最大值、最小值中至少一个进行计算后的结果和上述测量信号的限制值，来决定上述模型输出目标值的功能，

并利用上述学习功能进行学习，以达到所决定的目标值。

3.根据权利要求2所述的设备的控制装置，其特征在于，

决定上述模型输出目标值的功能，是从测量信号的限制值中减去测量信号的最大值与平均值之差的绝对值，从而决定的功能。

4.根据权利要求2所述的设备的控制装置，其特征在于，

还具备计算用于学习的评价值的评价值计算部，在该评价值计算部中，在达到模型输出目标值的情况下，算出正或负的评价值，利用上述学习功能对使上述评价值的期待值达到最大或最小的操作方法进行学习。

5.根据权利要求2所述的设备的控制装置，其特征在于，

具备用于输入测量信号的限制值的用户接口。

6.根据权利要求1所述的设备的控制装置，其特征在于，

具有增加或减少模型输出目标值的模型目标值变更单元，利用上述模型目标值变更单元，一边参照保存有所学习的学习结果的数据库，一边在上述操作信号生成部生成操作信号，所述学习结果是首先以能达到模型输出目标值的初始值的方式学习模型输入的生成方法，接着以能达到变更后的模型输出目标值的模型输入的方式学习模型输入的生成方法的学习结果。

7.根据权利要求1所述的设备的控制装置，其特征在于，

8.根据权利要求7所述的设备的控制装置，其特征在于，

决定上述模型输出目标值的初始值的功能，是从测量信号的限制值中减去测量信号的最大值与平均值之差的绝对值，从而决定的功能。

9.根据权利要求7所述的设备的控制装置，其特征在于，

10.根据权利要求7所述的设备的控制装置，其特征在于，

具备用于输入测量信号的限制值的用户接口。

11.一种火力发电设备的控制装置，该控制装置，以在向作为控制对象的火力发电设备发送操作信号时所获得的测量信号的值达到控制对象的运行目标值的方式，生成操作信号，其具备：

根据上述学习的结果来决定向控制对象发送的操作信号的功能；

保存预先设定的测量信号的限制值的数据库；

接收上述控制对象的测量信号的外部输入接口；

保存接收到的测量信号的值的测量信号数据库；以及

利用上述外部输入接口，在火力发电设备的测量信号中至少接收一氧化碳浓度和氮氧化物浓度中的一个，并将至少一氧化碳浓度和氮氧化物浓度中的一个的环境限制值作为测量信号的限制值，保存于保存有上述测量信号的限制值的数据库中，在决定上述输出目标值的初始值的功能中，至少决定一氧化碳浓度和氮氧化物浓度的模型输出目标值的初始值，并利用上述学习功能学习达到上述初始值的模型输入的生成方法，在决定上述操作信号的功能中，根据学习结果至少生成空气阻尼器开度的操作信号。

12.根据权利要求11所述的火力发电设备的控制装置，其特征在于，

在上述模型输出达到上述模型输出目标值的情况下，在减少或增加上述模型输出目标值的功能中，决定减少或增加氮氧化物的模型输出目标值的修正模型输出目标值，由上述学习功能学习达到上述修正模型输出目标值的模型输入的生成方法。

13.一种设备的控制方法，是以将操作信号发送给作为控制对象的设备时所获得的测量信号的值达到上述控制对象的运行目标值的方式，而生成上述操作信号的控制方法，

利用对向控制对象发送操作信号时所获得的测量信号的值进行预测的模型，来预测向上述控制对象发送操作信号时得到的测量信号的值，利用上述控制对象的测量信号的平均值、最大值、最小值中至少一个的值和预先设定的测量信号的限制值来决定模型输出目标值，并对发送给上述模型的模型输入的生成方法进行学习，以使模型的预测结果、即模型输出达到上述模型输出目标值，根据学习的结果来决定发送给控制对象的操作信号。

14.根据权利要求13所述的设备的控制方法，其特征在于，

在上述模型输出达到上述模型输出目标值的情况下，增加或减少模型输出目标值，学习模型的生成方法，以进一步达到变更后的目标值。

15.根据权利要求13所述的设备的控制方法，其特征在于，

上述模型输出目标值，是从测量信号的限制值中，减去测量信号的最大值与平均值的差值的绝对值而算出的。

16.根据权利要求14所述的设备的控制方法，其特征在于，

上述模型输出目标值的初始值，是从测量信号的限制值中，减去测量信号的最大值与平均值的差值的绝对值而算出的。

17.根据权利要求13所述的设备的控制方法，其特征在于，

在模型输出达到模型输出目标值的情况下，算出正或负的评价值，在学习模型输入的生成方法时，学习使上述评价值的期待值达到最大或者最小的操作方法。

18.根据权利要求14所述的设备的控制方法，其特征在于，

19.一种火力发电设备的控制方法，是将权利要求13所述的设备的控制方法应用到火力发电设备中，

以能达到该初始值的方式学习模型输入的生成方法，根据该学习结果，至少生成空气阻尼器的开度的操作信号。