 

ai强化学习的公平性

2019-11-12 11:30 1248 50

决策支持系统和自治系统开始部署在实际应用中。尽管他们的运营经常影响许多用户或利益相关者，但在他们的设计中通常不考虑公平性，这可能导致某些用户或利益相关者的完全不公平的结果。为了解决这个问题，我们提倡使用编码公平的社会福利函数，并在（深层）强化学习的背景下提出这个一般的新问题，尽管它可能扩展到其他机器学习任务。

1 介绍

由于人工智能和机器学习的进步，尤其是更好的传感器和更高的计算能力，决策支持系统（DSS）和自治系统（AS）已经开始成为我们生活中不可或缺的一部分。 DSS可以帮助我们在涉及多个利益相关方的复杂决策问题中做出更好，更快，更明智的决策。与使用固定规则的人工系统或预编程系统相比，AS可以提供更高效，更具反应性和更自适应的控制。但是，由于DSS和AS通常部署在许多用户之间并且可能影响多个利益相关者，因此公平性因素对于这些系统成功运行并被所有不同方接受至关重要。因此，两个系统都需要在其解决方案中高效，但对其用户或利益相关者也是公平的。传统（例如，实用）方法包括优化单个累积成本/效用函数（例如，功耗，QoS，QoE，财务和/或生态成本）而没有任何公平性考虑因此是不够的，因为为了达到整体最佳，一些用户/利益相关者的效用可能被不公正地牺牲。为了考虑每个用户/利益相关者的福利，需要一个多目标公式，其中每个目标可以被解释为一个用户/利益相关者的成本/效用。然而，标准的多目标方法通常侧重于计算帕累托最优解的集合（在一个目标上不能改进的解决方案，而不会使另一个目标恶化）。这在实践中是不可行的，因为（1）这个集合可能非常大，（2）在AS的情况下，只有一个特定的解决方案可以自动应用，而且，（3）帕累托最优性本身不编码任何公平的概念。因此，需要一种专门用于在帕累托最优解决方案中选择公平解决方案的方法。

随着人工智能和机器学习的应用开始渗透到我们的日常生活中，专家，政策制定者和公众开始意识到关于公平，道德和安全的问题是必不可少的。事实上，DSS和AS不应歧视我们，应该旨在真正帮助而不是伤害我们。本文提出的问题符合这一新的增长趋势，该趋势旨在强制执行更多的人类和社会标准来衡量人工系统的质量。为了实现这一目标，我们描述了一种跨学科方法，该方法利用了在经济学（公平模型），应用数学（优化和统计学）和计算机科学（机器学习）中开发的结果。具体而言，我们在顺序决策问题中描述它。

2 问题制定

在高层次上，公平的顺序决策问题可以理解为解决非线性凸优化问题1，其中福利函数编码效率和公平性，汇总了每个用户/利益相关者的效用：

其中是策略，π是公平福利函数（例如，GGI），是初始状态的概率分布，V是多目标值函数（例如，预期折现或平均奖励）。这个新问题的难点在于目标函数的非线性，这改变了最优策略的属性并阻止了动态规划或时间差分方法的直接应用。然而，可以利用公平福利函数的属性（例如，凹度，Schur-concavity，可分解性等）和顺序决策问题的那些（例如，时间结构）来设计找到公平策略的有效方法。

3 初步实验结果

为了证明我们命题的潜在用途，我们在交通灯控制问题上进行了一些初步实验，因为这样的环境相对容易模拟。我们使用SUMO2（参见图1的顶部用于说明）来模拟在不同交通条件下总共8个车道的一个交叉点。解决此问题的标准方法通常可以最大限度地减少所有通道的预期等待时间。在我们的表述中，我们学习了一种交通控制器，该控制器试图最小化每条车道的预期等待时间，同时确保强制执行每条车道上的一些公平概念。在我们的实验中，我们使用广义基尼指数并采用DQN算法[Mnih等，2015]来近似优化它。虽然我们在交通信号灯领域说明了这种方法，但该方法可以应用于各种其他顺序决策问题。图1（下图）显示了一些初始结果（平均超过20次运行），我们将我们提出的方法（橙色的GGIDQN）与标准方法（蓝色的DQN）进行比较，最小化了所有通道的预期等待时间。正如预期的那样，DQN在所有通道上获得的平均等待时间较短（因为它优化了这个标准）比GGI-DQN：420.72对比427.05（在模拟器的时间步长中）。然而，标准方法的每条车道的平均等待时间具有不均等的分布，而我们的方法提供了更公平的等待时间分布。

4 结论

在本文中，我们主张在机器学习任务中使用公平福利函数，并在强化学习中更具体地证明了这一点。我们认为公平优化的主题在机器学习中是新颖的并且具有重要意义，因为它自然地提供了考虑所有相关方的福利的解决方案。作为未来的工作，我们计划在深度RL设置中开发更有效的算法，以优化不同的公平福利功能，并可能将方法扩展到其他机器学习任务。

 50

上一篇： 4款小米充电器评测比较:输出、价格、快充规格、特点
下一篇： OPPO Reno 2 10倍变焦版AI相机表现不逊Reno