强化学习10种真实的奖励与惩罚应用_编码机市场

当前位置： 编码机 >> 编码机市场 >> 强化学习10种真实的奖励与惩罚应用

强化学习10种真实的奖励与惩罚应用

发布时间:2023/4/11 18:08:13

作者

Patrycja

翻译

Katie，责编

晋兆雨

出品

AI科技大本营

头图

付费下载于视觉中国

在强化学习（ReinforcementLearning）中，对代理进行奖励和惩罚机制的培训。代理的正确行为会得到奖励，而错误的行为会受到惩罚。在这样做时，代理试图将错误降到最低并将正确率提高。

在本文中，我们将研究强化学习的一些实际应用。

在自动驾驶汽车中的应用

各种论文都提出了“深度强化学习用于自动驾驶”。在自动驾驶汽车中，要考虑很多方面，例如在各个地方的速度限制，可驾驶区域，避免碰撞。下面仅举几例。

可以应用强化学习的一些自动驾驶任务包括轨迹优化，运动计划，动态路径，控制器优化以及基于场景的高速公路学习策略。

例如，可以通过学习自动停车策略来实现停车。可以使用Q-Learning来实现车道变更，同时可以通过学习超车策略来实现超车，同时避免碰撞并保持稳定的速度。

AWSDeepRacer是一款自动驾驶赛车，旨在在物理轨道上测试强化学习。它使用摄像头将跑道可视化，并使用强化学习模型来控制油门和方向。

Wayve.ai已成功地将强化学习应用于汽车的日常驾驶培训。他们使用深度强化学习算法来解决车道跟踪任务。他们的网络架构是具有4个卷积层和3个完全连接层的深度网络。

强化学习的行业自动化

在行业增强中，基于学习的机器人用于执行各种任务。除了这些机器人比人类更有效的事实外，它们还可以执行对人类危险的任务。

一个很好的例子是Deepmind使用AI代理来冷却Google数据中心。这导致能源支出减少了40％。现在，这些中心已由AI系统完全控制，而无需人工干预。显然，仍然有数据中心专家的监督。该系统以以下方式工作：

每五分钟从数据中心获取数据快照，并将其提供给深度神经网络然后预测不同的组合将如何影响未来的能源消耗确定将在保持设定的安全标准标准的同时将功耗降至最低的措施在数据中心发送并执行这些操作这些动作由本地控制系统验证。

强化学习在贸易和金融中的应用

监督时间序列模型可用于预测未来销售以及预测股票价格。但是，这些模型无法确定要以特定股票价格采取的行动。输入强化学习（RL）。强化学习代理可以决定执行此任务；是否持有，购买或出售。强化学习模型使用市场基准标准进行评估，以确保其表现最佳。

这种自动化为流程带来了一致性，这与以前的方法不同，以前的方法需要分析师做出每个决定。例如，IBM有一个复杂的基于强化学习的平台，该平台具有进行金融交易的能力。它基于每次金融交易的损失或利润来计算奖励函数。

NLP（自然语言处理）中的强化学习

在NLP中，仅举几例，RL可用于文本摘要，问题解答和机器翻译。

EunsolChoi，DanielHewlett和JakobUszkoreit提出了一种基于强化学习的方法来回答给定的长篇文章。他们的方法是通过首先从文档中选择一些与回答问题相关的句子来工作的。然后采用慢RNN来生成所选句子的答案。

这篇文章将监督学习和强化学习相结合，用于抽象概括文本摘要，由RomainPaulus，熊彩明和RichardSocher撰写。他们的目标是解决在较长文档中使用基于RNN的Attentional编码器-解码器模型时汇总中遇到的问题。此文提出了一种具有新颖的内部注意力的神经网络，它可以参与输入并连续不断地单独产生输出。他们的训练方法是标准的监督单词预测和强化学习的组合。（论文链接：

转载请注明:http://www.aideyishus.com/lkjg/4066.html

------分隔线----------------------------

上一篇文章：谁还用网盘啊简单几步打造属于自己的家庭
下一篇文章：没有了

热点文章

高音质时代近了厂商大力推广新编

强化学习10种真实的奖励与惩罚应用

最新文章

热点文章

推荐文章