Q学习 - 搜索

约 30,600,000 个结果

在新选项卡中打开链接

时间不限

zhihu.com
https://www.zhihu.com › question
如何用简单例子讲解 Q - learning 的具体过程？ - 知乎
我们可以通过强化学习（reinforcement learning）来解决小鸟怎么飞这个问题。强化学习中有状态（state）、动作（action）、奖赏（reward）这三个要素。智能体（Agent，指小鸟）会 …
zhihu.com
https://www.zhihu.com › tardis › bd › art
强化学习——从Q-Learning到DQN到底发生了什么？ - 知乎
2023年9月3日 · 回忆一下Q-Learning，我们更新Q表是利用每步的reward和当前Q表来迭代的。那么我们可以用这个计算出来的Q值作为监督学习的“标签”来设计Loss Function，我们采用如下 …
zhihu.com
https://www.zhihu.com › tardis › zm › art
年度书单之《深度强化学习图解》& 可能威胁人类的Q*？
2023年12月1日 · 由于 q 学习可能会偏离给定的策略，因此不需要定义的策略。 Q-learning 能给LLM带来什么？这个问题也是引起这次广泛讨论的原因，Q-learning在某种程度上具有改变现 …
zhihu.com
https://www.zhihu.com › question
为什么Q-learning是一种off-policy方法？ - 知乎
强化学习 (Reinforcement Learning) 为什么Q-learning是一种off-policy方法？最近在看Sutton和Barto写的强化学习(Reinforcement Learning : An Introduction)，我不明白为什么把Q-…
zhihu.com
https://www.zhihu.com › question
比较状态价值迭代与Q-Learning之间有哪些差异？ - 知乎
2022年12月7日 · 这是两个不同种类的方法，但都与贝尔曼方程相关。状态价值迭代是一种动态规划(DP)方法，Q-Learning是一种时序差分(TD)方法。我们比较这两个算法之间的差异，更深层 …
zhihu.com
https://www.zhihu.com › question
DQN 网络的算法原理是怎样的？ - 知乎
图1 强化学习中智能体和环境之间的迭代式交互. DQN即深度Q网络（Deep Q Network），是一种基于价值的算法。对于每一个状态 s 下所有可能动作 a 的动作价值函数 Q_w(s,a) ，可以通过 …
zhihu.com
https://www.zhihu.com › question
Q-learning中Q代表哪个单词？ - 知乎
据我所知Q-learning中的Q的含义是action-value-function。但我的老师说他叫Q-learning而不叫A-learning一…
zhihu.com
https://www.zhihu.com › question
Q-learning到底是无模型的还是有模型？ - 知乎
仔细看Q-Learning的更新公式（上面）就可以发现里面并没有状态转移概率Pr(s', r | s, a) 也就是说，强化学习算法中涉不涉及到状态转移概率的计算决定了该算法是model-free还是model-base …
zhihu.com
https://www.zhihu.com › tardis › bd › art
强化学习一：基础部分 - 知乎
2022年8月26日 · Q 学习基本Q学习. Q学习（Q-learning）是一种无模型（model-free）学习。这个算法核心就是两个矩阵：Q表和R表。Q表包含了用于实现策略的环境累积知识，R表每一行 …
zhihu.com
https://www.zhihu.com › question
强化学习，Q-learning的收敛性如何证明？ - 知乎
核心就是把Q-learning变形成Theorem 2中的随机过程的形式，然后验证这种形式的Q-learning是否满足Theorem 2中关于随机过程收敛的条件。值得一提的是，这里收敛的条件其实是大数定律 …
分页
- 1
- 2
- 3
- 4