Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
3 changes: 2 additions & 1 deletion docs/强化学习.md
Original file line number Diff line number Diff line change
Expand Up @@ -62,7 +62,8 @@

### DQN的两个关键trick分别是什么?

- [ ] TODO
- Replay buffer: 经验回放,训练过程中从经验池中随机采样更新网络参数,一方面打破样本相关性,另一方面提高样本效率(一个样本可能多次参与网络参数更新)
- Fixed Q-targets: 在更新Q网络参数时,用以计算$q_{target}$的网络参数是上一次迭代前的网络参数$\theta_{i-1}$,当前q值是根据网络参数为$\theta_{i}$的Q网络得出,这也是一种打乱相关性的机理。

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

DQN的两个关键技巧描述准确,但可以进一步优化表述以提高可读性。

Suggested change
- Fixed Q-targets: 在更新Q网络参数时,用以计算$q_{target}$的网络参数是上一次迭代前的网络参数$\theta_{i-1}$,当前q值是根据网络参数为$\theta_{i}$的Q网络得出,这也是一种打乱相关性的机理
Replay buffer(经验回放):在训练过程中,将经验存储在经验池中,并随机采样用于更新网络参数。这种方法一方面打破了样本之间的相关性,另一方面提高了样本的利用效率(一个样本可能被多次用于网络参数更新)
Fixed Q-targets(固定Q目标):在更新Q网络参数时,用于计算$q_{target}$的网络参数是上一次迭代前的网络参数$\\theta_{i-1}$,而当前q值是根据网络参数为$\\theta_{i}$的Q网络得出。这也是一种打破相关性的机制。


### DQN 都有哪些变种?DQN有哪些改进方向?

Expand Down