RL(Reinforcement Learning)

Value-based 主要是學習值函數 Q(s, a)，也就是 Q- value : 它會估計在每種狀態 State(t) 下採取不同動作 Action(t) 的期望值。並且會根據 Q(s, a) 選擇具有最大值的 Action，以最大化預期獎勵(Expected reward)。

例子： Q-learning 和 Deep Q-Network (DQN) （之後會介紹）

Policy-based 主要是直接學習和優化 Agent 的策略，在每個狀態下，它會學習應該選擇哪個 Action(t) 的機率分佈，並且試圖找到一個策略，使 Agent 在環境中獲得最大的累積獎勵。

這種方法通常適用於具有連續動作空間或高維狀態空間的問題，例如機器人控製或自然語言處理，因為這些問題的策略通常不容易透過值函數表示。

例子： Proximal Policy Optimization (PPO) （之後會介紹）