RLReinforcement Learning強化学習(きょうかがくしゅう)中級Core Concepts環境内での行動に対する報酬やペナルティを受けてエージェントが意思決定を学習する機械学習の手法。なぜ重要かRLはゲームAI、ロボティクスを支え、言語モデルと人間の好みの整合(RLHF)の鍵となります。実際の活用例DeepMindのAlphaGoが自分自身と数百万回対局して囲碁を学習した例。