【強化学習】ベルマン最適方程式 - 最適方策は収益が最大なのだ【強化学習の基礎方程式②】RL vol. 10 #168 #VRアカデミア #ReinforcementLearning

高評価: 177件

再生: 8,007回

公開日: 2024年1月12日

最適方策という強い方策がありまして、それ使っておけばあらゆる場面で収益最大になるんです。
その場合のベルマン方程式がベルマン最適方程式。再び2手先を読む考え方で、今後大活躍します！

誤字脱字多くてごめんなさい！

【プレイリスト】
https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR

【目次】
00:00 オープニング
00:43 おわび
00:59 本編スタート！
01:22 最適方策
03:51 ベルマン最適方程式
07:28 記号の復習
13:10 ベルマン最適方程式の正体
13:30 ステップ１：状態の次は行動
17:12 ステップ２：行動の次は報酬と次の状態
20:07 ステップ３：いざベルマン最適方程式！
24:32 まとめ
26:34 エンディング
27:14 エンディングトーク

【参考文献】
分析モデル入門
https://amzn.to/3Ng0nC7
私の本！　この動画シリーズは、この第3部強化学習の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。
合わせてみていただくと分かり易いかと！

強化学習（第2版）
https://amzn.to/3K4QsR8
Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ！
ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/

強化学習 (機械学習プロフェッショナルシリーズ)
https://amzn.to/44R2XYr
理論家向けの方にはこちら！
しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。

機械学習スタートアップシリーズ Pythonで学ぶ強化学習
https://amzn.to/3XYDrOM
手を動かしながら学びたい人向け！
サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます！

将棋AIで学ぶディープラーニング
https://www.amazon.co.jp/dp/B07B7JJ929
強化学習というと、将棋 AI を思い浮かべる人も少なくないはず！
そういう人におすすめ！
将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。
将棋を目指す方は、ぜひこれを見てみてください！
更に強いのを作るならこれ → https://amzn.to/3pU1aDa

強化学習の基礎と深層強化学習
https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning
合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。

【宣伝：本も買ってね！】
データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました！
本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7

【宣伝2：クラファンやってるよ！】
活動継続のためのご支援をお願いしています。詳細はこちら！
クラファン（月額）はこちら → https://community.camp-fire.jp/projects/view/709000
（クラファン始めた理由の動画 → https://www.youtube.com/watch?v=vXY34njwL4o ）

【終わりに】
ご視聴ありがとうございました！
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄や Twitter にどうぞ！
お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。

AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top
動画生成：AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ )
動画編集：AIbis Solid (妹)

=======

Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio )
Model: http://3d.nicovideo.jp/works/td44519
Model by: W01fa さん ( https://twitter.com/W01fa )