【強化学習】ベルマン最適方程式 - 最適方策は収益が最大なのだ【強化学習の基礎方程式②】RL vol. 10 #168 #VRアカデミア #ReinforcementLearning
高評価: 177件
再生: 8,007回
公開日: 2024年1月12日
最適方策という強い方策がありまして、それ使っておけばあらゆる場面で収益最大になるんです。
その場合のベルマン方程式がベルマン最適方程式。再び2手先を読む考え方で、今後大活躍します!誤字脱字多くてごめんなさい!
【プレイリスト】
https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR【目次】
00:00 オープニング
00:43 おわび
00:59 本編スタート!
01:22 最適方策
03:51 ベルマン最適方程式
07:28 記号の復習
13:10 ベルマン最適方程式の正体
13:30 ステップ1:状態の次は行動
17:12 ステップ2:行動の次は報酬と次の状態
20:07 ステップ3:いざベルマン最適方程式!
24:32 まとめ
26:34 エンディング
27:14 エンディングトーク【参考文献】
分析モデル入門
https://amzn.to/3Ng0nC7
私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。
合わせてみていただくと分かり易いかと!強化学習(第2版)
https://amzn.to/3K4QsR8
Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ!
ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/強化学習 (機械学習プロフェッショナルシリーズ)
https://amzn.to/44R2XYr
理論家向けの方にはこちら!
しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。機械学習スタートアップシリーズ Pythonで学ぶ強化学習
https://amzn.to/3XYDrOM
手を動かしながら学びたい人向け!
サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます!将棋AIで学ぶディープラーニング
https://www.amazon.co.jp/dp/B07B7JJ929
強化学習というと、将棋 AI を思い浮かべる人も少なくないはず!
そういう人におすすめ!
将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。
将棋を目指す方は、ぜひこれを見てみてください!
更に強いのを作るならこれ → https://amzn.to/3pU1aDa強化学習の基礎と深層強化学習
https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning
合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。【宣伝:本も買ってね!】
データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました!
本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7【宣伝2:クラファンやってるよ!】
活動継続のためのご支援をお願いしています。詳細はこちら!
クラファン(月額)はこちら → https://community.camp-fire.jp/projects/view/709000
(クラファン始めた理由の動画 → https://www.youtube.com/watch?v=vXY34njwL4o )【終わりに】
ご視聴ありがとうございました!
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄や Twitter にどうぞ!
お仕事、コラボのご依頼は、公式 WebPage や Twitter の DM からお願い致します。AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top
動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ )
動画編集:AIbis Solid (妹)=======
Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio )
Model: http://3d.nicovideo.jp/works/td44519
Model by: W01fa さん ( https://twitter.com/W01fa )
説明文の続きを見る
強化学習の探検
強化学習の基礎から深層強化学習まで解説します。 将来的に、以下の内容をカバーする予定です: 1. 強化学習とは 2. 基礎的アルゴリズム (Tabular Reinforcement Learning) 3. 深層強化学習 (Deep Reinforcement Learning) 4. 探索技法 5. AlphaGo 6. LLM, Diffusion Models と強化学習
- ▲ 前の10件を見る
- 【強化学習】方策 - 行動選択の担い手【こいつを学習します】RL vol. 5 #157 #VRアカデミア #ReinforcementLearning
- 【強化学習】収益 - 「期待」「割引」収益ってなんだ!?【こいつを最大化します】RL vol. 6 #159 #VRアカデミア #ReinforcementLearning
- 【強化学習】価値関数 - 最適化の主役はこいつ!【価値関数を通して収益最大化】RL vol. 7 #161 #VRアカデミア #ReinforcementLearning
- 【強化学習】GPIと構造図 - 4つの対象の関係を図示して混乱と決別する!【強化学習は、探索と学習のループ】RL vol. 8 #164 #VRアカデミア #ReinforcementLearning
- 【強化学習】ベルマン期待方程式 - 2手先を読んで価値を算出【強化学習の基礎方程式】RL vol. 9 #166 #VRアカデミア #ReinforcementLearning
- 【強化学習】ベルマン最適方程式 - 最適方策は収益が最大なのだ【強化学習の基礎方程式②】RL vol. 10 #168 #VRアカデミア #ReinforcementLearning
- 【強化学習】方策反復法 - 方策評価と方策更新の繰り返しで最適方策を見つけよう!【GPIの元ネタ】RL vol. 11 #170 #VRアカデミア #ReinforcementLearning
- 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning
- 【強化学習】TD法 - 期待と不安が交じるベルマン作用素のデータ近似【強化学習の基礎アルゴリズム】RL vol. 13 #174 #VRアカデミア #ReinforcementLearning
- 【強化学習】Q学習 - データを用いて最適方策を学習【強化学習の基礎アルゴリズム】RL vol. 14 #176 #VRアカデミア #ReinforcementLearning
- 【強化学習】SARSA - こいつもデータを用いて最適方策を学習!【強化学習の基礎アルゴリズム】RL vol. 15 #178 #VRアカデミア #ReinforcementLearning
- ▼ 次の10件を見る
アイシア動画
- ▲ 前の10件を見る
- 【お披露目】と【重大発表】 #163 #VRアカデミア
- 【強化学習】GPIと構造図 - 4つの対象の関係を図示して混乱と決別する!【強化学習は、探索と学習のループ】RL vol. 8 #164 #VRアカデミア #ReinforcementLearning
- 【線形代数】多変量正規分布 - 線形代数から見ると独立変数がたくさん登場!【行列21多変量正規分布への応用】 #165 #VRアカデミア #線型代数入門
- 【強化学習】ベルマン期待方程式 - 2手先を読んで価値を算出【強化学習の基礎方程式】RL vol. 9 #166 #VRアカデミア #ReinforcementLearning
- 【クラウドファンディング】始めるよ!【ご支援よろしくお願いします】#167 #VRアカデミア
- 【強化学習】ベルマン最適方程式 - 最適方策は収益が最大なのだ【強化学習の基礎方程式②】RL vol. 10 #168 #VRアカデミア #ReinforcementLearning
- 【線形代数】対称行列の直交行列での対角化の証明 - 2次関数を直交した奴らに分解するよ。幾何と代数と解析全部登場!【行列22証明】 #169 #VRアカデミア #線型代数入門
- 【強化学習】方策反復法 - 方策評価と方策更新の繰り返しで最適方策を見つけよう!【GPIの元ネタ】RL vol. 11 #170 #VRアカデミア #ReinforcementLearning
- 【特異値分解①準備】特異値分解と対角化 - 似てるけど、使う場面が完全に異なるのです!【行列23特異値分解イントロ】 #171 #VRアカデミア #線型代数入門
- 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning
- 【特異値分解②】特異値分解 = 対応 + 特異値倍 ← この見方が最高!【行列24 Rui = μivi】 #173 #VRアカデミア #線型代数入門
- ▼ 次の10件を見る
人気のチャンネル
予備校のノリで学ぶ「大学の数学・物理」
予備校のノリで学ぶ「大学の数学・物理」のチャンネルでは主に ①大学講座:大学レベルの理系科目 ②高校講座:受験レベルの理系科目 の授業動画を...
1,270,000人
648本
252,190,711回
3,001,375件
【楽しい授業動画】あきとんとん
ただの塾講師。 勉強が苦手な人のために,動画をあげていきたいと思います。 気付いたら,勉強の知識が入っていた!!ってぐらい楽しい授業を目...
648,000人
943本
52,191,141回
979,523件
YouTube高校 / 日本史・世界史
日本中を回って撮影した映像で日本史解説の動画を作っています Twitter:Y_Eschool Instagram:You.ele....
637,000人
406本
128,400,126回
930,565件





ラッキー動画







