【深層学習】ALBERT - BERT の軽量版!Multi-Head Attention の新たな可能性【ディープラーニングの世界vol.36】#119 #VRアカデミア #DeepLearning
高評価: 192件
再生: 6,971回
公開日: 2021年10月22日
BERT の重みを Transformer block またいで共有したり、 パラメタの多い Embedding を工夫したりなどの工夫で圧倒的に軽量化しています。
Multi-Head Attention が、全レイヤーで同じ重み使っていてもちゃんと動作するというのは、なかなか味わい深い事実だと思います。パラメタ数の計算に誤りがありました
通常の場合、 E x H は 30,720k, 128,800k と、0が1つ多いです
動画内の誤り一覧 http://bit.ly/error_asp▼関連動画
Transformer の動画はこちら! https://www.youtube.com/watch?v=50XvMaWhiTY
忙しい人向け → https://www.youtube.com/watch?v=FFoLqib6u-0
BERT → https://www.youtube.com/watch?v=IaTCGRL41_kDeep Learning の世界 https://www.youtube.com/playlist?list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP
自然言語処理シリーズ https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4XdCRjUCC0_flR00A6tJR
▼参考文献
Lan, Zhenzhong, et al. "Albert: A lite bert for self-supervised learning of language representations." arXiv preprint arXiv:1909.11942 (2019).
https://arxiv.org/abs/1909.11942
原論文!
今回省略した面白い技法も載っているので、軽量化似興味がある人は是非読んでみよう!【2019年版】自然言語処理の代表的なモデル・アルゴリズム時系列まとめ - Qiita https://qiita.com/LeftLetter/items/14b8f10b0ee98aa181b7
いろいろこれを参考にして動画を作っています▼目次
00:00 OP
00:28 ALBERTの概要説明
03:58 工夫その①
11:50 工夫その②
16:06 工夫その③
19:31 ED▼関連動画
Transformer の動画はこちら! https://www.youtube.com/watch?v=50XvMaWhiTY
忙しい人向け → https://www.youtube.com/watch?v=FFoLqib6u-0
BERT → https://www.youtube.com/watch?v=IaTCGRL41_kDeep Learning の世界 https://www.youtube.com/playlist?list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP
自然言語処理シリーズ https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4XdCRjUCC0_flR00A6tJR
▼参考文献
Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).
https://arxiv.org/abs/1907.11692
原論文!
やってることが素直でシンプルなので、論文もシンプル。
こういう改善方法を取ると、こういう論文になるのだなと勉強になりました。【2019年版】自然言語処理の代表的なモデル・アルゴリズム時系列まとめ - Qiita https://qiita.com/LeftLetter/items/14b8f10b0ee98aa181b7
いろいろこれを参考にして動画を作っています▼終わりに
ご視聴ありがとうございました!
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄やTwitterにどうぞ!
お仕事、コラボのご依頼は、公式 WebPage や TwitterのDMからお願い致します。
AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top
動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ )
動画編集:AIris Solid (妹) (Twitter: https://twitter.com/AIris_Solid/ )=======
Logo: TEICAさん ( https://twitter.com/T_E_I_C_A )
Model: http://3d.nicovideo.jp/works/td44519
Model by: W01fa さん ( https://twitter.com/W01fa )
説明文の続きを見る
自然言語処理シリーズ
- ▲ 前の10件を見る
- 【深層学習】BERT - 実務家必修。実務で超応用されまくっている自然言語処理モデル【ディープラーニングの世界vol.32】#110 #VRアカデミア #DeepLearning
- 【深層学習】GPT-2 - 大規模言語モデルの可能性を見せ、社会もざわつかせたモデルの仕組み【ディープラーニングの世界vol.33】#113 #VRアカデミア #DeepLearning
- 【深層学習】XLNet 前編 - BERT の事前学習を工夫して強くなりました【ディープラーニングの世界vol.34-1】#114 #VRアカデミア #DeepLearning
- 【深層学習】XLNet 後編 - 事前学習と推論時のモデルの違いを押さえよう【ディープラーニングの世界vol.34-2】#115 #VRアカデミア #DeepLearning
- 【深層学習】RoBERTa - データと学習方法だけで XLNet を超えたモデル【ディープラーニングの世界vol.35】#118 #VRアカデミア #DeepLearning
- 【深層学習】ALBERT - BERT の軽量版!Multi-Head Attention の新たな可能性【ディープラーニングの世界vol.36】#119 #VRアカデミア #DeepLearning
- 【深層学習】T5 - 入出力をテキストにする Transformer の新利用法【ディープラーニングの世界vol.37】#122 #VRアカデミア #DeepLearning
- 【深層学習】Scaling Law - 大きい Transformer は強い【ディープラーニングの世界vol.38】#123 #VRアカデミア #DeepLearning
- 【深層学習】GPT-3 ①-1 モデルと Sparse Transformer について【ディープラーニングの世界vol.39】#124 #VRアカデミア #DeepLearning
- 【深層学習】GPT-3 ①-2 追加学習なしでタスクに対応する仕組み【ディープラーニングの世界vol.39-2】#125 #VRアカデミア #DeepLearning
- 【深層学習】GPT-3 ② 限界と今後の研究テーマ【ディープラーニングの世界vol.40】#126 #VRアカデミア #DeepLearning
- ▼ 次の10件を見る
Deep Learning の世界
深層学習について、その基礎から GPT シリーズまでを解説しています。 今後、ChatGPT 以降の発展を追加予定です。
- ▲ 前の10件を見る
- 【深層学習】BERT - 実務家必修。実務で超応用されまくっている自然言語処理モデル【ディープラーニングの世界vol.32】#110 #VRアカデミア #DeepLearning
- 【深層学習】GPT-2 - 大規模言語モデルの可能性を見せ、社会もざわつかせたモデルの仕組み【ディープラーニングの世界vol.33】#113 #VRアカデミア #DeepLearning
- 【深層学習】XLNet 前編 - BERT の事前学習を工夫して強くなりました【ディープラーニングの世界vol.34-1】#114 #VRアカデミア #DeepLearning
- 【深層学習】XLNet 後編 - 事前学習と推論時のモデルの違いを押さえよう【ディープラーニングの世界vol.34-2】#115 #VRアカデミア #DeepLearning
- 【深層学習】RoBERTa - データと学習方法だけで XLNet を超えたモデル【ディープラーニングの世界vol.35】#118 #VRアカデミア #DeepLearning
- 【深層学習】ALBERT - BERT の軽量版!Multi-Head Attention の新たな可能性【ディープラーニングの世界vol.36】#119 #VRアカデミア #DeepLearning
- 【深層学習】T5 - 入出力をテキストにする Transformer の新利用法【ディープラーニングの世界vol.37】#122 #VRアカデミア #DeepLearning
- 【深層学習】Scaling Law - 大きい Transformer は強い【ディープラーニングの世界vol.38】#123 #VRアカデミア #DeepLearning
- 【深層学習】GPT-3 ①-1 モデルと Sparse Transformer について【ディープラーニングの世界vol.39】#124 #VRアカデミア #DeepLearning
- 【深層学習】GPT-3 ①-2 追加学習なしでタスクに対応する仕組み【ディープラーニングの世界vol.39-2】#125 #VRアカデミア #DeepLearning
- 【深層学習】GPT-3 ② 限界と今後の研究テーマ【ディープラーニングの世界vol.40】#126 #VRアカデミア #DeepLearning
- ▼ 次の10件を見る
アイシア動画
- ▲ 前の10件を見る
- 【深層学習】XLNet 前編 - BERT の事前学習を工夫して強くなりました【ディープラーニングの世界vol.34-1】#114 #VRアカデミア #DeepLearning
- 【深層学習】XLNet 後編 - 事前学習と推論時のモデルの違いを押さえよう【ディープラーニングの世界vol.34-2】#115 #VRアカデミア #DeepLearning
- 【数量化III類の数理①】相関係数を選好行列から計算する - 線形代数の演舞!【数量化理論 - 数理編 vol. 5】 #116 #VRアカデミア
- 【数量化III類の数理②】Lagrange の未定乗数法による最適化【数量化理論 - 数理編 vol. 6】 #117 #VRアカデミア
- 【深層学習】RoBERTa - データと学習方法だけで XLNet を超えたモデル【ディープラーニングの世界vol.35】#118 #VRアカデミア #DeepLearning
- 【深層学習】ALBERT - BERT の軽量版!Multi-Head Attention の新たな可能性【ディープラーニングの世界vol.36】#119 #VRアカデミア #DeepLearning
- 【数量化III類の数理③】特異値分解とはなにか【数量化理論 - 数理編 vol. 7】 #120 #VRアカデミア
- 【数量化III類の数理④】謎の固有値問題は特異値分解による往復移動なのだ【数量化理論 - 数理編 vol. 8】 #121 #VRアカデミア
- 【深層学習】T5 - 入出力をテキストにする Transformer の新利用法【ディープラーニングの世界vol.37】#122 #VRアカデミア #DeepLearning
- 【深層学習】Scaling Law - 大きい Transformer は強い【ディープラーニングの世界vol.38】#123 #VRアカデミア #DeepLearning
- 【深層学習】GPT-3 ①-1 モデルと Sparse Transformer について【ディープラーニングの世界vol.39】#124 #VRアカデミア #DeepLearning
- ▼ 次の10件を見る
人気のチャンネル
予備校のノリで学ぶ「大学の数学・物理」
予備校のノリで学ぶ「大学の数学・物理」のチャンネルでは主に ①大学講座:大学レベルの理系科目 ②高校講座:受験レベルの理系科目 の授業動画を...
1,260,000人
661本
313,350,689回
4,685,206件
【楽しい授業動画】あきとんとん
ただの塾講師。 勉強が苦手な人のために,動画をあげていきたいと思います。 気付いたら,勉強の知識が入っていた!!ってぐらい楽しい授業を目...
630,000人
924本
42,184,016回
823,036件
YouTube高校 / 日本史・世界史
日本中を回って撮影した映像で日本史解説の動画を作っています Twitter:Y_Eschool Instagram:You.ele....
621,000人
407本
124,951,664回
908,134件





ラッキー動画







