Search image

【深層学習】GNMT - Google翻訳の中身を解説!(2016)【ディープラーニングの世界 vol. 26】#103 #VRアカデミア #DeepLearning

高評価: 327件

再生: 12,125回

公開日: 2021年6月04日

☆お知らせ☆
AIcia Solid Project 公式HPが出来ました!!!
https://sites.google.com/view/aicia-official/top
HPでは私たちや動画コンテンツの紹介、板書データの公開などをしています。是非ご活用ください!!

▼テーマ
Google翻訳の中身を解説します!
これは2016年時点でのモデルなので、現在はもうちょっと進んだモデルが利用されています。
2021年5月時点では、一部 Transformer も利用されています。その話題にもちょっと触れています!

▼関連動画
Deep Learning の世界 https://www.youtube.com/playlist?list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP

自然言語処理シリーズ https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4XdCRjUCC0_flR00A6tJR

Attention の動画 → https://www.youtube.com/watch?v=bPdyuIebXWM&t=1s
RNN の動画(ここから3本) → https://www.youtube.com/watch?v=NJdrYvYgaPM&list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP&index=8
LSTM の動画 → https://www.youtube.com/watch?v=oxygME2UBFc

▼目次
00:00 OP
=== 1. 時代背景 ===
00:44 論文紹介と時代背景
02:10 当時の問題点
=== 2. モデル ===
04:33 モデルの全体像を掴もう
10:02 Encoder部分の仕組みと工夫
11:47 Decoder部分の仕組みと工夫
13:14 Attention部分の仕組みと工夫
19:01 Decoder部分の更なる工夫に迫る
19:30 BEAM search とは何か?
22:26 工夫①:length normalization
25:05 工夫②:coverage penalty
29:39 Decoder部分の工夫まとめ!
=== 3.いろんな工夫 ===
31:06 やっぱりGoogleは凄かった。
31:28 ①高速化の工夫
34:30 ②レア単語への対応
37:18 ③学習の工夫
39:50 ④モデルの評価
41:22 本日の振り返りタイム
42:21 ED

▼参考文献
[1609.08144] Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation
https://arxiv.org/abs/1609.08144
原論文! Production レベルの深層学習がどういうものかがひしひしを伝わってきます。
というか、ここまで細部書けるのは Google 内部にあるデータのおかげなんでしょうね。すごい

[1508.07909] Neural Machine Translation of Rare Words with Subword Units
https://arxiv.org/abs/1508.07909
サブワード分割についてはこちらの論文に詳しいです!

Google AI Blog: Recent Advances in Google Translate
https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html
最近(2021年5月時点)での update はこちら!

【2019年版】自然言語処理の代表的なモデル・アルゴリズム時系列まとめ - Qiita https://qiita.com/LeftLetter/items/14b8f10b0ee98aa181b7
いろいろこれを参考にして動画を作っています

▼原論文との記号の対応
説明の都合上、LSTM cell の入出力で、現論文とは結構記号を変えています。(そして変え方を1箇所ミスしました)
ここに対応表を載せておきます。
[原論文]
Encoder の i 層目の LSTM セルの t 番目の出力の計算:
c^i_t, m^i_t = LSTM_i(c^i_{t-1}, m^i_{t-1}, x^{i-1}_t; W^i)
c: context vector
m: output vector
x: input vector
W: parameter

[動画]
Decoder の j 層目の LSTM セルの i 番目の出力の計算:
m^{(j)}_i, y^{(j)}_i = LSTM(m^{(j)}_{i-1}, y^{(j)}_{i-1}, y^{(j-1)}_i, a_i)
m: context vector (現論文の c に対応(ここが分かりづらい!))
y: output vector
a: attention vector

[補足]
・現論文内の数式は Encoder で、動画内の数式は Decoder です。
→そのため、現論文には書いていない attention vector が動画内にはあります。
・動画ではパラメーターは省略しました
・現論文の Attention の入力に用いられている記号が y だったので、それに合わせるため、動画内の output vector の表記を y に変更しました
・その際、現論文の c を半ば誤って動画では m と表記してしまいました(ここが分かりづらい!)

[LSTM動画] ( https://www.youtube.com/watch?v=oxygME2UBFc )
y^{(t)}, h^{(t)}, c^{(t)} = LSTM(x^{(t-1)}, h^{(t-1)})
y: output vector
h: hidden vector
c: context vector
x: input vector

▼終わりに
ご視聴ありがとうございました!
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄やTwitterにどうぞ!
お仕事、コラボのご依頼は、TwitterのDMからお願い致します。
動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ )
動画編集:AIris Solid (妹) (Twitter: https://twitter.com/AIris_Solid/ )
=======
Logo: TEICAさん ( https://twitter.com/T_E_I_C_A )
Model: http://3d.nicovideo.jp/works/td44519
Model by: W01fa さん ( https://twitter.com/W01fa )

説明文の続きを見る

UnnamedAIcia Solid Project

SomethingDeep Learning の世界

  1. 【深層学習】ディープラーニングとは関数近似器である【ディープラーニングの世界 vol. 1 】 #050 #VRアカデミア #DeepLearning
  2. 【深層学習】学習 - なぜ必要なのか?何をするのか?【ディープラーニングの世界 vol. 2 】 #052 #VRアカデミア #DeepLearning
  3. 【深層学習】関数 - なぜ「深さ」が AI を生み出しているのか?【ディープラーニングの世界 vol. 3 】 #054 #VRアカデミア #DeepLearning
  4. 【深層学習】全結合層 - それはいちばん大事な部品のお話【ディープラーニングの世界 vol. 4 】 #055 #VRアカデミア #DeepLearning
  5. 【深層学習】畳み込み層の本当の意味、あなたは説明できますか?【ディープラーニングの世界 vol. 5 】 #057 #VRアカデミア #DeepLearning
  6. 【深層学習】プーリング層 - シンプルだけど大きな役割を担う層【ディープラーニングの世界 vol. 6 】 #058 #VRアカデミア #DeepLearning
  7. 【深層学習】CNN 実装してみた【ディープラーニングの世界 vol. 7 】 #059 #VRアカデミア #DeepLearning
  8. 【深層学習】RNN の意味を徹底解説!【ディープラーニングの世界 vol. 8 】 #062 #VRアカデミア #DeepLearning
  9. 【深層学習】RNN の3通りの使い方 - RNN の混乱ポイントを倒す!【ディープラーニングの世界 vol. 9 】 #064 #VRアカデミア #DeepLearning
  10. 【深層学習】GRU - RNN に記憶をもたせる試みその1【ディープラーニングの世界 vol. 10 】 #066 #VRアカデミア #DeepLearning #GatedRecurrentUnit
  11. 【深層学習】LSTM - RNN に記憶をもたせる試みその2【ディープラーニングの世界 vol. 11 】 #067 #VRアカデミア #DeepLearning
  12. 【深層学習】bi-LSTM - 前後の文脈を利用する Recurrent layer【ディープラーニングの世界 vol. 12 】 #070 #VRアカデミア #DeepLearning
  13. 【深層学習】CNN紹介 "LeNet" 1990年代に活躍したCNN【ディープラーニングの世界 vol. 13 】 #076 #VRアカデミア #DeepLearning
  14. 【深層学習】CNN紹介 "AlexNet" 2012年に登場し、画像処理に革命を起こしたモデル【ディープラーニングの世界 vol. 14 】 #077 #VRアカデミア #DeepLearning
  15. 【深層学習】CNN紹介 "GoogLeNet" ILSVRC2014をInceptionで制したモデル【ディープラーニングの世界 vol. 15】#078 #VRアカデミア #DeepLearning
  16. 【深層学習】 CNN 紹介 "VGGNet" シンプルで強い転移学習の味方【ディープラーニングの世界 vol. 16】#079 #VRアカデミア #DeepLearning
  17. 【深層学習】 CNN 紹介 "ResNet" 言わずとしれた CNN の標準技術が登場!【ディープラーニングの世界 vol. 17】#080 #VRアカデミア #DeepLearning
  18. 【深層学習】 CNN 紹介 "Xception" 大胆仮説でパラメタ削減と汎化を達成【ディープラーニングの世界 vol. 18】#081 #VRアカデミア #DeepLearning
  19. 【深層学習】SENet - 「圧縮興奮機構」による性能向上【ディープラーニングの世界 vol. 19】#082 #VRアカデミア #DeepLearning
  20. 【深層学習】RNNLM - 自然言語処理に革命を起こした RNN について【ディープラーニングの世界 vol. 20】#087 #VRアカデミア #DeepLearning
  21. 【深層学習】word2vec - 単語の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 21】#089 #VRアカデミア #DeepLearning
  22. 【深層学習】word2vec の数理 - なぜ単語の計算が可能なのか【ディープラーニングの世界 vol. 22】#090 #VRアカデミア #DeepLearning
  23. 【深層学習】doc2vec - 文章の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 23】#093 #VRアカデミア #DeepLearning
  24. 【深層学習】Attention - 全領域に応用され最高精度を叩き出す注意機構の仕組み【ディープラーニングの世界 vol. 24】#095 #VRアカデミア #DeepLearning
  25. 【深層学習】fasttext - 単語の内部構造を利用した版 word2vec 【ディープラーニングの世界 vol. 25】#097 #VRアカデミア #DeepLearning
  26. 【深層学習】GNMT - Google翻訳の中身を解説!(2016)【ディープラーニングの世界 vol. 26】#103 #VRアカデミア #DeepLearning
  27. 【深層学習】SCDV - 文章ベクトルをソフトクラスタとスパース化で精度アップ!【ディープラーニングの世界 vol. 27】#104 #VRアカデミア #DeepLearning
  28. 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
  29. 【深層学習】忙しい人のための Transformer と Multi-Head Attention【ディープラーニングの世界 vol.29 】#107 #VRアカデミア #DeepLearning
  30. 【深層学習】ELMo - 複数粒度の文脈情報を持つ単語ベクトルで広範囲のタスク性能改善【ディープラーニングの世界vol.30】#108 #VRアカデミア #DeepLearning
  31. 【深層学習】GPT - 伝説の始まり。事前学習とファインチューニングによるパラダイムシフト【ディープラーニングの世界vol.31】#109 #VRアカデミア #DeepLearning
  32. 【深層学習】BERT - 実務家必修。実務で超応用されまくっている自然言語処理モデル【ディープラーニングの世界vol.32】#110 #VRアカデミア #DeepLearning
  33. 【深層学習】GPT-2 - 大規模言語モデルの可能性を見せ、社会もざわつかせたモデルの仕組み【ディープラーニングの世界vol.33】#113 #VRアカデミア #DeepLearning
  34. 【深層学習】XLNet 前編 - BERT の事前学習を工夫して強くなりました【ディープラーニングの世界vol.34-1】#114 #VRアカデミア #DeepLearning
  35. 【深層学習】XLNet 後編 - 事前学習と推論時のモデルの違いを押さえよう【ディープラーニングの世界vol.34-2】#115 #VRアカデミア #DeepLearning
  36. 【深層学習】RoBERTa - データと学習方法だけで XLNet を超えたモデル【ディープラーニングの世界vol.35】#118 #VRアカデミア #DeepLearning
  37. 【深層学習】ALBERT - BERT の軽量版!Multi-Head Attention の新たな可能性【ディープラーニングの世界vol.36】#119 #VRアカデミア #DeepLearning
  38. 【深層学習】T5 - 入出力をテキストにする Transformer の新利用法【ディープラーニングの世界vol.37】#122 #VRアカデミア #DeepLearning
  39. 【深層学習】Scaling Law - 大きい Transformer は強い【ディープラーニングの世界vol.38】#123 #VRアカデミア #DeepLearning
  40. 【深層学習】GPT-3 ①-1 モデルと Sparse Transformer について【ディープラーニングの世界vol.39】#124 #VRアカデミア #DeepLearning
  41. 【深層学習】GPT-3 ①-2 追加学習なしでタスクに対応する仕組み【ディープラーニングの世界vol.39-2】#125 #VRアカデミア #DeepLearning
  42. 【深層学習】GPT-3 ② 限界と今後の研究テーマ【ディープラーニングの世界vol.40】#126 #VRアカデミア #DeepLearning
  43. 【深層学習】GPT-3 ③ 社会的影響編 - AIを誤用しないために【ディープラーニングの世界vol.41】#127 #VRアカデミア #DeepLearning

Pickup iconPick upチャンネル

Suicaの仕組みやメントスコーラなど、身近にある不思議な現象について中学生にも分かるように丁寧に解説してくれています。科学ネタに明るくなりたい人は要チェック!

Studytube icon 96ログイン

Interview header 360 Question header 360
Studytuber banner 300

Studytube icon 96チャンネル登録

教育系のYouTubeチャンネルを運営されている方はチャンネル情報の登録に是非ご協力ください。ログイン後、読み込みボタンをクリックすることでチャンネルデータが自動で読み込まれます。

Studytube icon 96ご意見・ご感想

※お返事が必要な場合はお問い合わせからお願いいたします。