Search image

【自然言語処理】Elasticsearch 徹底解説 - スコアリングのロジックについて【Elasticsearch への道③】#086 #VRアカデミア

高評価: 168件

再生: 4,599回

公開日: 2020年12月18日

▼テーマ
Elasticsearch でも実践的に利用されている Lucene's Practical Scoring Function の紹介です。
日本語、英語の解説ブログの解説がほぼ全て誤っているという、 AI 的にはかなりつらい状況を乗り越えて、正しい情報をお伝えすることに成功しました。

▼関連プレイリスト
自然言語処理系プレイリスト
https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4XdCRjUCC0_flR00A6tJR

▼目次
00:00 OP
01:12 本題に入る前に注意点
==== 1.背景,定義 ====
02:34 Lucene's PSFの背景
03:20 検索の定式化と記号の定義
05:03 定義を眺める
==== 2.数式の意味 ====
06:17 全体像を掴もう
06:55 数式の意味(前半部分)
10:47 getBoost()の意味
11:49 normの意味
15:48 coordの意味
=========
16:48 本日のまとめ
18:27 ED

▼参考文献
TFIDFSimilarity (Lucene 7.6.0 API)
https://lucene.apache.org/core/7_6_0/core/org/apache/lucene/search/similarities/TFIDFSimilarity.html
本家本元!
Lucene では、 queryNoem は利用していないという差分がありますが、ここが原典です。
ただしちょっと解説は手薄です。

Lucene’s Practical Scoring Function | Elasticsearch: The Definitive Guide [2.x] | Elastic
https://www.elastic.co/guide/en/elasticsearch/guide/current/practical-scoring-function.html
Elasticsearch による解説です!
ここの説明も正しい!
解説も充実しているのですが、若干たらい回しにされたり、 deprecated に飛ばされたり、やや読み解くのは大変です。
(おそらく、世界中のすべての誤り系 blog は、ここの数式を転記ミスったり、それを翻訳したり、誤訳したり、、、そういう状況なのでしょう。)

Elasticsearch のスコア関数の数式の意味と仕組み - Lucene's Practical Socring Function - Atrae Tech Blog
https://atraetech.hatenablog.com/entry/lucene-practical-scoring-function
というわけで! 私が書きました! ここを読めばすべてがまとまっています!
(ま、動画の内容と一緒なので、動画見ればいいのですが)
今後、人に Elasticsearch のロジックの資料をおすすめするときは、この blog か、上記原典を紹介するようにしてください。
他の資料を展開するのであれば、嘘を嘘と見抜けないと難しいです。自信ない or 詳細に読んでる時間ない人は上記 blog を勧めてください。

▼終わりに
ご視聴ありがとうございました!
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄やTwitterにどうぞ!
お仕事、コラボのご依頼は、TwitterのDMからお願い致します。
動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ )
動画編集:AIris Solid (妹) (Twitter: https://twitter.com/AIris_Solid/ )
=======
Logo: TEICAさん ( https://twitter.com/T_E_I_C_A )
Model: http://3d.nicovideo.jp/works/td44519
Model by: W01fa さん ( https://twitter.com/W01fa )

説明文の続きを見る

UnnamedAIcia Solid Project

Something自然言語処理シリーズ

  1. 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
  2. 【自然言語処理】BM25 - tf-idfの進化系の実践類似度分析【Elasticsearch への道②】#085 #VRアカデミア
  3. 【自然言語処理】Elasticsearch 徹底解説 - スコアリングのロジックについて【Elasticsearch への道③】#086 #VRアカデミア
  4. 【深層学習】RNNLM - 自然言語処理に革命を起こした RNN について【ディープラーニングの世界 vol. 20】#087 #VRアカデミア #DeepLearning
  5. 【深層学習】word2vec - 単語の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 21】#089 #VRアカデミア #DeepLearning
  6. 【深層学習】word2vec の数理 - なぜ単語の計算が可能なのか【ディープラーニングの世界 vol. 22】#090 #VRアカデミア #DeepLearning
  7. 【深層学習】doc2vec - 文章の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 23】#093 #VRアカデミア #DeepLearning
  8. 【深層学習】Attention - 全領域に応用され最高精度を叩き出す注意機構の仕組み【ディープラーニングの世界 vol. 24】#095 #VRアカデミア #DeepLearning
  9. 【深層学習】fasttext - 単語の内部構造を利用した版 word2vec 【ディープラーニングの世界 vol. 25】#097 #VRアカデミア #DeepLearning
  10. 【深層学習】GNMT - Google翻訳の中身を解説!(2016)【ディープラーニングの世界 vol. 26】#103 #VRアカデミア #DeepLearning
  11. 【深層学習】SCDV - 文章ベクトルをソフトクラスタとスパース化で精度アップ!【ディープラーニングの世界 vol. 27】#104 #VRアカデミア #DeepLearning
  12. 【自然言語処理】BLEU - 定義は?どういう意味?何で利用されてるの?【機械翻訳の評価指標】#105 #VRアカデミア
  13. 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
  14. 【深層学習】忙しい人のための Transformer と Multi-Head Attention【ディープラーニングの世界 vol.29 】#107 #VRアカデミア #DeepLearning
  15. 【深層学習】ELMo - 複数粒度の文脈情報を持つ単語ベクトルで広範囲のタスク性能改善【ディープラーニングの世界vol.30】#108 #VRアカデミア #DeepLearning
  16. 【深層学習】GPT - 伝説の始まり。事前学習とファインチューニングによるパラダイムシフト【ディープラーニングの世界vol.31】#109 #VRアカデミア #DeepLearning
  17. 【深層学習】BERT - 実務家必修。実務で超応用されまくっている自然言語処理モデル【ディープラーニングの世界vol.32】#110 #VRアカデミア #DeepLearning
  18. 【深層学習】GPT-2 - 大規模言語モデルの可能性を見せ、社会もざわつかせたモデルの仕組み【ディープラーニングの世界vol.33】#113 #VRアカデミア #DeepLearning
  19. 【深層学習】XLNet 前編 - BERT の事前学習を工夫して強くなりました【ディープラーニングの世界vol.34-1】#114 #VRアカデミア #DeepLearning
  20. 【深層学習】XLNet 後編 - 事前学習と推論時のモデルの違いを押さえよう【ディープラーニングの世界vol.34-2】#115 #VRアカデミア #DeepLearning
  21. 【深層学習】RoBERTa - データと学習方法だけで XLNet を超えたモデル【ディープラーニングの世界vol.35】#118 #VRアカデミア #DeepLearning
  22. 【深層学習】ALBERT - BERT の軽量版!Multi-Head Attention の新たな可能性【ディープラーニングの世界vol.36】#119 #VRアカデミア #DeepLearning
  23. 【深層学習】T5 - 入出力をテキストにする Transformer の新利用法【ディープラーニングの世界vol.37】#122 #VRアカデミア #DeepLearning
  24. 【深層学習】Scaling Law - 大きい Transformer は強い【ディープラーニングの世界vol.38】#123 #VRアカデミア #DeepLearning
  25. 【深層学習】GPT-3 ①-1 モデルと Sparse Transformer について【ディープラーニングの世界vol.39】#124 #VRアカデミア #DeepLearning
  26. 【深層学習】GPT-3 ①-2 追加学習なしでタスクに対応する仕組み【ディープラーニングの世界vol.39-2】#125 #VRアカデミア #DeepLearning
  27. 【深層学習】GPT-3 ② 限界と今後の研究テーマ【ディープラーニングの世界vol.40】#126 #VRアカデミア #DeepLearning
  28. 【深層学習】GPT-3 ③ 社会的影響編 - AIを誤用しないために【ディープラーニングの世界vol.41】#127 #VRアカデミア #DeepLearning

Pickup iconPick upチャンネル

もう既に人気チャンネルなのですが、その動画クオリティからすればまだ世に出る前と言っていいでしょう。まるでNHK制作かのような映像と情報量に驚かされます!

Studytube icon 96ログイン

Interview header 360 Question header 360
Studytuber banner 300

Studytube icon 96チャンネル登録

教育系のYouTubeチャンネルを運営されている方はチャンネル情報の登録に是非ご協力ください。ログイン後、読み込みボタンをクリックすることでチャンネルデータが自動で読み込まれます。

Studytube icon 96ご意見・ご感想

※お返事が必要な場合はお問い合わせからお願いいたします。