Word Embedding

Unsupervised learning

PreviousBERT NextAppendix

Last updated 4 years ago

Was this helpful?

Word Embedding

Unsupervised learning

Source

Introduction

Count-based

跟LSA，Matrix factorization的概念是一樣的

Prediction-based

Prediction model是用這個字來預測下一個字是誰。比方說「蔡英文宣誓就職」和「馬英九宣誓就職」，就是拿「蔡英文」和「馬英九」預測宣誓就職。而Word embedding拿的是第一層hidden layer的weight。這樣子的網絡相當於希望，我丟蔡英文進去和馬英九進去，他應該會通過相同的Weight轉換，預測出宣誓就職。這樣的結果，我們會讓蔡英文和馬英九兩個詞彙的weight vector非常接近，達到了在空間上非常接近的結果。

但如果用一個字預測下一個字，那這樣的可能性是千千萬萬的，那要怎麼辦？有兩種拓展法

第一種是，我可以把一個model拓展到，我用前2~10個字，來預測下一個字是什麼（CBOW）。我今天丟10個字下去，那怎麼處理NN的網絡結構？每個字就一個Weight這樣要怎麼處理？那就讓每個字的Weight都是一樣的，相當於這10個字（one-hot）進去第一層Hidden layer的Weight都是一樣的。這樣事實上也很合理，相當於，前後字可以調換。

PreviousBERT NextAppendix

Last updated 4 years ago

Was this helpful?