Word Embedding
Unsupervised learning
Last updated
Was this helpful?
Unsupervised learning
Last updated
Was this helpful?
Count-based
跟LSA,Matrix factorization的概念是一樣的
Prediction-based
Prediction model是用這個字來預測下一個字是誰。比方說「蔡英文宣誓就職」和「馬英九宣誓就職」,就是拿「蔡英文」和「馬英九」預測宣誓就職。而Word embedding拿的是第一層hidden layer的weight。這樣子的網絡相當於希望,我丟蔡英文進去和馬英九進去,他應該會通過相同的Weight轉換,預測出宣誓就職。這樣的結果,我們會讓蔡英文和馬英九兩個詞彙的weight vector非常接近,達到了在空間上非常接近的結果。
但如果用一個字預測下一個字,那這樣的可能性是千千萬萬的,那要怎麼辦?有兩種拓展法
第一種是,我可以把一個model拓展到,我用前2~10個字,來預測下一個字是什麼(CBOW)。我今天丟10個字下去,那怎麼處理NN的網絡結構?每個字就一個Weight這樣要怎麼處理?那就讓每個字的Weight都是一樣的,相當於這10個字(one-hot)進去第一層Hidden layer的Weight都是一樣的。這樣事實上也很合理,相當於,前後字可以調換。