Word2Vecの使い方
-> テキストや発話を大規模に集めてデータベース化した言語資料の活用
-> それまでは、表現方法としてone-hotベクトルや単語文脈行列をSVDで次元圧縮したベクトルなどが使われていた
-> one-hotベクトルは単語の数だけ次元を持つ方法
-> 分散表現では単語の意味をベクトル化する
It was recently shown that the word vectors capture many linguistic regularities, for example vector operations vector('Paris') - vector('France') + vector('Italy') results in a vector that is very close to vector('Rome'), and vector('king') - vector('man') + vector('woman') is close to vector('queen')
Word Cosine distance と記載があるので、cosineの距離でしょう。
word2vecでは、単語が文中で交換可能かに注目している
Continuous Bag-of-Words
前後の単語から単語を推測する
Skip-gram
単語から周辺単語を推測する
なるほどー、アルゴリズムの仕組みとしては、”前後の関係性”で単語をベクトル化しているのか。。
それを膨大な量でやるのね。
ただし、日本語の場合は、形態素分析をしないといけない。あれ、mecabと組み合わせるのかな。