AIって結局何なのかよく分からないので、とりあえず100日間勉強してみた Day76
- PMIを理解
今回も「ゼロから作るDeep Learning② 自然言語処理編(オライリー・ジャパン)」から学んでいきます。
関数への引数として、対象とする単語(query)や単語のIDと内容(word_to_id, id_to_word)、行列(word_matrix)、表示数(top)を得られているとします。
if query not in word_to_id: print('%s is not found' % query) return
print('\n[query] ' + query) query_id = word_to_id[query] query_vec = word_matrix[query_id]
vocab_size = len(id_to_word) similarity = np.zeros(vocab_size)
for i in range(vocab_size): similarity[i] = cos_similarity(word_matrix[i], query_vec)
count = 0 for i in (-1 * similarity).argsort(): if id_to_word[i] == query: continue print(' %s: %s' % (id_to_word[i], similarity[i])) count += 1 if count >= top: return
[query] i
goodbye: 0.9999999999999998
you: 0.7071067811865475
hello: 0.4999999999999999
and: 0.0
say: 0.0
相互情報量(PMI:Pointwise Mutual Information)とは、2つの事象の関連度を示す指標で、同時に出現する確率が、それぞれ独立して出現する確率に対してどれだけ高いかを示します。
$$ \mathrm{PMI}(x, y) = \log_2 \frac{\mathrm{P}(x, y)}{\mathrm{P}(x) \mathrm{P}(y)} $$
$$ \mathrm{P}(x, y) = \frac{\mathrm{C}(x, y)}{\mathrm{N}} $$
$$ \mathrm{PMI}(x, y) = \log_2 \frac{\mathrm{C}(x, y) \cdot \mathrm{N}}{\mathrm{C}(x) \mathrm{C}(y)} $$
ただし、C(x), C(y)ともに共起回数が0の場合にPMIが発散してしまうため、最低でも0になるように条件分けしてあげる必要があります。これを正の相互情報量(Positive PPM)と呼びます。
$$ \mathrm{PPMI}(x, y) = \mathrm{max}(0, \mathrm{PMI}(x, y)) $$
M = np.zeros_like(C, dtype=np.float32) N = np.sum(C) S = np.sum(C, axis=0) total = C.shape[0] * C.shape[1] cnt = 0
i, jにそれぞれ行と列のインデックスを繰り返していき、各PMIを計算していきます。max関数にて最小0のPMIの値を行列Mに格納して、最後にこのMを返り値とすれば関数は完成です。
for i in range(C.shape[0]): for j in range(C.shape[1]): pmi = np.log2(C[i, j] * N / (S[j] * S[i]) + eps) M[i, j] = max(0, pmi) if verbose: cnt += 1 if cnt % (total//100 + 1) == 0: print('%.lf%% done' % (100 * cnt/total))
import numpy as np def preprocess(text): text = text.lower() text = text.replace('.', ' .') words = text.split(' ') word_to_id = {} id_to_word = {} for word in words: if word not in word_to_id: new_id = len(word_to_id) word_to_id[word] = new_id id_to_word[new_id] = word corpus = np.array([word_to_id[w] for w in words]) return corpus, word_to_id, id_to_word def create_co_matrix(corpus, vocab_size, window_size=1): corpus_size = len(corpus) co_matrix = np.zeros((vocab_size, vocab_size), dtype=np.int32) for idx, word_id in enumerate(corpus): for i in range(1, window_size + 1): left_idx = idx - i right_idx = idx + i if left_idx >= 0: left_word_id = corpus[left_idx] co_matrix[word_id, left_word_id] += 1 if right_idx < corpus_size: right_word_id = corpus[right_idx] co_matrix[word_id, right_word_id] += 1 return co_matrix def cos_similarity(x, y): nx = x / np.sqrt(np.sum(x**2)) ny = y / np.sqrt(np.sum(y**2)) return, ny) def most_similar(query, word_to_id, id_to_word, word_matrix, top=5): if query not in word_to_id: print('%s is not found' % query) return print('\n[query] ' + query) query_id = word_to_id[query] query_vec = word_matrix[query_id] vocab_size = len(id_to_word) similarity = np.zeros(vocab_size) for i in range(vocab_size): similarity[i] = cos_similarity(word_matrix[i], query_vec) count = 0 for i in (-1 * similarity).argsort(): if id_to_word[i] == query: continue print(' %s: %s' % (id_to_word[i], similarity[i])) count += 1 if count >= top: return def ppmi(C, verbose=False, eps=1e-8): M = np.zeros_like(C, dtype=np.float32) N = np.sum(C) S = np.sum(C, axis=0) total = C.shape[0] * C.shape[1] cnt = 0 for i in range(C.shape[0]): for j in range(C.shape[1]): pmi = np.log2(C[i, j] * N / (S[j] * S[i]) + eps) M[i, j] = max(0, pmi) if verbose: cnt += 1 if cnt % (total//100 + 1) == 0: print('%.lf%% done' % (100 * cnt/total)) return M text = 'You say goodbye and I say hello.' corpus, word_to_id, id_to_word = preprocess(text) vocab_size = len(word_to_id) C = create_co_matrix(corpus, vocab_size) W = ppmi(C) print(W)
[[0. 1.8073549 0. 0. 0. 0. 0. ]
[1.8073549 0. 0.8073549 0. 0.8073549 0.8073549 0. ]
[0. 0.8073549 0. 1.8073549 0. 0. 0. ]
[0. 0. 1.8073549 0. 1.8073549 0. 0. ]
[0. 0.8073549 0. 1.8073549 0. 0. 0. ]
[0. 0.8073549 0. 0. 0. 0. 2.807355 ]
[0. 0. 0. 0. 0. 2.807355 0. ]]
