AIって結局何なのかよく分からないので、とりあえず100日間勉強してみた Day78
- PTBデータセットを理解
今回も「ゼロから作るDeep Learning② 自然言語処理編(オライリー・ジャパン)」から学んでいきます。
PTB(Penn Treebank)データセットとは、自然言語処理の分野で研究やベンチマークなどに広く利用されているデータセットで、ウォールストリートジャーナルに実際に掲載された記事を元に米ペンシルバニア大学によって開発されました。
実はこのデータセットはライセンス契約が必要な有料データセットなのですが、Tomas Mikolov氏が提供してくれている言語モデリングタスク用に改修された簡略版は研究・教育目的でライセンスフリーで利用することができます。
import sys import os sys.path.append('..') import numpy as np import pickle # setting for PTB dataset key_file = { 'train':'ptb.train.txt', 'test':'ptb.test.txt', 'valid':'ptb.valid.txt' } save_file = { 'train':'ptb.train.npy', 'test':'ptb.test.npy', 'valid':'ptb.valid.npy' } vocab_file = 'ptb.vocab.pkl' dataset_dir = os.path.dirname(os.path.abspath(__file__)) mid_path = '..\..\Download_Dataset\lstm-master\data'
このwordsを重複なしで単語とIDをそれぞれ格納していき、結果をptb.vocab.pklファイルに保存してから、関数の呼び出し元へ返します。ここで、’wb’ は書き込みモード(w)で開き、バイナリ形式(b)で扱うためのオプションです。pickle.dumpで扱う場合はPythonオブジェクトをバイナリ形式に変換して保存を行います。
def load_vocab(): vocab_path = os.path.join(dataset_dir, vocab_file) if os.path.exists(vocab_path): with open(vocab_path, 'rb') as f: word_to_id, id_to_word = pickle.load(f) return word_to_id, id_to_word word_to_id = {} id_to_word = {} data_type = 'train' file_name = key_file[data_type] file_path = os.path.join(dataset_dir, mid_path, file_name) words = open(file_path).read().replace('\n', '<eos>').strip().split() for i, word in enumerate(words): if word not in word_to_id: tmp_id = len(word_to_id) word_to_id[word] = tmp_id id_to_word[tmp_id] = word with open(vocab_path, 'wb') as f: pickle.dump((word_to_id, id_to_word), f) return word_to_id, id_to_word
まずはdata_typeにvalが指定されていた場合にvalidに変更して、train, test, validに合わせた保存ファイル名を指定します。
corpus, word_to_id, id_to_wordの3変数を返したら終了です。
def load_data(data_type='train'): if data_type == 'val': data_type = 'valid' save_path = dataset_dir + '/' + save_file[data_type] word_to_id, id_to_word = load_vocab() if os.path.exists(save_path): corpus = np.load(save_path) return corpus, word_to_id, id_to_word file_name = key_file[data_type] file_path = os.path.join(dataset_dir, mid_path, file_name) words = open(file_path).read().replace('\n', '<eos>').strip().split() corpus = np.array([word_to_id[w] for w in words]), corpus) return corpus, word_to_id, id_to_word
num of words: 929589
先ほど構築した関数でコサイン類似度を算出してみます。対象とする単語は、”we”, “have”, “honda”, “car”の4つの単語のそれぞれコサイン類似度上位5つを表示してみます。
import sys import os sys.path.append('..') import numpy as np import pickle from sklearn.utils.extmath import randomized_svd # setting for PTB dataset key_file = { 'train':'ptb.train.txt', 'test':'ptb.test.txt', 'valid':'ptb.valid.txt' } save_file = { 'train':'ptb.train.npy', 'test':'ptb.test.npy', 'valid':'ptb.valid.npy' } vocab_file = 'ptb.vocab.pkl' dataset_dir = os.path.dirname(os.path.abspath(__file__)) mid_path = '..\..\Download_Dataset\lstm-master\data' def load_vocab(): vocab_path = os.path.join(dataset_dir, vocab_file) if os.path.exists(vocab_path): with open(vocab_path, 'rb') as f: word_to_id, id_to_word = pickle.load(f) return word_to_id, id_to_word word_to_id = {} id_to_word = {} data_type = 'train' file_name = key_file[data_type] file_path = os.path.join(dataset_dir, mid_path, file_name) words = open(file_path).read().replace('\n', '<eos>').strip().split() for i, word in enumerate(words): if word not in word_to_id: tmp_id = len(word_to_id) word_to_id[word] = tmp_id id_to_word[tmp_id] = word with open(vocab_path, 'wb') as f: pickle.dump((word_to_id, id_to_word), f) return word_to_id, id_to_word def load_data(data_type='train'): if data_type == 'val': data_type = 'valid' save_path = dataset_dir + '/' + save_file[data_type] word_to_id, id_to_word = load_vocab() if os.path.exists(save_path): corpus = np.load(save_path) return corpus, word_to_id, id_to_word file_name = key_file[data_type] file_path = os.path.join(dataset_dir, mid_path, file_name) words = open(file_path).read().replace('\n', '<eos>').strip().split() corpus = np.array([word_to_id[w] for w in words]), corpus) return corpus, word_to_id, id_to_word def preprocess(text): text = text.lower() text = text.replace('.', ' .') words = text.split(' ') word_to_id = {} id_to_word = {} for word in words: if word not in word_to_id: new_id = len(word_to_id) word_to_id[word] = new_id id_to_word[new_id] = word corpus = np.array([word_to_id[w] for w in words]) return corpus, word_to_id, id_to_word def create_co_matrix(corpus, vocab_size, window_size=1): corpus_size = len(corpus) co_matrix = np.zeros((vocab_size, vocab_size), dtype=np.int32) for idx, word_id in enumerate(corpus): for i in range(1, window_size + 1): left_idx = idx - i right_idx = idx + i if left_idx >= 0: left_word_id = corpus[left_idx] co_matrix[word_id, left_word_id] += 1 if right_idx < corpus_size: right_word_id = corpus[right_idx] co_matrix[word_id, right_word_id] += 1 return co_matrix def cos_similarity(x, y): nx = x / np.sqrt(np.sum(x**2)) ny = y / np.sqrt(np.sum(y**2)) return, ny) def most_similar(query, word_to_id, id_to_word, word_matrix, top=5): if query not in word_to_id: print('%s is not found' % query) return print('\n[query] ' + query) query_id = word_to_id[query] query_vec = word_matrix[query_id] vocab_size = len(id_to_word) similarity = np.zeros(vocab_size) for i in range(vocab_size): similarity[i] = cos_similarity(word_matrix[i], query_vec) count = 0 for i in (-1 * similarity).argsort(): if id_to_word[i] == query: continue print(' %s: %s' % (id_to_word[i], similarity[i])) count += 1 if count >= top: return def ppmi(C, verbose=False, eps=1e-8): M = np.zeros_like(C, dtype=np.float32) N = np.sum(C) S = np.sum(C, axis=0) total = C.shape[0] * C.shape[1] cnt = 0 for i in range(C.shape[0]): for j in range(C.shape[1]): pmi = np.log2(C[i, j] * N / (S[j] * S[i]) + eps) M[i, j] = max(0, pmi) if verbose: cnt += 1 if cnt % (total//100 + 1) == 0: print('%.lf%% done' % (100 * cnt/total)) return M window_size = 2 wordvec_size = 100 corpus, word_to_id, id_to_word = load_data('train') vocab_size = len(word_to_id) C = create_co_matrix(corpus, vocab_size, window_size) W = ppmi(C) U, S, V = randomized_svd(W, n_components=wordvec_size, n_iter=5, random_state=8) word_vecs = U[:, :wordvec_size] querys = ['we', 'have', 'honda', 'car'] for query in querys: most_similar(query, word_to_id, id_to_word, word_vecs, top=5)
[query] we
i: 0.6876371502876282
're: 0.6452517509460449
've: 0.6233857870101929
you: 0.6085333228111267
'm: 0.586887776851654
[query] have
been: 0.6786949038505554
has: 0.5799141526222229
had: 0.5554906725883484
've: 0.39367467164993286
be: 0.33541420102119446
[query] honda
toyota: 0.6151961088180542
nissan: 0.557483971118927
motor: 0.555155336856842
procter: 0.45490726828575134
sits: 0.45157667994499207
[query] car
auto: 0.5797815322875977
cars: 0.575616717338562
vehicle: 0.5617407560348511
luxury: 0.5404506325721741
truck: 0.517784595489502
