Современные методы векторного представления слов
Автор: Шелоник А.А., Колдобский В.И.
Журнал: Теория и практика современной науки @modern-j
Рубрика: Математика, информатика и инженерия
Статья в выпуске: 2 (20), 2017 года.
Бесплатный доступ
Векторное представление слов, полученное машинным обучением без учителя, в последние годы стало широко использоваться для решения различных задач обработки естественного языка. При этом подходе в соответствие каждому слову ставится определенный набор числовых параметров, несущий в себе смысловое значение. Поскольку параметры несут смысловое значение, то становится возможным использовать их взамен текстового представления. Эти вектора могут быть использованы как фичи для различных применений, таких как задачи информационного поиска, классификация документов, ответы на вопросы, извлечение именованных сущностей и парсинг текста.
Векторное представление слов
Короткий адрес: https://sciup.org/140270827
IDR: 140270827
Текст научной статьи Современные методы векторного представления слов
Большинство методов, основанных на словарных векторах, используют расстояние или угол между векторами для оценки качества. Но в [1] представлен новый метод, исследующий структуру вектора на основе аналогий. Например, аналогия « король относится к королеве как мужчина к женщине » может быть представлена как векторное равенство: king – queen = man – woman .
На текущий момент существует два основных семейства методов для обучения словарных векторов:
-
1. Методы факторизации матриц, например, латентно-семантический анализ (LSA) [7]
-
2. Методы локального контекстного окна, такие как skip-gram модель
Оба семейства при этом страдают от значительных недостатков. В то время, как методы, подобные LSA, эффективно используют статистическую информацию, они слабо применимы к задаче поиска аналогий. Такие методы, как skip-gram являются эффективными в задаче поиска аналогий, но практически не используют статистическую информацию текстового корпуса.
Методы факторизации матриц
Эти методы используют низкоранговые приближения для разложения больших матриц с собранной статистикой по текстовому корпусу. Тип информации, собираемый в матрицах, зависит от метода. В LSA матрицы имеют вид «слово-документ», то есть строки представляют собой слова, а столбцы – различные документы из корпуса. В отличие от него, Hyperspace Analogue to Language (HSA) [5] использует матрицу «слово-слово», то есть строки и столбцы представляют собой слова, а элементами матрицы является количество раз, когда слова встречаются в одном контексте.
Главной проблемой методов подобных HSA было то, что наиболее часто встречающиеся слова, такие как, например, предлоги, вносили слишком большой эффект. Для ее решения были разработаны различные техники, начиная с простых, таких как словарь «стоп-слов», и заканчивая более сложными. Один из них, COALS-метод [6], представлял собой предобработку, трансформирующую матрицу при помощи нормализации на основе корреляции и энтропии. Преимущество данного метода в том, что «сырые» данные, которые могли отличаться на 8-9 порядков, «сжимались» в приемлемый для расчетов интервал.
Классические нейронные языковые модели
Семейству методов, использующих контекстное окно, предшествовали классические нейронные языковые модели, предложенные в [2]. Они представляли собой нейронную сеть прямого распространения с одним скрытым слоем, которая обучалась методом обратного распространения ошибки. Сеть получала на вход последовательность слов, а на выходе выдавала вектор, в котором каждый элемент был вероятностью, с которой слово из заданного словаря встретится следующим в данной последовательности. В [2] была впервые введена численная характеристика слов, которая в последствии стала называться словарными векторами.
Основы этой модели до сих встречаются в современных языковых и нейронных моделях:
-
• Слой словарных векторов – слой, генерирующий словарные вектора путем перемножения вектора с индексом из словаря на внутреннюю весовую матрицу.
-
• Промежуточный слой – один или несколько слоев, которые производят обработку входной последовательности, нелинейно соединяя векторное представление предыдущих слов.
-
• SoftMax-слой – последний слой, выдающий вероятностное распределение.
SoftMax-слой в данной модели обладает наибольшей вычислительной сложностью, так как она пропорциональна размеру словаря, который может состоять из тысяч или миллионов слов. Разработка методов, снижающих вычислительную сложность – одна из важнейших современных проблем моделей векторного представления.
Word2Vec
Word2Vec является одной из самых популярных моделей получения векторного представления слов. Поскольку словарные вектора являются ключевым элементом для обработки естественного языка моделями глубокого изучения, к этой группе моделей принято относить и метод Word2Vec. Однако технически данный метод не является моделью глубокого изучения в силу отличающейся архитектуры.
В [1] рекомендуется две архитектуры для тренировки векторного представления. У них есть два ключевых преимущества над предыдущими моделями:
-
• Отказ от «дорогого» скрытого слоя
-
• Добавление в языковую модель дополнительного контекста слов
Но успех модели обеспечили не только вышеописанные преимущества. Также авторами [1] предлагались две новые стратегии обучения.
Continuous bag-of-words (CBOW)
В отличие от языковых моделей, которые могут строить прогнозы только на последние слова заданной последовательности [3] (предсказывая следующее слово на основе введенного корпуса), здесь модель стремится только к созданию точных векторов и свободна от данного ограничения. В работе [1] используются n слов до и n слов после целевого слова, образуя контекстное окно. CBOW назван так потому, что он использует непрерывное представление, в котором порядок слов не важен. Целью CBOW является предсказание центрального слова на основе заданного контекста слов.
Skip-gram
В то время как CBOW модель можно рассматривать как предсказательную языковую модель, у skip-gram модели обратная цель: вместо того, чтобы предсказывать центральное слово на основе контекста, она использует центральное слово, чтобы предсказывать контекстные.
GloVe
Данный метод состоит из двух этапов. На первом происходит сбор статистики появления слов в одном контексте, чего не происходит в Word2Vec, и благодаря этому показываются лучшие результаты, в том числе и в задаче поиска аналогий [4]. Словам, находящимся на большем расстоянии, присваивается штраф обратно пропорциональный расстоянию.
На втором этапе производится факторизация, позаимствованная у улучшенного Word2Vec, называемая негативным семплированием.
В результате от GloVe требуется минимизировать данный функционал:
V V
У - ^ ^ /(^17)(<УГ^j + bt + bj - logQ^j))
1=1 j=1
В указанной выше формуле V - величина словаря, (O j - главное слово, (D j - вектор контекстного слова, b j , b j - скалярное смещение, f(X ij^ ) – взвешенная функция, которая предотвращает переобучения на часто повторяющихся парах:
а
-)-) , при Хо-< Л-„дх
^ ^max'
-
1, в остальных случаях
Заключение
В последние годы возникает вопрос сравнения эффективности статистических методов и методов, основанных на контексте. На текущий момент контекстные методы выигрывают на большем количестве задач, но GloVe показал, что и эти методы могут быть улучшены с использованием статистического подхода. Как результат, GloVe является новой билинейной моделью регрессии, основанной на обучении без учителя, которая более эффективна по сравнению с другими моделями в задачах поиска аналогий, похожих слов и выделения именованных сущностей.
Список литературы Современные методы векторного представления слов
- Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean. (2013). Distributed Representations of Words and Phrases and their Compositionality
- Yoshua Bengio, Réjean Ducharme, Pascal Vincent, Christian Jauvin. (2003). A Neural Probabilistic Language Model
- Ronan Collobert, Jason Weston, Leon Bottou, Michael Karlen, Koray Kavukcuoglu, Pavel Kuksa. (2011). Natural Language Processing (Almost) from Scratch
- Jeffrey Pennington, Richard Socher, Christopher D. Manning. (2014). GloVe: Global Vectors for Word Representation
- Curt Burgess, Kevin Lund. (1998). The dynamics of meaning in memory
- Hannah Rohde, Andrew Kehler. (2007). Pronoun Interpretation as a Side Effect of Discourse Coherence
- Thomas Landauer, Peter Foltz, Darrell Laham. (1998). An Introduction to Latent Semantic Analysis