Автоматическое извлечение атрибутов водителя из логов мобильного приложения такси

Автор: Селезнев Н.К., Ирхин И.А., Кантор В.В.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Информатика и управление

Статья в выпуске: 3 (39) т.10, 2018 года.

Бесплатный доступ

Во многих задачах, решаемых в Яндекс.Такси с помощью машинного обучения, будь это обыкновенная сегментация пользователей, предсказание числа поездок в сле- дующем месяце или другие задачи, необходимо представлять пользователя приложе- ния в виде вектора признаков. Среди основных источников данных для построения такого вектора можно выделить логи мобильного приложения, которые, однако, слабо структурированы. Извлечение признаков из данных такого типа вручную осложнено характером данных: требуются серьезные знания в области человеческого поведения, а кроме этого - глубокое понимание технических деталей генерации логов. Мы раз- работали метод, который автоматически конструирует �-мерное векторное представ- ление пользователя, построенное на основе его активности в мобильном приложении. Полученное представление может использоваться как набор признаков в задачах обу- чения с учителем и без учителя. Как показывают эксперименты, опробованные модели успешно справляются с извлечением важной информации о пользователе. Мы проте- стировали наш метод в задачах обучения с учителем, решаемых в сервисе, и результаты показывают, что получаемое представление пользователя полезно как само по себе, так и в комбинации с собранными вручную признаками из истории заказов пользователя.

Еще

Многокритериальная оптимизация, обучение представлений, анализ логов, логи мобильного приложения, автоматическое извлечение признаков

Короткий адрес: https://sciup.org/142220442

IDR: 142220442

Список литературы Автоматическое извлечение атрибутов водителя из логов мобильного приложения такси

  • Zol na Konrad User Modeling Using LSTM Networks//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17). 2017. P. 5025-5026.
  • Ruder S. An overview of multi-task learning in deep neural networks//arXiv preprint arXiv:1706.05098. 2017.
  • Arora S., Warrier D. Decoding fashion contexts using word embeddings//KDD Workshop on Machine learning meets fashion. 2016.
  • Mikolov T., Sutskever I., Chen K., Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality//Advances in neural information processing systems. 2013. P. 3111-3119.
  • Guo Ch., Berkhahn F. Entity embeddings of categorical variables. arXiv preprint arXiv:1604.06737, 2016.
  • Rehurek R., Sojka P. Software framework for topic modelling with large corpora. In Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, 2010. P. 361-369.
  • Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. Bigartm: Open source library for regularized multimodal topic modeling of large collections//International Conference on Analysis of Images, Social Networks and Texts. 2015. P. 370-381.
  • Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching word vectors with subword information. arXiv preprint arXiv:1607.04606, 2016.
  • Dorogush A.V., Ershov V., Gulin A. CatBoost: gradient boosting with categorical features support. 2017.
  • Hochreiter S., Schmidhuber J. Long short-term memory//Neural computation. 1997. V. 9, N 8. P. 1735-1780.
  • Liu H., Wu L., Zhang D., Jian M., Zhang X. Multi-perspective User2Vec: Exploiting re-pin activity for user representation learning in content curation social network//Signal Processing. 2018. V. 142. P. 450-456.
  • Ozsoy M.G. From word embeddings to item recommendation. arXiv preprint arXiv:1601.01356. 2016.
  • Le Q., Mikolov T. Distributed representations of sentences and documents//International Conference on Machine Learning. 2014. P. 1188-1196.
Еще
Статья научная