Автоматическое извлечение атрибутов водителя из логов мобильного приложения такси
Автор: Селезнев Н.К., Ирхин И.А., Кантор В.В.
Журнал: Труды Московского физико-технического института @trudy-mipt
Рубрика: Информатика и управление
Статья в выпуске: 3 (39) т.10, 2018 года.
Бесплатный доступ
Во многих задачах, решаемых в Яндекс.Такси с помощью машинного обучения, будь это обыкновенная сегментация пользователей, предсказание числа поездок в сле- дующем месяце или другие задачи, необходимо представлять пользователя приложе- ния в виде вектора признаков. Среди основных источников данных для построения такого вектора можно выделить логи мобильного приложения, которые, однако, слабо структурированы. Извлечение признаков из данных такого типа вручную осложнено характером данных: требуются серьезные знания в области человеческого поведения, а кроме этого - глубокое понимание технических деталей генерации логов. Мы раз- работали метод, который автоматически конструирует �-мерное векторное представ- ление пользователя, построенное на основе его активности в мобильном приложении. Полученное представление может использоваться как набор признаков в задачах обу- чения с учителем и без учителя. Как показывают эксперименты, опробованные модели успешно справляются с извлечением важной информации о пользователе. Мы проте- стировали наш метод в задачах обучения с учителем, решаемых в сервисе, и результаты показывают, что получаемое представление пользователя полезно как само по себе, так и в комбинации с собранными вручную признаками из истории заказов пользователя.
Многокритериальная оптимизация, обучение представлений, анализ логов, логи мобильного приложения, автоматическое извлечение признаков
Короткий адрес: https://sciup.org/142220442
IDR: 142220442
Список литературы Автоматическое извлечение атрибутов водителя из логов мобильного приложения такси
- Zol na Konrad User Modeling Using LSTM Networks//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17). 2017. P. 5025-5026.
- Ruder S. An overview of multi-task learning in deep neural networks//arXiv preprint arXiv:1706.05098. 2017.
- Arora S., Warrier D. Decoding fashion contexts using word embeddings//KDD Workshop on Machine learning meets fashion. 2016.
- Mikolov T., Sutskever I., Chen K., Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality//Advances in neural information processing systems. 2013. P. 3111-3119.
- Guo Ch., Berkhahn F. Entity embeddings of categorical variables. arXiv preprint arXiv:1604.06737, 2016.
- Rehurek R., Sojka P. Software framework for topic modelling with large corpora. In Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, 2010. P. 361-369.
- Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. Bigartm: Open source library for regularized multimodal topic modeling of large collections//International Conference on Analysis of Images, Social Networks and Texts. 2015. P. 370-381.
- Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching word vectors with subword information. arXiv preprint arXiv:1607.04606, 2016.
- Dorogush A.V., Ershov V., Gulin A. CatBoost: gradient boosting with categorical features support. 2017.
- Hochreiter S., Schmidhuber J. Long short-term memory//Neural computation. 1997. V. 9, N 8. P. 1735-1780.
- Liu H., Wu L., Zhang D., Jian M., Zhang X. Multi-perspective User2Vec: Exploiting re-pin activity for user representation learning in content curation social network//Signal Processing. 2018. V. 142. P. 450-456.
- Ozsoy M.G. From word embeddings to item recommendation. arXiv preprint arXiv:1601.01356. 2016.
- Le Q., Mikolov T. Distributed representations of sentences and documents//International Conference on Machine Learning. 2014. P. 1188-1196.