Исследование применимости метода матричной факторизации для ранжирования больших языковых моделей
Автор: Артем Андреевич Вяткин, Александр Владимирович Попцов, Валерий Дмитриевич Олисеенко, Максим Викторович Абрамов
Журнал: Информатика и автоматизация (Труды СПИИРАН) @ia-spcras
Рубрика: Искусственный интеллект, инженерия данных и знаний
Статья в выпуске: Том 25, №2, 2026 года.
Бесплатный доступ
В последние годы широкое применение в области финансов получили большие языковые модели (англ. Large Language Models, LLM). Прямое сравнение таких моделей может быть затруднено, так как наборы данных и сами LLM могут быть закрыты, а параметры при оценке могут отличаться. В работе для задачи заполнения неизвестных метрик предлагается использование метода матричной факторизации из рекомендательных систем, изначально созданного для прогнозирования предпочтений пользователей. Целью работы является оценка применимости матричной факторизации для предсказания метрик качества LLM на финансовых задачах, а также разработка метода ранжирования LLM на основе агрегации метрик качества. Проводится эксперимент по применению матричной факторизации на собранных из научных исследований данных о 34 LLM и 42 финансовых наборах данных. Усредненная MAE метода на всех запусках составляет 0.07 на тестовом наборе данных. Верхние позиции в рейтинге занимают модели DeepSeek R1, OpenAI GPT-4o, OpenAI o1-mini, Fin-R1, Claude 3.5 Sonnet. Двумя способами исследуется влияние ошибки прогнозирования на итоговые предсказания: при помощи MAE и метода Монте Карло. Анализируются полученные результаты, основными выводами которых являются: а) метод матричной факторизации может быть применен для прогнозирования неизвестных значений метрик моделей на наборах данных; б) ведущие большие языковые модели сблизились в оценке настолько, что невозможно выявить явного лидера; в) большие ошибки предсказания позволяют выявить специфические особенности моделей на конкретных задачах. Представленный метод ранжирования способен упростить выбор подходящей модели для финансовых задач.
Большие языковые модели, оценка качества моделей, матричная факторизация, финансовая сфера
Короткий адрес: https://sciup.org/14135263
IDR: 14135263 | УДК: 004.056 | DOI: 10.15622/ia.25.2.1