Комбинированный подход к реконструкции ассоциативных сетей: объединение GraphSAGE и статистики совместной встречаемости
Автор: Иванисенко Т.В., Деменков П.С., Иванисенко В.А.
Журнал: Проблемы информатики @problem-info
Рубрика: Прикладные информационные технологии. Биоинформатика
Статья в выпуске: 4 (65), 2024 года.
Бесплатный доступ
Исследование посвящено разработке гибридного подхода к предсказанию молекулярногенетических взаимодействий, объединяющего графовые нейронные сети (ГНС) и анализ совместной встречаемости сущностей в научной литературе. Эффективность метода продемонстрирована на примере ассоциативной сети Escherichia coli, реконструированной с использованием системы ANDSvstcm и ее модуля ANDDigcst. Результаты показали значительное улучшение точности предсказания взаимодействий относительно соответствия топологии исходного графа, по сравнению с использованием только ГНС. Комбинация подходов позволила улучшить Fl-меру с 0.815 до 0.97, а также снизить значение функции потерь с 0.405 до 0.08. Оценка на экспериментально подтвержденных белок-белок взаимодействиях также продемонстрировала высокую эффективность модели (Fl-мера 0.9799, коэффициент корреляции Мэттьюса 0.9597). Предложенный метод может найти применение при анализе сложных биологических систем, планировании экспериментов и оптимизации биотехнологических процессов.
Графовые нейронные сети, молекулярно-генетические взаимодействия, автоматический анализ текстов
Короткий адрес: https://sciup.org/143184145
IDR: 143184145 | УДК: 004.85, | DOI: 10.24412/2073-0667-2024-4-37-45
Combined Approach to Associative Network Reconstruction: Integrating GraphSAGE and Co-Occurrence Statistics
This study focuses on developing a hybrid approach for predicting molecular-genetic interactions, combining graph neural networks (GNNs) and co-occurrence analysis of entities in scientific literature. The method’s effectiveness is demonstrated using the associative network of Escherichia coli, reconstructed using the ANDSystem and its ANDDigest module. Results showed a significant improvement in the accuracy of interaction predictions, in terms of conformity to the original graph topology, compared to using GNNs alone. The combination of approaches improved the Fl-score from 0.815 to 0.97 and reduced the loss function value from 0.405 to 0.08. Evaluation on experimentally confirmed protein-protein interactions also demonstrated high model efficiency (Fl-score 0.9799, Matthews correlation coefficient 0.9597). The proposed method can be applied in analyzing complex biological systems, planning experiments, and optimizing biotechnological processes.