Моделирование индикаторов интереса к тексту в социальной сети «ВКонтакте»
Автор: Минюров Е.С.
Журнал: Экономика и социум @ekonomika-socium
Рубрика: Основной раздел
Статья в выпуске: 3 (22), 2016 года.
Бесплатный доступ
В статье предлагается два вида индикаторов интереса к тексту, размещённому в социальной сети «ВКонтакте», и излагается алгоритм их расчёта. Приводится расчёт этих индикаторов на примере текста, опубликованного в одной из групп социальной сети «ВКонтакте»
Маркетинг, социальные сети, "вконтакте", индикатор интереса к тексту, алгоритм расчёта
Короткий адрес: https://sciup.org/140118535
IDR: 140118535
Текст научной статьи Моделирование индикаторов интереса к тексту в социальной сети «ВКонтакте»
В настоящее время актуальна проблема продвижения сообществ в социальных сетях, в том числе в сети «ВКонтакте». Компании создают и развивают группы, публичные страницы и страницы мероприятий для поиска клиентов. Эта деятельность получила название SMM (Social Media Marketing), что можно перевести на русский как «Маркетинг с помощью социальных платформ».
Главная цель SMM заключается в создании такого контента, который распространялся бы без организаторов сообщества среди целевой аудитории. Поэтому закономерно, что надо уметь оценивать реакцию подписчиков на контент. В этой работе выделяются индикаторы интереса к тексту.
В качестве индикаторов используются следующие величины:
-
• поверхностный отклик – количество подписчиков, которые
отметили, что им нравится данная публикация;
-
• желание поделиться – количество подписчиков, которые
поделились данной публикацией.
Была поставлена цель разработать алгоритм прогнозирования реакции подписчиков на текстовый контент. Полученный алгоритм рассчитан на поведение подписчиков групп социальной сети «ВКонтакте». Кроме того, в анализируемом сообществе должна уже быть дана реакция не менее чем на 10% публикаций.
Предполагается, что реакция на текст есть суперпозиция реакций на отдельные слова этого текста. Таким образом, одной из задач была задача нахождения реакции на отдельно стоящее слово без учёта знаков препинания. Кроме того, так как существует бесконечное множество чисел, записанных с помощью цифр, то было решено исключить и их, оставив в рассмотрении числа, записанные словами.
В качестве меры реакции было выбрано количество человек, которое отреагировало на данное слово. Первой мыслью было сопоставить слову число из частотного словаря. Но дело в том, что частоты, указанные там, не отражают реального интереса к данному слову. Было выдвинуто предположение, что с помощью поисковых систем можно узнать реальный интерес к словам, так как люди вводят поисковый запрос, имея при этом внутреннюю мотивацию, то есть эти слова им были в той или иной степени интересны им самим.
Таким образом, источником для получения реакции на отдельное слово стал сервис «Подбор слов» компании «Яндекс», который находится в Интернете по адресу
Экспериментально установлено, что суперпозиция интереса к тексту лучше всего описывается средним гармоническим произведением десятичного и натурального логарифма реакции на каждое слово, на которое существует реакция пользователей. То есть, если с помощью вышеупомянутого сервиса было установлено, что эту самостоятельную или служебную часть речи никто не искал, то следует исключить из рассмотрения это слово.
Предполагается, что будет целесообразно учитывать опыт предыдущих публикаций в данном сообществе, поэтому вводим в рассмотрение такую величину, как коэффициент общей заинтересованности. Он показывает, какую часть аудитории в целом интересует публикуемый текстовый контент. К сожалению, мы затрудняемся вывести её строго, поэтому разобьём эту проблему на части и пойдём наиболее простым путём.
Пусть известны реакция на каждую публикацию в данном сообществе и количество подписчиков. Тогда возможно разделить значение одной из величин реакции, указанных в начале этой статьи, на количество подписчиков, рассчитав таким образом так называемый коэффициент частной заинтересованности (далее КЧЗ). Значит, можно вычислить их суперпозицию, которая и является коэффициентом общей заинтересованности.
Несмотря на затруднение в расчёте коэффициента общей заинтересованности, можно выбирать один из следующих вариантов его расчёта:
-
• вычислить среднее арифметическое КЧЗ;
-
• найти максимальный КЧЗ;
-
• найти минимальный КЧЗ;
-
• найти моду КЧЗ;
-
• найти медиану КЧЗ.
Для предсказания величины поверхностного отклика R были разработаны эмпирическая функция, которую можно представить формулой 1:
^-----7---- P lg P • ( [ lg max { x i Ж • ^ 1
r < 0,005
E
i =1 lg X i • ln X i
R = 1
N
N
E —1—
i = 1 lg Xi • ln Xi
, p ~ P ln-- R
100 2
0,005 < r < 0,01
N
N
E
i = 1 lg Xi • ln Xi
P ln P • ( [ lg max { x z. }] ) 2 • R3
^-----------P ln P • ([ lg m ax { x i }]) 2 • R
E —1—
i = 1 lg Xi • ln Xi
0,01 < r < 0,1
r > 0,1
где
-
• R - величина поверхностного отклика, человек;
-
• N- количество слов, на которые есть реакция;
xi – реакция на i-е слово, человек;
P – количество подписчиков в группе, человек;
r- коэффициент общей заинтересованности;
~~
R 1 - коэффициент отклика 1-го уровня, R 1 = 0,00000015 ;
~
-
• R 2 - коэффициент отклика 2-го уровня,
R ~ = 0,00000906 5177112576 57
;
~~
R 3 - коэффициент отклика 3-го уровня, R 3 = 0,000001
~~
R 4 - коэффициент отклика 4-го уровня, R 4 = 0,000002 .
Для удобства представления результата можно сформировать диапазон от 0,66 R до 1,33 R . Иными словами, прогноз считается верным, если фактическое значение величины поверхностного отклика Rф входит в диапазон R ± 33 % .
Для предсказания минимального значения величины «желание поделиться» W была разработана эмпирическая функция, которую можно
представить формулой 2:
[ min { log 20 x • In x i } log 140 ( R L ) • RL • W )
W = \
[ min { log [ min { log
[ min { log
20 x i- ln x i } lg ( Rl ) • R L • W 2 J
20 x i -ln x i } log 20 ( R L ) • Rl • W 3 J
20 x i -ln x i } log 20 ( R L ) • R L • W 4 J
r < 0,005
0,005 < r < 0,01 0,01 < r < 0,1 r > 0,1
где
-
• xi - реакция на i-е слово;
-
• r- коэффициент общей заинтересованности;
L
-
• R 0,66 R — нижняя граница поверхностного отклика, человек;
~~
-
• W 1 - коэффициент желания поделиться 1 -го уровня, W = 0,001;
~~
-
• W 2 - коэффициент желания поделиться 2-го уровня, W 2 = 0,000032
; ~~
-
• W 3 - коэффициент желания поделиться 3-го уровня, W 3 = 0,00 ;
~~
-
• W 4 - коэффициент желания поделиться 4-го уровня, W 4 = 0,007 .
Формулы (1) и (2) дают прогноз о том, какими будут поверхностный отклик и желание поделиться в сообществе при заданном количестве подписчиков и при заданном коэффициенте общей заинтересованности. Важно понимать, что эти формулы описывают ситуацию, когда данную публикацию просмотрели не менее 40% подписчиков.
Итак, сделаем резюме вышесказанного.
Входные данные:
-
1. текст;
-
2. коэффициент общей заинтересованности;
-
3. количество подписчиков;
-
4. словарь;
-
5. список слов, на которых нет реакции.
Опишем последовательность действий для получения индикатора интереса к тексту:
-
1. удалить все знаки препинания;
-
2. удалить все цифры десятеричной системы счисления;
-
3. удалить все слова, на которых нет реакции;
-
4. рассчитать поверхностный отклик по формуле (1);
-
5. рассчитать желание поделиться по формуле (2).
Выходные данные:
-
1. поверхностный отклик;
-
2. желание поделиться.
Следует понимать, что для реализации алгоритма требуется специально составленный словарь. Также необходимо будет обработать деление на ноль, в случае, если «знакомых» программе слов не будет. Кроме того, нужно вспомнить определение логарифма.
Приведём пример использования алгоритма.
Рассмотрим следующую публикацию в сообществе http:// «То состояние, когда жареной картошечки хочется больше, чем найти свое место в этом мире». Количество подписчиков P на момент расчёта равно 317484 человека. Коэффициент общей заинтересованности r равен 0,0038. Удалим из текста публикации все слова, на которые нет реакции. Сопоставим каждому слову число, выражающее реакцию (Таблица 1) людей на данное слово, сделав промежуточные расчёты.
Таблица 1 ― Реакция людей на слова
№ п/п |
Слово |
Число, xi |
In ( x i ) 1 g ( x i ) |
!n ( x jog 2 0 ( xt ) |
1 1n ( x i ) 1 g ( x i ) |
1 |
состояние |
1865210 |
90,54231165 |
69,59279337 |
0,01104456 |
2 |
жареной |
650555 |
77,81418483 |
59,80967779 |
0,012851127 |
3 |
картошечки |
5644 |
32,40751528 |
24,9091223 |
0,03085704 |
4 |
хочется |
731972 |
79,19118663 |
60,86807137 |
0,012627668 |
5 |
больше |
15024124 |
118,5976446 |
91,15673354 |
0,008431871 |
6 |
найти |
10099033 |
112,9646759 |
86,82711104 |
0,008852325 |
7 |
место |
6286381 |
106,4214582 |
81,79785138 |
0,009396601 |
8 |
мире |
19867652 |
122,6424585 |
94,26566561 |
0,008153783 |
Теперь вычислим величину поверхностного одобрения по формуле (1):
у . 1 . . = 0,10221497 5
w in ( x, ) lg ( x )
[ 1g max { x ; }] = 7
R =
—----------P lg P • (lg max{x})2 • Ri г—1— i=1 1g x, • In x,
0,102214975
• 317484 • 1g ( 317484 ) • 72 • 0,00000015
= 1004
человека
Фактическое поверхностное одобрение Rф=1004 человек.
Относительное отклонение прогноза составило примерно 20,32%.
Теперь рассчитаем желание поделиться:
R L = [ 0,66 R ] = [ 0,66 • 1004 ] = 662 человек
W = [ min { 1og2 o x • In xl } 1og14 0( rl ) • RL • W ] = [ 24,9091223 • 1og140662 • 662 • 0,001 ] = 21
человек
Фактическое желание поделиться Wф=39 человек. Относительное отклонение прогноза составило примерно 46,15%. Причём расчётное значение W не превышает фактическое.
С программной реализацией данного алгоритма можно ознакомиться на авторском сайте, который расположен в сети Интернет по адресу За развитием алгоритма можно следить в социальной сети «ВКонтакте» в группе «Индикатор интереса к тексту», которая расположена по адресу http:// (http://.
Список литературы Моделирование индикаторов интереса к тексту в социальной сети «ВКонтакте»
- Халилов, Д. Маркетинг в социальных сетях/Дамир Халилов. -2-е изд. -М.: Манн, Иванов и Фербер, 2014. -240 с