Распознавание паттернов применения искусственного интеллекта при создании текстов
Автор: И. А. Вейс
Журнал: Современные инновации, системы и технологии.
Рубрика: Управление, вычислительная техника и информатика
Статья в выпуске: 5 (1), 2025 года.
Бесплатный доступ
В данной статье рассмотрены критерии распознавания паттернов применения искусственного интеллекта, необходимые для систем определения автора информации – человека или машины. С ростом количества информации, созданной машинами на основе имеющихся ресурсов, увеличивается необходимость распознавать, кто является первоисточником информации. Задача абсолютно точно определить принадлежность текста искусственному интеллекту без доступа к генерирующей системе не является возможной, однако, получив ряд факторов, предоставляется возможность распознать данную принадлежность с минимальной погрешностью. В статье описаны основные принципы составления информации известными алгоритмами, способы их распознавания и преобразования полученных данных в зависимости от принадлежности данной информации к тому или иному источнику. Для этого рассмотрены коэффициенты критериев, их математические модели и расчет конечной функции распознавания принадлежности текста нейросети или человеку. Методы расчетов коэффициентов описаны с учетом вариантов создания собственных модулей или подключения готовых сервисов. Рассматриваемые методы обработки и распознавания текста закреплены рядом экспериментов и результатов. В заключении предложены рекомендации по выбору инструментов разработки соответствующей системы и готовых модулей для реализации расчетов. Для подключения сервисов и использования рекомендуемых инструментов описана литература и ссылки на документации.
Распознавание, искусственный интеллект, генерация, текст, паттерны, критерии, источник информации, автор текста, чат GPT
Короткий адрес: https://sciup.org/14133006
IDR: 14133006 | DOI: 10.47813/2782-2818-2025-5-1-1033-1040
Текст статьи Распознавание паттернов применения искусственного интеллекта при создании текстов
DOI:
Искусственный интеллект (ИИ) [1]
представляет собой область компьютерных наук, сосредоточенную на создании систем, способных выполнять задачи, требующие человеческого интеллекта. Одной из таких задач является генерация текстов, где ИИ использует огромные объемы данных для обучения языковым моделям, что позволяет ему производить тексты, схожие по стилю и содержанию с человеческими произведениями. Наиболее известными примерами таких технологий являются модели, основанные на трансформерах, которые способны понимать контекст, грамматику и семантику текста, а затем генерировать осмысленные предложения и абзацы.
Процессы, используемые искусственным интеллектом для написания текстов, включают:
-
• Обучение на больших данных. ИИ обучается на миллионах текстов, что позволяет ему выявлять закономерности и структуры языка [2].
-
• Генеративные алгоритмы. Модели
используют алгоритмы, такие как GPT (Generative Pre-trained Transformer), для создания текстов на основе предварительных заданий или контекстов.
Распознавание контента, созданного ИИ, имеет важное значение по нескольким причинам:
-
• В условиях увеличения доступности информации необходимо идентифицировать, кто является источником контента, чтобы избежать манипуляций и дезинформации [3].
-
• Проверка достоверности: Установление
источников информации помогает пользователям отфильтровывать фальшивые или потенциально вводящие в заблуждение тексты.
-
• Соблюдение авторских прав: Классификация контента как либо созданного человеком, либо машиной помогает в соблюдении прав на интеллектуальную собственность.
Среди методов распознавания текстов, сгенерированных ИИ, можно выделить использование лингвистических метрик, анализа стилей написания, а также применения специализированных алгоритмов, обученных на выделенных примерах текстов, созданных человеком и машиной. Это позволяет определить вероятные паттерны и аномалии, указывающие на машинное происхождение контента, что, в свою очередь, является ключевым аспектом в современной информационной среде.
Цель статьи: изучить основные принципы составления информации известными алгоритмами, способы их распознавания и преобразования полученных данных в зависимости принадлежности данной информации искусственному интеллекту.
МАТЕРИАЛЫ И МЕТОДЫ
Для получения критериев определения принадлежности информации человеку или машине необходимы такие модули или сервисы обмена данных с ними, как:
-
• система распознавания антиплагиата,
например, сервис ADVEGO [4];
-
• искусственный интеллект, например, сервис AI/ML API [5];
-
• лемматизатор слов с наличием словаря необходимого языка, например, библиотека PhpMorphy [6].
Необходимые модули можно разработать вручную, однако для этого потребуется большой объем оперативной и жесткой памяти, а также большая мощность компьютера или серверной в случае множественных запросов.
Критерии распознавания паттернов применения искусственного интеллекта при создании текстов:
-
• живое сопоставление;
-
• блочная уникальность;
-
• уникальность слов;
-
• уникальность текста;
-
• водное наполнение;
-
• отсутствие аргументации;
-
• слова паразиты.
Данные критерии определяют математические величины, отображающие степень причастия искусственного интеллекта к тексту. Их совокупность определяет результат – вероятность того, что информация изложена не человеком. Рассмотрим получение величин критериев и преобразование их совокупности в вероятность.
Критерий «живое сопоставление» определяется методом распознавания причастия искусственного интеллекта им самим. Генераторы текстов имеют ограничения на количество символов. Сервисы генерирования текста имеют разные тарифы, от которых зависит ограничение, в большинстве случаев 4096 или 16 384 символов на один блок. Для получения величины данного критерия необходимо:
-
• разбить текст на блоки длинной от 2500 до 4000 символов, не разрезая предложения, для каждого блока последовательно проделать следующие операции;
-
• отправить в модуль искусственного интеллекта, блок с заголовком «Напиши только тему. Определи в одно предложение тему данного текста: »;
-
• полученный ответ отправить повторно с заголовком «Опиши»;
-
• ответ и оригинал разбить на слова, которые
необходимо привести в начальную форму с помощью лемматизатора, получая два словаря – исходных и полученных слов;
-
• вычислить расхождение словарей, получив
словарь расхождений в словах и их количествах;
словарь слов начальной формы и их количества. Для каждой пары словарей вычисляется отношение количества общих слов к максимальному количеству между словарями. Конечное значение в блочной уникальности определяется как корень частного суммы отношений и их количества:
в =
;
ZxZEc1^-
max(D i,D j)-d
max(D^,Dj)
n(n—1)
где i и j – индексы словарей, D i и D j – словари с индексом i и j соответственно, d – расхождении слов в количестве в словарях D i и D j , n – количество словарей.
• вычислить величину a живого сопоставления блока:
Такой критерий, как «уникальность слов», показывает разнообразие слов, используемых в тексте. Расчет данного фактора является упрощенной версией расчета блочной уникальности, однако его использование вызвано именно тем, что в большинстве случаев искусственный интеллект генерирует текст с повторами слова или выражения, являющимися запросом к нему. Для этого все слова необходимо привести к начальной форме. Коэффициент W, отображающий уникальность слова имеет следующую формулу:
max(1,R)—l max (1,R) ,
где I – количество символов в исходном блоке, R – количество символов в конечном блоке, d – количество символов в словаре расхождений.
n № C?
W =. ,
где C i – количество повторов уникального слова под номером i, k – количество уникальных слов, n – количество слов всего.
Таким образом необходимо получить величины живого сопоставления каждого блока и вычислить конечное значение коэффициента живого сопоставления L как среднее арифметическое величин a (1).
Критерий «блочная уникальность» имеет важную роль в части случаев распознавания, потому что объемные тексты создаются искусственным интеллектом в большинстве случаев с помощью дробления темы на подтемы. Такой подход вызван ограничением количества сгенерированных символов. На каждую подтему создается запрос к искусственному интеллекту и затем помещается в документ. В этом случае уязвимость обнаружения причастия искусственного интеллекта в том, что текст подтем генерируется на основе одних и тех же ресурсов, хранящихся в базах сервиса или модуля. Для того, чтобы вычислить величину данного критерия, необходимо разделить текст на блоки по три абзаца. Каждый блок необходимо превратить в
Например, для предложения «В мире людей не будет мира, пока будет человек» словарь будет следующим.
Таблица 1. Количество повторов слов.
Table 1. Number of word repetitions.
Слово |
Количество повторов |
В |
1 |
мир |
2 |
человек |
2 |
не |
1 |
быть |
2 |
пока |
1 |
Всего 9 слов, значит расчет будет иметь вид:
W = 9J (E+l I +l!+^+l I +1^ = 0,829 (4)
Такой результат говорит о критическом количестве повторов.
Существуют несколько известных факторов, указывающих на качество и процент заимствования текста с других источников. Такие критерии называются «водное наполнение» и «уникальность текста», соответственно. Их расчет включает в себя анализ множества источников, в которых происходит поиск совпадений выражений [7]. Коэффициенты «водное наполнение» F и «уникальность текста» U можно получить благодаря такой системе, как сервис ADVEGO. Для этого необходимо подключить свою систему распознавания к программному интерфейсу приложению сервиса, предварительно выбрав язык и версию антиплагиата. После загрузки и проверки текста сервисом придет ответ с необходимыми величинами.
Критерий «отсутствие аргументации» важен, потому что искусственный интеллект не умеет аргументировать тот или иной вывод. Вместо это генератор берет текст из готовых ресурсов и после объединения в конечный вид преподносит информацию, как теорему. В среднем человек пишет примерно 1-2 раза на 300 слов такие выражения как: «потому что», «так как», «в следствие», «как пример». Если выражение встречаются реже, то это говорит о причастности искусственного интеллекта к созданию текста. Для получения величины E критерия «отсутствие аргументации» необходимо взять зависимость количества таких выражений к общему количеству слов (5). Для текста, в котором выражение встречается хотя бы один раз, формула имеет вид:
p |1- #| ■ (5)
где k – количество выражений, n – количество слов в тексте.
Последний критерий «слова паразиты» говорит за себя. Дело в том, что искусственный интеллект часто включает в сгенерированный ответ слова, которыми люди пользуются крайне редко. Это происходит из-за того, что алгоритмы подбирают любые слова из собственных словарей только по смысловой нагрузке, несмотря на частоту их употребления. Более того, чтобы сгенерированный текст был более уникальный, искусственный интеллект заменяет слова на синонимы, которые могли выйти из речевого оборота в том или ином языке. То же самое касается перевода ресурсов с одного языка на другой. Русские слова, которые слишком часто использует искусственный интеллект:
демонстрация, подчеркивания, завет, гобелен, возможно, динамический, погружение, превосходит, используйте, содействие, рычаг. Аналогичные выражения:
-
• погрузитесь в;
-
• ориентируйтесь по ландшафту;
-
• важно учитывать;
-
• примечательно, что;
-
• кроме того;
-
• помните, что;
-
• давайте погрузимся;
-
• стоит отметить, что.
Если таких слов или выражений более 3-х на 300 слов, то это говорит о том, что скорее всего такой текст был сгенерирован нейросетью. Величина P данного критерия рассчитывается следующим образом:
p = # (6)
Величины критериев позволяют рассчитать конечную вероятность того, что текст был сгенерирован нейросетью. Однако перемножение коэффициентов даст результат с большой погрешностью. Для минимизации погрешности необходимо рассмотреть ряд критериев и соотношения их величин для экспериментальных текстов, созданных человеком и компьютером. Для каждого коэффициента приведена сводная информация по результатам 15-ти экспериментов. Для каждого эксперимента были взяты тексты объемом примерно в 6000 слов. Примерно 15% содержания статей, написанных вручную, было заимствовано из других источников.
Таблица 2. Результаты тестирования критериев для текстов, сгенерированных нейросетью.
Table 2. Results of testing criteria for texts generated by a neural network.
Критерий |
Коэффициент |
Нижний порог |
Верхний порог |
Среднее значение |
живое сопоставление |
L |
0,26 |
0,91 |
0,55 |
блочная уникальность |
B |
0,05 |
0,54 |
0,22 |
уникальность слов |
W |
0,03 |
0,48 |
0,14 |
уникальность текста |
U |
0,68 |
1,00 |
0,88 |
водное наполнение |
F |
0,10 |
0,32 |
0,15 |
отсутствие аргументации |
E |
0,17 |
0,55 |
0,24 |
слова паразиты |
P |
0,40 |
0,67 |
0,52 |
Таблица 3. Результаты тестирования критериев для текстов, написанных человеком.
Table 3. Results of testing criteria for human-written texts.
Критерий |
Коэффициент |
Нижний порог |
Верхний порог |
Среднее значение |
живое сопоставление |
L |
0,02 |
0,23 |
0,06 |
блочная уникальность |
B |
0,03 |
0,60 |
0,12 |
уникальность слов |
W |
0,04 |
0,62 |
0,09 |
уникальность текста |
U |
0,15 |
1,00 |
0,62 |
водное наполнение |
F |
0,03 |
0,33 |
0,09 |
отсутствие аргументации |
E |
0,00 |
0,22 |
0,07 |
слова паразиты |
P |
0,00 |
0,21 |
0,05 |
Среднее коэффициентов всех критериев кроме уникальности текста для текстов, написанных человеком, ниже. Это сказано тем, что генераторы искусственного интеллекта хорошо заменяют слова и фразы на подобные, за счет чего системы антиплагиата распознают текст более уникальным.
Для каждого коэффициента необходимо определить функцию, значение которой будет расти по мере приближения к среднему коэффициента, полученного вследствие экспериментов с текстами, сгенерированных искусственным интеллектом, и будет уменьшаться по мере приближения к среднему коэффициента, полученного вследствие экспериментов с текстами, написанными вручную. Для нахождения результата S распознавания (7) необходимо суммировать частное величин критериев на их средние значения для компьютера и человека. Таким образом, каждый член уравнения будет больше или меньше единицы, что говорит о принадлежности к искусственному интеллекту или человеку. Сумму необходимо поделить на 7, так как всего 7 критериев, и умножить на 50, чтобы получить вероятность в процентах. Конечная формула выглядит так:
s =
((■
L
0,55-0,06
U
0,88-0,62.
) ) +
В
■+ 0,22-1 F
—+ !r +
0,12 0,14-0,09
E p
0,15-0,09+ 0,24-0,07+ 0,52-1
X50
0,05 /
Если S больше 50, значит вероятнее всего данный текст написан нейросетью.
РЕЗУЛЬТАТЫ
Далее представлена таблица с результатами тестирований системы распознавания паттернов применения искусственного интеллекта при создании текстов. Результат распознавания представляется в процентах. При величине более 50-ти считается, что система распознала паттерны искусственного интеллекта и автором является нейросеть.
Таблица 4. Результаты тестирований системы распознавания паттернов применения искусственного интеллекта при СОЗДАНИИ ТЕКСТОВ.
Table 4. Results of testing the system for recognizing patterns of application of artificial intelligence in text creation.
Номер тестирования |
Автор текста |
Количество слов |
Результат распознавания |
1 |
Человек |
6003 |
3 |
2 |
Человек |
5445 |
14 |
3 |
Человек |
5871 |
8 |
4 |
Человек |
6280 |
25 |
5 |
Человек |
5032 |
19 |
6 |
Человек |
3653 |
19 |
7 |
Человек |
2832 |
13 |
8 |
Человек |
1604 |
31 |
9 |
Нейросеть |
5993 |
59 |
10 |
Нейросеть |
5384 |
57 |
11 |
Нейросеть |
2034 |
99 |
12 |
Нейросеть |
2940 |
80 |
13 |
Нейросеть |
6149 |
56 |
14 |
Нейросеть |
3009 |
84 |
15 |
Нейросеть |
5652 |
60 |
16 |
Нейросеть |
2225 |
47 |
17 |
Нейросеть |
4851 |
66 |
18 |
Нейросеть |
4305 |
63 |
19 |
Нейросеть |
1694 |
56 |
20 |
Нейросеть |
3239 |
60 |
По результатам стоит заметить, что система неверно определила всего 1 раз из 20-ти. Погрешность распознавания составляет примерно 5%.
ОБСУЖДЕНИЕ
В результате можно сделать вывод, что распознавание происходит корректно. На основе лемматизатора, математических расчетов и обмена данных с нейросетью не трудно создать систему, которая умеет автоматически определять наличие паттернов искусственного интеллекта в тексте. Для этого необходимо создать сервис или платформу и подключить 3 описанных выше модуля, после чего описать алгоритмом расчет коэффициентов критериев и конечную функцию. Такая система может помочь в образовательных и других учреждениях, где требуется проверка подлинности информации. Для создания веб-платформы рекомендуется использовать:
-
• фреймворк Yii2 [8];
-
• язык программирования PHP версии 7.4.x и выше [9];
-
• база данных MySQL [10];
-
• операционная система Linux Ubuntu 20.04 LTS и выше [11].
ЗАКЛЮЧЕНИЕ
Таким образом, в ходе подготовки данной статьи были сделаны следующие шаги для описания процесса распознавания паттернов применения искусственного интеллекта:
-
• описание необходимых модулей;
-
• описание критериев распознавания;
-
• расчет коэффициентов критериев;
-
• определение средних величин
коэффициентов;
-
• расчет конечной функции распознавания;
-
• представление результатов в виде таблицы;
-
• интерпретация результатов и
- формулирование рекомендаций по созданию системы распознавания паттернов
применения искусственного интеллекта.
В результате можно сказать, что алгоритм распознавания отлично справляется с поставленными целям. Стоит заметить, что нейросети развиваются, поэтому описанный процесс может потерять свою актуальность. В таком случае необходимо провести анализ недочетов искусственного интеллекта и изменить список критериев. Вычисления, описанные в данной статье, являются отличным инструментом для создания системы распознавания паттернов нейросетей.