Разработка системы идентификации текстовых заимствований на основе комбинированных методов и моделей поиска неполных дубликатов с учетом казахского языка

Руководитель проекта: Доктор технических наук, Белошицкая Светлана Васильевна

Источник финансирования: ГФ МНВО РК

Цель: Нахождение и предотвращение фактов плагиата, а также несанкционированного использования результатов интеллектуальной деятельности путем усовершенствования существующей системы определения степени уникальности научных работ за счет создания системы идентификации текстовых заимствований на основе разработанных комбинированных методов и моделей поиска неполных дубликатов с учетом казахского языка.

Партнеры: ТОО “PVLHOST”, Республика Казахстан, г. Павлодар, ул. Майры, 29–101

Годы реализации: 2024–2026 гг.

Объем финансирования: 97 752 196 тенге

Задачи проекта

Провести анализ существующих научных разработок и прикладного программного обеспечения, позволяющего находить неполные дубликаты (near-duplicate) в текстовых электронных документах на трех языках (казахский, английский и русский).
Провести анализ методов сокрытия заимствований в документах, позволяющих изменять структуру контента документа без изменения его содержания. Выявить структурные изменения, которым могут подвергаться составляющие контента.
Разработать модели и методы определения неполных дубликатов (near-duplicate) в контенте электронных документов в текстовой части документов и изображениях, на базе которых возможна разработка информационной системы обнаружения заимствований. Разработанные методы обязаны обеспечивать обнаружение неполных дубликатов (near-duplicate) при значимых модификациях документов.
Разработать методы подготовки элементов контента, которые обязаны нейтрализовать влияние использования методов скрытия заимствований. Данные методы должны приводить структуру электронного документа в эталонную общую форму, одинаковую для всех типов файлов.
Разработать методы оптимизации процесса, предусматривающие поиск неполных дубликатов (near-duplicate) в документах с целью минимизации времени на поиск.
Разработка альтернативных моделей и методов поиска неполных дубликатов (near-duplicate) на основе N-грамм анализа текстовых данных;
Усовершенствование методов индексации, канонизации и сопоставления текстовой информации, написанной на казахском языке.
Усовершенствование существующих методов выявления неполных дубликатов (near-duplicate) к проверяемым особенностям электронных документов с учетом языковой составляющей;
Разработка информационной системы идентификации текстовых заимствований на основе комбинированных методов и моделей поиска неполных дубликатов (near-duplicate):

9.1 Разработка концептуальной модели программного обеспечения для накопления и обработки информации о научных работах и научных исследователях.

9.2 Разработка структурной модели информационной системы на основе микросервисной архитектуры.

9.3 Создание архитектурной базы данных системы мониторинга академических и научных работ.

9.4 Разработка структурной модели построения методов управления данными, методов экспорта и передачи данных, резервирования информации.

9.5 Создание модуля визуализации для обеспечения подачи информации по совпадениям текстовых массивов с учетом трех языков: казахского, английского и русского.

9.6 Апробирование разработанного экспериментальной информационной системы идентификации текстовых заимствований.

По итогам реализации научного проекта за весь период реализации проекта будут опубликованы научные статьи, а именно:

— не менее 2 (двух) статей или обзоров в рецензируемом научном издании, индексируемом в Social Science Citation Index, Arts and Humanities Citation Index и (или) базы Web of Science и (или) имеющем процентиль по CiteScore в базе Scopus не менее 35 (тридцати пяти);

— не менее 4 (четырех) статей и (или) обзоров в рецензируемых зарубежных и (или) отечественных изданиях, рекомендованных КОКНВО.

По итогам работы планируется получение 1 (одного) авторского свидетельства для исходного кода специализированного программного обеспечения поиска неполных дубликатов с учетом казахского языка. Авторами интеллектуальной собственности будут зарегистрированы члены исследовательской группы.

Ожидаемые результаты

Модели и методы определения неполных дубликатов (near-duplicate) в контенте электронных документов в текстовой части документов и изображениях.
Методы подготовки элементов контента, которые должны нейтрализовать влияние использования методов скрытия заимствований.
Альтернативные модели и методы поиска неполных дубликатов (near-duplicate) на основе N-грамм анализа текстовых данных.

Члены исследовательской группы

ФИО

Роль в проекте и характер выполняемой работы

Scopus Author ID , Индекс Хирша, идентификаторы ResearcherID, ORCID

Белощицкая Светлана Васильевна

Доктор технических наук (информационные технологии)

Научный руководитель

Руководство проектом, выполнение всех этапов согласно графику проекта и обеспечение необходимых результатов.

Scopus Author ID 57194208505

h=14

https://www.scopus.com/authid/detail.uri?authorId=57194208505

Researcher ID AAR-7542-2020

ORCID 0000-0002-0856-5474

Токсанов Сапар Нурахметович

PhD in Information Systems

Ведущий научный сотрудник

Разработка альтернативных моделей и методов поиска неполных дубликатов (near-duplicate) на основе N-грамм анализа текстовых данных.

Разработка информационной системы идентификации текстовых заимствований на основе комбинированных методов и моделей поиска неполных дубликатов (near-duplicate):

Разработка концептуальной модели программного обеспечения для накопления и обработки информации о научных работах и научных исследователях.

Разработка структурной модели информационной системы на основе микросервисной архитектуры.

Scopus Author ID 57222154960

h=5

https://www.scopus.com/authid/detail.uri?authorId=57222154960

Researcher AAH-7150-2019

ORCID 0000-0002-2915-9619

Кучанский Александр Юрьевич

Доктор технических наук (информационные технологии)

Ведущий научный сотрудник

Разработать модели и методы определения неполных дубликатов (near-duplicate) в контенте электронных документов в текстовой части документов и изображениях, на базе которых возможна разработка информационной системы обнаружения заимствований. Разработанные методы обязаны обеспечивать обнаружение неполные дубликаты (near-duplicate) при значимых модификациях документов.

Разработать методы подготовки элементов контента, которые обязаны нейтрализовать влияние использования методов скрытия заимствований. Данные методы должны приводить структуру электронного документа в эталонную общую форму, одинаковую для всех типов файлов.

Scopus Author ID 57190488151

h=19

https://www.scopus.com/authid/detail.uri?authorId=57190488151

Researcher AAF-1964-2019

ORCID 0000-0003-1277-8031

Мухатаев Айдос Агдарбекович

Кандидат педагогических наук

Старший научный сотрудник

Усовершенствование существующих методов выявления неполных дубликатов (near-duplicate) к проверяемым особенностям электронных документов с учетом языковой составляющей.

Scopus Author ID 57210173007

h=6

https://www.scopus.com/authid/detail.uri?authorId=57210173007

Researcher AAI-7490-2021

ORCID 0000-0002-8667-3200

Андрашко Юрий Васильевич

Кандидат технических наук (информационные технологии)

Научный сотрудник

Разработать методы оптимизации процесса, предусматривающие поиск неполных дубликатов (near-duplicate) в документах с целью минимизации времени на поиск.

Усовершенствование методов индексации, канонизации и сопоставления текстовой информации, написанной на казахском языке.

Scopus Author ID 57194702818

h=16

https://www.scopus.com/authid/detail.uri?authorId=57194702818

Researcher F-6021-2019

ORCID 0000-0003-2306-8377

Шарипова Салтанат Еркиновна

PhD (Системная инженерия)

Научный сотрудник

Создание архитектурной базы данных системы мониторинга академических и научных работ.

Разработка структурной модели построения методов управления данными, методов экспорта и передачи данных, резервирования информации.

Создание модуля визуализации для обеспечения подачи информации по совпадениям текстовых массивов с учетом трех языков: казахского, английского и русского.

Scopus Author ID 57884433800

h=3

https://www.scopus.com/authid/detail.uri?authorId=57884433800

Researcher KVH-2721-2024

ORCID 0000-0001-7267-3261

Тлеубаева Арайлым Орынбайқызы

PhD студент по ОП “Computer Science”

PhD student in Computer Science program at Astana IT University

Научный сотрудник

Разработка структурной модели информационной системы на основе микросервисной архитектуры.

Создание архитектурной базы данных системы мониторинга академических и научных работ.

Scopus Author ID 58613980300

h=1

https://www.scopus.com/authid/detail.uri?authorId=58613980300

Researcher HHM-3840-2022

ORCID 0000-0001-9560-9756

Результаты 2024 года

Результаты 2024 года:

Шифр задания, этапа	Наименование работ по Договору и основные этапы его выполнения	Результат
Шифр задания, этапа
1	Анализ существующих научных разработок и прикладного программного обеспечения, позволяющего находить неполные дубликаты (near-duplicate) в текстовых электронных документах на трех языках (казахский, английский и русский)	Был проведен обзор популярных программных библиотек и платформ для поиска неполных дубликатов в текстах, включая следующие инструменты: ● Apache Lucene / Elasticsearch – система полнотекстового поиска с возможностями поиска по подобию (fuzzy search). ● FuzzyWuzzy – библиотека на Python для сопоставления строк по подобию с использованием библиотеки Levenshtein. ● SimString – библиотека для быстрого поиска строк, похожих на заданную строку. ● TextRazor – API для анализа текста и поиска схожих фрагментов с поддержкой множества языков. В рамках анализа было проведено детальное изучение данных программных решений, направленных на поиск неполных дубликатов в текстах, с особым вниманием к их применению для обработки казахского языка. Каждое из них предлагает различные подходы к сравнению и анализу текстовых данных, однако поддержка казахского языка — особенно с его сложной морфологией и синтаксисом — сильно варьируется между инструментами. Анализ показал, что для корректной работы с казахским языком требуется дополнительная настройка, особенно в системах, где по умолчанию предусмотрена поддержка лишь латинских языков. Тестирование на казахских текстах выявило, что наиболее успешное решение для поиска неполных дубликатов на этом языке —Elasticsearch с дополнительной настройкой и внедрением морфологического анализатора для казахского языка. FuzzyWuzzy оказался менее эффективен при обработке текстов с нелатинскими символами, а TextRazor и вовсе не поддерживает казахский язык в необходимом объеме, что делает его непригодным для использования в данном проекте. В результате, для успешного поиска неполных дубликатов в текстах на казахском языке в дальнейшем планируется изучение Elasticsearch с настройкой для обработки морфологии и токенизации казахских слов. Данное программное решение обеспечивает необходимую точность и гибкость для работы с большими объемами данных и интеграцией специализированных алгоритмов и инструментов для работы с казахским языком. Проведен анализ технологий мониторинга и проверки через стандартные поисковые алгоритмы, которые обеспечивают достаточно быстрый и эффективный поиск полных или неполных дубликатов, а также гарантируют корректную обработку текстов. Установлено, что такие системы не позволяют осуществлять проверку изображений и математических формул. В этом случае возникают проблемы, которые невозможно решить с помощью стандартных процедур. Дополнительные специальные трудности появляются в процессе анализа математических формул в сравниваемых текстах с целью выявления в них сходств. В тексте формулы можно приводить как рисунок или как графический объект, созданный с помощью одного из редакторов формул. Редактор формул – компьютерная программа, предназначенная для создания и редактирования математических и других формул. Редакторы формул основаны на технологиях: ● применение специального языка разметки, например TeX, MathML в редакторе LaTex, Math для редактора OpenOffice; ● создание формул с помощью графического интерфейса: KFormula, MathType, MathCastmula, WIRIS Editor, MathCast; ● встроенные компоненты: Math Expression Editor Light; ● символьные вычисления: Mathematica. Сравнение формул с использованием шаблонов. Поиск по формулам значительно сложнее, чем поиск по тексту (например, формулы x² и a² по шаблону являются идентичными, а по именованиям переменных они различаются). Сравнение формул с использованием конверторов. Установлено, что перспективным направлением автоматизированного анализа математических формул является создание конверторов формул из разных форматов (TeX, Equation, MathType) в канонический формат XML/MathML
2	Анализ методов сокрытия заимствований в документах, позволяющих изменять структуру контента документа без изменения его содержания. Выявить структурные изменения, которым могут подвергаться составляющие контента	1. Проведен анализ, в результате которого установлено, что цифровом мире сокрытие заимствований в текстовых документах стало сложной задачей для систем обнаружения плагиата. При попытке скрыть заимствования, авторы используют различные методы модификации контента. Эти изменения могут варьироваться от простых изменений слов до более сложных структурных модификаций. В данном отчете рассмотрены ключевые методы сокрытия заимствований, структурные изменения контента, а также модели и методы для обнаружения неполных дубликатов, которые применяются для выявления заимствований даже при значительных модификациях текста. 2. Определены основные методы сокрытия заимствований в документах: 2.1. Семантические изменения: замена ключевых слов на синонимы, перефразирование, замена терминов или фраз более простыми или сложными конструкциями. 2.2. Структурные изменения: изменение порядка предложений или абзацев, разделение или объединение предложений и абзацев, изменение стиля текста (например, активного на пассивный залог). 2.3. Изменения форматирования: изменение шрифта, добавление или удаление заголовков и подзаголовков. 2.4. Структурные изменения контента: перестановка абзацев и предложений, адаптация грамматических конструкций, изменение форматов представления данных, например, изменение списка на абзац, содержащий тот же смысл. 3. Проведен анализ основных методов манипуляции с документами, направленных на усложнение процесса обнаружения заимствований: 3.1. Парафразирование — изменение формулировок текста при сохранении основного смысла (замена слов синонимами; изменение порядка слов; использование других грамматических конструкций; преобразование активных предложений в пассивные и наоборот). 3.2. Изменение порядка предложений и абзацев — реорганизация структуры текста путем перестановки предложений или абзацев. 3.3. Замена частей текста графиками или таблицами – значительное изменение структуры документа. 3.4. Преднамеренное неправильное использование цитирования –цитирование с изменениями или с использованием неправильных ссылок (разбиение цитат на несколько частей; изменение атрибуции цитат; смешивание цитирования с парафразированием). 3.5. Перевод с одного языка на другой с последующим парафразированием 3.6. Методы компрессии или расширения текста — сокращение или добавление разъяснений, примеров, данных и других деталей. 3.7. Фрагментирование контента на части 3.8. Применение метафор и аналогий – использование образного выражения мыслей для передачи информации.
3	Модели и методы определения неполных дубликатов (near-duplicate) в контенте электронных документов в текстовой части документов и изображениях, на базе которых возможна разработка информационной системы обнаружения заимствований. Разработанные методы должны обеспечивать обнаружение неполные дубликаты (near-duplicate) при значимых модификациях документов	1.Проведена классификация моделей и методов определения неполных дубликатов 1.1. Методы на основе N-грамм. 1.2. Модели на основе векторного представления текста. 1.3. Шинглирование (разбиение текста на подстроки фиксированной длины). 1.4. Методы на основе глубинного обучения. Среди рассмотренных методов выделены как перспективные для дальнейшей разработки методы с использованием N-грамм, шинглов и моделей глубокого обучения, которые обеспечивают высокий уровень точности при сравнении документов. 2. Проведен анализ та представлено виденье создания гибридного метода обнаружения неполных дубликатов в таблицах. Предполагается, что метод позволит идентифицировать сходства в текстовых и числовых данных таблиц в отдельности, а затем обобщить полученные результаты. Для текстовых данных формируются последовательности из слов в канонизированном виде, из которых на основе метода локально-чувствительного хеширования строятся битовые последовательности. Сходство в этом случае рассчитывается на основе расстояния Хэмминга с заданным пороговым значением. Идентификация сходства между числовыми данными таблиц реализуется на основе метода ближайших соседей с заданными метрическими расстояниями. Метод позволяет идентифицировать неполные дубликаты, имеющиеся в данных входной таблицы по сравнению с множеством таблиц, отобранные из научных публикаций и дипломных и диссертационных работ.