Разработка высокопроизводительной вопросно-ответной системы на казахском языке с использованием внешних источников знаний в специализированных областях

Руководитель проекта: Шоманов А.С.

Источник финансирования: ГФ КМУ МНВО РК

Цель: Повышение производительности вопросно-ответных моделей на казахском языке и снижение стоимости их разработки за счет оптимизации и точной настройки больших предобученных мультиязычных моделей

Годы реализации: 2024–2026

Партнеры: ТОО «Plasma Science»

Объем финансирования: 89 979 146,58 тенге

Аннотация проекта

За последние пять лет область обработки естественного языка (Natural Language Processing, NLP) добилась значительного прогресса, очевидного не только для экспертов, но и для широкой общественности благодаря буму вопросно-ответных систем и чат-ботов. Эти инновационные разработки, наиболее заметным представителем которых является чат GPT, стали визитной карточкой NLP, демонстрируя миллионам пользователей по всему миру практическую ценность данной области науки. Однако, реализация подобных систем для малоресурсных языков, таких как казахский, по-прежнему представляет собой вызов, и в первую очередь, из-за нехватки ресурсов и высоких затрат, включая затраты на высокопроизводительные кластеры графических процессоров (GPU). Данный проект направлен на реализацию высокопроизводительной вопросно-ответной системы на казахском языке, опирающейся на внешние источники знаний в специализированной области. В соответствии с общепринятой классификацией данная вопросно-ответная система может быть определена как open-book (использует внешние, а не внутренние знания) и closed-domain (предназначена для специализированной, а не общей области знаний). В своей работе вопросно-ответная система будет опираться на вопросно-ответную модель на казахском языке, основанную на трансформерной архитектуре.

Цель проекта

Целью данного проекта является повышение производительности вопросно-ответных моделей на казахском языке и снижение стоимости их разработки за счет оптимизации и точной настройки больших предобученных мультиязычных моделей, созданных в условиях почти не ограниченных ресурсов такими технологическими гигантами как Google, Microsoft, OpenAI, Meta и другие.

Задачи проекта

Для достижения цели проекта необходимо решить три основные задачи, каждая из которых в свою очередь, делится на три подзадачи. На данный момент были выполнены работы по подготовке предварительно обученных моделей для вопросно-ответных систем на казахском языке, одна из моделей (T5-Kazakh-QA) была опубликована на платформе HuggingFace. Уровень зрелости оценивается как ТРЛ 2 по окончанию ожидается уровень ТРЛ 3.

Задача 1 – разработать экономичную и производительную вопросно-ответную модель на казахском языке.

Задача 2 – разработать модель семантической классификации контекстов задаваемых вопросов.

Задача 3 – интегрировать разработанные модели и создать прототип вопросно-ответной системы на казахском языке.

Этапы реализации проекта

1 Разработка экономичной и производительной вопросно-ответной модели на казахском языке

2 Разработка модели семантической классификации контекстов задаваемых вопросов

3 Разработка прототипа вопросно-ответной системы на казахском языке

Ожидаемые результаты

Основные результаты данного проекта будут включать: 1) новую экономичную и производительную вопросно-ответную модель на казахском языке; 2) новую инвариантную к языкам модель семантической классификации контекстов задаваемых вопросов; 3) прототип интеллектуальной вопросно-ответной системы на казахском языке.

ШОМАНОВ АДАЙ

Руководитель проекта

ҚАЙРАТҰЛЫ БАУЫРЖАН

Научный сотрудник

ШАКЕНОВ ЖАСУЛАН

Научный сотрудник

ҚАДЫРБЕК НҰРҒАЛИ

Старший научный сотрудник

ТЛЕУБАЕВА АРАЙЛЫМ

Старший научный сотрудник

МАНСУРОВА АЙГЕРІМ

Младший научный сотрудник

МАХАМБЕТОВА ЖАНСАЯ

Младший научный сотрудник

Ожидаемые результаты проекта

Будет разработана и опубликована на портале HuggingFace вопросно-ответная модель на казахском языке. Будет выполнен сравнительный анализ мультиязычных вопросно-ответных моделей и исследованы особенности их адаптации. Будут исследованы и разработаны методы оптимизации параметров выбранных мультиязычных моделей для адаптации к казахскому языку. Будет опубликована одна статья в рецензируемом отечественном издании, рекомендованном КОКСНВО. Будут исследованы и разработаны методы точной настройки выбранных мультиязычных моделей для адаптации к казахскому языку. Будут исследованы и разработаны методы семантической классификации контекстов, интегрирующие выбранные алгоритмы семантической классификации с моделями семантических эмбеддингов. Будет опубликована одна статья в рецензируемом научном издании, индексируемом в Science Citation Index Expanded базы Web of Science и (или) имеющим процентиль по CiteScore в базе Scopus не менее 50. Будет разработан прототип вопросно-ответной системы на казахском языке и создан веб-интерфейс для подключения к системе. Будет опубликована одна статья в рецензируемом научном издании, индексируемом в Science Citation Index Expanded базы Web of Science и (или) имеющим процентиль по CiteScore в базе Scopus не менее 50.

Публикации

Tleubayeva, A., & Shomanov, A. (2024). COMPARATIVE ANALYSIS OF MULTILINGUAL QA MODELS AND THEIR ADAPTATION TO THE KAZAKH LANGUAGE. Scientific Journal of Astana IT University, 19, 89–97. https://doi.org/10.37943/19WHRK2878

Результаты 2024 года

В результате были успешно разработаны и оптимизированы казахские модели на основе RoBERTa, такие как roberta-kaz-large и roberta-large-kazqad, которые показали высокую производительность и точность в задачах вопрос-ответ и ранжирования.
Новизна работы заключается в эффективном применении современных методов обучения и оптимизации к малопредставленному казахскому языку, а также в создании специализированных наборов данных и моделей, способствующих улучшению качества обработки естественного языка для этого языка.
Также в рамках проекта опубликованы следующие модели:

1) Вопросно-ответная Llama модель на казахском языке.

2) GPT-j-3.4 модель на казахском языке.

3) Вопросно-ответная модель RoBERTa-Kaz-Large для казахского языка.

4) Llama модель на казахском языке.