Руководитель проекта: Шоманов А.С.
Источник финансирования: ГФ КМУ МНВО РК
Цель: Повышение производительности вопросно-ответных моделей на казахском языке и снижение стоимости их разработки за счет оптимизации и точной настройки больших предобученных мультиязычных моделей
Годы реализации: 2024–2026
Партнеры: ТОО «Plasma Science»
Объем финансирования: 89 979 146,58 тенге
За последние пять лет область обработки естественного языка (Natural Language Processing, NLP) добилась значительного прогресса, очевидного не только для экспертов, но и для широкой общественности благодаря буму вопросно-ответных систем и чат-ботов. Эти инновационные разработки, наиболее заметным представителем которых является чат GPT, стали визитной карточкой NLP, демонстрируя миллионам пользователей по всему миру практическую ценность данной области науки. Однако, реализация подобных систем для малоресурсных языков, таких как казахский, по-прежнему представляет собой вызов, и в первую очередь, из-за нехватки ресурсов и высоких затрат, включая затраты на высокопроизводительные кластеры графических процессоров (GPU). Данный проект направлен на реализацию высокопроизводительной вопросно-ответной системы на казахском языке, опирающейся на внешние источники знаний в специализированной области. В соответствии с общепринятой классификацией данная вопросно-ответная система может быть определена как open-book (использует внешние, а не внутренние знания) и closed-domain (предназначена для специализированной, а не общей области знаний). В своей работе вопросно-ответная система будет опираться на вопросно-ответную модель на казахском языке, основанную на трансформерной архитектуре.
Целью данного проекта является повышение производительности вопросно-ответных моделей на казахском языке и снижение стоимости их разработки за счет оптимизации и точной настройки больших предобученных мультиязычных моделей, созданных в условиях почти не ограниченных ресурсов такими технологическими гигантами как Google, Microsoft, OpenAI, Meta и другие.
Для достижения цели проекта необходимо решить три основные задачи, каждая из которых в свою очередь, делится на три подзадачи. На данный момент были выполнены работы по подготовке предварительно обученных моделей для вопросно-ответных систем на казахском языке, одна из моделей (T5-Kazakh-QA) была опубликована на платформе HuggingFace. Уровень зрелости оценивается как ТРЛ 2 по окончанию ожидается уровень ТРЛ 3.
Задача 1 – разработать экономичную и производительную вопросно-ответную модель на казахском языке.
Задача 2 – разработать модель семантической классификации контекстов задаваемых вопросов.
Задача 3 – интегрировать разработанные модели и создать прототип вопросно-ответной системы на казахском языке.
1 Разработка экономичной и производительной вопросно-ответной модели на казахском языке
2 Разработка модели семантической классификации контекстов задаваемых вопросов
3 Разработка прототипа вопросно-ответной системы на казахском языке
Основные результаты данного проекта будут включать: 1) новую экономичную и производительную вопросно-ответную модель на казахском языке; 2) новую инвариантную к языкам модель семантической классификации контекстов задаваемых вопросов; 3) прототип интеллектуальной вопросно-ответной системы на казахском языке.
Будет разработана и опубликована на портале HuggingFace вопросно-ответная модель на казахском языке. Будет выполнен сравнительный анализ мультиязычных вопросно-ответных моделей и исследованы особенности их адаптации. Будут исследованы и разработаны методы оптимизации параметров выбранных мультиязычных моделей для адаптации к казахскому языку. Будет опубликована одна статья в рецензируемом отечественном издании, рекомендованном КОКСНВО. Будут исследованы и разработаны методы точной настройки выбранных мультиязычных моделей для адаптации к казахскому языку. Будут исследованы и разработаны методы семантической классификации контекстов, интегрирующие выбранные алгоритмы семантической классификации с моделями семантических эмбеддингов. Будет опубликована одна статья в рецензируемом научном издании, индексируемом в Science Citation Index Expanded базы Web of Science и (или) имеющим процентиль по CiteScore в базе Scopus не менее 50. Будет разработан прототип вопросно-ответной системы на казахском языке и создан веб-интерфейс для подключения к системе. Будет опубликована одна статья в рецензируемом научном издании, индексируемом в Science Citation Index Expanded базы Web of Science и (или) имеющим процентиль по CiteScore в базе Scopus не менее 50.
Публикации
Tleubayeva, A., & Shomanov, A. (2024). COMPARATIVE ANALYSIS OF MULTILINGUAL QA MODELS AND THEIR ADAPTATION TO THE KAZAKH LANGUAGE. Scientific Journal of Astana IT University, 19, 89–97. https://doi.org/10.37943/19WHRK2878
1) Вопросно-ответная Llama модель на казахском языке.
2) GPT-j-3.4 модель на казахском языке.
3) Вопросно-ответная модель RoBERTa-Kaz-Large для казахского языка.
4) Llama модель на казахском языке.