Руководитель проекта: Нугуманова Алия Багдатовна, PhD, Директор НИЦ «Big Data & Blockchain Technologies”
Источник финансирования: ГФ МНВО РК
Цель проекта: обеспечить конкурентоспособность контролируемых моделей извлечения терминов при использовании автоматически сгенерированных обучающих данных.
Партнеры: Научно-производственная компания “Plasmascience”
Годы реализации: 2023–2025 гг.
Объем финансирования: 94 625 358,5 тенге
Современные контролируемые модели-трансформеры являются стандартом в задачах обработки естественного языка, включая извлечение терминов. Однако их применение требует большого объема размеченных данных, что представляет серьезную проблему для высокотехнологичных доменов (например, материаловедение, блокчейн) и малоресурсных языков, таких как казахский. Ручная аннотация таких данных трудоёмка, затратна и требует привлечения экспертов.
Актуальность проекта обусловлена тем, что он предлагает подход к автоматической генерации обучающих данных, позволяющий преодолеть дефицит ручной разметки. Впервые будет исследована зависимость эффективности извлечения терминов от свойств исходного корпуса и разработаны критерии отбора качественных текстов. Также впервые будет создан неконтролируемый аннотатор на основе NMF, учитывающий семантическую связность терминов с применением эмбеддингов.
Проект ориентирован на создание устойчивых решений для извлечения терминов на английском и казахском языках и предусматривает апробацию результатов в виде построения графов знаний. Это будет способствовать развитию интеллектуальных систем, поддерживающих автоматический анализ текстов в специализированных областях, а также расширению языкового и технологического охвата современных NLP-моделей.
На 2023 год
– Разработка эффективных неконтролируемых аннотаторов UA1 и UA2.
– Оценка производительности аннотаторов UA1 и UA2 на наборах данных ACTER и ACL RD-TEC 2.0.
– Исследование зависимости производительности извлечения терминов от характеристик корпуса. Разработка эффективного оптимизатора корпуса текстов.
На 2024 год
– Создание корпусов текстов в доменах Материаловедение и Блокчейн на английском и казахском языках.
– Автоматическая генерация набора данных Matcha для доменов Материаловедение и Блокчейн на английском и казахском языках. Оценка производительности аннотаторов UA1 и UA2 на тестовом подмножестве набора данных Matcha.
На 2025 год
– Точная настройка моделей-трансформеров BERT на обучающем подмножестве набора данных Matcha для английского и казахского языков.
– Оценка производительности контролируемых моделей извлечения терминов Matcha-BERT для английского и казахского языков.
– Сводный анализ производительности разработанных неконтролируемых моделей извлечения терминов и контролируемых моделей извлечения терминов до и после точной настройки. Реализация кейсов по созданию графов знаний в доменах Материаловедение и Блокчейн.
– новый эффективный неконтролируемый аннотатор терминов;
– новый эффективный оптимизатор корпуса текстов;
– автоматически сгенерированные (аннотированные) обучающие наборы данных в доменах Материаловедение и Блокчейн на английском и казахском языках;
– контролируемые модели извлечения терминов в доменах Материаловедение и Блокчейн на английском и казахском языках;
– кейсы по разработке графов знаний в доменах Материаловедение и Блокчейн.
– Будет опубликована 1 статья или обзор в рецензируемом зарубежном или отечественном издании, рекомендованном КОКСНВО.
– Будут опубликованы 3 статьи в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science и (или) имеющим процентиль по CiteScore в базе Scopus не менее 35.
Ф.И.О., образование, степень, ученое звание |
Роль в проекте |
Индекс Хирша, идентификаторы ResearcherID, ORCID, Scopus Author ID |
Нугуманова Алия Багдатовна, PhD по специальности «Информационные системы» |
Научный руководитель. Ведущий научный сотрудник |
Индекс Хирша: 6. Researcher ID L-9616- 2015. ORCID 0000-0001-5522-4421. Scopus Author ID 55864815200. |
Байбурин Ержан Мухаметкалиевич |
Старший научный сотрудник |
Индекс Хирша: 4. ORCID: 0000-0002-1583-9912. Scopus Author ID: 56111999400. Researcher ID: — |
Алимжанов Ермек Серикович, магистр |
Старший научный сотрудник |
h-индекс = 2 Scopus ID = 57191433356, https://orcid.org/0000-0002-8758-2220 |
Альжанов Алмас Миржанович, докторант |
Научный сотрудник |
Индекс Хирша: 1 ORCID 0009-0007-8083-2366. Scopus Author ID 58859587600. |
Мансурова Айгерім Қанатқызы |
Научный сотрудник |
Индекс Хирша: 1 ORCID 0009-0003-1978-9574 |
Мансурова Айғаным Қанатқызы |
Научный сотрудник |
Индекс Хирша Scopus: 1 ORCID 0009-0007-9076-0722 Scopus ID: 59233698800 |
Калыкулова Алия Маратовна |
Младший научный сотрудник |
ORCID 0009-0006-5641-3797 |
В данном исследовании представлен подход к несупервизированному извлечению терминов, сочетающий метод неотрицательной матричной факторизации (NMF) с векторными представлениями слов. Вдохновившись одной из первых семантических реализаций NMF, в которой используется регуляризация для совместной оптимизации матриц «документ–слово» и «слово–слово» в задачах кластеризации документов, мы адаптировали эту стратегию для задачи извлечения терминов. Обычно матрица «слово–слово», отражающая семантические связи между словами, формируется на основе косинусного сходства между эмбеддингами слов. Однако известно, что эмбеддинги, полученные с помощью трансформеров, располагаются в узком конусе в векторном пространстве, из-за чего большинство пар слов демонстрируют завышенное сходство. Чтобы устранить этот эффект, мы заменяем стандартную матрицу «слово–слово» на матрицу «слово–ядро» (word–seed), ограничивая столбцы набором «доменных семян» — ключевыми словами, отражающими сущностные семантические характеристики конкретной предметной области. Таким образом, мы предлагаем модифицированную схему NMF, которая совместно факторизует матрицы «документ–слово» и «слово–ядро», что позволяет получить более точные векторные представления слов, используемые для извлечения тематически значимых терминов. Данная модификация существенно повышает эффективность извлечения терминов и представляет собой первое специализированное семантическое расширение NMF, адаптированное под задачу терм-экстракции. Сравнительные эксперименты показали, что предложенный метод превосходит как традиционные подходы на основе NMF, так и современные трансформерные решения, такие как KeyBERT и BERTopic. Для поддержки дальнейших исследований мы также собрали и вручную аннотировали два новых корпуса, каждый из которых содержит по 1000 предложений, в тематике «География и история» и «Национальные герои». Эти наборы пригодны как для извлечения терминов, так и для задач классификации документов. Весь исходный код и данные доступны в открытом доступе.
Nugumanova A. et al. Semantic Non-Negative Matrix Factorization for Term Extraction //Big Data and Cognitive Computing. – 2024. – Т. 8. – №. 7. – С. 72. doi.org/10.3390/bdcc8070072.
Крупные языковые модели (LLMs) способны хранить фактические знания в своих параметрах и демонстрируют высокие результаты в задачах ответа на вопросы. Однако остаются нерешёнными такие проблемы, как отсутствие прозрачности в объяснении полученных ответов (provenance) и ограниченность в актуализации знаний. Некоторые подходы стремятся преодолеть эти ограничения путём объединения параметрической памяти модели с внешними источниками знаний. В отличие от таких гибридных методов, наше предложенное решение QA-RAG полностью опирается на внешнюю базу знаний, а именно — на плотный векторный индекс (dense vector index database). В данной статье мы сравниваем конфигурации RAG с использованием двух языковых моделей Llama 2 — 7b и 13b, систематически оценивая их производительность по трём ключевым аспектам: устойчивость к шуму, выявление пробелов в знаниях и интеграция внешней достоверной информации. Результаты оценки показали, что предложенный подход достигает точности 83,3%, демонстрируя высокую эффективность по сравнению с существующими базовыми методами. Тем не менее, модель по-прежнему сталкивается с серьёзными трудностями при интеграции внешней правды (external truth), что указывает на необходимость дальнейших исследований и доработок. Полученные выводы подчеркивают, что, несмотря на перспективность RAG-архитектуры для задач вопросно-ответных систем, требуется значительный прогресс, чтобы максимально эффективно использовать её потенциал.
Mansurova A., Mansurova A., Nugumanova A. QA-RAG: Exploring LLM reliance on external knowledge //Big Data and Cognitive Computing. – 2024. – Т. 8. – №. 9. – С. 115. doi.org/10.3390/bdcc8090115.
Крупные языковые модели (LLMs), такие как ChatGPT, радикально изменили область обработки естественного языка благодаря своей способности к пониманию и генерации связных, человекоподобных ответов во множестве прикладных задач. Несмотря на впечатляющие возможности, они часто демонстрируют ограничения в специализированных и насыщенных знаниями областях, главным образом из-за отсутствия доступа к релевантной информации. Более того, большинство современных LLM доступны лишь через API, что ограничивает прозрачность их внутренней работы. Применение таких моделей в критически важных сценариях также затруднено из-за склонности к генерации недостоверной (галлюцинирующей) информации и неспособности использовать внешние источники знаний. Для преодоления этих ограничений в настоящем исследовании предлагается инновационная система, расширяющая возможности LLM за счёт интеграции с внешним модулем управления знаниями. Данная система позволяет языковым моделям использовать данные, хранящиеся в векторных базах данных, что обеспечивает доступ к релевантной информации для формирования более точных ответов. Кроме того, система поддерживает извлечение информации из интернета, тем самым значительно расширяя фактическую базу знаний модели.
Предложенный подход позволяет обойти необходимость повторного обучения LLM, что представляет собой ресурсозатратный процесс. Вместо этого делается акцент на более эффективном использовании уже существующих моделей. Предварительные результаты демонстрируют потенциал системы в повышении эффективности языковых моделей в предметно-ориентированных и знания-интенсивных задачах. Оснастив LLM возможностью в реальном времени обращаться к внешним источникам данных, можно значительно повысить их прикладную ценность, не прибегая к постоянному увеличению размеров самих моделей.
Mansurova A., Nugumanova A., Makhambetova Z. Development of a question answering chatbot for blockchain domain //Scientific Journal of Astana IT University. – 2023. – С. 27-40. doi.org/10.37943/15XNDZ6667.
Автоматическое извлечение терминов стремится к повышению эффективности и точности. Исследователи IBM предложили метод несупервизированной аннотации, направленный на извлечение специализированных терминов в технических доменах. Этот подход использует энкодеры предложений и анализ морфологических признаков, связей между терминами и темами, а также семантического сходства между терминами. В данной работе мы реализуем предложенный IBM метод «с нуля» и проводим тестирование на корпусе ACTER. Кроме того, в рамках эксперимента мы проводим анализ извлечения некорректных n-грамм, способных негативно повлиять на качество несупервизированного аннотирования. Воспроизведённый нами метод продемонстрировал значение F1-метрики 44,8% и потерю в 5,15% по сравнению с оригинальным подходом IBM на корпусе ACL-RD-TEC 2.0. На корпусе ACTER наши метрики показали схожие результаты с другими передовыми методами, ранее применёнными к этому датасету.
Kalykulova A., Kairatuly B., Rakhymbek K., Kyzyrkanov A., Nugumanova A. Evaluation Of IBM’s Proposed Term Extraction Approach On The ACTER Corpus // IX — International Scientific Conference «Computer Science and Applied Mathematics». — Almaty: Institute of Information and Computational Technologies CS MSHE RK, 2024. — С. 597–604. https://conf.iict.kz/wp-content/uploads/2025/01/collection_CSAM_IX_2024.pdf
Эмбеддинги слов играют ключевую роль в современных методах обработки естественного языка (NLP). В данной статье рассматриваются методы оценки качества эмбеддингов, которые можно разделить на внутренние и внешние. Внутренние методы оценивают представления вне контекста конкретных задач, тогда как внешние методы используют задачи NLP для оценки. Основное внимание уделяется оценке семантического сходства с использованием наборов данных WordSim-353, SimLex- 999 и SimVerb-3500. Для оценки были использованы предобученные модели FastText и SentenceBERT. Результаты показывают, что модели FastText демонстрируют высокие коэффициенты корреляции и превосходят SentenceBERT в задаче представления отдельных слов. SentenceBERT, несмотря на свои преимущества в задачах поиска семантического сходства и кластеризации, менее эффективен для отдельных слов. Выбор модели должен основываться на эмпирических данных и специфических требованиях задачи.
Альжанов А. М., Рахымбек К. К. Оценка и сравнение качества эмбеддингов слов // Проблемы оптимизации сложных систем: Материалы XX Междунар. Азиат. школы-семинара. – Алматы, 2024. – С. 211–215. https://conf.iict.kz/wp—content/uploads/2024/09/opcs_material_2024.pdf.