Неконтролируемое извлечение терминов: комплект моделей и наборов данных для высокотехнологических доменов и малоресурсных языков

Руководитель проекта:​ Нугуманова Алия Багдатовна, PhD, Директор НИЦ «Big Data & Blockchain Technologies”

Источник финансирования: ГФ МНВО РК​​

Цель проекта: обеспечить конкурентоспособность контролируемых моделей извлечения терминов при использовании автоматически сгенерированных обучающих данных.​

Партнеры: ​Научно-производственная компания “Plasmascience”

Годы реализации: 2023–2025 гг.  ​

Объем финансирования: 94 625 358,5 тенге

Актуальность проекта

Современные контролируемые модели-трансформеры являются стандартом в задачах обработки естественного языка, включая извлечение терминов. Однако их применение требует большого объема размеченных данных, что представляет серьезную проблему для высокотехнологичных доменов (например, материаловедение, блокчейн) и малоресурсных языков, таких как казахский. Ручная аннотация таких данных трудоёмка, затратна и требует привлечения экспертов.

Актуальность проекта обусловлена тем, что он предлагает подход к автоматической генерации обучающих данных, позволяющий преодолеть дефицит ручной разметки. Впервые будет исследована зависимость эффективности извлечения терминов от свойств исходного корпуса и разработаны критерии отбора качественных текстов. Также впервые будет создан неконтролируемый аннотатор на основе NMF, учитывающий семантическую связность терминов с применением эмбеддингов.

Проект ориентирован на создание устойчивых решений для извлечения терминов на английском и казахском языках и предусматривает апробацию результатов в виде построения графов знаний. Это будет способствовать развитию интеллектуальных систем, поддерживающих автоматический анализ текстов в специализированных областях, а также расширению языкового и технологического охвата современных NLP-моделей.

Задачи проекта

На 2023 год

–          Разработка эффективных неконтролируемых аннотаторов UA1 и UA2.

–          Оценка производительности аннотаторов UA1 и UA2 на наборах данных ACTER и ACL RD-TEC 2.0.

–          Исследование зависимости производительности извлечения терминов от характеристик корпуса. Разработка эффективного оптимизатора корпуса текстов.  

На 2024 год

–          Создание корпусов текстов в доменах Материаловедение и Блокчейн на английском и казахском языках. 

–          Автоматическая генерация набора данных Matcha для доменов Материаловедение и Блокчейн на английском и казахском языках. Оценка производительности аннотаторов UA1 и UA2 на тестовом подмножестве набора данных Matcha.

На 2025 год

–          Точная настройка моделей-трансформеров BERT на обучающем подмножестве набора данных Matcha для английского и казахского языков.

–          Оценка производительности контролируемых моделей извлечения терминов Matcha-BERT для английского и казахского языков. 

–          Сводный анализ производительности разработанных неконтролируемых моделей извлечения терминов и контролируемых моделей извлечения терминов до и после точной настройки. Реализация кейсов по созданию графов знаний в доменах Материаловедение и Блокчейн.

Ожидаемые результаты

  1. Подготовленная в результате реализации проекта научно-техническая продукция:

–          новый эффективный неконтролируемый аннотатор терминов; 

–          новый эффективный оптимизатор корпуса текстов; 

–          автоматически сгенерированные (аннотированные) обучающие наборы данных в доменах Материаловедение и Блокчейн на английском и казахском языках; 

–          контролируемые модели извлечения терминов в доменах Материаловедение и Блокчейн на английском и казахском языках; 

–          кейсы по разработке графов знаний в доменах Материаловедение и Блокчейн.

  1. Научные публикации:

–          Будет опубликована 1 статья или обзор в рецензируемом зарубежном или отечественном издании, рекомендованном КОКСНВО.

–          Будут опубликованы 3 статьи в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science и (или) имеющим процентиль по CiteScore в базе Scopus не менее 35.

Результаты проекта

  • Разработана электронная структура базы данных ГИС на платформе PostgreSQL.
  • Накоплена и внесена в базу информация о дамбах и плотинах Республики Казахстан из открытых источников.
  • Опубликована одна статья в рецензируемом отечественном издании, рекомендованном КОКСНВО.
  • Разработан графический интерфейс с картографической информацией по имеющимся дамбам.
  • Разработан модуль на основе распознавания дамб средствами нейронной сети по интернет-картам для их идентификации пользователем системы.
  • Разработан модуль для ввода, систематизации и хранения документации по геофизическому мониторингу и облету БПЛА.
  • Участники проекта представили доклад на международной конференции «2024 International Conference on Information Science and Communications Technologies (ICISCT)» (ноябрь 2024, г. Сеул, Республика Корея).

Команда проекта

Ф.И.О., образование, степень, ученое звание 

Роль в проекте 

Индекс Хирша, идентификаторы ResearcherID, ORCID, Scopus Author ID

Нугуманова Алия Багдатовна, PhD по специальности «Информационные системы» 

Научный руководитель. Ведущий научный сотрудник 

Индекс Хирша: 6.  

Researcher ID L-9616- 2015.  

ORCID 0000-0001-5522-4421.  

Scopus Author ID 55864815200. 

Байбурин Ержан Мухаметкалиевич 

Старший научный сотрудник

Индекс Хирша: 4. ORCID: 0000-0002-1583-9912. Scopus Author ID: 56111999400. Researcher ID: —  

Алимжанов Ермек Серикович, магистр 

Старший научный сотрудник

h-индекс = 2 

Scopus ID = 57191433356, https://orcid.org/0000-0002-8758-2220 

Альжанов Алмас Миржанович, докторант 

Научный сотрудник 

Индекс Хирша: 1

ORCID 0009-0007-8083-2366. 

Scopus Author ID 58859587600. 

Мансурова Айгерім Қанатқызы

Научный сотрудник

Индекс Хирша: 1

ORCID  0009-0003-1978-9574
Scopus ID: 58614576700

Мансурова Айғаным Қанатқызы

Научный сотрудник

Индекс Хирша Scopus: 1

ORCID 0009-0007-9076-0722

Scopus ID: 59233698800

Калыкулова Алия Маратовна

Младший научный сотрудник

ORCID 0009-0006-5641-3797

Достигнутые результаты

  1. Подготовленная в результате реализации проекта научно-техническая продукция:
  • Разработаны эффективные неконтролируемые аннотаторы UA1 и UA2. ​
  • Получены оценки производительности аннотаторов UA1 и UA2 на наборах данных ACTER и ACL RD-TEC 2.0. ​
  • Разработан эффективный оптимизатор корпуса текстов. ​
  • Создан набор данных Matcha в доменах «Материаловедение» и «Блокчейн» на английском и казахском языках.​
  • Оценена производительность аннотаторов UA1 и UA2 на тестовом подмножестве набора данных Matcha.​
  • Разработан новый метод извлечения терминов T-Extractor.
  1. Научные публикации:
  2. Semantic Non-Negative Matrix Factorization for Term Extraction

В данном исследовании представлен подход к несупервизированному извлечению терминов, сочетающий метод неотрицательной матричной факторизации (NMF) с векторными представлениями слов. Вдохновившись одной из первых семантических реализаций NMF, в которой используется регуляризация для совместной оптимизации матриц «документ–слово» и «слово–слово» в задачах кластеризации документов, мы адаптировали эту стратегию для задачи извлечения терминов. Обычно матрица «слово–слово», отражающая семантические связи между словами, формируется на основе косинусного сходства между эмбеддингами слов. Однако известно, что эмбеддинги, полученные с помощью трансформеров, располагаются в узком конусе в векторном пространстве, из-за чего большинство пар слов демонстрируют завышенное сходство. Чтобы устранить этот эффект, мы заменяем стандартную матрицу «слово–слово» на матрицу «слово–ядро» (word–seed), ограничивая столбцы набором «доменных семян» — ключевыми словами, отражающими сущностные семантические характеристики конкретной предметной области. Таким образом, мы предлагаем модифицированную схему NMF, которая совместно факторизует матрицы «документ–слово» и «слово–ядро», что позволяет получить более точные векторные представления слов, используемые для извлечения тематически значимых терминов. Данная модификация существенно повышает эффективность извлечения терминов и представляет собой первое специализированное семантическое расширение NMF, адаптированное под задачу терм-экстракции. Сравнительные эксперименты показали, что предложенный метод превосходит как традиционные подходы на основе NMF, так и современные трансформерные решения, такие как KeyBERT и BERTopic. Для поддержки дальнейших исследований мы также собрали и вручную аннотировали два новых корпуса, каждый из которых содержит по 1000 предложений, в тематике «География и история» и «Национальные герои». Эти наборы пригодны как для извлечения терминов, так и для задач классификации документов. Весь исходный код и данные доступны в открытом доступе.

Nugumanova A. et al. Semantic Non-Negative Matrix Factorization for Term Extraction //Big Data and Cognitive Computing. – 2024. – Т. 8. – №. 7. – С. 72. doi.org/10.3390/bdcc8070072.

  1. QA-RAG: Exploring LLM reliance on external knowledge

Крупные языковые модели (LLMs) способны хранить фактические знания в своих параметрах и демонстрируют высокие результаты в задачах ответа на вопросы. Однако остаются нерешёнными такие проблемы, как отсутствие прозрачности в объяснении полученных ответов (provenance) и ограниченность в актуализации знаний. Некоторые подходы стремятся преодолеть эти ограничения путём объединения параметрической памяти модели с внешними источниками знаний. В отличие от таких гибридных методов, наше предложенное решение QA-RAG полностью опирается на внешнюю базу знаний, а именно — на плотный векторный индекс (dense vector index database). В данной статье мы сравниваем конфигурации RAG с использованием двух языковых моделей Llama 2 — 7b и 13b, систематически оценивая их производительность по трём ключевым аспектам: устойчивость к шуму, выявление пробелов в знаниях и интеграция внешней достоверной информации. Результаты оценки показали, что предложенный подход достигает точности 83,3%, демонстрируя высокую эффективность по сравнению с существующими базовыми методами. Тем не менее, модель по-прежнему сталкивается с серьёзными трудностями при интеграции внешней правды (external truth), что указывает на необходимость дальнейших исследований и доработок. Полученные выводы подчеркивают, что, несмотря на перспективность RAG-архитектуры для задач вопросно-ответных систем, требуется значительный прогресс, чтобы максимально эффективно использовать её потенциал.

Mansurova A., Mansurova A., Nugumanova A. QA-RAG: Exploring LLM reliance on external knowledge //Big Data and Cognitive Computing. – 2024. – Т. 8. – №. 9. – С. 115. doi.org/10.3390/bdcc8090115.

  1. Development of a question answering chatbot for blockchain domain.

Крупные языковые модели (LLMs), такие как ChatGPT, радикально изменили область обработки естественного языка благодаря своей способности к пониманию и генерации связных, человекоподобных ответов во множестве прикладных задач. Несмотря на впечатляющие возможности, они часто демонстрируют ограничения в специализированных и насыщенных знаниями областях, главным образом из-за отсутствия доступа к релевантной информации. Более того, большинство современных LLM доступны лишь через API, что ограничивает прозрачность их внутренней работы. Применение таких моделей в критически важных сценариях также затруднено из-за склонности к генерации недостоверной (галлюцинирующей) информации и неспособности использовать внешние источники знаний. Для преодоления этих ограничений в настоящем исследовании предлагается инновационная система, расширяющая возможности LLM за счёт интеграции с внешним модулем управления знаниями. Данная система позволяет языковым моделям использовать данные, хранящиеся в векторных базах данных, что обеспечивает доступ к релевантной информации для формирования более точных ответов. Кроме того, система поддерживает извлечение информации из интернета, тем самым значительно расширяя фактическую базу знаний модели.

Предложенный подход позволяет обойти необходимость повторного обучения LLM, что представляет собой ресурсозатратный процесс. Вместо этого делается акцент на более эффективном использовании уже существующих моделей. Предварительные результаты демонстрируют потенциал системы в повышении эффективности языковых моделей в предметно-ориентированных и знания-интенсивных задачах. Оснастив LLM возможностью в реальном времени обращаться к внешним источникам данных, можно значительно повысить их прикладную ценность, не прибегая к постоянному увеличению размеров самих моделей.

Mansurova A., Nugumanova A., Makhambetova Z. Development of a question answering chatbot for blockchain domain //Scientific Journal of Astana IT University. – 2023. – С. 27-40. doi.org/10.37943/15XNDZ6667.

 

  1. Evaluation Of IBM’s Proposed Term Extraction Approach On The ACTER Corpus

Автоматическое извлечение терминов стремится к повышению эффективности и точности. Исследователи IBM предложили метод несупервизированной аннотации, направленный на извлечение специализированных терминов в технических доменах. Этот подход использует энкодеры предложений и анализ морфологических признаков, связей между терминами и темами, а также семантического сходства между терминами. В данной работе мы реализуем предложенный IBM метод «с нуля» и проводим тестирование на корпусе ACTER. Кроме того, в рамках эксперимента мы проводим анализ извлечения некорректных n-грамм, способных негативно повлиять на качество несупервизированного аннотирования. Воспроизведённый нами метод продемонстрировал значение F1-метрики 44,8% и потерю в 5,15% по сравнению с оригинальным подходом IBM на корпусе ACL-RD-TEC 2.0. На корпусе ACTER наши метрики показали схожие результаты с другими передовыми методами, ранее применёнными к этому датасету.

Kalykulova A., Kairatuly B., Rakhymbek K., Kyzyrkanov A., Nugumanova A. Evaluation Of IBM’s Proposed Term Extraction Approach On The ACTER Corpus // IX — International Scientific Conference «Computer Science and Applied Mathematics». — Almaty: Institute of Information and Computational Technologies CS MSHE RK, 2024. — С. 597–604. https://conf.iict.kz/wp-content/uploads/2025/01/collection_CSAM_IX_2024.pdf

 

  1. Оценка и сравнение качества эмбеддингов слов

Эмбеддинги слов играют ключевую роль в современных методах обработки естественного языка (NLP). В данной статье рассматриваются методы оценки качества эмбеддингов, которые можно разделить на внутренние и внешние. Внутренние методы оценивают представления вне контекста конкретных задач, тогда как внешние методы используют задачи NLP для оценки. Основное внимание уделяется оценке семантического сходства с использованием наборов данных WordSim-353, SimLex- 999 и SimVerb-3500. Для оценки были использованы предобученные модели FastText и SentenceBERT. Результаты показывают, что модели FastText демонстрируют высокие коэффициенты корреляции и превосходят SentenceBERT в задаче представления отдельных слов. SentenceBERT, несмотря на свои преимущества в задачах поиска семантического сходства и кластеризации, менее эффективен для отдельных слов. Выбор модели должен основываться на эмпирических данных и специфических требованиях задачи.

Альжанов А. М., Рахымбек К. К. Оценка и сравнение качества эмбеддингов слов // Проблемы оптимизации сложных систем: Материалы XX Междунар. Азиат. школы-семинара. – Алматы, 2024. – С. 211–215. https://conf.iict.kz/wpcontent/uploads/2024/09/opcs_material_2024.pdf.

homescontents ataşehir escort ataşehir escort bostancı escort kadıköy escort istanbul escort şişli escort istanbul eskort ataköy escort Marsbahis giriş Marsbahis ataşehir escort Marsbahis giriş Marsbahis küçükçekmece escort kadıköy escort marsbahis giris marsbahis casino marsbahis güncel adres marsbahis nude betturkey Şartsız deneme bonusu veren siteler Şartsız deneme bonusu veren siteler Deneme Bonusu Veren Siteler Yeni 2025 Deneme Bonusu Veren Siteler Deneme Bonusu Veren Siteler deneme bonusu veren siteler 2025 serifali eskort atasehir escort bayan bursa escort bursa eskort yenibosna escort umraniye escort teksert film izle film izle
homescontents
https://www.fapjunk.com
ataşehir escort kadıköy escort kartal escort maltepe escort
gaziantep escort gaziantep escort
sakarya escort akyazı escort arifiye escort erenler escort eve gelen escort ferizli escort geyve escort hendek escort otele gelen escort sapanca escort söğütlü escort taraklı escort
sakarya escort akyazı escort arifiye escort erenler escort eve gelen escort ferizli escort geyve escort hendek escort karapürçek escort karasu escort kaynarca escort kocaali escort otele gelen escort pamukova escort sapanca escort söğütlü escort taraklı escort
Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sapanca escort Sapanca escort Sapanca escort Sapanca escort Karasu escort