AP19677756 «Терминдерді бақылаусыз алу: жоғары технологиялық домендер мен аз ресурсты тілдерге арналған модельдер мен деректер жинағы»

Жоба жетекшісі: Нугуманова Алия Багдатовна, PhD,  «Big Data & Blockchain Technologies” ҒИО Директоры

Конкурстың атауы: ҚР ҒК ҒЖБМ

Мақсаты: Автоматты түрде жасалған оқыту деректерін пайдалана отырып, терминдерді бөліп алуға арналған бақыланатын модельдердің бәсекеге қабілеттілігін қамтамасыз ету.

Партнерлары: «Plasmascience» ғылыми-өндірістік компаниясы

Іске асыру жылдары: 2023 – 2025

Қаржыландыру сомасы: 94 625 358,5 теңге

 

Жобаның өзектілігі

Қазіргі таңда трансформер үлгісіндегі бақыланатын модельдер табиғи тілді өңдеу (NLP) міндеттерінде, соның ішінде терминдерді автоматты түрде анықтау бағытында кеңінен қолданылады. Алайда мұндай модельдерді тиімді қолдану үшін үлкен көлемдегі алдын ала таңбаланған деректер қажет. Бұл жағдай материалтану, блокчейн сияқты жоғары технологиялық салалар мен қазақ тілі сияқты ресурсы шектеулі тілдер үшін елеулі мәселе туындатады. Мұндай мәліметтерді қолмен аннотациялау – өте еңбекқор, уақытты және қаржыны көп қажет ететін үдеріс, сондай-ақ салалық сарапшыларды тартуды талап етеді.

Ұсынылып отырған жобаның өзектілігі – оқыту мәліметтерін автоматты түрде генерациялауға мүмкіндік беретін жаңа тәсілді ұсынуында. Бұл тәсіл қолмен таңбалауға тәуелділікті азайтады. Жоба аясында алғаш рет терминдерді бөліп алудың тиімділігі мен бастапқы корпустың қасиеттері арасындағы өзара байланыс зерттеліп, сапалы мәтіндерді іріктеу критерийлері айқындалады. Сонымен қатар, семантикалық байланыстарды ескеретін, NMF әдістемесіне негізделген бақыланбайтын аннотация модулі алғаш рет құрылады.

Жоба қазақ және ағылшын тілдерінде терминдерді анықтауға бағытталған тұрақты шешімдерді әзірлеуге негізделген. Жоба шеңберінде алынған нәтижелер білім графтарын құру түрінде апробациядан өтеді. Бұл интеллектуалдық жүйелердің дамуына, мәтіндерді автоматты түрде талдауды қамтамасыз ететін шешімдер жасауға, сондай-ақ тілдік және технологиялық тұрғыдан қазіргі заманғы NLP-модельдердің қамту аясын кеңейтуге ықпал етеді.

Жоба мақсаттары:

2023 жылға

  • UA1 және UA2 бақылаусыз аннотациялаушыларын тиімді түрде әзірлеу
  • UA1 және UA2 аннотациялаушыларын ACTER және ACL RD-TEC 2.0 деректер жиынтықтарында бағалау
  • Терминдерді бөліп алу өнімділігінің корпус сипаттамаларымен байланысын зерттеу
  • Мәтін корпусын тиімді оңтайландырушыны әзірлеу

2024 жылға

  • Материалтану және Блокчейн салалары бойынша мәтін корпустарын ағылшын және қазақ тілдерінде жасау
  • Материалтану және Блокчейн салалары үшін Matcha деректер жиынтығын автоматты түрде генерациялау (ағылшын және қазақ тілдерінде)
  • UA1 және UA2 аннотациялаушыларының өнімділігін Matcha деректер жиынтығының тестілік ішкі жиынтығында бағалау

2025 жылға

  • Matcha деректер жиынтығының оқыту ішкі жиынтығында BERT трансформер модельдерін ағылшын және қазақ тілдерінде нақты баптау
  • Matcha-BERT терминдерді бөліп алу модельдерінің өнімділігін (ағылшын және қазақ тілдерінде) бағалау
  • Бақылаусыз және бақыланатын терминдерді бөліп алу модельдерінің өнімділігін нақты баптауға дейінгі және кейінгі кезеңдерде салыстырмалы талдау
  • Материалтану және Блокчейн салаларында білім графтарын жасау бойынша кейстерді іске асыру

Күтілетін нәтижелер:

  1. Жобаны іске асыру нәтижесінде дайындалатын ғылыми-техникалық өнімдер:
  • жаңа тиімді бақылаусыз термин аннотациялаушы;
  • жаңа тиімді мәтін корпустарын оңтайландырушы;
  • Материалтану және Блокчейн салалары бойынша ағылшын және қазақ тілдерінде автоматты түрде жасалған (аннотацияланған) оқыту деректер жиынтықтары;
  • Материалтану және Блокчейн салалары үшін ағылшын және қазақ тілдеріндегі бақыланатын терминдерді бөліп алу модельдері;
  • Материалтану және Блокчейн салаларында білім графтарын құру бойынша кейстер.
  1. Ғылыми жарияланымдар:
  • КОКСНВО ұсынған шетелдік немесе отандық рецензияланатын басылымда 1 мақала немесе шолу жарық көреді;
  • Web of Science деректер базасындағы Science Citation Index Expanded индекстеуіне ие және/немесе Scopus базасында CiteScore көрсеткіші кемінде 35-ші процентильден жоғары ғылыми журналдарда 3 мақала жарияланады.

Жобаның нәтижелері

PostgreSQL платформасында ГАЖ (Геоақпараттық жүйе) үшін дерекқордың электрондық құрылымы әзірленді.
Қазақстан Республикасындағы су қоймалары мен бөгеттер туралы ашық дереккөздерден ақпарат жиналып, базаға енгізілді.
КОКСНВО ұсынған отандық рецензияланатын басылымда бір мақала жарияланды.
Қолда бар бөгеттер бойынша картографиялық ақпаратпен графикалық интерфейс әзірленді.
Интернет-карталар арқылы бөгеттерді тануға арналған нейрондық желі негізіндегі модуль әзірленді, бұл модуль жүйе пайдаланушысына бөгеттерді анықтауға мүмкіндік береді.
Геофизикалық мониторинг және БПЛА (беспилотты ұшатын аппараттар) арқылы жасалған бақылау құжаттамасын енгізу, жүйелеу және сақтау модулі әзірленді.
Жоба қатысушылары 2024 жылғы қарашада Оңтүстік Корея, Сеул қаласында өткен «2024 International Conference on Information Science and Communications Technologies (ICISCT)» халықаралық конференциясында баяндама жасады.

Жоба ұжымы:

Аты-жөні, білімі, дәрежесі, ғылыми атағы

Жобадағы рөлі

Хирш индексі, ғылыми идентификаторлар

Нугуманова Алия Багдатовна, «Ақпараттық жүйелер» мамандығы бойынша PhD

Научный руководитель. Ведущий научный сотрудник 

Хирш индексі: 6.  

Researcher ID L-9616- 2015.  

ORCID 0000-0001-5522-4421.  

Scopus Author ID 55864815200. 

Байбурин Ержан Мухаметкалиевич 

Аға ғылыми қызметкер 

Хирш индексі: 4. ORCID: 0000-0002-1583-9912. Scopus Author ID: 56111999400. Researcher ID: —  

Алимжанов Ермек Серикович, магистр 

Аға ғылыми қызметкер 

Хирш индексі: 2 

Scopus ID = 57191433356, https://orcid.org/0000-0002-8758-2220 

Альжанов Алмас Миржанович, докторант 

Ғылыми қызметкер 

Хирш индексі: 1

ORCID 0009-0007-8083-2366. 

Scopus Author ID 58859587600. 

Мансурова Айгерім Қанатқызы, магистр

Ғылыми қызметкер 

Хирш индексі: 1

ORCID  0009-0003-1978-9574
Scopus ID: 58614576700

Мансурова Айғаным Қанатқызы

Ғылыми қызметкер 

Хирш индексі: 1

ORCID 0009-0007-9076-0722

Scopus ID: 59233698800

Калыкулова Алия Маратовна

Кіші ғылыми қызметкер

ORCID 0009-0006-5641-3797

Қол жеткізілген нәтижелер:

  1. Жобаны іске асыру нәтижесінде дайындалған ғылыми-техникалық өнімдер:
  • UA1 және UA2 тиімді бақылаусыз аннотациялаушылар әзірленді;
  • UA1 және UA2 аннотациялаушыларының өнімділігі ACTER және ACL RD-TEC 2.0 деректер жиынтықтарында бағаланды;
  • Мәтін корпустарын оңтайландыруға арналған тиімді құрал жасалды;
  • Материалтану және Блокчейн салаларына арналған Matcha деректер жиынтығы ағылшын және қазақ тілдерінде құрылды;
  • Matcha деректер жиынтығының тестілік ішкі жиынтығында UA1 және UA2 аннотациялаушыларының өнімділігі бағаланды;
  • Терминдерді бөліп алуға арналған жаңа әдіс — T-Extractor жасалды.
  1. Ғылыми жарияланымдар:
  1. Терминдерді бөліп алуға арналған семантикалық бейтарап матрицалық жіктеу

Бұл зерттеуде терминдерді бақылаусыз бөліп алуға арналған жаңа әдіс ұсынылады. Ол бейтарап матрицалық жіктеу (NMF) мен сөз эмбеддингтерін біріктіреді. Әдістің негізі – құжаттарды кластерлеу үшін құжат–сөз және сөз–сөз матрицаларын бірлесіп оңтайландыратын, ерте ұсынылған семантикалық NMF тәсілінен шабыт алған. Терминдерді бөліп алу міндетіне бұл стратегия алғаш рет бейімделіп отыр.

Кәдімгі тәсілде сөздер арасындағы семантикалық байланыстарды сипаттайтын сөз–сөз матрицасы сөз эмбеддингтерінің арасындағы косинустық ұқсастықтарға сүйене отырып құрастырылады. Алайда трансформер энкодерлері арқылы алынған эмбеддингтер векторлық кеңістікте тар конус ішінде орналасатыны дәлелденген, бұл барлық сөз жұптары арасында жоғары ұқсастық көрсеткішіне әкеледі.

Осы мәселені шешу үшін, біз дәстүрлі сөз–сөз матрицасын «сөз–тұқым» (word–seed) ішкі матрицамен алмастырамыз. Бұл ішкі матрицада тек доменге тән мағыналық тұрғыдан маңызды сөздер — «домен тұқымдары» пайдаланылады. Осылайша, біз құжат–сөз және сөз–тұқым матрицаларын бірлесіп жіктеуге мүмкіндік беретін жаңартылған NMF шеңберін ұсынамыз. Бұл тәсіл сөздердің дәлірек векторлық көріністерін алуға және тақырыптық тұрғыдан маңызды терминдерді тиімдірек бөліп алуға мүмкіндік береді.

Ұсынылған әдіс терминдерді бөліп алудың тиімділігін айтарлықтай арттырып, осы тапсырмаға арнайы бейімделген семантикалық NMF тәсілінің алғашқы іске асырылуы болып табылады. Салыстырмалы эксперименттер нәтижесінде бұл әдіс дәстүрлі NMF және заманауи трансформерге негізделген KeyBERT пен BERTopic әдістерінен асып түскені көрсетілді.

Бұдан бөлек, болашақ зерттеулер мен тәжірибелік қолданбалар үшін «География және тарих» және «Ұлттық батырлар» тақырыптарынан алынған 1000 сөйлемнен тұратын екі жаңа корпус жиналып, қолмен аннотацияланды. Бұл деректер жиынтықтары әрі терминдерді бөліп алу, әрі құжаттарды классификациялау міндеттері үшін пайдалы. Барлық код пен деректер ашық қолжетімді.

 

Nugumanova A. et al. Semantic Non-Negative Matrix Factorization for Term Extraction //Big Data and Cognitive Computing. – 2024. – Т. 8. – №. 7. – С. 72. doi.org/10.3390/bdcc8070072.

 

  1. QA-RAG: Үлкен тілдік модельдердің (LLM) сыртқы білімге тәуелділігін зерттеу

Ірі тілдік модельдер (LLM) өз параметрлерінде фактілік білімді сақтай алады және сұрақ-жауап (QA) міндеттерінде жоғары нәтижелерге қол жеткізуде. Алайда, мұндай модельдер қабылдаған шешімдердің дереккөзін дәлелдеу (provenance) және білімдерін өзектендіру мәселелері әлі де өзекті болып отыр. Бұл шектеулерді еңсеру үшін кейбір тәсілдер модельдің ішкі жадысын сыртқы білім көздерімен біріктіруді көздейді.

Біздің ұсынып отырған QA-RAG шешімі бұл тұрғыда өзгеше: ол тек сыртқы білім базасына — тығыз векторлық индекстелген деректер қорына — сүйенеді. Осы мақалада біз екі LLM моделін — Llama 2 7b және Llama 2 13b— пайдалана отырып, түрлі RAG конфигурацияларын салыстырып, олардың өнімділігін RAG архитектурасының үш негізгі қабілеті бойынша жүйелі түрде бағаладық:

  • Шуға төзімділік (noise robustness)
  • Білімдегі олқылықтарды анықтау (knowledge gap detection)
  • Сыртқы шынайы ақпаратты біріктіру (external truth integration)

Бағалау нәтижелері біздің тәсілдің 83,3% дәлдікке қол жеткізгенін көрсетті, бұл барлық базалық әдістермен салыстырғанда жоғары тиімділікті білдіреді. Дегенмен, модельдің сыртқы шынайы ақпаратты интеграциялау қабілеті әлі де әлсіз екені байқалды.

Бұл нәтижелер сұрақ-жауап жүйелерінде RAG архитектурасын толыққанды және сенімді пайдалану үшін қосымша зерттеулер мен әдістемелік жетілдірулер қажет екенін көрсетеді.

 

 

Mansurova A., Mansurova A., Nugumanova A. QA-RAG: Exploring LLM reliance on external knowledge //Big Data and Cognitive Computing. – 2024. – Т. 8. – №. 9. – С. 115. doi.org/10.3390/bdcc8090115.

 

  1. Блокчейн саласы үшін сұрақ-жауап чат-ботын әзірлеу

ChatGPT секілді ірі тілдік модельдер (LLM) табиғи тілді өңдеу (NLP) саласында төңкеріс жасап, адамға ұқсас, мәнерлі жауаптарды генерациялау және тілдік мазмұнды түсіну қабілеті арқылы көптеген қолданбалы міндеттерді орындауда жоғары нәтижелерге қол жеткізді. Алайда, осындай әсерлі мүмкіндіктеріне қарамастан, бұл модельдер салаға тән және білімге бай домендерде жиі әлсіздік танытады, себебі оларда сол салаларға қатысты нақты деректерге қол жеткізу шектеулі.

Сонымен қатар, қазіргі заманғы LLM модельдерінің көпшілігі тек API арқылы қолжетімді және ішкі жұмыс механизмдері бойынша мөлдірлік деңгейі төмен. Мұндай модельдердің шынайы өмірдегі маңызды міндеттерде қолданылуын шектейтін тағы бір мәселе — галлюцинацияланған (жалған немесе дәл емес) ақпарат тудыруы және сыртқы білім көздерін пайдалана алмауы.

Осы шектеулерді жою үшін біз LLM модельдерін сыртқы білімді басқару модулімен біріктіру арқылы олардың мүмкіндіктерін кеңейтетін инновациялық жүйе ұсынамыз. Ұсынылған жүйе LLM-дерге векторлық деректер базасында сақталған мәліметтерді пайдалануға мүмкіндік береді, бұл олардың жауаптарының мазмұнын нақты әрі өзекті етуге жағдай жасайды. Сонымен қатар, жүйе Интернеттен ақпарат іздеп алуға да мүмкіндік береді, осылайша модельдің білім базасы кеңейеді.

Ұсынылып отырған тәсіл LLM модельдерін қайта оқытуды қажет етпейді — бұл процесс ресурстық тұрғыдан қымбат әрі күрделі болуы мүмкін. Оның орнына, бар модельдерді барынша тиімді қолдануға басымдық беріледі.

Алғашқы тәжірибелік нәтижелер көрсеткендей, бұл жүйе салаға бейімделген және білімге тәуелді міндеттерде LLM өнімділігін арттырудың келешегі бар екенін дәлелдейді. LLM-дерге нақты уақытта сыртқы деректерге қол жеткізу мүмкіндігін беру арқылы үлкен модельдерге көшу қажеттілігінсіз-ақ олардың генерациялау қабілетін тиімді пайдалануға болады.

 

Mansurova A., Nugumanova A., Makhambetova Z. Development of a question answering chatbot for blockchain domain //Scientific Journal of Astana IT University. – 2023. – С. 27-40. doi.org/10.37943/15XNDZ6667.

 

  1. IBM ұсынған терминдерді бөліп алу әдісін ACTER корпусында бағалау

Автоматтандырылған терминдерді бөліп алу – тиімділігі мен дәлдігі жоғары әдістерді талап ететін зерттеу бағыты. IBM зерттеушілері техникалық домендерге тән терминдерді бөліп алуға арналған бақылаусыз аннотациялаушыны ұсынды. Бұл тәсіл сөйлемдік энкодерлерді, морфологиялық белгілерді, термин мен тақырып арасындағы байланыстарды және терминдердің ішкі ұқсастықтарын талдауды қамтиды.

Осы мақалада біз IBM ұсынған әдісті толықтай нөлден бастап қайта жүзеге асырып, оны ACTER деректер жиынтығында тестілеуден өткіздік. Эксперимент барысында біз сондай-ақ қате бөлінген n-граммалардың әсерін талдадық — бұл бақылаусыз аннотациялаушының сапасына кері әсер етуі мүмкін фактор.

Қайта жүзеге асырылған әдіс ACL-RD-TEC 2.0 деректер жиынтығында IBM тәсілімен салыстырғанда F1-мәні 44,8% және 5,15% өнімділік шығынын көрсетті. Ал ACTER корпусында алынған метрикалар бұл саладағы басқа заманауи әдістермен салыстырғанда ұқсас нәтижелер берді.

Бұл зерттеу IBM тәсілінің қайта құрылымдалған нұсқасының тиімділігін көрсетіп, бақылаусыз терминдерді бөліп алу әдістерін жетілдіруге қосымша дереккөз болып табылады.

 

Kalykulova A., Kairatuly B., Rakhymbek K., Kyzyrkanov A., Nugumanova A. Evaluation Of IBM’s Proposed Term Extraction Approach On The ACTER Corpus // IX — International Scientific Conference «Computer Science and Applied Mathematics». — Almaty: Institute of Information and Computational Technologies CS MSHE RK, 2024. — С. 597–604. https://conf.iict.kz/wp-content/uploads/2025/01/collection_CSAM_IX_2024.pdf

 

  1. Сөз эмбеддингтерінің сапасын бағалау және салыстыру

Сөз эмбеддингтері қазіргі заманғы табиғи тілді өңдеу (NLP) әдістерінде маңызды рөл атқарады. Бұл мақалада эмбеддинг сапасын бағалаудың әртүрлі тәсілдері қарастырылады, оларды ішкі (intrinsic) және сыртқы (extrinsic)әдістерге бөлуге болады. Ішкі әдістер эмбеддингтерді нақты тапсырмалар контекстінен тыс бағаласа, сыртқы әдістер оларды нақты NLP міндеттерінде қолдану арқылы бағалайды.

Негізгі назар семантикалық ұқсастықты бағалауға аударылған, ол үшін WordSim-353, SimLex-999 және SimVerb-3500 деректер жиынтықтары қолданылды. Бағалау процесінде алдын ала оқытылған FastText және SentenceBERT модельдері пайдаланылды.

Нәтижелерге сәйкес, FastText модельдері жоғары корреляция коэффициенттерін көрсетті және жеке сөздерді көрсету (representation) міндетінде SentenceBERT моделінен асып түсті. Ал SentenceBERT моделі семантикалық ұқсастықты іздеу мен кластерлеу тапсырмаларында тиімді болғанымен, жеке сөздерге қатысты нәтижелері төмендеу болды.

Зерттеу қорытындысы бойынша, модельді таңдау эмпирикалық деректерге және нақты қолдану міндетінің ерекшеліктеріне сүйеніп жүргізілуі тиіс.

 

 

Альжанов А. М., Рахымбек К. К. Оценка и сравнение качества эмбеддингов слов // Проблемы оптимизации сложных систем: Материалы XX Междунар. Азиат. школы-семинара. – Алматы, 2024. – С. 211–215. https://conf.iict.kz/wp-content/uploads/2024/09/opcs_material_2024.pdf.

homescontents ataşehir escort ataşehir escort bostancı escort escort istanbul escort şişli escort istanbul eskort ataköy escort Marsbahis giriş Marsbahis ataşehir escort Marsbahis giriş Marsbahis küçükçekmece escort kadıköy escort marsbahis giris marsbahis casino marsbahis güncel adres marsbahis Şartsız deneme bonusu veren siteler Şartsız deneme bonusu veren siteler Deneme Bonusu Veren Siteler Yeni 2025 Deneme Bonusu Veren Siteler Deneme Bonusu Veren Siteler deneme bonusu veren siteler 2025 serifali eskort atasehir escort bayan bursa escort bursa eskort yenibosna escort umraniye escort teksert film izle film izle film izle film hd film sakarya escort sakarya escort
homescontents
https://www.fapjunk.com
gaziantep escort gaziantep escort
sakarya escort akyazı escort arifiye escort erenler escort eve gelen escort ferizli escort geyve escort hendek escort otele gelen escort sapanca escort söğütlü escort taraklı escort
sakarya escort akyazı escort arifiye escort erenler escort eve gelen escort ferizli escort geyve escort hendek escort karapürçek escort karasu escort kaynarca escort kocaali escort otele gelen escort pamukova escort sapanca escort söğütlü escort taraklı escort
Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sapanca escort Sapanca escort Sapanca escort Sapanca escort Karasu escort
hd film izle