«Мамандандырылған салалардағы сыртқы білім көздерін пайдалана отырып, қазақ тілінде жоғары өнімді сұрақ-жауап жүйесін әзірлеу»​

Жоба жетекшісі: Шоманов А.С.​

Қаржыландыру көздері: ҚР ҒЖБМ ЖҒК ГҚ​

Мақсаты: Қазақ тіліндегі сұрақ-жауап үлгілерінің өнімділігін арттыру және алдын ала оқытылған үлкен көп тілді үлгілерді оңтайландыру және дәл баптау есебінен оларды әзірлеу құнын төмендету

Іске асыру жылдары: 2024–2026​​

Серіктес: ТОО «Plasma Science»​

Қаржыландыру көздері: 89 979 146,58 теңге​

Жобаның аңдатпасы:

соңғы бес жылда табиғи тілді өңдеу саласы (Natural Language Processing, NLP) сарапшыларға ғана емес, сонымен қатар сұрақ-жауап жүйелері мен чатботтардың өркендеуінің арқасында жалпы жұртшылыққа айтарлықтай прогреске қол жеткізді. GPT чаты ең көрнекті өкілі болып табылатын бұл инновациялық әзірлемелер бүкіл әлем бойынша миллиондаған пайдаланушыларға ғылымның осы саласының практикалық құндылығын көрсететін NLP визит картасына айналды. Алайда, қазақ сияқты ресурстары аз тілдер үшін осындай жүйелерді іске асыру, ең алдымен, ресурстардың тапшылығы мен жоғары шығындарға, соның ішінде графикалық процессорлардың жоғары өнімді кластерлеріне (GPU) арналған шығындарға байланысты сын-тегеурін болып қала береді. Бұл жоба мамандандырылған саладағы сыртқы білім көздеріне негізделген қазақ тіліндегі жоғары өнімді сұрақ-жауап жүйесін іске асыруға бағытталған. Жалпы қабылданған жіктеуге сәйкес, бұл сұрақ-жауап жүйесін open-book (ішкі білімді емес, сыртқы білімді қолданады) және жабық Домен (жалпы білім саласына емес, мамандандырылған салаға арналған) ретінде анықтауға болады. Өз жұмысында сұрақ-жауап жүйесі трансформерлік архитектураға негізделген қазақ тіліндегі сұрақ-жауап моделіне негізделетін болады.

Жобаның мақсаты

Бұл жобаның мақсаты-Google, Microsoft, OpenAI, meta және басқалары сияқты технологиялық алпауыттар ресурстармен шектелмеген жағдайда жасалған, алдын ала оқытылған үлкен көп тілді модельдерді оңтайландыру және дәл баптау есебінен қазақ тіліндегі сұрақ-жауап

Жобанының міндеттері

 

Жобаның мақсатына жету үшін үш негізгі мәселені шешу қажет, олардың әрқайсысы өз кезегінде үш ішкі тапсырмаға бөлінеді. Қазіргі уақытта қазақ тілінде сұрақ-жауап жүйелері үшін алдын ала оқытылған модельдерді дайындау бойынша жұмыстар орындалды, модельдердің бірі (T5-Kazakh-QA) huggingface платформасында жарияланды. Жетілу деңгейі TRL 2 ретінде бағаланады соңында TRL 3 деңгейі күтіледі.

1-міндет-қазақ тілінде үнемді және өнімді сұрақ-жауап моделін әзірлеу.

2-міндет-қойылған сұрақтардың мәнмәтінін семантикалық жіктеу моделін әзірлеу.

3-міндет-әзірленген модельдерді интеграциялау және қазақ тілінде сұрақ-жауап жүйесінің прототипін жасау.

Жобаны іске асыру кезеңдері

1 қазақ тілінде үнемді және нәтижелі сұрақ-жауап моделін әзірлеу

2 қойылған сұрақтардың мәнмәтінін семантикалық жіктеу моделін әзірлеу

3 қазақ тілінде сұрақ-жауап жүйесінің прототипін әзірлеу

Күтілетін нәтижелер

Осы жобаның негізгі нәтижелері мыналарды қамтиды: 1) қазақ тіліндегі жаңа экономикалық және өнімді сұрақ-жауап моделі; 2) қойылатын сұрақтар мәнмәтінінің тілдерге инвариантты семантикалық жіктеу моделі; 3) қазақ тіліндегі зияткерлік сұрақ-жауап жүйесінің прототипі.

ШОМАНОВ АДАЙ

жоба жетекшісі

ҚАЙРАТҰЛЫ БАУЫРЖАН

ғылыми  қызметкер

ШАКЕНОВ ЖАСУЛАН

ғылыми  қызметкер

ҚАДЫРБЕК НҰРҒАЛИ

аға ғылыми қызметкер

ТЛЕУБАЕВА АРАЙЛЫМ

аға ғылыми қызметкер

МАНСУРОВА АЙГЕРІМ

кіші  ғылыми қызметкер

МАХАМБЕТОВА ЖАНСАЯ

кіші ғылыми  қызметкер

Күтілетін нітижелер

Huggingface порталында қазақ тіліндегі сұрақ-жауап моделі әзірленеді және жарияланады. Көп тілді сұрақ-жауап модельдеріне салыстырмалы талдау жасалады және олардың бейімделу ерекшеліктері зерттеледі. Қазақ тіліне бейімделу үшін таңдалған көп тілді модельдердің параметрлерін оңтайландыру әдістері зерттеліп, әзірленетін болады. ҒЖБСБК ұсынған рецензияланған отандық басылымда бір мақала жарияланады. Қазақ тіліне бейімделу үшін таңдалған көп тілді модельдерді дәл баптау әдістері зерттеліп, әзірленетін болады.  Таңдалған семантикалық жіктеу алгоритмдерін семантикалық эмбеддинг модельдерімен біріктіретін контексттерді семантикалық жіктеу әдістері зерттеледі және әзірленеді. Web of Science базасының Science Citation Index Expanded индекстелетін және (немесе) Scopus базасында citescore бойынша кемінде 50 процентилі бар рецензияланатын ғылыми басылымда бір мақала жарияланады. Қазақ тілінде сұрақ-жауап жүйесінің прототипі әзірленеді және жүйеге қосылу үшін веб-интерфейс жасалады. Web of Science базасының Science Citation Index Expanded индекстелетін және (немесе) Scopus базасында citescore бойынша кемінде 50 процентилі бар рецензияланатын ғылыми басылымда бір мақала жарияланады.

Жарияланымдар

Tleubayeva, A., & Shomanov, A. (2024). COMPARATIVE ANALYSIS OF MULTILINGUAL QA MODELS AND THEIR ADAPTATION TO THE KAZAKH LANGUAGE. Scientific Journal of Astana IT University19, 89–97. https://doi.org/10.37943/19WHRK2878

2024 жылғы нәтижелер:

* Нәтижесінде Roberta-Kaz-large және roberta-large-kazqad сияқты Roberta негізіндегі қазақ модельдері ойдағыдай әзірленіп, оңтайландырылды, олар сұрақ-жауап және саралау міндеттерінде жоғары өнімділік пен дәлдікті көрсетті.

* Жұмыстың жаңалығы аз ұсынылған қазақ тіліне оқытудың және оңтайландырудың заманауи әдістерін тиімді қолдануда, сондай-ақ осы тіл үшін табиғи тілді өңдеу сапасын жақсартуға ықпал ететін мамандандырылған деректер жиынтығы мен модельдерді жасауда жатыр.

* Сондай-ақ жоба аясында келесі модельдер жарияланды:

1) қазақ тіліндегі сұрақ-жауап llama моделі.

2) GP TJ-3.4 қазақ тіліндегі модель.

3) қазақ тіліне арналған Roberta-Kaz-large сұрақ-жауап моделі.

4) қазақ тіліндегі llama моделі.

homescontents ataşehir escort ataşehir escort bostancı escort escort istanbul escort şişli escort istanbul eskort ataköy escort Marsbahis giriş Marsbahis ataşehir escort Marsbahis giriş Marsbahis küçükçekmece escort kadıköy escort marsbahis giris marsbahis casino marsbahis güncel adres marsbahis Şartsız deneme bonusu veren siteler Şartsız deneme bonusu veren siteler Deneme Bonusu Veren Siteler Yeni 2025 Deneme Bonusu Veren Siteler Deneme Bonusu Veren Siteler deneme bonusu veren siteler 2025 serifali eskort atasehir escort bayan bursa escort bursa eskort yenibosna escort umraniye escort teksert film izle film izle film izle film hd film sakarya escort sakarya escort
homescontents
https://www.fapjunk.com
gaziantep escort gaziantep escort
sakarya escort akyazı escort arifiye escort erenler escort eve gelen escort ferizli escort geyve escort hendek escort otele gelen escort sapanca escort söğütlü escort taraklı escort
sakarya escort akyazı escort arifiye escort erenler escort eve gelen escort ferizli escort geyve escort hendek escort karapürçek escort karasu escort kaynarca escort kocaali escort otele gelen escort pamukova escort sapanca escort söğütlü escort taraklı escort
Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sapanca escort Sapanca escort Sapanca escort Sapanca escort Karasu escort
hd film izle