Жоба жетекшісі: Белошицкая Светлана Васильевна, техника ғылымдарының докторы
Қаржыландыру көлемі: ҚР ҒЖБМ ГҚ
Мақсаты: Қазақ тілін ескере отырып, толық емес телнұсқаларды іздеудің әзірленген аралас әдістері мен үлгілері негізінде мәтіндік қарыз алуды сәйкестендіру жүйесін құру есебінен ғылыми жұмыстардың бірегейлігі дәрежесін айқындаудың қолданыстағы жүйесін жетілдіру арқылы плагиат фактілерін табу және болдырмау, сондай-ақ зияткерлік қызмет нәтижелерін рұқсатсыз пайдалану.
Серіктестері: «PVLHOST» ЖШС, Қазақстан Республикасы, Павлодар қ., Майраның к., 29–101
Іске асыру жылдары: 2024–2026 жж.
Қаржыландыру сомасы: 97 752 196 теңге
9.1 ғылыми жұмыстар мен ғылыми зерттеушілер туралы ақпаратты жинақтау және өңдеу үшін бағдарламалық қамтамасыз етудің тұжырымдамалық моделін әзірлеу.
9.2 микро сервистік архитектура негізінде ақпараттық жүйенің құрылымдық моделін әзірлеу.
9.3 академиялық және ғылыми жұмыстардың мониторингі жүйесінің архитектуралық деректер базасын құру.
9.4 деректерді басқару әдістерін, деректерді экспорттау және беру, ақпаратты резервтеу әдістерін құрудың құрылымдық моделін әзірлеу.
9.5 Үш тілді: қазақ, ағылшын және орыс тілдерін ескере отырып, мәтіндік массивтердің сәйкес келуі бойынша ақпарат беруді қамтамасыз ету үшін визуализация модулін құру.
9.6 мәтіндік қарыздарды сәйкестендірудің әзірленген эксперименттік ақпараттық жүйесін сынақтан өткізу.
— Social Science Citation Index, Arts and Humanities Citation Index және (немесе) Web of Science базасында индекстелетін және (немесе) Scopus базасында citescore бойынша кемінде 35 (отыз бес) процентилі бар рецензияланатын ғылыми басылымда кемінде 2 (екі)мақала немесе шолу;
— ҒЖБСБК ұсынған рецензияланатын шетелдік және (немесе) отандық басылымдарда кемінде 4 (төрт) мақала және (немесе) шолулар.
ТАӘ
Жобадағы рөлі және орындалатын жұмыстың сипаты
Scopus Author ID, Хирш индексі, ResearcherID идентификаторлары, ORCHID
Белощицкая Светлана Васильевна
техника ғылымдарының докторы (Ақпараттық технологиялар)
Ғылыми жетекші
Жобаны басқару, жоба кестесіне сәйкес барлық кезеңдерді орындау және қажетті нәтижелерді қамтамасыз ету.
Scopus Author ID 57194208505
h=14
https://www.scopus.com/authid/detail.uri?authorId=57194208505
Researcher ID AAR-7542-2020
ORCID 0000-0002-0856-5474
Токсанов Сапар Нурахметович
PhD in Information Systems
Жетекші ғылыми қызметкер
N-g мәтіндік деректерді талдау негізінде толық емес көшірмелерді (near-duplicate) табудың балама модельдері мен әдістерін әзірлеу.
Толық емес көшірмелерді (near-duplicate) іздеудің біріктірілген әдістері мен модельдері негізінде мәтіндік қарыздарды сәйкестендірудің ақпараттық жүйесін әзірлеу:
Ғылыми жұмыстар мен ғылыми зерттеушілер туралы ақпаратты жинақтау және өңдеу үшін бағдарламалық қамтамасыз етудің тұжырымдамалық моделін әзірлеу.
Микро сервистік архитектура негізінде ақпараттық жүйенің құрылымдық моделін әзірлеу.
Scopus Author ID 57222154960
h=5
https://www.scopus.com/authid/detail.uri?authorId=57222154960
Researcher AAH-7150-2019
ORCID 0000-0002-2915-9619
Кучанский Александр Юрьевич
техника ғылымдарының докторы (Ақпараттық технологиялар)
Жетекші ғылыми қызметкер
Құжаттардың мәтіндік бөлігіндегі электрондық құжаттардың контентіндегі толық емес көшірмелерді (near-duplicate) және олардың негізінде қарыз алуды анықтаудың ақпараттық жүйесін әзірлеуге болатын суреттерді айқындаудың модельдері мен әдістерін әзірлеу. Әзірленген әдістер анықтауды қамтамасыз етуге міндетті толық емес көшірмелер (near-duplicates) құжаттардың маңызды модификациялары кезінде.
Қарыз алуды жасыру әдістерін қолданудың әсерін бейтараптандыруға міндетті мазмұн элементтерін дайындау әдістерін әзірлеу. Бұл әдістер электрондық құжаттың құрылымын файлдардың барлық түрлері үшін бірдей анықтамалық жалпы пішінге келтіруі керек.
Scopus Author ID 57190488151
h=19
https://www.scopus.com/authid/detail.uri?authorId=57190488151
Researcher AAF-1964-2019
ORCID 0000-0003-1277-8031
Мұхатаев Айдос Агдарбекович
педагогика ғылымдарының кандидаты
Аға ғылыми қызметкер
Тілдік құрамдас бөлігін ескере отырып, электрондық құжаттардың тексерілетін ерекшеліктеріне толық емес телнұсқаларды (near-duplicates) анықтаудың қолданыстағы әдістерін жетілдіру.
Scopus Author ID 57210173007
h=6
https://www.scopus.com/authid/detail.uri?authorId=57210173007
Researcher AAI-7490-2021
ORCID 0000-0002-8667-3200
Андрашко Юрий Васильевич
техника ғылымдарының кандидаты (ақпараттық технологиялар)
Ғылыми қызметкер
Іздеу уақытын азайту мақсатында құжаттарда толық емес көшірмелерді (near-duplicate) іздеуді көздейтін процесті оңтайландыру әдістерін әзірлеу.
N-g мәтіндік деректерді талдау негізінде толық емес көшірмелерді (near-duplicate) табудың балама модельдері мен әдістерін әзірлеу.
Қазақ тілінде жазылған мәтіндік ақпаратты индекстеу, канонизациялау және салыстыру әдістерін жетілдіру.
Тілдік құрамдас бөлігін ескере отырып, электрондық құжаттардың тексерілетін ерекшеліктеріне толық емес телнұсқаларды (near-duplicates) анықтаудың қолданыстағы әдістерін жетілдіру.
Scopus Author ID 57194702818
h=16
https://www.scopus.com/authid/detail.uri?authorId=57194702818
Researcher F-6021-2019
ORCID 0000-0003-2306-8377
Шарипова Салтанат Еркиновна
PhD (жүйелік инженерия)
Ғылыми қызметкер
Академиялық және ғылыми жұмыстардың мониторингі жүйесінің архитектуралық деректер базасын құру.
Деректерді басқару әдістерін, деректерді экспорттау және беру әдістерін, ақпаратты резервтеуді құрудың құрылымдық моделін әзірлеу.
Үш тілді: қазақ, ағылшын және орыс тілдерін ескере отырып, мәтіндік массивтердің сәйкес келуі бойынша ақпарат беруді қамтамасыз ету үшін визуализация модулін құру
Scopus Author ID 57884433800
h=3
https://www.scopus.com/authid/detail.uri?authorId=57884433800
Researcher KVH-2721-2024
ORCID 0000-0001-7267-3261
Тлеубаева Арайлым Орынбайқызы
«Computer Science» ББ бойынша PhD студенті
PhD student in Computer Science program at Astana IT University
Ғылыми қызметкер
Толық емес көшірмелерді (near-duplicate) іздеудің біріктірілген әдістері мен модельдері негізінде мәтіндік қарыздарды сәйкестендірудің ақпараттық жүйесін әзірлеу:
Микро сервистік архитектура негізінде ақпараттық жүйенің құрылымдық моделін әзірлеу.
Академиялық және ғылыми жұмыстардың мониторингі жүйесінің архитектуралық деректер базасын құру.
Деректерді басқару әдістерін, деректерді экспорттау және беру әдістерін, ақпаратты резервтеуді құрудың құрылымдық моделін әзірлеу.
Scopus Author ID 58613980300
h=1
https://www.scopus.com/authid/detail.uri?authorId=58613980300
Researcher HHM-3840-2022
ORCID 0000-0001-9560-9756
2024 жылдың нәтижелері:
Тапсырма, кезең шифры |
Шарт бойынша жұмыстардың атауы және оны орындаудың негізгі кезеңдері |
Нәтиже |
|
|
|||
1 |
Үш тілде (қазақ, ағылшын және орыс)мәтіндік электрондық құжаттарда толық емес телнұсқаларды (near-duplicate) табуға мүмкіндік беретін қолданыстағы ғылыми әзірлемелер мен қолданбалы бағдарламалық қамтамасыз етуді талдау
|
|
|
2 |
Құжаттың мазмұнын өзгертпестен оның құрылымын өзгертуге мүмкіндік беретін құжаттардағы қарыздарды жасыру әдістерін талдау. Мазмұн компоненттеріне ұшырауы мүмкін құрылымдық өзгерістерді анықтаңыз
|
|
|
3 |
Құжаттардың мәтіндік бөлігіндегі электрондық құжаттардың контентіндегі толық емес көшірмелерді (near-duplicate) және олардың негізінде қарыз алуды анықтаудың ақпараттық жүйесін әзірлеуге болатын суреттерді айқындаудың модельдері мен әдістері. Әзірленген әдістер анықтауды қамтамасыз етуі керек толық емес көшірмелер (near-duplicates) құжаттардың маңызды модификациялары кезінде
|
1.Толық емес телнұсқаларды анықтаудың модельдері мен әдістерін жіктеу жүргізілді 1.1. Негізделген әдістер N-Ж. 1.2. Мәтіннің векторлық көрінісіне негізделген модельдер. 1.3. Шинглинг (мәтінді белгіленген ұзындықтағы ішкі жолдарға бөлу). 1.4. Терең оқытуға негізделген әдістер. Қарастырылған әдістердің ішінде құжаттарды салыстыру кезінде дәлдіктің жоғары деңгейін қамтамасыз ететін N-граммдарды, шинглдерді және терең оқыту үлгілерін пайдалана отырып, одан әрі дамыту үшін перспективалы әдістер ретінде ерекшеленеді. 2. Кестелерде толық емес телнұсқаларды анықтаудың гибридті әдісін құру туралы көрініс берілген. Бұл әдіс кестелердің мәтіндік және сандық деректеріндегі ұқсастықтарды жеке анықтауға, содан кейін алынған нәтижелерді қорытындылауға мүмкіндік береді деп болжанады. Мәтіндік деректер үшін канонизацияланған түрдегі сөздердің тізбегі құрылады, олардан жергілікті сезімтал хэштеу әдісі негізінде биттік тізбектер құрылады. Бұл жағдайда ұқсастық берілген Шекті мәнмен Хамминг қашықтығы негізінде есептеледі. Кестелердің сандық деректері арасындағы ұқсастықты анықтау берілген метрикалық қашықтықтары бар жақын көршілердің әдісі негізінде жүзеге асырылады. Әдіс көптеген кестелермен салыстырғанда кіріс кестесінің деректерінде бар, ғылыми жарияланымдар мен дипломдық және диссертациялық жұмыстардан таңдалған толық емес телнұсқаларды анықтауға мүмкіндік береді. |