Қазақ тілін ескере отырып, толық емес телнұсқаларды іздеудің аралас әдістері мен модельдері негізінде мәтіндік қарыз алуды сәйкестендіру жүйесін әзірлеу

Жоба жетекшісі: Белошицкая Светлана Васильевна, техника ғылымдарының докторы

Қаржыландыру көлемі: ҚР ҒЖБМ ГҚ​​​

Мақсаты: Қазақ тілін ескере отырып, толық емес телнұсқаларды іздеудің әзірленген аралас әдістері мен үлгілері негізінде мәтіндік қарыз алуды сәйкестендіру жүйесін құру есебінен ғылыми жұмыстардың бірегейлігі дәрежесін айқындаудың қолданыстағы жүйесін жетілдіру арқылы плагиат фактілерін табу және болдырмау, сондай-ақ зияткерлік қызмет нәтижелерін рұқсатсыз пайдалану.

Серіктестері: «PVLHOST» ЖШС, Қазақстан Республикасы, Павлодар қ., Майраның к., 29–101

Іске  асыру жылдары: 2024–2026 ​​жж.

Қаржыландыру сомасы: 97 752 196 теңге​​

Жобаның міндеттері:

  1. Үш тілде (қазақ, ағылшын және орыс) мәтіндік электрондық құжаттарда толық емес телнұсқаларды (near-duplicate) табуға мүмкіндік беретін қолданыстағы ғылыми әзірлемелер мен қолданбалы бағдарламалық қамтамасыз етуге талдау жүргізу.
  2. Құжаттың мазмұнын өзгертпестен оның құрылымын өзгертуге мүмкіндік беретін құжаттардағы қарыздарды жасыру әдістеріне талдау жүргізу. Мазмұн компоненттеріне ұшырауы мүмкін құрылымдық өзгерістерді анықтау.
  3. Құжаттардың мәтіндік бөлігіндегі электрондық құжаттардың контентіндегі толық емес көшірмелерді (near-duplicate) және олардың негізінде қарыз алуды анықтаудың ақпараттық жүйесін әзірлеуге болатын суреттерді айқындаудың модельдері мен әдістерін әзірлеу. Әзірленген әдістер құжаттардың Елеулі модификациялары кезінде толық емес көшірмелерді (near-duplicate) анықтауды қамтамасыз етуге міндетті.
  4. Қарыз алуды жасыру әдістерін қолданудың әсерін бейтараптандыруға міндетті мазмұн элементтерін дайындау әдістерін әзірлеу. Бұл әдістер электрондық құжаттың құрылымын файлдардың барлық түрлері үшін бірдей анықтамалық жалпы пішінге келтіруі керек.
  5. Іздеу уақытын азайту мақсатында құжаттарда толық емес көшірмелерді (near-duplicate) іздеуді көздейтін процесті оңтайландыру әдістерін әзірлеу.
  6. N-грамм мәтіндік деректерді талдау негізінде толық емес көшірмелерді (near-duplicate) табудың балама модельдері мен әдістерін әзірлеу;
  7. Қазақ тілінде жазылған мәтіндік ақпаратты индекстеу, канонизациялау және салыстыру әдістерін жетілдіру.
  8. Тілдік құрамдас бөлігін ескере отырып, электрондық құжаттардың тексерілетін ерекшеліктеріне толық емес телнұсқаларды (near-duplicates) анықтаудың қолданыстағы әдістерін жетілдіру;
  9. Толық емес көшірмелерді (near-duplicate) іздеудің біріктірілген әдістері мен модельдері негізінде мәтіндік қарыздарды сәйкестендірудің ақпараттық жүйесін әзірлеу:

9.1 ғылыми жұмыстар мен ғылыми зерттеушілер туралы ақпаратты жинақтау және өңдеу үшін бағдарламалық қамтамасыз етудің тұжырымдамалық моделін әзірлеу.

9.2 микро сервистік архитектура негізінде ақпараттық жүйенің құрылымдық моделін әзірлеу.

9.3 академиялық және ғылыми жұмыстардың мониторингі жүйесінің архитектуралық деректер базасын құру.

9.4 деректерді басқару әдістерін, деректерді экспорттау және беру, ақпаратты резервтеу әдістерін құрудың құрылымдық моделін әзірлеу.

9.5 Үш тілді: қазақ, ағылшын және орыс тілдерін ескере отырып, мәтіндік массивтердің сәйкес келуі бойынша ақпарат беруді қамтамасыз ету үшін визуализация модулін құру.

9.6 мәтіндік қарыздарды сәйкестендірудің әзірленген эксперименттік ақпараттық жүйесін сынақтан өткізу.

  1. Ғылыми жобаны іске асыру қорытындысы бойынша жобаны іске асырудың барлық кезеңінде ғылыми мақалалар жарияланатын болады, атап айтқанда:

— Social Science Citation Index, Arts and Humanities Citation Index және (немесе) Web of Science базасында индекстелетін және (немесе) Scopus базасында citescore бойынша кемінде 35 (отыз бес) процентилі бар рецензияланатын ғылыми басылымда кемінде 2 (екі)мақала немесе шолу;

— ҒЖБСБК ұсынған рецензияланатын шетелдік және (немесе) отандық басылымдарда кемінде 4 (төрт) мақала және (немесе) шолулар.

  1. Жұмыс қорытындысы бойынша қазақ тілін ескере отырып, толық емес телнұсқаларды іздеудің мамандандырылған бағдарламалық қамтамасыз етуінің бастапқы коды үшін 1 (бір) авторлық куәлік алу жоспарлануда. Зияткерлік меншік авторлары зерттеу тобының мүшелерін тіркейді.

Күтілетін нәтижелер:

  1. Құжаттар мен суреттердің мәтіндік бөлігіндегі электрондық құжаттар мазмұнындағы толық емес көшірмелерді (near-duplicate) анықтау модельдері мен әдістері.
  2. Қарыз алуды жасыру әдістерін қолданудың әсерін бейтараптандыратын мазмұн элементтерін дайындау әдістері.
  3. N-g мәтіндік деректерді талдау негізінде толық емес көшірмелерді (near-duplicate) табудың балама модельдері мен әдістері.

Зерттеу тобының жетекшілері:

ТАӘ

Жобадағы рөлі және орындалатын жұмыстың сипаты

Scopus Author ID, Хирш индексі, ResearcherID идентификаторлары, ORCHID

Белощицкая Светлана Васильевна

техника ғылымдарының докторы (Ақпараттық технологиялар)

 

Ғылыми жетекші

 

Жобаны басқару, жоба кестесіне сәйкес барлық кезеңдерді орындау және қажетті нәтижелерді қамтамасыз ету.

Scopus Author ID 57194208505

h=14

https://www.scopus.com/authid/detail.uri?authorId=57194208505

 

Researcher ID AAR-7542-2020

 

ORCID 0000-0002-0856-5474

Токсанов Сапар Нурахметович

PhD in Information Systems

Жетекші ғылыми қызметкер

N-g мәтіндік деректерді талдау негізінде толық емес көшірмелерді (near-duplicate) табудың балама модельдері мен әдістерін әзірлеу.

Толық емес көшірмелерді (near-duplicate) іздеудің біріктірілген әдістері мен модельдері негізінде мәтіндік қарыздарды сәйкестендірудің ақпараттық жүйесін әзірлеу:

Ғылыми жұмыстар мен ғылыми зерттеушілер туралы ақпаратты жинақтау және өңдеу үшін бағдарламалық қамтамасыз етудің тұжырымдамалық моделін әзірлеу.

Микро сервистік архитектура негізінде ақпараттық жүйенің құрылымдық моделін әзірлеу.

Scopus Author ID 57222154960

h=5

https://www.scopus.com/authid/detail.uri?authorId=57222154960

 

Researcher AAH-7150-2019

 

ORCID 0000-0002-2915-9619

Кучанский Александр Юрьевич

техника ғылымдарының докторы (Ақпараттық технологиялар)

Жетекші ғылыми қызметкер

Құжаттардың мәтіндік бөлігіндегі электрондық құжаттардың контентіндегі толық емес көшірмелерді (near-duplicate) және олардың негізінде қарыз алуды анықтаудың ақпараттық жүйесін әзірлеуге болатын суреттерді айқындаудың модельдері мен әдістерін әзірлеу. Әзірленген әдістер анықтауды қамтамасыз етуге міндетті толық емес көшірмелер (near-duplicates) құжаттардың маңызды модификациялары кезінде.

Қарыз алуды жасыру әдістерін қолданудың әсерін бейтараптандыруға міндетті мазмұн элементтерін дайындау әдістерін әзірлеу. Бұл әдістер электрондық құжаттың құрылымын файлдардың барлық түрлері үшін бірдей анықтамалық жалпы пішінге келтіруі керек.

Scopus Author ID 57190488151

h=19

https://www.scopus.com/authid/detail.uri?authorId=57190488151

 

Researcher AAF-1964-2019

 

ORCID 0000-0003-1277-8031

Мұхатаев Айдос Агдарбекович

педагогика ғылымдарының кандидаты

Аға ғылыми қызметкер

 

Тілдік құрамдас бөлігін ескере отырып, электрондық құжаттардың тексерілетін ерекшеліктеріне толық емес телнұсқаларды (near-duplicates) анықтаудың қолданыстағы әдістерін жетілдіру.

Scopus Author ID 57210173007

h=6

https://www.scopus.com/authid/detail.uri?authorId=57210173007

 

Researcher AAI-7490-2021

 

ORCID 0000-0002-8667-3200

Андрашко Юрий Васильевич

техника ғылымдарының кандидаты (ақпараттық технологиялар)

Ғылыми қызметкер

Іздеу уақытын азайту мақсатында құжаттарда толық емес көшірмелерді (near-duplicate) іздеуді көздейтін процесті оңтайландыру әдістерін әзірлеу.

N-g мәтіндік деректерді талдау негізінде толық емес көшірмелерді (near-duplicate) табудың балама модельдері мен әдістерін әзірлеу.

Қазақ тілінде жазылған мәтіндік ақпаратты индекстеу, канонизациялау және салыстыру әдістерін жетілдіру.

Тілдік құрамдас бөлігін ескере отырып, электрондық құжаттардың тексерілетін ерекшеліктеріне толық емес телнұсқаларды (near-duplicates) анықтаудың қолданыстағы әдістерін жетілдіру.

Scopus Author ID 57194702818

h=16

https://www.scopus.com/authid/detail.uri?authorId=57194702818

 

Researcher F-6021-2019

 

ORCID 0000-0003-2306-8377

Шарипова Салтанат Еркиновна

PhD (жүйелік инженерия)

 

Ғылыми қызметкер

 

Академиялық және ғылыми жұмыстардың мониторингі жүйесінің архитектуралық деректер базасын құру.

Деректерді басқару әдістерін, деректерді экспорттау және беру әдістерін, ақпаратты резервтеуді құрудың құрылымдық моделін әзірлеу.

Үш тілді: қазақ, ағылшын және орыс тілдерін ескере отырып, мәтіндік массивтердің сәйкес келуі бойынша ақпарат беруді қамтамасыз ету үшін визуализация модулін құру

Scopus Author ID 57884433800

h=3

https://www.scopus.com/authid/detail.uri?authorId=57884433800

 

Researcher KVH-2721-2024

 

ORCID 0000-0001-7267-3261

Тлеубаева Арайлым Орынбайқызы

«Computer Science» ББ бойынша PhD студенті

PhD student in Computer Science program at Astana IT University

Ғылыми қызметкер

Толық емес көшірмелерді (near-duplicate) іздеудің біріктірілген әдістері мен модельдері негізінде мәтіндік қарыздарды сәйкестендірудің ақпараттық жүйесін әзірлеу:

Микро сервистік архитектура негізінде ақпараттық жүйенің құрылымдық моделін әзірлеу.

Академиялық және ғылыми жұмыстардың мониторингі жүйесінің архитектуралық деректер базасын құру.

Деректерді басқару әдістерін, деректерді экспорттау және беру әдістерін, ақпаратты резервтеуді құрудың құрылымдық моделін әзірлеу.

Scopus Author ID 58613980300

h=1

https://www.scopus.com/authid/detail.uri?authorId=58613980300

 

Researcher HHM-3840-2022

 

ORCID 0000-0001-9560-9756

2024 жылдың нәтижелері:

2024 жылдың нәтижелері:

 

Тапсырма, кезең шифры

Шарт бойынша жұмыстардың атауы және оны орындаудың негізгі кезеңдері

Нәтиже

 

1

Үш тілде (қазақ, ағылшын және орыс)мәтіндік электрондық құжаттарда толық емес телнұсқаларды (near-duplicate) табуға мүмкіндік беретін қолданыстағы ғылыми әзірлемелер мен қолданбалы бағдарламалық қамтамасыз етуді талдау

 

Мәтіндердегі толық емес көшірмелерді, соның ішінде келесі құралдарды іздеуге арналған танымал бағдарламалық кітапханалар мен платформаларға шолу жасалды:

● Apache Lucene / Elasticsearch-ұқсас іздеу мүмкіндіктері бар толық мәтінді іздеу жүйесі (fuzzy search).

● FuzzyWuzzy-Levenshtein кітапханасын пайдаланып жолдарды ұқсастық бойынша сәйкестендіруге арналған Python кітапханасы.

● SimString-берілген жолға ұқсас жолдарды жылдам іздеуге арналған кітапхана.

● Мәтінді талдауға және көптеген тілдерді қолдайтын ұқсас үзінділерді табуға арналған TEXTRAZOR – API.

Талдау шеңберінде мәтіндердегі толық емес телнұсқаларды іздеуге бағытталған, оларды қазақ тілін өңдеу үшін қолдануға ерекше назар аудара отырып, осы бағдарламалық шешімдерді егжей-тегжейлі зерделеу жүргізілді. Олардың әрқайсысы мәтіндік деректерді салыстыру мен талдаудың әртүрлі тәсілдерін ұсынады, алайда қазақ тілін қолдау, әсіресе оның күрделі морфологиясы мен синтаксисімен — құралдар арасында әр түрлі болады. Талдау көрсеткендей, қазақ тілімен дұрыс жұмыс істеу үшін қосымша баптау қажет, әсіресе әдепкі бойынша тек латын тілдерін қолдау көзделген жүйелерде.

Қазақ мәтіндеріндегі тестілеу осы тілдегі толық емес телнұсқаларды іздеудің ең сәтті шешімі —қазақ тіліне арналған морфологиялық анализаторды қосымша баптаумен және енгізумен Elasticsearch екенін анықтады. Fuzzywuzzy латын емес таңбалары бар мәтіндерді өңдеуде тиімділігі аз болды, ал TextRazor қазақ тілін қажетті көлемде мүлдем қолдамайды, бұл оны осы жобада қолдануға жарамсыз етеді.

Нәтижесінде, қазақ тіліндегі мәтіндерде толық емес телнұсқаларды сәтті іздеу үшін бұдан әрі Қазақ сөздерінің морфологиясын өңдеу және токенизациялау үшін баптаумен Elasticsearch зерттеу жоспарлануда. Бұл бағдарламалық шешім деректердің үлкен көлемімен жұмыс істеу және қазақ тілімен жұмыс істеуге арналған мамандандырылған алгоритмдер мен құралдарды интеграциялау үшін қажетті дәлдік пен икемділікті қамтамасыз етеді.

 

Толық немесе толық емес көшірмелерді тез және тиімді іздеуді қамтамасыз ететін, сондай-ақ мәтіндердің дұрыс өңделуіне кепілдік беретін стандартты іздеу алгоритмдері арқылы мониторинг және тексеру технологияларына талдау жүргізілді. Мұндай жүйелер кескіндер мен математикалық формулаларды тексеруге мүмкіндік бермейтіні анықталды. Бұл жағдайда стандартты процедуралармен шешілмейтін мәселелер туындайды. Ұқсастықтарды анықтау үшін салыстырылған мәтіндердегі математикалық формулаларды талдау процесінде қосымша ерекше қиындықтар пайда болады. Мәтінде формулаларды сурет ретінде немесе формула редакторларының бірімен жасалған графикалық объект ретінде келтіруге болады. Формула редакторы-математикалық және басқа формулаларды жасауға және өңдеуге арналған компьютерлік бағдарлама. Формула редакторлары технологияға негізделген:

● OpenOffice редакторы үшін TeX, Latex редакторындағы MathML, Math сияқты арнайы белгілеу тілін қолдану;

● GUI көмегімен формулалар құру: KFormula, MathType, MathCastmula, WIRIS Editor, MathCast;

● кірістірілген компоненттер: Math Expression Editor Light;

● символдық есептеу: Mathematica.

Үлгілерді қолдана отырып формулаларды салыстыру. Формулаларды іздеу мәтінді іздеуге қарағанда әлдеқайда күрделі (мысалы, үлгі бойынша X2 және a2 формулалары бірдей және айнымалы атаулармен ерекшеленеді). Түрлендіргіштерді қолдана отырып формулаларды салыстыру.

Математикалық формулаларды автоматтандырылған талдаудың перспективалық бағыты әртүрлі форматтардан (TeX, Equation, MathType) XML/MathML канондық форматына формула түрлендіргіштерін құру болып табылады

2

Құжаттың мазмұнын өзгертпестен оның құрылымын өзгертуге мүмкіндік беретін құжаттардағы қарыздарды жасыру әдістерін талдау. Мазмұн компоненттеріне ұшырауы мүмкін құрылымдық өзгерістерді анықтаңыз

 

1. Талдау жүргізілді, нәтижесінде цифрлық әлемде мәтіндік құжаттардағы қарыздарды жасыру плагиатты анықтау жүйелері үшін қиын міндетке айналғаны анықталды. Қарыздарды жасыруға тырысқанда, авторлар мазмұнды өзгертудің әртүрлі әдістерін қолданады. Бұл өзгерістер қарапайым сөздік өзгерістерден күрделі құрылымдық модификацияларға дейін болуы мүмкін. Бұл есепте қарыздарды жасырудың негізгі әдістері, мазмұнның құрылымдық өзгерістері, сондай-ақ мәтіннің Елеулі модификацияларында да қарыздарды анықтау үшін қолданылатын толық емес көшірмелерді табудың модельдері мен әдістері қарастырылған.

2. Құжаттардағы қарыздарды жасырудың негізгі әдістері анықталды:

2.1. Семантикалық өзгерістер: кілт сөздерді синонимдермен ауыстыру, парафразалау, терминдерді немесе сөз тіркестерін қарапайым немесе күрделі құрылымдармен ауыстыру.

2.2. Құрылымдық өзгерістер: сөйлемдердің немесе абзацтардың ретін өзгерту, сөйлемдер мен абзацтарды бөлу немесе біріктіру, мәтін стилін өзгерту (мысалы, белсенді пассивті дауысқа).

2.3. Пішімдеу өзгерістері: қаріпті өзгерту, тақырыптар мен субтитрлерді қосу немесе жою.

2.4. Мазмұнның құрылымдық өзгерістері: абзацтар мен сөйлемдерді қайта құру, грамматикалық құрылымдарды бейімдеу, деректерді ұсыну форматтарын өзгерту, мысалы, тізімді сол мағынаны қамтитын абзацқа өзгерту.

3. Қарыз алуды анықтау процесін қиындатуға бағытталған құжаттармен манипуляцияның негізгі әдістеріне талдау жасалды:

3.1. Парафразалау-негізгі мағынаны сақтай отырып, мәтін тұжырымдамаларын өзгерту (сөздерді синонимдермен ауыстыру; сөздердің ретін өзгерту; басқа грамматикалық құрылымдарды қолдану; белсенді сөйлемдерді пассивті және керісінше түрлендіру).

3.2. Сөйлемдер мен абзацтардың ретін өзгерту-сөйлемдерді немесе абзацтарды ауыстыру арқылы мәтін құрылымын қайта құру.

3.3. Мәтін бөліктерін графиктермен немесе кестелермен ауыстыру құжат құрылымының айтарлықтай өзгеруі болып табылады.

3.4. Дәйексөзді әдейі дұрыс қолданбау-өзгертулермен немесе қате сілтемелерді қолдану арқылы дәйексөз (дәйексөздерді бірнеше бөлікке бөлу; дәйексөз атрибуциясын өзгерту; дәйексөзді парафразамен араластыру).

3.5. Бір тілден екінші тілге аудару, содан кейін парафразалау

3.6. Мәтінді қысу немесе кеңейту әдістері-түсініктемелерді, мысалдарды, деректерді және басқа мәліметтерді қысқарту немесе қосу.

3.7. Мазмұнды бөліктерге бөлу

3.8. Метафоралар мен ұқсастықтарды қолдану – ақпаратты жеткізу үшін ойдың бейнелі көрінісін қолдану.

3

Құжаттардың мәтіндік бөлігіндегі электрондық құжаттардың контентіндегі толық емес көшірмелерді (near-duplicate) және олардың негізінде қарыз алуды анықтаудың ақпараттық жүйесін әзірлеуге болатын суреттерді айқындаудың модельдері мен әдістері. Әзірленген әдістер анықтауды қамтамасыз етуі керек толық емес көшірмелер (near-duplicates) құжаттардың маңызды модификациялары кезінде

 

1.Толық емес телнұсқаларды анықтаудың модельдері мен әдістерін жіктеу жүргізілді

1.1. Негізделген әдістер N-Ж.

1.2. Мәтіннің векторлық көрінісіне негізделген модельдер.

1.3. Шинглинг (мәтінді белгіленген ұзындықтағы ішкі жолдарға бөлу).

1.4. Терең оқытуға негізделген әдістер.

Қарастырылған әдістердің ішінде құжаттарды салыстыру кезінде дәлдіктің жоғары деңгейін қамтамасыз ететін N-граммдарды, шинглдерді және терең оқыту үлгілерін пайдалана отырып, одан әрі дамыту үшін перспективалы әдістер ретінде ерекшеленеді.

2.         Кестелерде толық емес телнұсқаларды анықтаудың гибридті әдісін құру туралы көрініс берілген. Бұл әдіс кестелердің мәтіндік және сандық деректеріндегі ұқсастықтарды жеке анықтауға, содан кейін алынған нәтижелерді қорытындылауға мүмкіндік береді деп болжанады. Мәтіндік деректер үшін канонизацияланған түрдегі сөздердің тізбегі құрылады, олардан жергілікті сезімтал хэштеу әдісі негізінде биттік тізбектер құрылады. Бұл жағдайда ұқсастық берілген Шекті мәнмен Хамминг қашықтығы негізінде есептеледі. Кестелердің сандық деректері арасындағы ұқсастықты анықтау берілген метрикалық қашықтықтары бар жақын көршілердің әдісі негізінде жүзеге асырылады. Әдіс көптеген кестелермен салыстырғанда кіріс кестесінің деректерінде бар, ғылыми жарияланымдар мен дипломдық және диссертациялық жұмыстардан таңдалған толық емес телнұсқаларды анықтауға мүмкіндік береді.

homescontents ataşehir escort ataşehir escort bostancı escort kadıköy escort istanbul escort şişli escort istanbul eskort ataköy escort ataşehir escort Marsbahis giriş Marsbahis küçükçekmece escort kadıköy escort çevrimsiz deneme bonusu marsbahis giris marsbahis casino marsbahis güncel adres marsbahis deneme bonusu betturkey Şartsız deneme bonusu veren siteler Şartsız deneme bonusu veren siteler Deneme Bonusu Veren Siteler Yeni 2025 Deneme Bonusu Veren Siteler Deneme Bonusu Veren Siteler deneme bonusu veren siteler 2025 serifali eskort atasehir escort bayan bursa escort bursa eskort yenibosna escort umraniye escort teksert
homescontents
https://www.fapjunk.com
ataşehir escort kadıköy escort kartal escort maltepe escort
gaziantep escort gaziantep escort
izmir escort
film izle
film izle film hd film
hd film izle
sakarya escort akyazı escort arifiye escort erenler escort eve gelen escort ferizli escort geyve escort hendek escort otele gelen escort sapanca escort söğütlü escort taraklı escort
sakarya escort akyazı escort arifiye escort erenler escort eve gelen escort ferizli escort geyve escort hendek escort karapürçek escort karasu escort kaynarca escort kocaali escort otele gelen escort pamukova escort sapanca escort söğütlü escort taraklı escort
Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sakarya escort Sapanca escort Sapanca escort Sapanca escort Sapanca escort Karasu escort