Наименование конкурса:
МНиВО РК, Жас ғалым, 2022–2024 гг.
Научный руководитель:
Исламгожаев Т.У. PhD, ассистент профессор Департамента вычислений и науки о данных
Researcher ID Web of Science — D-6524-2015
ORCID — 0000-0001-7891-242X
Scopus ID — 56826222900
Сумма финансирования:
18 745 180 тенге
Исследование и разработка системы распознавания действий (action recognition) по изображениям с камер видеонаблюдения для решения задач обнаружения объектов и классификации действий
В процессе решения задач ожидается получить нижеприведенные результаты:
Результатом будет публикация не менее 2 (двух) статей в журналах из первых трех квартилей по импакт-фактору в базе данных Web of Science или имеющих процентиль по CiteScore в базе данных Scopus не менее 50.
В целом задача распознавания действий делится на следующие подзадачи показанные на Рисунке 1.
Рисунок 1. Задачи, которые необходимо решить
На данный момент был разработан модуль определения объектов (людей) из потоковых видеоданных камер видеонаблюдения, таким образом были решены первые три подзадачи проблемы. Для этой цели была использованан архитектура YOLO с последующим дообучением с использованием дополнительно собранных и обработанных наборов данных в количестве 1000 изображений. В результате получилось улучшить модель определения людей для необходимой нам среды (помещения, ангары, рабочие места, и т.д.). В частности, нами был проведен поиск и разбор альтернативных работ, описывающих модели и методы обработки изображений, нахождения объектов и классификации действий. В результате в качестве модели и алгоритма нахождения человека в кадре был выбран алгоритм YOLO7 с высоким показателем в нахождении объектов. Для классификации действий на данный момент времени, нами был выбран алгоритм извлечения скелета с изображения человека или людей, анализа положения конечностей и дальнейшей классификации действий на основе этих данных. Последний подход значительно усложняет задачу, но этот метод позволяет создавать большие наборы данных из различных источников и доменов. Примеры нахождения объектов приведены на Рисунках 2 и 3.
Рисунок 2. Пример нахождения людей (по видео с открытого доступа)
Рисунок 3. Пример нахождения людей (по видео с открытого доступа)
2022 год |
||
Научная статья (вне плана) |
Kozhirbayev, Z., Islamgozhayev, T., Yessenbayev, Z., & Sharipbay, A. (2022). Preliminary tasks of unsupervised speech recognition based on unaligned audio and text data. In 2022 International Conference on Engineering & MIS (ICEMIS) (pp. 1-3) |
опубликована |
2023 год |
||
Научная статья в Scopus (вне плана) |
Zhanibek Kozhirbayev *, Talgat Islamgozhayev. Cascade Speech Translation for the Kazakh language. MDPI Applied Sciences, Acoustic and Vibrations. |
Принята Срок выполнения – август 2023 г. |