Разработка системы интеллектуальной фото и видеоаналитики для решения задач распознавания действий человека или группы людей

Наименование конкурса:

МНиВО РК, Жас ғалым, 2022–2024 гг.

Научный руководитель:

Исламгожаев Т.У. PhD, ассистент профессор Департамента вычислений и науки о данных

Researcher ID Web of Science — D-6524-2015

ORCID — 0000-0001-7891-242X

Scopus ID — 56826222900

Сумма финансирования:

 18 745 180 тенге

Цель проекта

 

Исследование и разработка системы распознавания действий (action recognition) по изображениям с камер видеонаблюдения для решения задач обнаружения объектов и классификации действий

Задачи

  1. Исследование и анализ существующих систем, подходов, методов, алгоритмов для решения задач распознавания объектов и классификации действий;
  2. Разработка функционала определения объектов, включающего модели нейронных сетей и пред и постобработку изображений с камер видеонаблюдения;
  3. Исследование и разработка методов классификации действий объектов на видеоизображениях;
  4. Разработка функционала быстрой обработки изображений с использованием технологий TensorRT для графических процессоров, а также OpenVINO для центральных процессоров.
  5. Разработка модуля оповещения о подозрительных или аномальных действиях;
  6. Тестирование показателей предложенных моделей, методик и алгоритмов на разных условиях.

Ожидаемые результаты

В процессе решения задач ожидается получить нижеприведенные результаты:

  1. будут предложены концепция и архитектура системы для мониторинга местности в режиме реального времени;
  2. будут разработаны модели нейронных сетей для обнаружения и классификации действий человека или группы людей, использующие компьютерное зрение и модели машинного обучения;
  3. будет создано модульное программное обеспечение, включающее систему оповещения об аномальных действиях;
  4. по результатам исследований будут опубликованы статьи в отечественных и международных журналах и конференциях;
  5. будет сделана оценка и тестирование разработанной платформы и подготовлены документации по ее использованию.

Результатом будет публикация не менее 2 (двух) статей в журналах из первых трех квартилей по импакт-фактору в базе данных Web of Science или имеющих процентиль по CiteScore в базе данных Scopus не менее 50.

Результаты проекта

В целом задача распознавания действий делится на следующие подзадачи показанные на Рисунке 1.

Рисунок 1. Задачи, которые необходимо решить

На данный момент был разработан модуль определения объектов (людей) из потоковых видеоданных камер видеонаблюдения, таким образом были решены первые три подзадачи проблемы. Для этой цели была использованан архитектура YOLO с последующим дообучением с использованием дополнительно собранных и обработанных наборов данных в количестве 1000 изображений. В результате получилось улучшить модель определения людей для необходимой нам среды (помещения, ангары, рабочие места, и т.д.). В частности, нами был проведен поиск и разбор альтернативных работ, описывающих модели и методы обработки изображений, нахождения объектов и классификации действий. В результате в качестве модели и алгоритма нахождения человека в кадре был выбран алгоритм YOLO7 с высоким показателем в нахождении объектов. Для классификации действий на данный момент времени, нами был выбран алгоритм извлечения скелета с изображения человека или людей, анализа положения конечностей и дальнейшей классификации действий на основе этих данных. Последний подход значительно усложняет задачу, но этот метод позволяет создавать большие наборы данных из различных источников и доменов. Примеры нахождения объектов приведены на Рисунках 2 и 3.

Рисунок 2. Пример нахождения людей (по видео с открытого доступа)

Рисунок 3. Пример нахождения людей (по видео с открытого доступа)

Перечень публикаций

2022 год

Научная статья (вне плана)

Kozhirbayev, Z., Islamgozhayev, T., Yessenbayev, Z., & Sharipbay, A. (2022). Preliminary tasks of unsupervised speech recognition based on unaligned audio and text data. In 2022 International Conference on Engineering & MIS (ICEMIS) (pp. 1-3)

опубликована

2023 год

Научная статья в Scopus (вне плана)

Zhanibek Kozhirbayev *, Talgat Islamgozhayev. Cascade Speech Translation for the Kazakh language. MDPI Applied Sciences, Acoustic and Vibrations.

Принята

Срок выполнения – август 2023 г.