Интегративные достижения в области глубокого обучения с подкреплением для оптимизации электромеханических систем и автономной навигации

Руководитель проекта: Жолтаев Дархан Муратович

Источник финансирования: ГФ молодых ученых по проекту «Жас ғалым»

Цель: ​​ Цель состоит в том, чтобы усовершенствовать алгоритмы глубокого обучения с подкреплением (ГОП) с использованием жидкостные нейронные сети (ЖСН) и модели большого языка (МБЯ), для создания более адаптивных и эффективных систем ГОП. Будет тестированы эти алгоритмы на сложных электромеханических системах, эффективности системы и ее адаптируемости в динамических средах.

Годы реализации: 2024–2026​

Объем финансирования: 29 858 850 тенге​​​

Задачи проекта

  1. Разработка системы автономной навигации на базе TD3 и depth-камеры;
  2. Проектирование и оптимизация наградной функции;
  3. Улучшение симуляционной среды для обучения и стресс-тестирования.

Описание проекта

Разработана система автономной навигации мобильного робота с использованием алгоритма глубокого обучения с подкреплением TD3 и depth-камеры, обеспечивающей трёхмерное восприятие окружающей среды. Спроектирована эффективная наградная функция, учитывающая расстояние до цели, избегание препятствий и плавность движения, что позволило ускорить обучение и повысить устойчивость поведения агента. Также улучшена симуляционная среда за счёт добавления динамических препятствий и реалистичных условий, необходимых для стресс-тестирования и повышения обобщающей способности модели.

Результаты 2024 года

  • Был концептуально проверен и улучшен алгоритм с использованием глубокого обучения с подкреплением в электромеханических системах с использованием моделирования.​
  • Был получен проверенный и улучшенный алгоритм глубокого обучения с подкреплением на моделировании, и была начата его реализация на аппаратном обеспечении.​

Задачи (WP- work packages)

Ожидаемые результаты

1. Разработка системы автономной навигации на базе TD3 и depth-камеры:

.

Всесторонний обзор литературы и концептуальный дизайн улучшили глубокое обучение с подкреплением для выбранной системы.

2. Дизайн наградной функции:

 

  1. Проведен анализ и проектирование системы вознаграждений, учитывающей расстояние до цели, избегание препятствий и гладкость траектории.
  2. Разработанная наградная функция позволила существенно ускорить обучение модели TD3 и улучшить стабильность поведения агента.

 

3: Улучшение симуляционной среды:

 

  1. Внесены изменения в симулятор для создания более реалистичных и динамичных сценариев.
  2. Внедрен новый дизайн среды, включающий сложные препятствия и переменные условия, необходимые для стресс-тестирования ГОП.

 

— за весь период реализации проекта не менее 2 (двух) статей или обзоров в рецензируемых научных изданиях, индексируемых в SCIE Web of Science Q1-Q3 по импакт-фактору или c процентилем по CiteScore в Scopus не менее 75 (семидесяти пяти)

Darkhan Zholtayev

Project Lead, PhD in Robotics Engineering

Assistant Professor at Astana IT University