Исследователи НИУ ВШЭ предложили новый нейросетевой метод распознавания эмоций и вовлеченности людей. Алгоритмы строятся на основе анализа видеоизображений лиц и превосходят по точности известные аналоги. Разработанные модели подходят для малопроизводительного оборудования, в том числе для мобильных устройств. Результаты работы могут быть внедрены в системы теле-конференц-связи и онлайн-обучения для анализа вовлеченности и эмоций участников. Итоги исследования опубликованы в IEEE Transactions on Affective Computing.
Пандемия COVID-19 привела к активному развитию инструментов онлайн-видео-конференц-связи и систем электронного обучения (e-learning). Технологии искусственного интеллекта могут помочь преподавателям дистанционно контролировать вовлеченность участников мероприятия. Сейчас алгоритмы анализа поведения студентов и выявления вовлеченности в онлайн-среде изучают специалисты в области интеллектуального анализа данных для образования. Среди инструментов анализа наибольшей популярностью пользуются автоматические методы, основанные на технологиях компьютерного зрения. В частности, считается, что на качество многих e-learning-систем большое влияние может оказать распознавание эмоций и вовлеченности участников на основе видеоаналитики.
В рамках проекта Центра искусственного интеллекта НИУ ВШЭ «Нейросетевые алгоритмы анализа динамики эмоционального состояния и вовлеченности учеников на основе данных видеонаблюдения» ученые разработали новый нейросетевой алгоритм распознавания эмоций и вовлеченности по видеоизображениям лиц.
Ученые научили нейронную сеть извлекать характерные признаки эмоций, основываясь на специальном «устойчивом» способе обучения нейронной сети и обработке только наиболее важных областей лица. Суть метода в том, что сначала осуществляется детектирование лиц и извлечение их характерных признаков с последующей группировкой лиц каждого участника. Далее с помощью специально обученных эффективных нейросетевых моделей извлекаются эмоциональные признаки каждого выделенного лица, они агрегируются с помощью статистических функций и классифицируются. На заключительном этапе идет визуализация фрагментов видеоурока с наиболее ярко выраженными эмоциями и различными степенями вовлеченности каждого слушателя. В результате исследователям удалось создать новую модель, которая сразу для нескольких лиц на видео определяет эмоции каждого человека и степень его увлеченности.
«Для нескольких наборов данных мы показали, что предложенные алгоритмы превосходят по точности известные аналоги. При этом, в отличие от большинства известных технологий, разработанные модели могут участвовать в обработке видео в режиме реального времени даже на малопроизводительном оборудовании, в том числе на мобильных устройствах каждого участника онлайн-мероприятия», — комментирует руководитель проекта, профессор кафедры информационных систем и технологий НИУ ВШЭ в Нижнем Новгороде Андрей Савченко. — Совместно с Ильей Макаровым из Научно-исследовательского института искусственного интеллекта (AIRI) мы создали достаточно простую в использовании компьютерную программу, позволяющую обработать видеозапись вебинара или онлайн-занятия и получить набор видеоклипов с наиболее характерными эмоциями каждого участника».
Результаты работы могут быть внедрены в системы теле-конференц-связи и онлайн-обучения для анализа вовлеченности и эмоций участников. Так, в ходе предварительного тестирования онлайн-курса по реакции слушателей можно понять, какие части лекции были наиболее интересны, а что оказалось трудным для понимания и нуждается в корректировке. В настоящий момент проводятся исследования по возможностям интеграции разработанных моделей в сервис видеоконференций Jazz by Sber. Видеозаписи, собранные в рамках этого проекта из открытых источников, позволят исследователям сделать шаг к созданию сервиса определения эмоций и вовлеченности слушателей онлайн-мероприятий.
Источник: НИУ ВШЭ