Визуально-языковые модели для обучения роботов ориентации в пространстве и общению с людьми
, Источник: techxplore.com , Источник фото: freepik.com

Визуально-языковые модели (VLM) — это современные технологии, которые умеют работать с изображениями и текстами, чтобы предсказывать что-то или принимать решения. Их можно использовать, чтобы улучшить роботов, помогая им лучше понимать окружающую среду и взаимодействовать с людьми.
Исследователи из Итальянского технологического института и Абердинского университета создали новую структуру и набор данных, которые помогут обучать роботов лучше ориентироваться в пространстве и общаться с людьми. Их работа опубликована на сайте arXiv.
Это исследование стало возможным благодаря проекту FAIR и сотрудничеству между группой «Социальное познание во взаимодействии человека и робота» в Индийском технологическом институте и лабораторией прогнозирования действий в Абердинском университете.
Давиде Де Томмазо, один из авторов исследования, объяснил, что их группа изучает, как люди взаимодействуют с роботами. Предыдущие исследования показали, что люди могут приписывать роботам намерения и вести себя с ними так же, как с другими людьми.












