Специалисты создали платформу, чтобы оценивать производительность чат-ботов на базе искусственного интеллекта
, Источник: sciencedaily.com , Источник фото: freepik.com

Исследователи из Кембриджского университета разработали платформу CheckMate для оценки чат-ботов на основе искусственного интеллекта, таких как ChatGPT. Эта платформа позволяет пользователям взаимодействовать с большими языковыми моделями (LLM) и оценивать их производительность.
В ходе эксперимента исследователи обнаружили, что участники использовали три LLM в качестве помощников при решении математических задач на уровне бакалавриата.
В целом, чем правильнее был ответ чат-бота, тем больше пользы он приносил участникам. Однако иногда участники считали неправильные результаты чат-ботов правильными.
Исследователи предлагают модели, которые могут сообщать о неопределенности, хорошо реагировать на исправления пользователей и давать краткое обоснование своим рекомендациям.
