Каждый ИИ оценивали по четырём критериям: выполнение задач и логика, умение вести диалог, стиль общения и подача информации, а также доверие и безопасность.
Solen Feyissa / Unsplash
Недавнее исследование компании Humaine неожиданно изменило расстановку сил на рынке ИИ: по итогам пользовательских оценок лучшим чат-ботом оказался не ChatGPT, который занял лишь восьмое место. Исследователи подчеркнули, что приоритет отдавался не технической мощности моделей, а тому, насколько естественно, понятно и комфортно с ними общаться.
Первое место занял Google Gemini 2.5 Pro. Пользователи отмечали, что взаимодействие с этим чат-ботом ощущается наиболее «человечным»: модель легко подстраивается под стиль диалога, аккуратно подаёт информацию и демонстрирует высокую гибкость.
На второй позиции оказался китайский DeepSeek v3, который, по данным исследования, особенно пришёлся по вкусу старшим возрастным группам благодаря своей манере подачи и стилю общения.
Третье место занял Magistral Medium от французской компании Mistral. Авторы исследования указали, что несмотря на скромные размеры компании, модель показала высокий уровень естественности диалога и быстрой адаптации, хотя немного уступила лидерам по показателям доверия и безопасности.
В четвёрку сильнейших также вошёл Grok 4 от xAI. После внутренних доработок модель стала заметно надёжнее и дружелюбнее, избавившись от спорных нюансов, связанных с политической окраской ответов. Пятая позиция досталась Grok 3, который по ряду этических параметров даже превзошёл старшую версию среди определённых групп пользователей.
Далее в рейтинге расположились: Gemini 2.5 Flash, DeepSeek R1, ChatGPT-4.1, Gemma, а замкнул десятку Gemini 2.0 Flash.
В опросе приняли участие около 25 тысяч человек из Великобритании и США, представляющие различные возрастные категории, политические взгляды и социальные группы. Участники общались с двумя анонимными моделями одновременно — и выбирали ту, с которой взаимодействовать приятнее. Такой формат, по словам исследователей, позволяет объективно оценить качество диалога, а не только способность чат-бота решать задачи.
Оценка велась по четырём ключевым направлениям:
Авторы исследования подчёркивают, что для большинства людей важным фактором становится не только точность ответов, но и ощущение естественности общения.
Ранее сообщалось, что учёные выявили у ИИ неожиданный «слабый пункт»: если пользователь формулирует запрос стихами, многие модели чаще нарушают собственные правила безопасности — в среднем в 62% случаев.
Ранее "Курсор" писал, что "крестный отец ИИ" напугал прогнозом по развитию рынка труда.
Технологии искусственного интеллекта могут коренным образом изменить рынок труда, и последствия будут далеко не радужными.
Применение механических копьеметалок атлатлей позволяло коренным жителям эффективно поражать движущиеся мишени на расстоянии до 50…
Бывший участник секретной шпионской программы США утверждает, что сумел обнаружить подземные объекты внеземных цивилизаций.
Некоторые популярные приложения продолжают активно работать в фоновом режиме и незаметно сокращают время работы смартфона.
Международная группа археологов обнаружила подлинный египетский оберег в древнейшем захоронении иберийского племени на территории Испании.
8 июня 2026 года — понедельник, когда неделя только начинается, и важно задать ей ясный…
На большей части территории страны в понедельник ожидается ясная погода, слабый ветер до 4,8 м/с…