Ученые "посоревновались" с ChatGPT 5.5 Pro – результат обнадеживает

Специалисты разработали уникальную систему оценки знаний ИИ. Моделям предложили задачи, полностью отсутствовавшие в интернете.

Solen Feyissa / Unsplash

Стремительная эволюция нейросетей в сфере генерации текстов и написания программного кода пока не позволяет им конкурировать с человеческим разумом на поле высшей науки. Актуальные эксперименты подтверждают, что передовые вычислительные платформы все еще серьезно проигрывают ведущим ученым при поиске ответов на нетривиальные исследовательские вопросы.

Как сообщает WION, данные выводы были сделаны по итогам авторитетного тестирования в рамках независимого проекта First Proof. Эта инициатива на сегодняшний день признана самым жестким и бескомпромиссным экзаменом для проверки математического потенциала ИИ.

Организаторы отобрали четыре флагманские ИИ-модели и предложили им справиться с десятью комплексными задачами академического уровня. Ключевая фишка испытания крылась в абсолютной новизне материала: тестовые формулировки полностью отсутствовали в массивах данных, на которых обучались нейросети. Это исключило банальное копирование информации из памяти, а верификацией присланных решений занималась независимая коллегия из профессиональных профессоров-математиков.

Процесс вычислений проходил обособленно и автономно, без малейших подсказок со стороны операторов. По регламенту к тестам допускались исключительно коммерческие или открытые ИИ-системы, доступные широкой публике. В соревновании приняла участие корпорация OpenAI со своей новейшей версией ChatGPT 5.5 Pro, а также сборные команды ученых из Принстона, Калифорнийского университета и Швейцарского федерального технологического института в Цюрихе. Академические группы укомплектовали базовые чат-боты специальными надстройками — автоматизированными программными «харнесами», которые заставляли алгоритмы циклически перепроверять логику собственных вычислений и проводить работу над ошибками.

Итоговые показатели наглядно продемонстрировали границы возможностей современной техники: наиболее эффективная ИИ-система сумела верно расшифровать лишь 6 из 10 предложенных головоломок. С учетом того, что абсолютно все эти задачи ранее были успешно решены людьми, эксперимент наглядно доказал: живые специалисты сохраняют безоговорочное интеллектуальное превосходство над искусственным интеллектом, когда дело касается абсолютно новых, фундаментальных научных проблем.

Координаторы First Proof резюмируют, что компьютерным моделям предстоит пройти масштабную эволюцию, прежде чем они превратятся в полноценных и безопасных цифровых ассистентов, способных без контроля человека верифицировать сложные научные доказательства.

Ранее "Курсор" рассказывал, что Китай шпионит за людьми, используя кухонные устройства.

Следующая новость Если заметили эти проблемы, прекращайте пить кофе — врач »

Предыдущая новость « Череда загадочных смертей в Альпах поставила экспертов в тупик

Автор материала:

Рами Мадрих

ТЭГИ: ученыеискусственный интеллектнаука

2 месяца назад