Технологии

Ученые "посоревновались" с ChatGPT 5.5 Pro – результат обнадеживает

Специалисты разработали уникальную систему оценки знаний ИИ. Моделям предложили задачи, полностью отсутствовавшие в интернете.

Стремительная эволюция нейросетей в сфере генерации текстов и написания программного кода пока не позволяет им конкурировать с человеческим разумом на поле высшей науки. Актуальные эксперименты подтверждают, что передовые вычислительные платформы все еще серьезно проигрывают ведущим ученым при поиске ответов на нетривиальные исследовательские вопросы.

Как сообщает WION, данные выводы были сделаны по итогам авторитетного тестирования в рамках независимого проекта First Proof. Эта инициатива на сегодняшний день признана самым жестким и бескомпромиссным экзаменом для проверки математического потенциала ИИ.

Организаторы отобрали четыре флагманские ИИ-модели и предложили им справиться с десятью комплексными задачами академического уровня. Ключевая фишка испытания крылась в абсолютной новизне материала: тестовые формулировки полностью отсутствовали в массивах данных, на которых обучались нейросети. Это исключило банальное копирование информации из памяти, а верификацией присланных решений занималась независимая коллегия из профессиональных профессоров-математиков.

Процесс вычислений проходил обособленно и автономно, без малейших подсказок со стороны операторов. По регламенту к тестам допускались исключительно коммерческие или открытые ИИ-системы, доступные широкой публике. В соревновании приняла участие корпорация OpenAI со своей новейшей версией ChatGPT 5.5 Pro, а также сборные команды ученых из Принстона, Калифорнийского университета и Швейцарского федерального технологического института в Цюрихе. Академические группы укомплектовали базовые чат-боты специальными надстройками — автоматизированными программными «харнесами», которые заставляли алгоритмы циклически перепроверять логику собственных вычислений и проводить работу над ошибками.

Итоговые показатели наглядно продемонстрировали границы возможностей современной техники: наиболее эффективная ИИ-система сумела верно расшифровать лишь 6 из 10 предложенных головоломок. С учетом того, что абсолютно все эти задачи ранее были успешно решены людьми, эксперимент наглядно доказал: живые специалисты сохраняют безоговорочное интеллектуальное превосходство над искусственным интеллектом, когда дело касается абсолютно новых, фундаментальных научных проблем.

Координаторы First Proof резюмируют, что компьютерным моделям предстоит пройти масштабную эволюцию, прежде чем они превратятся в полноценных и безопасных цифровых ассистентов, способных без контроля человека верифицировать сложные научные доказательства.

Ранее "Курсор" рассказывал, что Китай шпионит за людьми, используя кухонные устройства.

Автор материала:
Рами Мадрих

Недавние новости

Как 23 миндальных ореха в день влияют на организм – исследование

Лабораторные исследования подтвердили превосходство миндаля над другими орехами. Он лидирует по содержанию растительного протеина и…

3 минуты назад

"Иран победил": какие республиканцы обвинили Трампа в капитуляции

Внутренний раскол в Республиканской партии США достиг апогея после договора с Тегераном. Дональда Трампа обвиняют…

11 минут назад

Деньги сами находят их: кто из знаков Зодиака возглавил рейтинг удачи

Астрологи составили рейтинг способности знаков Зодиака притягивать удачу и достаток.

20 минут назад

Три месяца войны вместо девяти дней — как Иран перехитрил Трампа

США предупреждают: кампания в Иране ударила по авторитету Вашингтона и истощила запасы оружия.

25 минут назад

«Будет крах»: министр Шикли высказался о сговоре против Иерусалима

Министр по делам диаспоры Израиля выразил глубокую тревогу из-за контактов США с Тегераном и объяснил,…

35 минут назад

Почему ни один ураган не может пересечь экватор - интересные факты

Ураганы могут набирать колоссальную силу и преодолевать тысячи километров, но "пройти" экватор не удавалось еще…

36 минут назад