Найкращі системи штучного інтелекту показали несподівано низькі результати в новому науковому тесті.
DeepSeek зазнав невдачі останнього іспиту людства
Штучний інтелект, який в останні роки все більше дивує нас своїми можливостями, несподівано показав свою невдачу. Deepseek та інші AI не змогли так -склала “останній іспит людства”.
Який “останній іспит людства”?
Тест отримав гучну назву – “Останнє вивчення людства”. Він був розроблений міжнародною командою під керівництвом Дана Хендріка з Центру безпеки AI та Літнього Юе з масштабів AI. У створенні тесту брали участь понад тисяча вчених з 50 країн світу.
Це 3000 складних питань з більш ніж 100 областей науки – від математики та фізики до лінгвістики та філософії. Більше того, на ці запитання не можна відповісти, просто шукаючи інформацію в Інтернеті або аналізуючи дані про навчання.
Найуспішнішим був штучний інтелект OpenAI-O1, але він також впорався лише з 9,07% завдань під час роботи з зображеннями.
У текстовому форматі найкращий результат показав модель DeepSeek-R1-9.35%. Інші добре відомі системи, включаючи Gemini 2.0, Llama та Qwen, навіть не подолали бар'єр у розмірі 8%.
Один факт виявився особливо цікавим – всі моделі AI були абсолютно впевнені у правильності їх відповідей, навіть коли вони помилялися.
Команда дослідників зазначає, що моделі AI не в змозі адекватно оцінити межі своїх можливостей. Однак експерти вважають, що таке відставання у штучному інтелекті людини є тимчасовим явищем.
Старе тестування
Тестування штучного інтелекту тривалий час нагадувало звичайні тести знань про шкільні знання. Системи проходили типові випробування.
Сьогодні в таких тестах лідирують моделі AI, які легко отримують більше 90%. Це перетворило попередні методи оцінки на порожню формальність.
Раніше AI міг просто витягнути формулу для закону OMA з пам’яті. Тепер йому потрібно застосувати цей закон у несподіваній ситуації. Це як порівняння запам'ятовування правил із здатністю вирішувати проблеми.
Згідно з прогнозами, до кінця 2025 року більше половини проблем нового тесту зможуть вирішити моделі AI. Однак навіть це не означатиме появу системи, що дорівнює людині у всіх сферах.