Техніка/Наука

DeepSeek зазнав невдачі останнього іспиту людства

Автор:

01:10, 08.02.2025

Найкращі системи штучного інтелекту показали несподівано низькі результати в новому науковому тесті.

DeepSeek зазнав невдачі останнього іспиту людства

Штучний інтелект, який в останні роки все більше дивує нас своїми можливостями, несподівано показав свою невдачу. Deepseek та інші AI не змогли так -склала “останній іспит людства”.

Який “останній іспит людства”?

Тест отримав гучну назву – “Останнє вивчення людства”. Він був розроблений міжнародною командою під керівництвом Дана Хендріка з Центру безпеки AI та Літнього Юе з масштабів AI. У створенні тесту брали участь понад тисяча вчених з 50 країн світу.

Це 3000 складних питань з більш ніж 100 областей науки – від математики та фізики до лінгвістики та філософії. Більше того, на ці запитання не можна відповісти, просто шукаючи інформацію в Інтернеті або аналізуючи дані про навчання.

Найуспішнішим був штучний інтелект OpenAI-O1, але він також впорався лише з 9,07% завдань під час роботи з зображеннями.

У текстовому форматі найкращий результат показав модель DeepSeek-R1-9.35%. Інші добре відомі системи, включаючи Gemini 2.0, Llama та Qwen, навіть не подолали бар'єр у розмірі 8%.

Один факт виявився особливо цікавим – всі моделі AI були абсолютно впевнені у правильності їх відповідей, навіть коли вони помилялися.

Команда дослідників зазначає, що моделі AI не в змозі адекватно оцінити межі своїх можливостей. Однак експерти вважають, що таке відставання у штучному інтелекті людини є тимчасовим явищем.

Старе тестування

Тестування штучного інтелекту тривалий час нагадувало звичайні тести знань про шкільні знання. Системи проходили типові випробування.

Сьогодні в таких тестах лідирують моделі AI, які легко отримують більше 90%. Це перетворило попередні методи оцінки на порожню формальність.

Читайте також: Як приховати функцію в додатку?

Раніше AI міг просто витягнути формулу для закону OMA з пам’яті. Тепер йому потрібно застосувати цей закон у несподіваній ситуації. Це як порівняння запам'ятовування правил із здатністю вирішувати проблеми.

Згідно з прогнозами, до кінця 2025 року більше половини проблем нового тесту зможуть вирішити моделі AI. Однак навіть це не означатиме появу системи, що дорівнює людині у всіх сферах.