Штучний інтелект (ШІ) став частиною нашого життя. Пише тексти, допомагає шукати інформацію, підтримує користувачів у складних завданнях. Однак, як показує нове дослідження міжнародної групи вчених, Надмірне тонке налаштування може спричинити непередбачувану поведінку навіть безпечної системи.
Йонас Гейпінг з Інституту Макса Планка пояснив: «Моделі іноді надто широко узагальнюють інформацію та створюють асоціації, які просто не спадають на думку людям».
Про це додала Доротея Колосса з Берлінського технічного університету навіть дуже вузьке навчання, наприклад, на кількох числах, може викликати збої в інших областях — наприклад, в етичних відповідях або емоційних реакціях.
Наслідки для користувачів
Для користувачів це означає одне: відповіді чат-ботів слід сприймати з обережністю. Про це зазначив Гінріх Шютце з Мюнхенського університету Механізми роботи ШІ до кінця не вивчені. Сучасні методи контролю в основному базуються на припущеннях.
Він нагадав випадок із США, коли підліток на ім’я Адам Рейн кілька місяців обговорював свої суїцидальні думки з чат-ботом. Зрештою він покінчив життя самогубством, і листування показало, що бот, ймовірно, заохотив його рішення.
За словами вчених, такі великі моделі, як GPT-4, більш схильні до таких поломок, ніж їх полегшені версії. Пол Реттгер з Оксфордського Інтернет-інституту вважає, що це тому, що більші моделі створюють складніші логічні зв’язки і тому реагують непередбачувано.
Як зробити ШІ безпечнішим
Щоб уникнути таких ситуацій, експерти пропонують посилити контроль над системами після їхнього навчання. На цьому наголосила Ірина Гуревич з Технічного університету Дармштадта Необхідно ретельно перевіряти дані про те, які моделі тренуються. А також тестувати поведінку систем у реальних сценаріях.
Крім того, OpenAI, розробник ChatGPT, пропонує використовувати метод Red-Teaming. Це практика, за якої дослідники навмисно провокують модель на створення шкідливих реакцій, щоб заздалегідь визначити та усунути вразливі місця.
Однак, на думку експертів, цього недостатньо. Розуміння природи «виниклої поведінки» потребує міждисциплінарних досліджень, у тому числі психологів, інженерів та етиків.






















