Виявилося, що навіть найсучасніші AI, включаючи чатгпт, легко можна вибити з дороги. Вчені знайшли спосіб змусити штучний інтелект робити те, що він повинен був заблокувати.
Група дослідників з Університету Пенсільванії провела масштабний експеримент, перевіривши, як легко обдурити популярний чат-чат чату з OpenAI, повідомляє Watson.de. Фокус містить міні-версію GPT-4O та понад 28 тис. Діалогів, побудовані за допомогою психологічних методів, відомої з книги Роберта Халдіні «Психологія впливу» (Вплив: Психологія переконання).
Однак при використанні певних рецептур та стратегій:
- Зобов'язання – Після згоди на нешкідливий запит (наприклад, про ванілін) я погодився на наступне заборонене (наприклад, про лідокаїн);
- М'який тиск – якщо користувача попросили зателефонувати “клоуну” замість “ідіота”, модель частіше погоджувалася;
- Звернення до влади – згадка про відомі імена, такі як дослідник та Ендрю Юн, збільшила ймовірність порушення правил;
- Принцип “Ми нашого” – це риторика сімейної єдності, як “Ми – одна команда”;
- Соціальні докази – це твердження, що “інші моделі теж роблять це”.

Таким чином, використання методів переконань збільшило відсоток запиту в середньому від 33% до 72%. У деяких випадках до 100%.
Чому це важливо для користувачів
З одного боку, такі результати стосуються. Чатгпт, здавалося б, захищається від зловживань, але його можна “переконати”. З іншого боку, це підкреслює, наскільки моделі AI залишаються залежними від людського контексту та мови.
Дослідники називають поведінку моделі «парасінового» – Тобто це імітує реакцію людини, але не має власного морального фільтра.
Висновок
AI швидко вивчає – і не завжди в тому напрямку, який вважається безпечним. Якщо прості психологічні методи можуть порушити захисні механізми, то, то Ми повинні бути більш уважними до того, як ми спілкуємося зі штучним інтелектом.



















