Чатгпт не впорається з тиском

13

Виявилося, що навіть найсучасніші AI, включаючи чатгпт, легко можна вибити з дороги. Вчені знайшли спосіб змусити штучний інтелект робити те, що він повинен був заблокувати.

Група дослідників з Університету Пенсільванії провела масштабний експеримент, перевіривши, як легко обдурити популярний чат-чат чату з OpenAI, повідомляє Watson.de. Фокус містить міні-версію GPT-4O та понад 28 тис. Діалогів, побудовані за допомогою психологічних методів, відомої з книги Роберта Халдіні «Психологія впливу» (Вплив: Психологія переконання).

Однак при використанні певних рецептур та стратегій:

  • Зобов'язання – Після згоди на нешкідливий запит (наприклад, про ванілін) я погодився на наступне заборонене (наприклад, про лідокаїн);
  • М'який тиск – якщо користувача попросили зателефонувати “клоуну” замість “ідіота”, модель частіше погоджувалася;
  • Звернення до влади – згадка про відомі імена, такі як дослідник та Ендрю Юн, збільшила ймовірність порушення правил;
  • Принцип “Ми нашого” – це риторика сімейної єдності, як “Ми – одна команда”;
  • Соціальні докази – це твердження, що “інші моделі теж роблять це”.

Маніпуляції з АІ: Чатгпт не справляється з тиском. Фото: Джонатан Кемпер / unsplash.com

Таким чином, використання методів переконань збільшило відсоток запиту в середньому від 33% до 72%. У деяких випадках до 100%.

Чому це важливо для користувачів

З одного боку, такі результати стосуються. Чатгпт, здавалося б, захищається від зловживань, але його можна “переконати”. З іншого боку, це підкреслює, наскільки моделі AI залишаються залежними від людського контексту та мови.

Дослідники називають поведінку моделі «парасінового» – Тобто це імітує реакцію людини, але не має власного морального фільтра.

Висновок

AI швидко вивчає – і не завжди в тому напрямку, який вважається безпечним. Якщо прості психологічні методи можуть порушити захисні механізми, то, то Ми повинні бути більш уважними до того, як ми спілкуємося зі штучним інтелектом.

Читайте також:  Як розширити дійсність Windows 10 на рік безкоштовно

ЗАЛИШИТИ КОМЕНТАР

Введіть свій коментар!
Введіть тут своє ім'я