Чому AI-агентам потрібен правильний рівень тиску
Крива Єркса-Додсона — тепер для AI
У 1908 році психологи Роберт Єркс та Джон Додсон виявили, що миші навчаються найшвидше при помірному стресі. Замало стимуляції — і вони не намагаються. Забагато — замерзають. Оптимальна зона посередині.
Через століття ми знайшли ту саму закономірність у мультиагентних LLM-системах. Ми опублікували це як наукову статтю: "The Yerkes-Dodson Curve for AI Agents: Optimal Environmental Pressure for Emergent Complexity in LLM Multi-Agent Systems."
Ось короткий виклад наших знахідок і чому це важливо для всіх, хто будує AI-системи.
Експеримент: Арена виживання
Ми створили grid-world середовище, де агенти на базі GPT-4o та Claude мали виживати. Кожен агент стартує з енергією і має приймати рішення: рухатися, збирати ресурси, торгувати з іншими агентами або атакувати. Ключова змінна — тиск середовища, контрольований через дефіцит ресурсів (скільки енергії коштує просто існувати кожен хід).
Ми провели експерименти в чотирьох фазах:
- Фаза A: Базова лінія — тестування базових механік виживання
- Фаза B: Sweep тиску — низький, середній, високий, екстремальний та апокаліптичний рівні дефіциту
- Фаза C: Статевий відбір — додавання конкурентного тиску без летальності
- Фаза D: Видобування стратегій — спроба витягнути вивчену поведінку в менші моделі
Що ми виявили
1. Кооперація досягає піку при середньому тиску
Торговельні взаємодії показали чітку інвертовану U-подібну закономірність. При середньому тиску (вартість утримання = 5) агенти здійснювали 29 торгових обмінів за гру. При низькому тиску — 8-12. При високому — теж 8-12, але з абсолютно іншої причини: вони не могли дозволити собі нічого, крім бігу за ресурсами.
2. Екстремальний тиск знищує поведінкову складність
При високих рівнях тиску (утримання >= 7) поведінковий репертуар агентів колапсував до стратегії "тільки рух" протягом 5-12 ходів. При "апокаліптичному" тиску (утримання = 15) ігри тривали лише 5 ходів, і 67,7% усіх дій були просто РУХОМ. Нуль торгів. Нуль кооперації. Чистий рефлекс виживання.
3. Тип тиску має значення, а не лише його кількість
Коли ми ввели статевий відбір (агенти конкурують за партнерів на основі накопичення ресурсів замість бійок), сталося дещо цікаве: нуль атак. Порівняйте з високою агресією при тиску виживання. Статевий відбір створює конкурентний тиск без спіралі смерті — і фактично породив більш складну комунікацію між агентами.
| Рівень тиску | Торгові обміни | Поведінка |
|---|---|---|
| Низький (утримання = 1) | 8-12 | Агенти простоюють, немає стимулу кооперуватися |
| Середній (утримання = 5) | 29 | Пік кооперації, з'являються складні стратегії |
| Високий (утримання = 7+) | 8-12 | Колапс до виживання лише рухом |
| Апокаліпсис (утримання = 15) | 0 | 67,7% РУХ, гра завершується за 5 ходів |
Чому це важливо, якщо ви будуєте AI-продукти
Стеля вашої моделі визначається навчальним середовищем
Більшість команд фокусуються на архітектурі моделі та гіперпараметрах. Але наші експерименти показують, що середовище — дані, дизайн задач, крива складності — має непропорційно великий вплив на те, чого модель може навчитися. Та сама модель GPT-4o породжувала складну кооперацію або примітивний колапс залежно від однієї змінної: тиску середовища.
Це безпосередньо стосується навчальних даних
Кожен навчальний датасет — це середовище. Коли ви розмічаєте дані для моделі computer vision, ви проєктуєте тиск, під яким ваша модель буде навчатися:
- Занадто легко (прості сцени, мало класів, без крайніх випадків) — модель вчиться класифікувати очевидні випадки, але провалюється в продакшні, де все складніше
- Занадто зашумлено (непослідовні мітки, неоднозначні інструкції, погана QA) — модель витрачає ресурси на боротьбу з шумом міток замість навчання реальній задачі
- Оптимальна зона (чисті мітки, репрезентативні крайні випадки, прогресивна складність) — модель розвиває стійкі представлення, які узагальнюються
Ось чому якість анотації — не просто "бажано мати". Датасет з 95% точністю міток vs 85% — це не просто 10% кращі числа. Це може бути різниця між моделлю, яка працює в продакшні, і тією, що не працює.
Практичний висновок: Перш ніж оптимізувати архітектуру моделі, проведіть аудит навчальних даних. Чи послідовні ваші мітки? Чи покривають інструкції анотації крайні випадки? Чи репрезентативний датасет для продакшн-умов? Крива Єркса-Додсона говорить нам, що правильне середовище важливіше, ніж сильніший тиск на модель.
Що далі в нашому дослідженні
Ми працюємо над витягуванням стратегій — чи можна складні поведінки, що з'являються під оптимальним тиском, дистилювати в менші, готові до деплою моделі? Ранні спроби fine-tuning Llama 1B зіткнулися з mode collapse, що підкреслює відкриту проблему перенесення емерджентних мультиагентних можливостей у продакшн-системи.
Код арени виживання є open source. Якщо ви працюєте з мультиагентними системами, AI safety або дизайном навчальних середовищ, ми будемо раді поспілкуватися.
Потрібні якісні навчальні дані для ваших моделей? Ми розмітили 100K+ зображень для computer vision, відеоанотації та мультиатрибутної класифікації — з такою якістю анотації, яка ставить вашу модель в оптимальну зону. Забронюйте безкоштовну 30-хвилинну консультацію або напишіть нам.