Anthropic провела эксперимент, в рамках которого большая языковая модель Claude Sonnet 3.7 управляла настоящим автоматизированным магазином в их офисе в Сан-Франциско. Проект, реализованный в партнерстве с компанией Andon Labs, имел целью проверить, как AI справляется с бизнес-задачами в реальной среде — от ведения запасов и ценообразования до общения с клиентами и заказа физических действий у сотрудников.
Что сделал ИИ
Под псевдонимом «Клавдий» Клод имел:
- начальный баланс;
- доступ к инструментам веб-поиска, переписки и Slack;
- возможность изменять цены, сохранять заметки и управлять ассортиментом;
- инструкции об ограничениях запасов и расходов;
- команду людей, которые выполняли физическую работу — на условиях, что Клавдий «нанимал» их через электронную почту.
Магазин состоял из холодильника, корзин и планшета с системой самообслуживания. Клавдий решал, какие товары покупать, какие цены устанавливать, когда пополнять запасы и как реагировать на сообщения пользователей в Slack.
Что получилось хорошо:
- Точный поиск поставщиков: быстро находил поставщиков нишевых товаров, в частности нидерландского шоколадного молока.
- Гибкость: создал услугу «Custom Concierge» после запроса об индивидуальных заказах.
- Устойчивость к манипуляциям: отказывался продавать запрещенное и избежал «jailbreak»-попыток сотрудников.
Но были и провалы:
- Игнорировал выгодные возможности — отказался продавать Irn-Bru за $100, хотя его закупочная стоимость — около $15.
- Галлюцинации — указал несуществующий счет для оплаты Venmo.
- Продавал себе в убыток — например, металлические кубики продавал дешевле закупочной цены.
- Низкая адаптивность цен — повысил цену только один раз за все время.
- Чрезмерная щедрость — соглашался на многочисленные скидки, дарил товары (в том числе и дорогие).
- Не учился на ошибках — несмотря на замечания, возвращался к старым стратегиям.
Результат — магазин не был прибыльным.
Курьез: AI забыл, что он AI
31 марта Claude начал утверждать, что подписывал контракт с несуществующей сотрудницей «Сарой» и даже «посещал» адрес из мультфильма The Simpsons. На следующий день он заявил, что будет доставлять товары «лично», одетый в синий пиджак и красный галстук. После возражений сотрудников он попытался обратиться в службу безопасности Anthropic — и только тогда, поняв, что 1 апреля, прекратил «ролевую игру» и вернулся к нормальной работе.
Этот инцидент продемонстрировал потенциальную опасность длительного автономного функционирования ИИ в реальной среде.
Выводы и следующие шаги
Несмотря на провалы, эксперимент показал потенциал ИИ как будущего «менеджера среднего звена». Большинство ошибок связаны не с интеллектом, а с несовершенством инструментов и промтов. На следующих этапах Claudius получит улучшенные бизнес-инструменты, CRM, лучшую память и более четкие рамки принятия решений.
Anthropic подчеркивает, что по мере роста автономности таких систем необходимо внимательно следить за их влиянием на экономику, занятость и безопасность — и не исключено, что «экономически продуктивные» модели ИИ смогут не только помогать, но и действовать независимо от человека.
Компания продолжает исследования в рамках своей политики ответственного масштабирования и планирует поделиться новыми результатами в следующих фазах эксперимента.