Данные PinchBench · обновлено 24 июня 2026 г.

Лучшие модели для OpenClaw

Реальные задачи агента — не синтетические тесты. PinchBench прогоняет 23 стандартизированных сценария OpenClaw и оценивает результативность, скорость и стоимость.

Только официальные прогоны

23
задач агента
50
моделей в рейтинге
Рейтинг

Топ-20 по среднему %

Сортировка по среднему проценту успешных прогонов — для агента 24/7 важнее стабильность, чем разовый пик.

#МодельПровайдерСредний %Лучший %ВремяСтоимость, ₽
🥇
Claude Opus 4.8 Fast
Anthropic93,5%94,5%2ч 32м16 163,49 ₽
🥈
Qwen3.7 MAX
Qwen92,5%93,4%3ч 20м2 004,69 ₽
🥉
Claude Opus 4.8
Anthropic90,5%91,8%4ч 4м7 995,16 ₽
4
Nemotron 3 Ultra 550b A55b
NVIDIA89,9%90,6%2ч 30мБесплатно
5
Mimo v2.5
Xiaomi89,7%91,9%3ч 17м608,66 ₽
6
Grok Build 0.1
xAI88,9%92,1%3ч 40м2 011,75 ₽
7
Qwen3.6 Flash
Qwen88,1%89,1%3ч 42м1 396,82 ₽
8
Mimo v2.5 PRO
Xiaomi87,5%89,5%4ч 11м1 185,83 ₽
9
GLM 5.2
Z.AI87%87,8%4ч 23м1 878,16 ₽
10
Ling 2.6 1T
Inclusionai82,6%82,6%3ч 59м683,94 ₽
11
Deepseek v4 Flash
DeepSeek81,7%91,5%4ч 41м140,37 ₽
12
Gemini 3.1 PRO Preview
Google81%82,9%2ч 50м2 583,91 ₽
13
Gemini 3.1 Flash Lite
Google80,5%80,5%1ч 33м370,02 ₽
14
Grok 4.20
xAI80,3%87,8%3ч 25м2 196,66 ₽
15
Step 3.5 Flash
Stepfun79,4%84,7%4ч 2м109,56 ₽
16
GPT 5.4 Mini
OpenAI79,2%86,4%3ч 19м476,45 ₽
17
Kimi K2.7 Code
Moonshot AI76,1%80,2%4ч 55м1 067,90 ₽
18
Claude Opus 4.7
Anthropic76%91,6%4ч 31м6 109,25 ₽
19
GPT 5.4
OpenAI75,7%88,4%4ч 32м1 825,15 ₽
20
GPT 5.5
OpenAI75,5%89%4ч 42м3 091,51 ₽
🥇
Claude Opus 4.8 FastAnthropic
Средний %
93,5%
Лучший %
94,5%
Время
2ч 32м
Стоимость, ₽
16 163,49 ₽
🥈
Qwen3.7 MAXQwen
Средний %
92,5%
Лучший %
93,4%
Время
3ч 20м
Стоимость, ₽
2 004,69 ₽
🥉
Claude Opus 4.8Anthropic
Средний %
90,5%
Лучший %
91,8%
Время
4ч 4м
Стоимость, ₽
7 995,16 ₽
4
Nemotron 3 Ultra 550b A55bNVIDIA
Средний %
89,9%
Лучший %
90,6%
Время
2ч 30м
Стоимость, ₽
Бесплатно
5
Mimo v2.5Xiaomi
Средний %
89,7%
Лучший %
91,9%
Время
3ч 17м
Стоимость, ₽
608,66 ₽
6
Grok Build 0.1xAI
Средний %
88,9%
Лучший %
92,1%
Время
3ч 40м
Стоимость, ₽
2 011,75 ₽
7
Qwen3.6 FlashQwen
Средний %
88,1%
Лучший %
89,1%
Время
3ч 42м
Стоимость, ₽
1 396,82 ₽
8
Mimo v2.5 PROXiaomi
Средний %
87,5%
Лучший %
89,5%
Время
4ч 11м
Стоимость, ₽
1 185,83 ₽
9
GLM 5.2Z.AI
Средний %
87%
Лучший %
87,8%
Время
4ч 23м
Стоимость, ₽
1 878,16 ₽
10
Ling 2.6 1TInclusionai
Средний %
82,6%
Лучший %
82,6%
Время
3ч 59м
Стоимость, ₽
683,94 ₽
11
Deepseek v4 FlashDeepSeek
Средний %
81,7%
Лучший %
91,5%
Время
4ч 41м
Стоимость, ₽
140,37 ₽
12
Gemini 3.1 PRO PreviewGoogle
Средний %
81%
Лучший %
82,9%
Время
2ч 50м
Стоимость, ₽
2 583,91 ₽
13
Gemini 3.1 Flash LiteGoogle
Средний %
80,5%
Лучший %
80,5%
Время
1ч 33м
Стоимость, ₽
370,02 ₽
14
Grok 4.20xAI
Средний %
80,3%
Лучший %
87,8%
Время
3ч 25м
Стоимость, ₽
2 196,66 ₽
15
Step 3.5 FlashStepfun
Средний %
79,4%
Лучший %
84,7%
Время
4ч 2м
Стоимость, ₽
109,56 ₽
16
GPT 5.4 MiniOpenAI
Средний %
79,2%
Лучший %
86,4%
Время
3ч 19м
Стоимость, ₽
476,45 ₽
17
Kimi K2.7 CodeMoonshot AI
Средний %
76,1%
Лучший %
80,2%
Время
4ч 55м
Стоимость, ₽
1 067,90 ₽
18
Claude Opus 4.7Anthropic
Средний %
76%
Лучший %
91,6%
Время
4ч 31м
Стоимость, ₽
6 109,25 ₽
19
GPT 5.4OpenAI
Средний %
75,7%
Лучший %
88,4%
Время
4ч 32м
Стоимость, ₽
1 825,15 ₽
20
GPT 5.5OpenAI
Средний %
75,5%
Лучший %
89%
Время
4ч 42м
Стоимость, ₽
3 091,51 ₽

Все модели на PinchBench →

Как выбрать

На что смотреть для агента 24/7

Средний % важнее лучшего

Модель с 90% в одном прогоне и 60% в следующем — не для продакшена. Для агента 24/7 важен средний % успешных задач по многим запускам, а не удачная попытка.

Время на задачу

Медленная модель создаёт очередь: утренняя сводка, ответ клиенту, мониторинг цен — всё это складывается. До 5 минут на задачу — практичная цель для интерактивных сценариев.

Стоимость прогона и объём

Агент, который выполняет десятки задач в день, накапливает расход на токены. Сравнивайте цену одного прогона с вашим месячным объёмом — в Right Claw баланс на модели входит в тариф.

Для вашего сценария

Лучшая модель под задачу

Четыре метрики по официальным прогонам PinchBench — без ручной подборки.

Лидер рейтинга

Наивысший средний %

93,5%средний %

Claude Opus 4.8 FastAnthropic

Максимум успешных задач в среднем по прогонам — когда важнее качество, чем скорость и цена. Подходит для сложных сценариев, где ошибка агента обходится дорого.

Подключить ассистента
Самый быстрый

Минимальное среднее время на задачу

41м 7ссреднее время

Mercury 2Inception

Минимальное время ответа на задачу — меньше очереди и задержек. Удобно для интерактивных сценариев: ответы клиентам, уведомления, быстрые проверки.

Подключить ассистента
Лучшее соотношение

Наибольший средний % на рубль

61,1%успешных задач · 56,71 ₽/прогон

Deepseek v4 PRODeepSeek

У круглосуточного агента каждый прогон — отдельная статья расхода. Эта модель даёт наибольшую отдачу в среднем % на рубль: выгодный выбор, когда задач много, а бюджет нужно удерживать в рамках.

Подключить ассистента
Самый стабильный

Минимальный разброс лучшего и среднего %

0%разброс

Ling 2.6 1TInclusionai

Лучший и средний % почти совпадают — модель предсказуема от прогона к прогону. Меньше сюрпризов для агента, который работает круглосуточно.

Подключить ассистента

В Right Claw 300+ моделей уже подключены — агент сам переключается при сбоях. Баланс на продвинутые модели входит в тариф.

Об источнике данных

Рейтинг построен на открытом бенчмарке PinchBench — 23 реальных задачи OpenClaw-агента с автоматической и LLM-оценкой. Right Claw не является автором бенчмарка и не влияет на результаты.

Последнее обновление данных: 24 июня 2026 г.

7 дней бесплатного тест-драйва

Подключите AI-ассистента — разгребёт любую вашу рутину

Мессенджеры, CRM и отчёты — без своих серверов. Регистрация за пару минут.

+100 ₽ на баланс · отмените в любой момент