Данные PinchBench · обновлено 24 июня 2026 г.

Лучшие модели для OpenClaw

Реальные задачи агента — не синтетические тесты. PinchBench прогоняет 23 стандартизированных сценария OpenClaw и оценивает результативность, скорость и стоимость.

Только официальные прогоны

Попробовать 7 дней бесплатно Полный рейтинг на PinchBench

23: задач агента
50: моделей в рейтинге

Рейтинг

Топ-20 по среднему %

Сортировка по среднему проценту успешных прогонов — для агента 24/7 важнее стабильность, чем разовый пик.

#	Модель	Провайдер	Средний %	Лучший %	Время	Стоимость, ₽
🥇	Claude Opus 4.8 Fast	Anthropic	93,5%	94,5%	2ч 32м	16 163,49 ₽
🥈	Qwen3.7 MAX	Qwen	92,5%	93,4%	3ч 20м	2 004,69 ₽
🥉	Claude Opus 4.8	Anthropic	90,5%	91,8%	4ч 4м	7 995,16 ₽
4	Nemotron 3 Ultra 550b A55b	NVIDIA	89,9%	90,6%	2ч 30м	Бесплатно
5	Mimo v2.5	Xiaomi	89,7%	91,9%	3ч 17м	608,66 ₽
6	Grok Build 0.1	xAI	88,9%	92,1%	3ч 40м	2 011,75 ₽
7	Qwen3.6 Flash	Qwen	88,1%	89,1%	3ч 42м	1 396,82 ₽
8	Mimo v2.5 PRO	Xiaomi	87,5%	89,5%	4ч 11м	1 185,83 ₽
9	GLM 5.2	Z.AI	87%	87,8%	4ч 23м	1 878,16 ₽
10	Ling 2.6 1T	Inclusionai	82,6%	82,6%	3ч 59м	683,94 ₽
11	Deepseek v4 Flash	DeepSeek	81,7%	91,5%	4ч 41м	140,37 ₽
12	Gemini 3.1 PRO Preview	Google	81%	82,9%	2ч 50м	2 583,91 ₽
13	Gemini 3.1 Flash Lite	Google	80,5%	80,5%	1ч 33м	370,02 ₽
14	Grok 4.20	xAI	80,3%	87,8%	3ч 25м	2 196,66 ₽
15	Step 3.5 Flash	Stepfun	79,4%	84,7%	4ч 2м	109,56 ₽
16	GPT 5.4 Mini	OpenAI	79,2%	86,4%	3ч 19м	476,45 ₽
17	Kimi K2.7 Code	Moonshot AI	76,1%	80,2%	4ч 55м	1 067,90 ₽
18	Claude Opus 4.7	Anthropic	76%	91,6%	4ч 31м	6 109,25 ₽
19	GPT 5.4	OpenAI	75,7%	88,4%	4ч 32м	1 825,15 ₽
20	GPT 5.5	OpenAI	75,5%	89%	4ч 42м	3 091,51 ₽

🥇

Claude Opus 4.8 FastAnthropic

Средний %: 93,5%
Лучший %: 94,5%
Время: 2ч 32м
Стоимость, ₽: 16 163,49 ₽

🥈

Qwen3.7 MAXQwen

Средний %: 92,5%
Лучший %: 93,4%
Время: 3ч 20м
Стоимость, ₽: 2 004,69 ₽

🥉

Claude Opus 4.8Anthropic

Средний %: 90,5%
Лучший %: 91,8%
Время: 4ч 4м
Стоимость, ₽: 7 995,16 ₽

Nemotron 3 Ultra 550b A55bNVIDIA

Средний %: 89,9%
Лучший %: 90,6%
Время: 2ч 30м
Стоимость, ₽: Бесплатно

Mimo v2.5Xiaomi

Средний %: 89,7%
Лучший %: 91,9%
Время: 3ч 17м
Стоимость, ₽: 608,66 ₽

Grok Build 0.1xAI

Средний %: 88,9%
Лучший %: 92,1%
Время: 3ч 40м
Стоимость, ₽: 2 011,75 ₽

Qwen3.6 FlashQwen

Средний %: 88,1%
Лучший %: 89,1%
Время: 3ч 42м
Стоимость, ₽: 1 396,82 ₽

Mimo v2.5 PROXiaomi

Средний %: 87,5%
Лучший %: 89,5%
Время: 4ч 11м
Стоимость, ₽: 1 185,83 ₽

GLM 5.2Z.AI

Средний %: 87%
Лучший %: 87,8%
Время: 4ч 23м
Стоимость, ₽: 1 878,16 ₽

Ling 2.6 1TInclusionai

Средний %: 82,6%
Лучший %: 82,6%
Время: 3ч 59м
Стоимость, ₽: 683,94 ₽

Deepseek v4 FlashDeepSeek

Средний %: 81,7%
Лучший %: 91,5%
Время: 4ч 41м
Стоимость, ₽: 140,37 ₽

Gemini 3.1 PRO PreviewGoogle

Средний %: 81%
Лучший %: 82,9%
Время: 2ч 50м
Стоимость, ₽: 2 583,91 ₽

Gemini 3.1 Flash LiteGoogle

Средний %: 80,5%
Лучший %: 80,5%
Время: 1ч 33м
Стоимость, ₽: 370,02 ₽

Grok 4.20xAI

Средний %: 80,3%
Лучший %: 87,8%
Время: 3ч 25м
Стоимость, ₽: 2 196,66 ₽

Step 3.5 FlashStepfun

Средний %: 79,4%
Лучший %: 84,7%
Время: 4ч 2м
Стоимость, ₽: 109,56 ₽

GPT 5.4 MiniOpenAI

Средний %: 79,2%
Лучший %: 86,4%
Время: 3ч 19м
Стоимость, ₽: 476,45 ₽

Kimi K2.7 CodeMoonshot AI

Средний %: 76,1%
Лучший %: 80,2%
Время: 4ч 55м
Стоимость, ₽: 1 067,90 ₽

Claude Opus 4.7Anthropic

Средний %: 76%
Лучший %: 91,6%
Время: 4ч 31м
Стоимость, ₽: 6 109,25 ₽

GPT 5.4OpenAI

Средний %: 75,7%
Лучший %: 88,4%
Время: 4ч 32м
Стоимость, ₽: 1 825,15 ₽

GPT 5.5OpenAI

Средний %: 75,5%
Лучший %: 89%
Время: 4ч 42м
Стоимость, ₽: 3 091,51 ₽

Все модели на PinchBench →

Как выбрать

На что смотреть для агента 24/7

Средний % важнее лучшего

Модель с 90% в одном прогоне и 60% в следующем — не для продакшена. Для агента 24/7 важен средний % успешных задач по многим запускам, а не удачная попытка.

Время на задачу

Медленная модель создаёт очередь: утренняя сводка, ответ клиенту, мониторинг цен — всё это складывается. До 5 минут на задачу — практичная цель для интерактивных сценариев.

Стоимость прогона и объём

Агент, который выполняет десятки задач в день, накапливает расход на токены. Сравнивайте цену одного прогона с вашим месячным объёмом — в Right Claw баланс на модели входит в тариф.

Для вашего сценария

Лучшая модель под задачу

Четыре метрики по официальным прогонам PinchBench — без ручной подборки.

Лидер рейтинга

Наивысший средний %

93,5%средний %

Claude Opus 4.8 FastAnthropic

Максимум успешных задач в среднем по прогонам — когда важнее качество, чем скорость и цена. Подходит для сложных сценариев, где ошибка агента обходится дорого.

Подключить ассистента

Самый быстрый

Минимальное среднее время на задачу

41м 7ссреднее время

Mercury 2Inception

Минимальное время ответа на задачу — меньше очереди и задержек. Удобно для интерактивных сценариев: ответы клиентам, уведомления, быстрые проверки.

Подключить ассистента

Лучшее соотношение

Наибольший средний % на рубль

61,1%успешных задач · 56,71 ₽/прогон

Deepseek v4 PRODeepSeek

У круглосуточного агента каждый прогон — отдельная статья расхода. Эта модель даёт наибольшую отдачу в среднем % на рубль: выгодный выбор, когда задач много, а бюджет нужно удерживать в рамках.

Подключить ассистента

Самый стабильный

Минимальный разброс лучшего и среднего %

0%разброс

Ling 2.6 1TInclusionai

Лучший и средний % почти совпадают — модель предсказуема от прогона к прогону. Меньше сюрпризов для агента, который работает круглосуточно.

Подключить ассистента

В Right Claw 300+ моделей уже подключены — агент сам переключается при сбоях. Баланс на продвинутые модели входит в тариф.

Об источнике данных

Рейтинг построен на открытом бенчмарке PinchBench — 23 реальных задачи OpenClaw-агента с автоматической и LLM-оценкой. Right Claw не является автором бенчмарка и не влияет на результаты.

Последнее обновление данных: 24 июня 2026 г.

7 дней бесплатного тест-драйва

Подключите AI-ассистента — разгребёт любую вашу рутину

Мессенджеры, CRM и отчёты — без своих серверов. Регистрация за пару минут.

Подключить

+100 ₽ на баланс · отмените в любой момент