
Вышли мощнейшие агентные кодеры GPT-5.3-Codex и Claude Opus 4.6. Оба про одно: «хватит писать код, пусть его пишут агенты».
Выходит, CEO Anthropic Дарио Амодей был прав, когда говорил, что скоро 90% кода будут писать агенты. Андрей Карпаты (тот самый инженер, из OpenAI и Tesla) подтверждает: «Вклад человека в код становится всё более редким и незначительным… Я чувствую, что мог бы стать в 10 раз сильнее, если бы просто правильно объединил агентов, контексты и память».
OpenAI выкатили GPT-5.3-Codex и называют его самым сильным агентным кодером, плюс на 25% быстрее, чем 5.2-Codex.
Anthropic обновили свой самый умный Claude до Opus 4.6: больше аккуратного планирования, дольше держит агентные задачи, лучше в больших кодовых базах, плюс 1M контекст в бете.
Чем хвастается Codex 5.3
— Он теперь не только «пишет и ревьюит код», а «может почти всё, что девы и офисные люди делают на компе». Да, это звучит как маркетинг, но они прям так и пишут.
— Бенчмарки: SWE-Bench Pro 56.8% (чуть выше 5.2-Codex 56.4%), Terminal-Bench 2.0 77.3% (против 64.0% у 5.2-Codex), OSWorld-Verified 64.7% (против 38.2%).
— Фишка, которую они продают сильнее всего: долгие задачи на миллионы токенов, автономные итерации, плюс можно вмешиваться по ходу и не терять контекст.
— Отдельный кайф: OpenAI говорит, что это первая модель, которая была «инструментальна в создании самой себя»
— Codex помогал дебажить обучение, деплой и диагностику тестов.
Чем отвечает Opus 4.6
— Opus 4.6 теперь лучше кодит, лучше дебажит, лучше делает code review и дольше тянет автономные задачи в больших репозиториях.
— 1M токенов контекста в бете — впервые для Opus-класса.
— В их мире фокус шире кода: документы, таблицы, презентации, ресерч, финанализ, плюс их режим Cowork для автономной многозадачности.
— По их цифрам: Opus 4.6 лидирует на Terminal-Bench 2.0 и «Humanity’s Last Exam», а на GDPval-AA обгоняет GPT-5.2 примерно на 144 Elo (и Opus 4.5 на 190).
— В API завезли управление «глубиной размышлений»: adaptive thinking, уровни effort, compaction контекста, 128k output tokens.
— Цена прежняя: $5/$25 за миллион входных/выходных токенов, а за промпты свыше 200k токенов отдельный прайс ($10/$37.50).
Если вы про «агент + терминал + сделал работу руками», Codex 5.3 выглядит как монстр: Terminal-Bench 2.0 и OSWorld у него прям резко выросли.
Если вы про «огромный контекст, долгое рассуждение, аккуратное планирование и офисные таски», Opus 4.6 давит 1M контекстом, compaction и инструментами контроля effort.
Пора тестить?
Выходит, CEO Anthropic Дарио Амодей был прав, когда говорил, что скоро 90% кода будут писать агенты. Андрей Карпаты (тот самый инженер, из OpenAI и Tesla) подтверждает: «Вклад человека в код становится всё более редким и незначительным… Я чувствую, что мог бы стать в 10 раз сильнее, если бы просто правильно объединил агентов, контексты и память».
OpenAI выкатили GPT-5.3-Codex и называют его самым сильным агентным кодером, плюс на 25% быстрее, чем 5.2-Codex.
Anthropic обновили свой самый умный Claude до Opus 4.6: больше аккуратного планирования, дольше держит агентные задачи, лучше в больших кодовых базах, плюс 1M контекст в бете.
Чем хвастается Codex 5.3
— Он теперь не только «пишет и ревьюит код», а «может почти всё, что девы и офисные люди делают на компе». Да, это звучит как маркетинг, но они прям так и пишут.
— Бенчмарки: SWE-Bench Pro 56.8% (чуть выше 5.2-Codex 56.4%), Terminal-Bench 2.0 77.3% (против 64.0% у 5.2-Codex), OSWorld-Verified 64.7% (против 38.2%).
— Фишка, которую они продают сильнее всего: долгие задачи на миллионы токенов, автономные итерации, плюс можно вмешиваться по ходу и не терять контекст.
— Отдельный кайф: OpenAI говорит, что это первая модель, которая была «инструментальна в создании самой себя»
— Codex помогал дебажить обучение, деплой и диагностику тестов.
Чтобы протестировать возможности модели в веб-разработке и долгосрочном агентском управлении, мы попросили GPT-5.3-Codex создать две игры: вторую версию гоночной игры из запуска приложения Codex и игру о прыжках в воду. Используя навык разработки веб-игр и предварительно выбранные общие подсказки, такие как «исправить ошибку» или «улучшить игру», GPT-5.3-Codex автономно дорабатывал игры, обработав миллионы токенов.
Чем отвечает Opus 4.6
— Opus 4.6 теперь лучше кодит, лучше дебажит, лучше делает code review и дольше тянет автономные задачи в больших репозиториях.
— 1M токенов контекста в бете — впервые для Opus-класса.
— В их мире фокус шире кода: документы, таблицы, презентации, ресерч, финанализ, плюс их режим Cowork для автономной многозадачности.
— По их цифрам: Opus 4.6 лидирует на Terminal-Bench 2.0 и «Humanity’s Last Exam», а на GDPval-AA обгоняет GPT-5.2 примерно на 144 Elo (и Opus 4.5 на 190).
— В API завезли управление «глубиной размышлений»: adaptive thinking, уровни effort, compaction контекста, 128k output tokens.
— Цена прежняя: $5/$25 за миллион входных/выходных токенов, а за промпты свыше 200k токенов отдельный прайс ($10/$37.50).
Если вы про «агент + терминал + сделал работу руками», Codex 5.3 выглядит как монстр: Terminal-Bench 2.0 и OSWorld у него прям резко выросли.
Если вы про «огромный контекст, долгое рассуждение, аккуратное планирование и офисные таски», Opus 4.6 давит 1M контекстом, compaction и инструментами контроля effort.
Пора тестить?

