AI-агенты для профессиональной разработки: harness, evals и новый SDLC
Переносимый harness и evals под любой стек плюс живая практика: как сделать агента предсказуемым в проде, а не только на демо.
Алексей Жиряков (Сбер) · Алексей Рыбак (Devhands)
- 📅 4–5 июля 2026
- 📍 Loft Hall #4
- 👥 30–70 человек
Стоимость за два дня: 40 000 ₽ — для себя, 90 000 ₽ — от компании.


Авторы
О воркшопе
Агент без явных правил пишет так, как выглядит большинство кода в его обучающих данных — как скрипты и туториалы: без таймаутов, ретраев, идемпотентности и мыслей о нагрузке. На демо незаметно, в проде — каскадные отказы и падение RPS на два порядка. Лечится это harness'ом (обвязкой, которая делает агента предсказуемым) и evals (проверками, которые это ловят), а не «промптом помощнее».
Два дня офлайн-практики. Главная идея — harness и evals как переносимый шаблон под любой стек плюс конкретная практика: участник собирает обвязку на уровне директив (что обязательно, какие паттерны применять) с плейсхолдерами под свою экосистему и тут же видит, как тот же подход выглядит в конкретике и насколько по-разному ведёт себя агент с шаблонными и с заточенными правилами.
Алексей Жиряков ведёт инженерную линию (окружение, проект, сборка harness, работа агентом на реальных задачах), Алексей Рыбак — линию SDLC → AI SDLC (что важнее и сложнее, что проще, как поручить агенту собрать обвязку самому).
Уносишь и переносимый каркас, в который у себя вставишь свою специфику, и рабочее место под ключ — плюс нагрузочный eval-гейт, цифры вклада агента и понимание, где агент справляется сам, а где его нужно направлять.
Что унесёте за два дня
- Шаблонный harness под любой стек — переносимые правила (
agents/) и навыки (skills/) с плейсхолдерами: подставляешь названия своей экосистемы (фреймворк, ORM, тест-раннер, линтер, утилита нагрузки) и забираешь рабочую обвязку. Заполнить можно прямо на воркшопе, в том числе руками агента. - Конкретный Python-harness enterprise-уровня — те же правила и навыки, заточенные под конкретику: точные команды, реальные сниппеты, строгая типизация. На контрасте с шаблоном видно, что меняется в выходе агента.
- Шаблонные и конкретные evals — гейт качества (линт / типы / тесты / безопасность), нагрузочный гейт фичи, метрики вклада, проверка «без правил vs с правилами».
- Понимание AI SDLC — что с агентами становится важнее и сложнее (спеки, тесты трёх типов, разбор инцидентов) и что упрощается (деплой); как заставить агента помочь собрать саму обвязку.
- Enterprise-слой правил — паттерны отказоустойчивости и производительности (таймауты, ретраи с backoff, идемпотентность, circuit breaker, backpressure, горячий путь без O(N)) — каждый с объяснением, зачем он нужен и что ломается без него.
- Нагрузочное тестирование руками агента — поиск узкого места и рост RPS в десятки раз на живом кейсе.
- Выбор «модель под задачу» через OpenRouter — батлы и cross-review, экономика цена/качество.
- Метрики вклада агента —
[agent]/[assisted]/[manual], отчёт по коммитам для команды и руководства. - Оркестрация субагентов, слоями — базовый слой осваивается точно: отдельный read-only Reviewer + последовательный пайплайн Coder → Reviewer → Summarizer под оркестратором. Следующие слои (модель под роль, fan-out ревьюеров, защита от каскада галлюцинаций, наблюдаемость) — шаг за шагом, насколько успеем.
Что добавите в резюме или примените на работе
- Настройка AI-агента и выбор LLM под задачу через OpenRouter
- Построение переносимого агентного harness (правила + навыки) под свой стек
- Кодификация паттернов отказоустойчивости и highload в правилах агента
- Автоматический контроль качества (линтеры, типизация, security)
- Тесты трёх типов (unit / integration / e2e-smoke) с контролем покрытия
- Нагрузочное тестирование и оптимизация производительности с агентом
- Разбор инцидентов с агентом и постмортемы
- Code Review силами агента и измерение вклада по коммитам
- Оркестрация мультиагентных пайплайнов (Coder → Reviewer → Summarizer; fan-out ревью — продвинутый слой)
Программа
- Базовая подготовка окружения: macOS — Homebrew; Windows — WSL2 (Ubuntu); Linux — ничего заранее.
- Smoke-тест агента «hello world» на своём репозитории.
- Доступ к моделям: ключ OpenRouter (собственный).
- Модуль 1: окружение и инструментальная база. Воспроизводимый сетап, quality-тулинг (формат / линт / типы / безопасность), pre-commit, удалённый дебаг.
- Модуль 2: backend-проект. Слоевая архитектура (API → service → repository → domain), хранилище и миграции, проект за минуты. В сервис намеренно заложен «джуновский» антипаттерн — выстрелит на нагрузочном тесте в день 2.
- Модуль 3: агент через OpenRouter + сборка harness в двух видах. Continue Agent, «модель под задачу». Собираем
agents/+skills/параллельно: шаблонный (плейсхолдеры) и конкретный (Python). Guardrails и eval-петля. Демо «без правил vs с правилами» и «шаблон vs конкретика». - Модуль 4: работаем агентом руками. Батл моделей на тестах, cross-review, таблица «модель под задачу» + экономика.
- Модуль 5: SDLC → AI SDLC. Что меняется при переходе к разработке с агентами: сложнее и важнее — спеки / контракты, тесты трёх типов (unit / integration / e2e-smoke), разбор инцидентов; проще — деплой. Как поручить агенту собрать обвязку самому. Линия язык-агностик — применимо к Go / Java / Python.
- Модуль 6: enterprise-линия и AI SDLC на уровне принципов. Язык-агностик: почему агент по умолчанию пишет «скриптовый» код и какие паттерны прописывать явно; что в AI SDLC сложнее и важнее, что проще. Постановка для практической части.
- Модуль 7: шаблон под свой стек + enterprise-паттерны в правилах. Подставляем экосистему в плейсхолдеры (фреймворк, ORM, тесты, нагрузка) — руками или промптом агенту; сравниваем выход на шаблонном и конкретном harness. Вписываем
resilience.mdиperformance.md(таймауты, ретраи с backoff, идемпотентность, circuit breaker, backpressure, горячий путь без O(N)) — каждый с «зачем», на конкретных Python-примерах. - Модуль 8: нагрузочный eval, инциденты, ревью, вклад. Нагрузочное как eval фичи: baseline → агент находит узкое место → фикс → after-замер, рост RPS в десятки раз (скриншоты «до/после»). Разбор инцидента с агентом и постмортем, ведущий к новому правилу. Code Review силами агента по чек-листу (включая resilience / performance). Метрики вклада по коммитам (
[agent]/[assisted]/[manual]) для отчёта руководству. - Модуль 9: оркестрация субагентов — слоями. Базовый слой осваивается гарантированно, дальше по темпу:
- Слой 1 (база, точно успеваем): выносим ревью в отдельный read-only субагент-Reviewer (без Edit / Write) и собираем последовательный пайплайн Coder → Reviewer → Summarizer под простым оркестратором.
- Слой 2: контракт роли (objective / формат вывода / границы), сжатые сводки на передачу, «модель под роль» через OpenRouter.
- Слой 3 (манёвр, если идём быстрее): fan-out параллельных ревьюеров (безопасность / стиль / производительность) → synthesizer.
- Слой 4 (манёвр): защита от каскада галлюцинаций (цитирование, cross-check на границах), наблюдаемость передач и rule-based оценка; антипаттерны (over-architecting).
- Закрытие: рефлексия, договорённости по поддержке.
Ориентир по времени — 9:00–18:00 каждый день.
- Чат участников со спикерами — поддержка в течение месяца: разбор паттернов harness, NFR-правил и evals с рабочих задач.
- Шаблонный комплект (
agents/+skills/+prompts/+evals/с плейсхолдерами) — всем участникам.
Для кого
- Для кого: действующие разработчики и инженеры на любом стеке (Go, Java, Python и др.). Конкретная практика идёт на Python, но harness и evals собираются переносимым шаблоном под свою экосистему.
- Backend-разработчики (Go / Java / Python / …) — основная аудитория.
- Инженеры данных и ML-инженеры, которым нужен production-grade код.
- DevOps, SRE и платформенные инженеры, выстраивающие стандарты разработки.
- Тимлиды и техлиды, внедряющие агентов в команду и измеряющие их вклад.
- Уровень: Junior / Middle / Senior. Опыт с ИИ не обязателен — достаточно того, что участник хотя бы раз пробовал AI-ассистент. Джунам — быстрый вход в агентную разработку с готовым harness; мидлам и сеньорам — enterprise-паттерны, нагрузочные evals и перенос на свой стек.
Что нужно
- уверенное владение хотя бы одним языком программирования;
- базовое понимание Git и командной строки;
- ноутбук (macOS / Linux / Windows через WSL2).
Стоимость и билеты
Единая цена за участие в воркшопе (два полных дня): 40 000 ₽ для физлиц, 90 000 ₽ при оплате от компании. В стоимость входят питание, кофебрейки и общая вечеринка в первый день. Лицензии на софт и VPN-доступы оплачиваются отдельно — рекомендации пришлём заранее.
Для себя
Физическое лицо
Оплата картой, за свой счёт.
- Участие в воркшопе — два полных дня
- Питание и кофебрейки оба дня
- Общая вечеринка в первый день
- Материалы воркшопа
От компании
Юридическое лицо
Оплата по договору или счёту.
- Участие в воркшопе — два полных дня
- Питание и кофебрейки оба дня
- Общая вечеринка в первый день
- Материалы воркшопа
- Закрывающие документы (акт, счёт)