Платформа

Три слоя инфраструктуры, шесть инженерных направлений. Каждый проект берёт из этой карты нужный набор — не больше и не меньше.

У телеком-оператора, инвестиционного подразделения банка и транспортной системы — разные процессы и разные ограничения. Но инженерные задачи пересекаются: всем нужен инференс, защитные фильтры и работа с документами. Отличается настройка. В финансах фильтры блокируют инвестиционные рекомендации. На транспорте — галлюцинации про несуществующие инциденты. В телекоме — нарушения корпоративного тона и ответы на вопросы, на которые агент отвечать не должен.

Ниже — полная карта. Строки — шесть инженерных направлений. Столбцы — три слоя с разной степенью кастомизации. Каждая ячейка — один из трёх типов. Open source — зрелые решения, которые незачем переписывать: vLLM для инференса, Langfuse для мониторинга, Qdrant для векторного поиска. Платформа Manaraga — модули, которые мы переносим между проектами и дорабатываем с каждым внедрением: оркестрация агентов, чат, масштабирование инференса, корпоративный тон. Кастомная разработка — код под конкретный процесс: RAG-пайплайны, доменные агенты, интеграции с CRM и ERP.

Модуль / Слой →

01 Инфраструктура моделей open source

02 Платформа агентов наши наработки

03 Проектная разработка кастомный код

01 Инференс и маршрутизация

Model Serving vLLM × 4 типа

Inference Optimization batching · KV-cache

Prompt Caching prefix caching

LLM Gateway LiteLLM

Контроль доступа политики по проектам

Rate Limiting квоты · приоритеты

Auto-scaling распределение по GPU

02 Мониторинг

LLM Observability OTel · Langfuse · CH

Agent Analytics воронки · deflection · cost

Cost Tracking бюджеты проектов

03 Защитные фильтры

Guardrails Engine LiteLLM + правила

Защита данных PII · PHI · PCI · ФЗ-152

Защита от атак injection · jailbreak

04 Оценка качества

Real-time Eval Langfuse · LLM-судьи

Agent Training кейсы из продакшна

Synthetic Datasets генерация под домен

Evals Langfuse · под проект

Fine-tuning адаптация под домен

05 Документы

Vector Database Qdrant

RAG Pipelines Temporal · под клиента

Knowledge Maps графы документов

06 Агенты

Оркестрация pydantic-ai · MCP · A2A

AI-native Chat streaming · треды

Service Agent маршрутизация · эскалация

Память сессия + долгосрочная

Custom Agents под бизнес-процесс

Integration Adapters CRM · ERP · API

Content Digital Twin стиль и тон бренда

Безопасность

Защита данныхAI SafetyДоступАудит

Open source Платформа Manaraga Кастомная разработка

Отдельно разобрали, как устроен контур качества →

Три слоя

Каждый проект собирается из трёх слоёв. Нижний не зависит от индустрии. Средний переиспользуется между проектами. Верхний пишется под конкретный бизнес-процесс. Безопасность — не отдельный слой, а сквозное требование: маскирование данных, фильтрация атак, аудит решений и контроль доступа встроены в каждый компонент.

Инфраструктура моделей

Хостинг, маршрутизация запросов, векторные базы. Здесь работает зрелый open source — наша задача правильно его настроить под корпоративную нагрузку.

Платформа агентов

Мониторинг, защитные фильтры, оценка качества, оркестрация и память агентов. Здесь сосредоточена основная часть наших собственных наработок — инженерные решения, которые мы вырастили из проблем, повторяющихся на каждом проекте.

Проектная разработка

Поиск по документам клиента, доменные агенты, коннекторы к CRM и ERP, синтетические наборы данных, дообучение. Код, который пишется под бизнес-процесс и остаётся у заказчика.

Модули

Инференс и маршрутизация

На каждом проекте нужны разные типы вычислений одновременно — классификация, генерация, векторизация — и каждый с разными требованиями к скорости и стоимости. Одна модель и один пул мощностей в корпоративной среде не работают: задачи конкурируют за ресурсы, а при сбое провайдера система встаёт целиком — как случилось на транспортном проекте, пока мы не развели модели по отдельным инстансам с автоматическим fallback.

Мы разделяем инференс на четыре типа GPU-инстансов: рассуждение, быстрая генерация, векторизация, работа с изображениями. Маршрутизатор распределяет запросы, переключает на резервную модель при сбоях, контролирует квоты и приоритеты по проектам.

Model Serving vLLM × 4 типа инстансов Auto-scaling распределение моделей по GPU Inference Optimization batching · KV-cache · prefix caching LLM Gateway LiteLLM · fallback · квоты по критичности Контроль доступа политики по проектам и ролям

Мониторинг

Время отклика и доля ошибок не объясняют, почему агент ответил именно так и сколько стоил один исход. На телеком-проекте именно бизнес-метрики — не инженерные — позволили найти категории обращений, где агент работает лучше оператора, и те, где его нельзя выпускать.

Мы собираем два слоя метрик. Инженерный: трассировку каждого вызова, цепочки вызовов инструментов, стоимость по токенам. И бизнесовый: воронки обработки обращений, долю автоматических решений, стоимость одного исхода.

LLM Observability OpenTelemetry · Langfuse · ClickHouse Agent Analytics воронки · deflection rate · cost per outcome Cost Tracking потокенный учёт · бюджеты проектов

Защитные фильтры

Промпт-инъекции и утечка данных — базовые угрозы, стандартные библиотеки их ловят. Но у каждой отрасли свои запреты, которые никакая библиотека не покрывает. В проекте для инвестиционного подразделения банка агент начал подсказывать ответы на квалификационные тесты — то, что регулятор запрещает однозначно.

Мы встраиваем фильтрацию в каждый запрос к модели — на входе и выходе: маскирование данных по ФЗ-152, обнаружение атак, правила под конкретный бизнес. В банке выстроили многослойный комплаенс: запреты в промпте, сценарии отказа, петля перепроверки и аудит каждого ответа.

Input / Output Filtering кастомные правила поверх LiteLLM Защита данных PII · PHI · PCI · ФЗ-152 Защита от атак prompt injection · jailbreak

В проекте для инвестиционного подразделения банка — многослойный комплаенс: запреты в prompt, refusal-сценарии, checker-петля и аудит ответа. Кейс →

Оценка качества

Качество нельзя проверить один раз и забыть — модель обновляется, данные меняются, промпт подправили, и ответы стали хуже. На транспортном проекте бинарный порог «уверен / не уверен» давал слишком много ложных эскалаций: система отправляла оператору обращения, на которые могла ответить сама.

Мы построили трёхпроходную формулу уверенности — 30+ параметров, калиброванных на реальных обращениях. Она определяет, когда агент может ответить сам, а когда нужен человек. Параллельно работают LLM-судьи, эталонные кейсы из продакшна и синтетические наборы данных — чтобы ловить деградацию до прода, а не после жалобы.

Real-time Evaluation Langfuse · LLM-судьи Agent Training эталонные кейсы из продакшна Synthetic Datasets генерация под домен Regression Testing наборы оценок под проект Fine-tuning адаптация под домен и терминологию

В проекте для транспортной системы — трёхпроходная формула уверенности с 30+ параметрами, калиброванными на боевых обращениях. Кейс →

Документы

У каждой компании свои регламенты, база знаний, нормативная документация. Стандартный RAG находит похожий фрагмент по вектору — но enterprise-задача сложнее. На телеком-проекте тарифный вопрос требовал точную цифру из таблицы, а векторный поиск возвращал «примерно похожий абзац».

Мы построили двойной индекс: один для поиска по смыслу, другой для точных данных — таблицы тарифов, цены, технические параметры. Обычный векторный поиск числа и таблицы теряет, потому что они плохо поддаются векторизации.

Vector Database Qdrant RAG Pipelines Temporal · под данные клиента Knowledge Maps графы связей между документами

Агенты

Агент в демо отвечает на вопросы. Агент в продакшне должен помнить контекст между сессиями, вызывать инструменты, следовать сценарию и эскалировать на человека. В финансовом проекте агент вёл продажу по жёсткой воронке, помнил прошлые диалоги с клиентом, не смешивая продукты, и не мог выйти за рамки комплаенса — конечный автомат с тремя контурами и двумя режимами работы.

Мы собрали инфраструктуру оркестрации, чата и памяти, чтобы не писать её с нуля на каждом проекте. Отдельный компонент — Content Digital Twin — отвечает за корпоративный тон: 60+ итераций, прежде чем агент стал звучать как сотрудник компании, а не как чат-бот.

Оркестрация pydantic-ai · MCP · A2A AI-native Chat streaming · треды · авторизация Service Agent обработка обращений · маршрутизация · эскалация Память контекст сессии + знания между сессиями Custom Agents под бизнес-процесс Integration Adapters CRM · ERP · тикет-системы · внутренние API Content Digital Twin стиль, тон и терминология бренда

Как собирается проект

Каждый проект берёт из карты свой набор. Мониторинг и оценка качества нужны на каждом проекте. Защитные фильтры настраиваются под отрасль: в финансах — многослойный комплаенс, на транспорте — фильтрация галлюцинаций, в телекоме — корпоративный тон и границы эскалации. Модули документов и агентов собираются под конкретный процесс.

Вся инфраструктура разворачивается в контуре клиента. Каждый компонент — стандартный контейнер.

18 сервисов, которые мы отлаживали на проектах в четырёх индустриях

ИНФЕРЕНС И МАРШРУТИЗАЦИЯ

vLLM slow thinking

reasoning-модель

vLLM fast generation

быстрая генерация

vLLM embedding

векторизация

vLLM vision

обработка изображений и документов

LiteLLM gateway

единый API, fallback, compliance guardrails

PostgreSQL config

настройки, виртуальные ключи, политики доступа

МОНИТОРИНГ И ОЦЕНКА КАЧЕСТВА

OpenTelemetry Collector telemetry

сбор и маршрутизация трейсов

Langfuse web + worker

UI, дашборды, eval-процедуры, датасеты

ClickHouse storage

хранение трейсов и результатов eval

Redis queues

очереди фоновой обработки

ДОКУМЕНТЫ И ПАЙПЛАЙНЫ

Temporal server + web + admin

оркестрация и мониторинг пайплайнов

Qdrant vector index

чанки документов, контрактов, базы знаний

S3 storage

документы, методики, медиа

АГЕНТЫ

Agents Service runtime

бизнес-логика агентов, управление сессиями

PostgreSQL history

история диалогов, состояние сессий

18 сервисов · разворачиваются в контуре клиента · каждый компонент — стандартный контейнер

Расскажите, какой процесс хотите разобрать.

Ответим, подходит ли задача для AI-агентов, и если да, предложим конкретный план.

или напишите напрямую — ilya@manaraga.ai