Платформа

Три слоя инфраструктуры, шесть инженерных направлений. Каждый проект берёт из этой карты нужный набор — не больше и не меньше.

У телеком-оператора, инвестиционного подразделения банка и транспортной системы — разные процессы и разные ограничения. Но инженерные задачи пересекаются: всем нужен инференс, защитные фильтры и работа с документами. Отличается настройка. В финансах фильтры блокируют инвестиционные рекомендации. На транспорте — галлюцинации про несуществующие инциденты. В телекоме — нарушения корпоративного тона и ответы на вопросы, на которые агент отвечать не должен.

Ниже — полная карта. Строки — шесть инженерных направлений. Столбцы — три слоя с разной степенью кастомизации. Каждая ячейка — один из трёх типов. Open source — зрелые решения, которые незачем переписывать: vLLM для инференса, Langfuse для мониторинга, Qdrant для векторного поиска. Платформа Manaraga — модули, которые мы переносим между проектами и дорабатываем с каждым внедрением: оркестрация агентов, чат, масштабирование инференса, корпоративный тон. Кастомная разработка — код под конкретный процесс: RAG-пайплайны, доменные агенты, интеграции с CRM и ERP.

Модуль / Слой →
01 Инфраструктура моделей open source
02 Платформа агентов наши наработки
03 Проектная разработка кастомный код
01 Инференс и маршрутизация
Model Serving vLLM × 4 типа
Inference Optimization batching · KV-cache
Prompt Caching prefix caching
LLM Gateway LiteLLM
Контроль доступа политики по проектам
Rate Limiting квоты · приоритеты
Auto-scaling распределение по GPU
02 Мониторинг
LLM Observability OTel · Langfuse · CH
Agent Analytics воронки · deflection · cost
Cost Tracking бюджеты проектов
03 Защитные фильтры
Guardrails Engine LiteLLM + правила
Защита данных PII · PHI · PCI · ФЗ-152
Защита от атак injection · jailbreak
04 Оценка качества
Real-time Eval Langfuse · LLM-судьи
Agent Training кейсы из продакшна
Synthetic Datasets генерация под домен
Evals Langfuse · под проект
Fine-tuning адаптация под домен
05 Документы
Vector Database Qdrant
RAG Pipelines Temporal · под клиента
Knowledge Maps графы документов
06 Агенты
Оркестрация pydantic-ai · MCP · A2A
AI-native Chat streaming · треды
Service Agent маршрутизация · эскалация
Память сессия + долгосрочная
Custom Agents под бизнес-процесс
Integration Adapters CRM · ERP · API
Content Digital Twin стиль и тон бренда
Безопасность
Защита данныхAI SafetyДоступАудит
Open source Платформа Manaraga Кастомная разработка

Отдельно разобрали, как устроен контур качества →

Три слоя

Каждый проект собирается из трёх слоёв. Нижний не зависит от индустрии. Средний переиспользуется между проектами. Верхний пишется под конкретный бизнес-процесс. Безопасность — не отдельный слой, а сквозное требование: маскирование данных, фильтрация атак, аудит решений и контроль доступа встроены в каждый компонент.

Инфраструктура моделей

Хостинг, маршрутизация запросов, векторные базы. Здесь работает зрелый open source — наша задача правильно его настроить под корпоративную нагрузку.

Платформа агентов

Мониторинг, защитные фильтры, оценка качества, оркестрация и память агентов. Здесь сосредоточена основная часть наших собственных наработок — инженерные решения, которые мы вырастили из проблем, повторяющихся на каждом проекте.

Проектная разработка

Поиск по документам клиента, доменные агенты, коннекторы к CRM и ERP, синтетические наборы данных, дообучение. Код, который пишется под бизнес-процесс и остаётся у заказчика.

Модули

01

Инференс и маршрутизация

На каждом проекте нужны разные типы вычислений одновременно — классификация, генерация, векторизация — и каждый с разными требованиями к скорости и стоимости. Одна модель и один пул мощностей в корпоративной среде не работают: задачи конкурируют за ресурсы, а при сбое провайдера система встаёт целиком — как случилось на транспортном проекте, пока мы не развели модели по отдельным инстансам с автоматическим fallback.

Мы разделяем инференс на четыре типа GPU-инстансов: рассуждение, быстрая генерация, векторизация, работа с изображениями. Маршрутизатор распределяет запросы, переключает на резервную модель при сбоях, контролирует квоты и приоритеты по проектам.

Model Serving vLLM × 4 типа инстансов Auto-scaling распределение моделей по GPU Inference Optimization batching · KV-cache · prefix caching LLM Gateway LiteLLM · fallback · квоты по критичности Контроль доступа политики по проектам и ролям
02

Мониторинг

Время отклика и доля ошибок не объясняют, почему агент ответил именно так и сколько стоил один исход. На телеком-проекте именно бизнес-метрики — не инженерные — позволили найти категории обращений, где агент работает лучше оператора, и те, где его нельзя выпускать.

Мы собираем два слоя метрик. Инженерный: трассировку каждого вызова, цепочки вызовов инструментов, стоимость по токенам. И бизнесовый: воронки обработки обращений, долю автоматических решений, стоимость одного исхода.

LLM Observability OpenTelemetry · Langfuse · ClickHouse Agent Analytics воронки · deflection rate · cost per outcome Cost Tracking потокенный учёт · бюджеты проектов
03

Защитные фильтры

Промпт-инъекции и утечка данных — базовые угрозы, стандартные библиотеки их ловят. Но у каждой отрасли свои запреты, которые никакая библиотека не покрывает. В проекте для инвестиционного подразделения банка агент начал подсказывать ответы на квалификационные тесты — то, что регулятор запрещает однозначно.

Мы встраиваем фильтрацию в каждый запрос к модели — на входе и выходе: маскирование данных по ФЗ-152, обнаружение атак, правила под конкретный бизнес. В банке выстроили многослойный комплаенс: запреты в промпте, сценарии отказа, петля перепроверки и аудит каждого ответа.

Input / Output Filtering кастомные правила поверх LiteLLM Защита данных PII · PHI · PCI · ФЗ-152 Защита от атак prompt injection · jailbreak

В проекте для инвестиционного подразделения банка — многослойный комплаенс: запреты в prompt, refusal-сценарии, checker-петля и аудит ответа. Кейс →

04

Оценка качества

Качество нельзя проверить один раз и забыть — модель обновляется, данные меняются, промпт подправили, и ответы стали хуже. На транспортном проекте бинарный порог «уверен / не уверен» давал слишком много ложных эскалаций: система отправляла оператору обращения, на которые могла ответить сама.

Мы построили трёхпроходную формулу уверенности — 30+ параметров, калиброванных на реальных обращениях. Она определяет, когда агент может ответить сам, а когда нужен человек. Параллельно работают LLM-судьи, эталонные кейсы из продакшна и синтетические наборы данных — чтобы ловить деградацию до прода, а не после жалобы.

Real-time Evaluation Langfuse · LLM-судьи Agent Training эталонные кейсы из продакшна Synthetic Datasets генерация под домен Regression Testing наборы оценок под проект Fine-tuning адаптация под домен и терминологию

В проекте для транспортной системы — трёхпроходная формула уверенности с 30+ параметрами, калиброванными на боевых обращениях. Кейс →

05

Документы

У каждой компании свои регламенты, база знаний, нормативная документация. Стандартный RAG находит похожий фрагмент по вектору — но enterprise-задача сложнее. На телеком-проекте тарифный вопрос требовал точную цифру из таблицы, а векторный поиск возвращал «примерно похожий абзац».

Мы построили двойной индекс: один для поиска по смыслу, другой для точных данных — таблицы тарифов, цены, технические параметры. Обычный векторный поиск числа и таблицы теряет, потому что они плохо поддаются векторизации.

Vector Database Qdrant RAG Pipelines Temporal · под данные клиента Knowledge Maps графы связей между документами

В проекте для телеком-оператора — двойной индекс: один для поиска по смыслу, другой для точных данных с таблицами и ценами. Кейс →

06

Агенты

Агент в демо отвечает на вопросы. Агент в продакшне должен помнить контекст между сессиями, вызывать инструменты, следовать сценарию и эскалировать на человека. В финансовом проекте агент вёл продажу по жёсткой воронке, помнил прошлые диалоги с клиентом, не смешивая продукты, и не мог выйти за рамки комплаенса — конечный автомат с тремя контурами и двумя режимами работы.

Мы собрали инфраструктуру оркестрации, чата и памяти, чтобы не писать её с нуля на каждом проекте. Отдельный компонент — Content Digital Twin — отвечает за корпоративный тон: 60+ итераций, прежде чем агент стал звучать как сотрудник компании, а не как чат-бот.

Оркестрация pydantic-ai · MCP · A2A AI-native Chat streaming · треды · авторизация Service Agent обработка обращений · маршрутизация · эскалация Память контекст сессии + знания между сессиями Custom Agents под бизнес-процесс Integration Adapters CRM · ERP · тикет-системы · внутренние API Content Digital Twin стиль, тон и терминология бренда

Как собирается проект

Каждый проект берёт из карты свой набор. Мониторинг и оценка качества нужны на каждом проекте. Защитные фильтры настраиваются под отрасль: в финансах — многослойный комплаенс, на транспорте — фильтрация галлюцинаций, в телекоме — корпоративный тон и границы эскалации. Модули документов и агентов собираются под конкретный процесс.

Вся инфраструктура разворачивается в контуре клиента. Каждый компонент — стандартный контейнер.

18 сервисов, которые мы отлаживали на проектах в четырёх индустриях
ИНФЕРЕНС И МАРШРУТИЗАЦИЯ
vLLM slow thinking
reasoning-модель
vLLM fast generation
быстрая генерация
vLLM embedding
векторизация
vLLM vision
обработка изображений и документов
LiteLLM gateway
единый API, fallback, compliance guardrails
PostgreSQL config
настройки, виртуальные ключи, политики доступа
МОНИТОРИНГ И ОЦЕНКА КАЧЕСТВА
OpenTelemetry Collector telemetry
сбор и маршрутизация трейсов
Langfuse web + worker
UI, дашборды, eval-процедуры, датасеты
ClickHouse storage
хранение трейсов и результатов eval
Redis queues
очереди фоновой обработки
ДОКУМЕНТЫ И ПАЙПЛАЙНЫ
Temporal server + web + admin
оркестрация и мониторинг пайплайнов
Qdrant vector index
чанки документов, контрактов, базы знаний
S3 storage
документы, методики, медиа
АГЕНТЫ
Agents Service runtime
бизнес-логика агентов, управление сессиями
PostgreSQL history
история диалогов, состояние сессий
18 сервисов · разворачиваются в контуре клиента · каждый компонент — стандартный контейнер

Расскажите, какой процесс хотите разобрать.

Ответим, подходит ли задача для AI-агентов, и если да, предложим конкретный план.

или напишите напрямую — ilya@manaraga.ai