200+ «узких» экспертов вместо одной LLM: концепция Tianshu

https://dev.to/jisheng_agent/i-designed-an-ai-architecture-with-200-specialist-models-and-it-makes-gpt-55-look-like-a-2ef6 Пользователь jisheng_agent на Dev.to выкладывает заметку об архитектуре Tianshu (天枢) — Ultra-Fine-Grained Mixture-of-Experts (UFG-MoE). В схеме — более двухсот гиперузких экспертных моделей и отдельный маршрутизатор запросов («routing brain»), который, по описанию в том же тексте, не генерирует текст, а только направляет запрос подходящему эксперту. Ниже — сжатый разбор тезисов исходной публикации без претензии на независимую верификацию чисел и сравнений.
Идея UFG-MoE: узкие эксперты и «мозг» маршрутизации
В заметке подход «одна модель на всё» противопоставлен линейке из 200+ специалистов: каждый эксперт заявлен как «world-class authority» ровно в одной узкой нише. Маршрутизатор обучают на тройках (user_query, domain_labels, optimal_expert_match) и не учат писать код или прозу — цель в том, чтобы понять запрос и выбрать эксперта. Для читателя схема ближе к маршрутизации в мультиагентной или мультимодельной системе, чем к классическому чату с одной генеративной «головой».
Вводная рамка: каждая крупная LLM — в том числе GPT-5.5, Claude, Gemini, Llama — описывается через образ «гении во всём и мастера ни в чём»; далее в оригинале — иллюстрации вроде Rust и многопоточности (псевдокод и полные блоки — у первоисточника).
Четыре слоя: от входа до обратной связи
В посте развёрнута ASCII-схема из четырёх уровней:
- Препроцессинг — мультимодальность, шум, память, предварительный compliance-screening.
- Routing brain — декомпозиция интента, оценка сложности, multi-intent, ограничения, сопоставление с экспертами и пороги уверенности.
- Collaboration & fusion — агрегация ответов, проверка согласованности, слияние, вторичный review.
- Вывод и петля обратной связи — форматы ответа, память, конвейер auto-retraining.
Такой скелет ближе к инженерному контуру LLM-системы — оркестрация, контроль качества, дообучение, — чем к описанию одной весовой матрицы.
Двенадцать доменов и пороги уверенности
В том же материале эксперты сгруппированы в 12 доменов; в заголовке раздела фигурирует формулировка «12 Domains, 200+ Specialists». Для routing brain указаны пороги: не ниже 95% — прямой dispatch; ниже 80% — fallback; диапазон 80–95% относится к сценарию «secondary verification» — на странице нет отдельной внешней методики проверки этих порогов.
Примеры заявленных объёмов по подзаголовкам таблиц на странице: Code & Software Engineering (30+), Math (25+), Content & Copywriting (25+), Language & Translation (15+), Academic & Research (20+), Industry & Engineering (35+), Business & Career (20+), Art & Design (15+), Life & Services (15+), Multimodal (15+), Compliance & Security (10+), плюс двенадцатый домен — универсальная запасная базовая модель при уверенности ниже 80% или при отсутствии матча.
Сравнение с монолитными LLM и таблица «The Math»
В посте в сценарии с несколькими подзадачами пользователь получает четыре ответа уровня «specialist» за 0,8 секунды, тогда как GPT-5.5 за то же время даёт «один заурядный абзац»; отдельного независимого замера в опубликованном тексте нет.
Таблица «Why This Destroys Monolithic LLMs (The Math)» задаёт проценты, интервалы времени ответа и ярлыки вроде «hallucination rate» без ссылок на независимый бенчмарк. Абзац «Philosophy» сопоставляет гранулярность с Mixtral (8 experts), GPT-5.5 («rumored … 16» экспертов) и DeepSeek-V3 («256 experts but coarse-grained»); сторонними источниками эти сличения здесь не проверялись.
Ориентиры стека в блоке «How You'd Actually Build This»
В материале перечислены практические ориентиры:
- маршрутизатор — дообучение LLaMA-70B или Qwen-72B на порядка ~10M query-expert пар, с LoRA;
- эксперты — модели 7B–13B с LoRA;
- оркестрация — Rust или Go;
- fusion — LLM-as-judge, шаблоны и polish;
- обратная связь — vector DB, MLflow;
- inference — vLLM или TGI, эксперты «подгружаются» по мере необходимости («not all 200 in memory»).
Там же приводится оценка «~$2–5M» для «full system» и тезис о более низкой стоимости запроса относительно GPT-5.5 — только как заявления внутри той же страницы, не как аудит бюджета.
По разметке просмотренного HTML страница насыщена ASCII-схемами и блоками с условным «кодом»; отдельного URL репозитория не указано.
Воспроизводимость и заявление про open source
Финал поста — намерение выложить таксономию экспертов, методологии routing brain и fusion «as open-source». На момент доступа к странице это формулируется как обещание, а не как факт уже опубликованного релиза.
В домене Compliance & Security перечислены узкие роли вроде IP Compliance и Cross-border Content как категории экспертов; это не развёрнутый правовой вывод о допустимости мультимодельных схем.
Источники
- jisheng_agent, «I Designed an AI Architecture With 200+ Specialist Models — And It Makes GPT-5.5 Look Like a Calculator», dev.to: Dev.to — дата доступа 2026-05-10T09:03:13Z (UTC). Дата публикации записи на dev.to: 2026-05-10T07:35:27Z (UTC).