[Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префилла и декодирования принципиально разные профили вычислений, но традиционные развёртывания заставляют их работать на одном…
Этот материал является собственностью Хабр. Мы цитируем заголовок и краткий анонс по ст. 1274 ГК РФ. Чтобы прочитать полную статью - переходи на сайт издания по ссылке выше.
💬 Комментарии (0)
Войди, чтобы оставить комментарий.
Комментариев пока нет - будь первым.