Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения
Долгие 10 лет индустрия молилась на оптимизатор AdamW, слепо применяя его ко всем параметрам нейросети. Но весной 2026 года вышли DeepSeek-V4 и Kimi K2 от Moonshot AI, которые переписали правила игры. В их основе лежит Muon оптимизатор, который снижает затраты на обучение в два…
Этот материал является собственностью Хабр. Мы цитируем заголовок и краткий анонс по ст. 1274 ГК РФ. Чтобы прочитать полную статью - переходи на сайт издания по ссылке выше.
💬 Комментарии (0)
Войди, чтобы оставить комментарий.
Комментариев пока нет - будь первым.