ru.dojiksi.ru

Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения

Долгие 10 лет индустрия молилась на оптимизатор AdamW, слепо применяя его ко всем параметрам нейросети. Но весной 2026 года вышли DeepSeek-V4 и Kimi K2 от Moonshot AI, которые переписали правила игры. В их основе лежит Muon оптимизатор, который снижает затраты на обучение в два…

Читать полностью на Хабр →

💬 Комментарии (0)

Войди, чтобы оставить комментарий.

Комментариев пока нет - будь первым.

Этот материал является собственностью Хабр. Мы цитируем заголовок и краткий анонс по ст. 1274 ГК РФ. Чтобы прочитать полную статью - переходи на сайт издания по ссылке выше.