ru.dojiksi.ru

Самый старый кирпич трансформера наконец переизобрели. DeepSeek взял матрицу из 1967 года

За attention-механизм с 2017 года брались сотни раз: sparse attention, linear attention, MoE, MLA, скользящие окна, что только не. А вот residual connection, остаточная связь, та самая x + F(x) из ResNet 2016 года, простояла почти десять лет нетронутой. Её просто унаследовали из…

Читать полностью на Хабр →

💬 Комментарии (0)

Войди, чтобы оставить комментарий.

Комментариев пока нет - будь первым.

Этот материал является собственностью Хабр. Мы цитируем заголовок и краткий анонс по ст. 1274 ГК РФ. Чтобы прочитать полную статью - переходи на сайт издания по ссылке выше.