Помидор, которого нет: почему VLA-модели не понимают, что они держат

Современные VLA-модели (RT-2, π0, Helix) научились впечатляюще двигать роботом, но не понимают, что он держит. Помидор для них — кластер пикселей, статистически связанный с типичной траекторией хвата, а не сущность со свойствами. Поэтому они сыпятся на краевых случаях:…
Этот материал является собственностью Хабр. Мы цитируем заголовок и краткий анонс по ст. 1274 ГК РФ. Чтобы прочитать полную статью - переходи на сайт издания по ссылке выше.
💬 Комментарии (0)
Войди, чтобы оставить комментарий.
Комментариев пока нет - будь первым.