Нейросеть для примерки одежды — как устроена технология

8 мая 20269 мин чтенияРедакция КакРаз

VTON (Virtual Try-On Network) — нейросеть, которая берёт два фото (человек и одежда) и генерирует новое изображение, где человек в этой одежде. Современные модели используют диффузионные архитектуры и дают результат за 15 секунд.

Что такое VTON

VTON — класс нейросетей, обученных на миллионах пар «человек + одежда». На вход подаются два фото, на выходе — новое изображение, где одежда с фото-референса перенесена на фигуру. Нейросеть определяет позу, деформирует ткань, дорисовывает тени и складки. История развития технологии — в материале о виртуальной примерке одежды.

Три поколения технологии

GAN-модели (2019-2022)

Две сети соревновались: генератор создавал изображение, дискриминатор определял, настоящее оно или нет. Модели VITON, CP-VTON давали сносные результаты, но с заметными артефактами на краях одежды.

Визуализация нейросети для примерки одежды — GAN-модели — первое поколение нейросетей для виртуальной примерки

Диффузионные модели (2023-2024)

Та же технология, что в Midjourney и Stable Diffusion. Модель «стирает» исходную одежду и «рисует» новую через процесс диффузии. Качество выросло, но генерация занимала минуты.

Процесс диффузии при генерации изображения — Диффузионная модель постепенно превращает шум в чёткое изображение

Новое поколение (2025-2026)

Фотореализм диффузионных моделей + скорость оптимизированных архитектур. Результат за 15 секунд. FASHN, IDM-VTON, OOTDiffusion — основные модели. Наглядное сравнение результатов — в статье нейросеть примеряет одежду на фото.

Как нейросеть обрабатывает примерку одежды — Нейросеть анализирует позу, деформирует одежду и генерирует финальное фото

Почему результат выглядит реалистично

Обучение на миллионах пар «человек + одежда».
Физика ткани — складки и драпировка зависят от позы и материала.
Сохранение освещения — тени и блики переносятся с исходного фото.
Точная сегментация — нейросеть отделяет тело от фона.

Что влияет на качество

Фото человека: полный рост, простой фон, хорошее освещение. Подробные советы по фото для примерки.
Фото одежды: на белом фоне или на модели — лучше, чем на вешалке.
Поза: прямая, анфас. Сложные позы дают больше артефактов.
Тип одежды: верх, платья, брюки — хорошо. Аксессуары — хуже.
На базе VTON уже работают AI-стилисты, которые не только примеряют, но и подбирают одежду.