Компания Stability AI запустила модель синтеза с искусственным интеллектом, которая невероятно быстро генерирует изображения на основе текстовых подсказок. Об этом сообщается на сайте Stability.
Основная инновация SDXL Turbo заключается в том, что для создания изображения нужно выполнить минимум шагов, и результат будет готовза минимум времени. Stability утверждает, что на мощном графическом процессоре Nvidia A100 ее модель может генерировать изображение размером 512×512 пикселей за 207 миллисекунд.
Также Stability заявляет, что SDXL Turbo «позволяет генерировать изображение за один шаг с беспрецедентным качеством, уменьшая необходимое количество шагов с 50 до всего одного». Однако издание Ars Technica отмечает, что одним шагом все же не обойтись. Изображения SDXL Turbo не такие детализированные, как изображения предыдущей версии модели SDXL, детализация улучшается примерно через 3−5 шагов.
Журналистам удалось с помощью SDXL Turbo создать изображение размером 1024×1024 примерно за три шага, и это заняло всего 4 секунды. SDXL генерирует похожее 20-шаговое изображение за 26,4 секунд. Изображение меньшего размера создали гораздо быстрее (менее секунды для генерации изображения размером 512×768).
Компания объясняет такой скачок эффективности применением технологии дистилляции соревновательной диффузии (ADD). ADD предполагает, что модель изучает существующие модели синтеза изображений с целью улучшить реалистичность своего результата.
Сейчас Stability AI предлагает бета-версию демонстрации возможностей SDXL Turbo на своей платформе для редактирования изображений Clipdrop. SDXL Turbo доступен по лицензии на некоммерческие исследования. Так что его использование пока возможно только в личных некоммерческих целях.