Компания OpenAI, создавшая ChatGPT и Dall-e, представила новую нейросеть Sora, которая может по текстовому запросу создавать «реалистичные» и «креативные» ролики. Это может изменить подход к созданию визуального контента.
Sora позволяет создавать видеозаписи продолжительностью до 60 секунд, при этом поддерживая высокое качество изображения и точно следуя указаниям пользователя. Основная задача проекта заключается в обучении искусственного интеллекта пониманию и имитации физического мира в движении.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Текстовый запрос в Sora для создания ролика выше: «Стильная женщина идет по улице Токио, наполненной теплым светом неоновых и анимированных вывесок. Она одета в черную кожаную куртку, длинное красное платье, черные ботинки. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная и отражает свет. Много пешеходов вокруг».
Другие примеры запросов, по которым Sora уже способна генерировать видео, включают как реалистичные сцены людьми и животными, так и очевидно фантастические, например, с бродящими по снежному полю мамонтами или китами, плывущими по воздуху среди зданий.
На данный момент доступ к модели предоставлен экспертам по информационной безопасности для оценки потенциальных угроз и рисков, а также художникам и дизайнерам для получения обратной связи и дальнейшего совершенствования модели.
OpenAI акцентирует внимание на вопросах безопасности и этики использования Sora и разрабатывает инструменты для выявления фейкового контента, в том числе классификатор для определения видео, созданных с помощью ИИ. В случае интеграции модели в продукты OpenAI, планируется использование метаданных C2PA для улучшения прозрачности происхождения контента.
В техническом отношении модель Sora представляет собой сочетание GPT и диффузионной модели, генерирующей видео. Последняя начинает со случайного шума и постепенно убирает его в ходе множества шагов. Такой подход позволяет модели сохранять последовательность изображения объектов, даже если они временно выходят из поля зрения «камеры».
OpenAI, в рамках проекта Sora, стремится продемонстрировать потенциал развития искусственного интеллекта и возможности, которые появятся на горизонте в ближайшем будущем. Технический доклад по Sora будет опубликован позднее.
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024