Sora

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая I am smiling (обсуждение | вклад) в 16:23, 27 февраля 2024 (→‎История). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску
Sora

Пример работы Sora
Тип Генеративный искусственный интеллект
Автор OpenAI
Разработчик OpenAI
Первый выпуск 15 февраля 2024
Сайт openai.com/sora (англ.)
Логотип Викисклада Медиафайлы на Викискладе

Sora — модель искусственного интеллекта, предназначенная для генерации Full HD-видео по короткому текстовому описанию — промпту. Разработана компанией OpenAI, ранее выпустившей такие продукты, как DALL-E и ChatGPT. Выпущена 15 февраля 2024 года и находится в стадии ограниченного тестирования[1].

История

Первые крупные разработки в области генерации видео по текстовому описанию (text-to-video) были опубликованы в 2022 году. Тогда компаниями Meta и Google независимо друг от друга были представлены модели Make-A-Video, Phenaki и Imagen Video, позволяющие создавать короткие видеоролики по текстовому описанию и/или статичной картинке[2]. Качество таких видео было невысоким. Так, Phenaki позволяла создавать видео с базовым разрешением 128×128 пикселей[3], Imagen — 1280×768 и максимальной продолжительностью 5,3 секунды[4]. В январе 2024 года Google представила модель Lumiere, позволявшую генерировать видео в разрешении 512×512 пикселей и продолжительностью также до 5 секунд[5].

15 февраля 2024 года компания OpenAI официально представила модель Sora. Она представляет собой диффузионную модель[англ.], также создающую видео по текстовому описанию. Процесс генерации начинается со случайного шума, который постепенно преобразуется в изображение. Так же как и GPT, Sora имеет архитектуру трансформера, однако для представления информации вместо токенов использует пространственно-временные патчи — фрагменты, содержащие информацию о частях кадров и их изменении во времени[2].

Согласно заявлению производителя, Sora умеет генерировать видеоролики с максимальным разрешением 1920×1080 и максимальной продолжительностью 1 минута, что превосходит по качеству все предыдущие модели данного типа[2]. В качестве демонстрации OpenAI представил несколько сгенерированных роликов, изображающих, в частности, гуляющих по заснеженному Токио людей, сидящего около свечи пушистого монстра и нескольких мамонтов, идущих через заснеженный луг[6]. Помимо генерации видео по тексту, в качестве возможностей Sora заявлены дополнение уже существующих видеороликов и анимирование статичных изображений, изменение направления воспроизведения и склейка видеофрагментов между собой[2].

На данный момент Sora недоступна для широкого использования[7]. С 15 февраля 2024 доступом к разработке могут воспользоваться тестировщики для поиска уязвимостей, а также профессионалы в области визуального искусства[8].

Реакция

Примечания

  1. OpenAI представила модель ИИ Sora по преобразованию текста в видео. ТАСС (16 февраля 2024). Дата обращения: 18 января 2024.
  2. 1 2 3 4 Андрей Фокин. OpenAI представила нейросеть для генерации видео по текстовому описанию. N + 1 (19 февраля 2024). Дата обращения: 27 февраля 2024.
  3. Phenaki (англ.). Google Research. Дата обращения: 27 февраля 2024.
  4. Artificial Intelligence: Google Announces Imagen, Its Text-To-Video Tool (англ.). DailyAlts (6 октября 2022). Дата обращения: 27 февраля 2024.
  5. Сергей Колесников. Sora неизбежна: каким может быть будущее видеотехнологий. Forbes (25 февраля 2024). Дата обращения: 27 февраля 2024.
  6. Steven Levy. OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos (англ.). Wired (15 февраля 2024). Дата обращения: 27 февраля 2024.
  7. Angela Yang. OpenAI teases ‘Sora,’ its new text-to-video AI model (англ.). NBC News (16 февраля 2024). Дата обращения: 27 февраля 2024.
  8. Сергей Мингазов. OpenAl открыла доступ тестировщикам к генератору видео на основе текста Sora. Forbes (16 февраля 2024). Дата обращения: 27 февраля 2024.