Sora

Sora
Sora
	; Пример работы Sora
Тип	Генеративный искусственный интеллект
Автор	OpenAI
Разработчик	OpenAI
Первый выпуск	15 февраля 2024
Сайт	openai.com/sora (англ.)
	Медиафайлы на Викискладе

Отпатрулированная версия этой страницы, проверенная 27 февраля 2024, была основана на этой версии.

Sora — модель искусственного интеллекта, предназначенная для генерации Full HD-видео по короткому текстовому описанию — промпту. Разработана компанией OpenAI, ранее выпустившей такие продукты, как DALL-E и ChatGPT. Выпущена 15 февраля 2024 года и находится в стадии ограниченного тестирования^[1].

История

Первые крупные разработки в области генерации видео по текстовому описанию (text-to-video) были опубликованы в 2022 году. Тогда компаниями Meta и Google независимо друг от друга были представлены модели Make-A-Video, Phenaki и Imagen Video, позволяющие создавать короткие видеоролики по текстовому описанию и/или статичной картинке^[2]. Качество таких видео было невысоким. Так, Phenaki позволяла создавать видео с базовым разрешением 128×128 пикселей^[3], Imagen — 1280×768 и максимальной продолжительностью 5,3 секунды^[4]. В январе 2024 года Google представила модель Lumiere, позволявшую генерировать видео в разрешении 512×512 пикселей и продолжительностью также до 5 секунд^[5].

15 февраля 2024 года компания OpenAI официально представила модель Sora. Она представляет собой диффузионную модель^[англ.], также создающую видео по текстовому описанию. Процесс генерации начинается со случайного шума, который постепенно преобразуется в изображение. Так же как и GPT, Sora имеет архитектуру трансформера, однако для представления информации вместо токенов использует пространственно-временные патчи — фрагменты, содержащие информацию о частях кадров и их изменении во времени^[2].

Согласно заявлению производителя, Sora умеет генерировать видеоролики с максимальным разрешением 1920×1080 и максимальной продолжительностью 1 минута, что превосходит по качеству все предыдущие модели данного типа^[2]. В качестве демонстрации OpenAI представил несколько сгенерированных роликов, изображающих, в частности, гуляющих по заснеженному Токио людей, сидящего около свечи пушистого монстра и нескольких мамонтов, идущих через заснеженный луг^[6]. Помимо генерации видео по тексту, в качестве возможностей Sora заявлены дополнение уже существующих видеороликов и анимирование статичных изображений, изменение направления воспроизведения и склейка видеофрагментов между собой^[2].

На данный момент Sora недоступна для широкого использования^[7]. С 15 февраля 2024 доступом к разработке могут воспользоваться тестировщики для поиска уязвимостей, а также профессионалы в области визуального искусства^[8].

Реакция

Примечания

↑ OpenAI представила модель ИИ Sora по преобразованию текста в видео (неопр.). ТАСС (16 февраля 2024). Дата обращения: 18 января 2024.
↑ ¹ ² ³ ⁴ Андрей Фокин. OpenAI представила нейросеть для генерации видео по текстовому описанию (рус.). N + 1 (19 февраля 2024). Дата обращения: 27 февраля 2024.
↑ Phenaki (англ.). Google Research. Дата обращения: 27 февраля 2024.
↑ Artificial Intelligence: Google Announces Imagen, Its Text-To-Video Tool (англ.). DailyAlts (6 октября 2022). Дата обращения: 27 февраля 2024.
↑ Сергей Колесников. Sora неизбежна: каким может быть будущее видеотехнологий (рус.). Forbes (25 февраля 2024). Дата обращения: 27 февраля 2024.
↑ Steven Levy. OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos (англ.). Wired (15 февраля 2024). Дата обращения: 27 февраля 2024.
↑ Angela Yang. OpenAI teases ‘Sora,’ its new text-to-video AI model (англ.). NBC News (16 февраля 2024). Дата обращения: 27 февраля 2024.
↑ Сергей Мингазов. OpenAl открыла доступ тестировщикам к генератору видео на основе текста Sora (рус.). Forbes (16 февраля 2024). Дата обращения: 27 февраля 2024.

[1] OpenAI представила модель ИИ Sora по преобразованию текста в видео (неопр.). ТАСС (16 февраля 2024). Дата обращения: 18 января 2024.

[n1-2] ¹ ² ³ ⁴ Андрей Фокин. OpenAI представила нейросеть для генерации видео по текстовому описанию (рус.). N + 1 (19 февраля 2024). Дата обращения: 27 февраля 2024.

[3] Phenaki (англ.). Google Research. Дата обращения: 27 февраля 2024.

[4] Artificial Intelligence: Google Announces Imagen, Its Text-To-Video Tool (англ.). DailyAlts (6 октября 2022). Дата обращения: 27 февраля 2024.

[5] Сергей Колесников. Sora неизбежна: каким может быть будущее видеотехнологий (рус.). Forbes (25 февраля 2024). Дата обращения: 27 февраля 2024.

[6] Steven Levy. OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos (англ.). Wired (15 февраля 2024). Дата обращения: 27 февраля 2024.

[7] Angela Yang. OpenAI teases ‘Sora,’ its new text-to-video AI model (англ.). NBC News (16 февраля 2024). Дата обращения: 27 февраля 2024.

[8] Сергей Мингазов. OpenAl открыла доступ тестировщикам к генератору видео на основе текста Sora (рус.). Forbes (16 февраля 2024). Дата обращения: 27 февраля 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар Регламент ЕС об искусственном интеллекте
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Sora
Пример работы Sora
Тип	Генеративный искусственный интеллект
Автор	OpenAI
Разработчик	OpenAI
Первый выпуск	15 февраля 2024
Сайт	openai.com/sora (англ.)
Медиафайлы на Викискладе

Sora

История

Реакция

Примечания

Навигация

Поиск