Коммпания OpenAI анонсировала нейросеть Sora, которая может по текстовому запросу сгенерировать реалистичное видео.
«Мы учим искусственный интеллект понимать и моделировать физический мир в движении с целью обучения моделей, которые помогают людям решать проблемы, требующие взаимодействия с реальным миром» — сказано на сайте проекта.
Модель обладает глубоким пониманием языка, что позволяет ей точно интерпретировать подсказки и создавать привлекательных персонажей, выражающих свои эмоции. Sora также может создавать несколько кадров в рамках одного сгенерированного видео, которые точно передают персонажей и визуальный стиль.
Текущая модель имеет недостатки. Она может испытывать трудности с точным моделированием физики сложной сцены и может не понимать конкретных причинно-следственных связей. Например, человек может откусить кусочек от печенья, но впоследствии на нем может не остаться следов надкуса.
Модель также может путать пространственные детали подсказки, например, путать левое и правое направления, и может затрудняться с точным описанием событий, происходящих с течением времени, например, следования определенной траектории камеры.
На официальном сайте проекта доступны примеры роликов, созданных новой нейросетью.
На данном этапе Sora создает ролики до минуты и доступна ограниченному ряду пользователей. Доступ всем желающим обещают открыть, как только доведут ИИ до совершенства.