MapleStory Finger Point

AI 신기술

OpenAI Sora란?

吳鍾振 2024. 2. 17. 00:00

OpenAI Sora 공식 홈페이지 설명

 

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

 

성능

OpenAI는 물리적 세계의 움직임을 이해하고 모방하는 AI를 가르치고 있으며, 실제로 상호작용이 필요한 문제를 해결하는 데 도움이 되는 모델을 훈련시키는 것을 목표로 하고 있다.

텍스트-비디오 모델인 Sora는 시각적 품질과 사용자의 지시에 따른 준수를 유지하면서 최대 1분 길이의 비디오를 생성할 수 있다.

Sora가 해로운 영역이나 위험 요소를 평가하기 위해 레드 팀원[각주:1]들에게 이용 가능해진다. 또한 시각 예술가, 디자이너, 그리고 영화 제작자들에게 모델을 어떻게 발전시켜야 하는지에 대한 피드백을 얻기 위해 접근 권한을 부여한다.

OpenAI는 외부 사람들과 협력하여 피드백을 받기 시작하고, 대중에게 미래에 어떤 인공지능 능력이 기대되는지를 알려주기 위해 조기에 연구 진행 상황을 공유하고 있다.

Sora는 여러 캐릭터와 복잡한 장면, 특정 유형의 움직임, 그리고 대상과 배경의 정확한 세부사항을 생성할 수 있다. 이 모델은 사용자가 요청한 내용뿐만 아니라 그것들이 물리적 세계에서 어떻게 존재하는지도 이해한다.

이 모델은 언어에 대한 깊은 이해를 갖고 있기 때문에 사용자의 지시를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다. 또한 Sora는 단일 생성된 비디오 내에서 여러 장면을 만들어내어 캐릭터와 시각 스타일을 정확하게 유지시킬 수 있습니다.

하지만 현재 모델에는 약점이 있는데 복잡한 장면의 물리학적 시뮬레이션을 정확하게 모방하는 데 어려움을 겪을 수 있으며, 특정 사건의 인과 관계를 이해하지 못할 수 있다.
* 예를 들어 사람이 과자를 물어 먹을 수 있지만, 그 후에는 과자에 물어 먹은 자국이 없을 수 있다.

또한 지시사항의 공간적 세부사항을 혼동할 수 있으며, 좌우를 혼동하거나 특정 카메라 궤적을 따르는 사건의 정밀한 설명에 어려움을 겪을 수 있다.

 

예시 동영상

Prompt 명령: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

* 맨 위의 공식 홈페이지에 들어가면 더 많은 예시 동영상을 확인할 수 있다.

 

연구 기술

Sora는 diffusion 모델로, 잡음처럼 보이는 비디오로 시작하여 여러 단계에 걸쳐 잡음을 제거함으로써 비디오를 생성한다.

Sora는 전체 비디오를 한 번에 생성하거나 생성된 비디오를 더 길게 만들 수 있는 능력이 있다. 모델에게 한 번에 많은 프레임의 선행 지식을 제공함으로써 임시로 시야에서 사라져도 주제가 변하지 않도록 하는 어려운 문제를 해결했다.

GPT 모델과 유사하게 Sora는 transformer 아키텍처[각주:2]를 사용하여 우수한 스케일링 성능을 제공한다.

비디오와 이미지를 패치(patch)라고 불리는 작은 데이터 단위의 모음으로 표현하며 각 패치는 GPT의 토큰과 유사하다. 데이터 표현 방식을 통일함으로써, 이전에는 불가능했던 다양한 지속 시간, 해상도 및 화면 비율을 가진 시각 데이터에 대해 확산 변압기를 훈련할 수 있다.

텍스트 지침만으로 비디오를 생성할 수 있는 능력 외에도, 모델은 기존의 정지 이미지를 가져와 해당 이미지의 내용을 정확하게 애니메이션화하여 비디오를 생성할 수 있다. 또한 모델은 기존의 비디오를 가져와 확장하거나 누락된 프레임을 채울 수 있다.

Sora는 실제 세계를 이해하고 모방할 수 있는 모델의 기반 역할을 하며 이는 AGI[각주:3]를 달성하는 데 중요한 단계이다.

 

  1. 조직 또는 시스템의 보안 취약성을 찾아내고 악용할 수 있는 사람 [본문으로]
  2. 인간의 주의집중을 모방하여 중요한 입력 부분을 다시 참고하는 기계 학습 기법 메커니즘을 활용한 딥 러닝 모델 [본문으로]
  3. 인공 일반 지능 [본문으로]
반응형

'AI 신기술' 카테고리의 다른 글

DragGAN 이란?  (0) 2023.05.30