Sora 2가 출시되었습니다


Sora 2가 출시되었습니다

최신 동영상 생성 모델인 Sora 2는 이전 시스템보다 물리적으로 더 정확하고 사실적이며 조작 가능성이 더 높아졌습니다.
동기화된 대화와 음향 효과도 제공합니다.
새로운 Sora 앱에서 사용해 보세요.

2024년 2월에 릴리스된 오리지널 Sora 모델⁠은 많은 부분에서 동영상계의 GPT‑1과 같았습니다.
처음으로 동영상 생성이 제대로 작동하는 듯 보였고, 사전 학습 컴퓨팅을 스케일업함으로써 대상 영속성과 같은 단순한 동작이 가능해졌습니다.
그후로 Sora 팀은 더 발전된 세계 시뮬레이션 기능으로 모델을 학습시키는 데 주력했습니다.
우리는 이러한 시스템이 물리적 세상을 깊이 있게 이해하는 AI 모델을 학습시키는 데 매우 중요하다고 믿습니다.
이를 위해 중요한 마일스톤은 대규모 동영상 데이터에 대한 사전 학습과 사후 학습을 마스터하는 것입니다.
지금은 언어에 비하면 초기 단계죠. 

프롬프트: 피겨 스케이터가 고양이를 머리에 얹고 트리플 액슬을 수행합니다.

Sora 2를 통해 우리는 동영상계의 GPT‑3.5가 될 것으로 생각되는 단계로 도약했습니다.
Sora 2는 이전 동영상 세대 모델에게는 특히 어려운 일, 그리고 경우에 따라서는 불가능한 일을 할 수 있습니다.
예를 들면, 올림픽 체조 선수의 루틴이나, 부력과 강성의 역학을 정확하게 모델링하는 패들보드 위에서의 뒤로 공중제비 넘기, 고양이가 살기 위해 애쓰는 와중에 트리플 악셀을 도는 모습 등입니다. 

프롬프트: 한 남자가 백플립을 합니다.

이전의 동영상 모델은 과도하게 낙관적이었습니다.
텍스트 프롬프트를 성공적으로 실행하기 위해 객체의 형태를 바꾸고 현실을 변형했죠. 예를 들면, 농구선수가 슛을 성공시키지 못하면 공이 스스로 후프로 순간이동하는 식이었습니다.
Sora 2에서는 농구선수가 슛을 성고시키지 못하면 공이 백보드에 튕겨나옵니다.
흥미롭게도 모델이 하는 ‘실수’는 Sora 2가 암시적으로 모델링하는 내부 에이전트의 실수로 보이는 경우가 많습니다.
여전히 완벽하지는 않지만 Sora 2는 이전 시스템보다 물리법칙을 더 잘 따릅니다.
유용한 세상 시뮬레이터에는 매우 중요한 능력이죠. 성공뿐만 아니라 실패도 모델링할 수 있어야 합니다.

이 모델은 조작 가능성 측면에서도 큰 발전을 보였습니다.
샷이 여러 개일 때 복잡한 지침을 따르면서도 세계의 현상을 정확하게 구현할 수 있습니다.
현실적인 스타일, 시네마틱 스타일, 애니메이션 스타일에서 강점을 보입니다. 

프롬프트: 바이킹 전쟁에 나서다 - 북해 발사 (10.0초, 겨울 시원한 낮 / 중세 초기)...

범용 동영상-오디오 생성 시스템으로서 Sora 2는 아주 사실적으로 정교한 백그라운드 사운드스케이프, 음성, 음향 효과를 만들 수 있습니다. 

프롬프트: 밝은 기술적 껍질을 입은 두 명의 산악 탐험가, 얼음으로 덮인 얼굴, 긴박감에 눈을 가늘게 뜨고 눈 속에서 한 명씩 소리칩니다.

실제 세계의 요소를 Sora 2에 직접 주입할 수도 있습니다.
예를 들면, 이 모델은 우리 팀원 중 한 명의 동영상을 관찰해서 외모와 음성을 정확히 묘사해서 Sora에서 생성한 환경에 삽입할 수 있습니다.
이 능력은 아주 일반적이고 인간, 동물, 사물에 모두 작동합니다. 

프롬프트: 빅풋은 그에게 정말 친절해요. 좀 지나치게 친절해요. 이상할 정도로 친절해요. 빅풋은 어울리고 싶어 하지만, 그는 너무 어울리고 싶어 해요.

이 모델은 완벽과는 거리가 멀며 수많은 실수를 저지르지만 동영상 데이터에 대해 인공 신경망을 더 스케일업하면 현실을 시뮬레이션하는 데 더 가까워질 수 있다는 것을 보여줍니다.

Sora 2 배포

물리적 세상에서 작동할 수 있는 범용 시뮬레이션 및 AI 시스템을 개발하는 과정에서 사람들이 우리가 구축하는 모델을 통해 많은 즐거움을 얻을 수 있을 것이라고 생각합니다.

우리는 먼저 몇 달 전 Sora 팀에 ‘내 사진 업로드하기’ 기능을 추가해 봤는데 모두가 즐거워했습니다.
마치 문자 메시지에서 이모티콘으로, 음성 노트에서 Sora 2로 전환하는 것이 커뮤니케이션의 자연스러운 진화처럼 느껴졌습니다.

그래서 오늘은 Sora 2로 구동되는 새로운 소셜 iOS 앱인 ‘Sora’를 출시합니다.
이이앱에서 결과물을 만들고 서로가 생성한 결과물을 혼합하고 맞춤 설정이 가능한 Sora 피드에서 새로운 동영상을 발견하고 카메오를 통해 자신이나 친구를 드러낼 수 있습니다.
카메오를 사용하면 Sora가 생선한 어느 장면에나 자신의 모습을 충실도 높게 포함할 수 있습니다.
본인 확인을 하고 유사성을 포착하기 위해 앱에서 짧게 한 번만 동영상과 오디오 녹화/녹음을 하면 됩니다.

지난주에는 OpenAI의 모든 직원을 대상으로 내부적으로 앱을 런칭했습니다.
이미 동료들로부터 이 기능을 사용해 회사에서 새로운 친구를 사귀고 있다는 이야기를 들었습니다.
이 ‘카메오’ 기능을 중심으로 한 소셜 앱이야말로 Sora 2의 마법을 경험하는 가장 좋은 방법이라고 생각합니다.

책임감 있는 런칭

무한 스크롤, 중독, 고립감, RL-SL 최적화 피드에 대한 우려가 가장 먼저 떠오릅니다.
우리는 이렇게 조치하고 있습니다.

사용자에게 도구를 제공하고 선택적으로 피드에 표시되는 내용을 관리할 수 있게 합니다.
OpenAI의 기존 대규모 언어 모델을 사용하여 자연어로 지침을 받을 수 있는 새로운 추천 알고리즘 클래스를 개발했습니다.
또한 사용자들에게 주기적으로 웰비잉에 대해 묻고 피드를 조정하는 옵션을 선제적으로 제공하는 메커니즘이 내장되어 있습니다.

기본적으로 우리는 사용자가 팔로우하거나 교류하는 사람들에게 편향된 콘텐츠를 보여주며 모델의 판단에 따라 사용자가 직접 창작물을 만들 때 영감을 받는 데 사용할 가능성이 가장 큰 동영상을 우선해서 표시합니다.
피드에서 보내는 시간에 대해서는 최적화하지 않으며, 명시적으로 소비가 아닌 창작을 극대화하도록 앱을 설계했습니다.
자세한 내용은 OpenAI 피드 철학을 참조하세요.

이 앱은 친구들과 함께 사용하도록 만들어졌습니다. 테스터로부터 특히 많이 받은 피드백은 카메오야말로 이 앱의 차별성이고 재미 요소라는 것이었습니다.
이해하려면 사용해 봐야 하지만 사람들과 소통하는 새롭고 독특한 방식입니다.
친구들과 함께 사용할 수 있도록 이 앱을 초대 기반으로 배포하고 있습니다.
모든 주요 플랫폼이 소셜 그래프에서 물러나는 시기에 카메오가 커뮤니티를 강화할 것이라고 생각합니다.

우리에게는 10대의 웰비잉을 보호하는 것이 중요합니다.
우리는 10대 청소년이 하루에 피드에서 볼 수 있는 생성 결과물의 수에 기본 한도를 두고 있으며 이들을 대상으로는 카메오에 대해 더 엄격한 권한을 요구하고 있습니다.
자동화된 안전 스택 외에도 괴롭힘 사례가 발생하면 빠르게 검토할 수 있도록 관리 담당 팀도 확대하고 있습니다.
ChatGPT를 통해 Sora 자녀 보호 기능⁠을 포함해 런칭하므로 부모는 무한 스크롤 한도를 재정의하고 알고리즘 개인 맞춤 설정을 끄고 다이렉트 메시지 설정도 관리할 수 있습니다.

카메오에서는 사용자가 Sora의 처음부터 끝까지 자신의 유사성을 관리합니다.
사용자만이 자신의 카메오를 사용할 수 있고, 자신의 카메오가 사용된 동영상은 언제든지 액세스를 철회하거나 동영상을 제거할 수 있습니다.
다른 사람이 만든 초안을 포함하여 사용자의 카메오가 포함된 동영상은 사용자가 언제든지 볼 수 있습니다.

이 앱에서는 유사성 사용에 대한 동의, 출처, 유해한 콘텐츠 생성 방지 등 안전과 관련해서 수많은 주제를 다뤘습니다.
자세한 내용은 Sora 2 안전 문서⁠를 확인하세요.

다른 앱에서 많은 문제가 사용자의 웰비잉에 반하는 결정에 인센티브를 제공하는 수익화 모델에서 파생됩니다.
투명하게 공개하자면 현재 우리의 유일한 계획은 결과적으로 사용 가능한 컴퓨팅 대비 수요가 너무 많을 경우 추가 동영상을 생성할 때 사용자에게 어느 정도의 비용을 지불하는 옵션을 제공하는 것입니다.
앱이 발전함에 따라 접근법에 변화가 있을 경우 공개적으로 알릴 것이며 동시에 계속해서 사용자의 웰비잉을 우리의 주된 목표로 삼을 것입니다.

지금은 이 여정의 시작 단계이지만 Sora 2를 사용해 콘텐츠를 만들고 리믹스하는 강력한 방법이 많기 때문에 우리는 이것을 완전히 새로운 공동 창작 경험 시대의 시작으로 봅니다.
우리는 현재 시중에 있는 것과 비교했을 때 Sora 2가 엔터테인먼트와 창의성을 위한 더 건전한 플랫폼이 될 것이라고 낙관하고 있습니다.
좋은 시간 되시길 바랍니다.

Sora 2 가용성 및 다음 단계

현재 Sora iOS 앱(새 창에서 열기)을 다운로드할 수 있습니다.
계정에서 액세스가 제공되면 푸시 알림을 받도록 앱 내에서 신청할 수 있습니다.
 미국과 캐나다에서 오늘 최초 롤아웃을 시작하며 다른 국가로도 빠르게 확대할 계획입니다.
초대를 받으면 sora.com(새 창에서 열기)을 통해서도 Sora 2에 액세스할 수 있습니다.
Sora 2는 처음에는 무료로 사용 가능하며 한도가 넉넉하기 때문에 기능을 자유롭게 둘러볼 수 있습니다.
하지만 여전히 컴퓨팅 제약에 따라 달라질 수 있습니다.
ChatGPT Pro 사용자는 더 품질이 높고 실험적인 Sora 2 Pro 모델을 sora.com(새 창에서 열기)에서 사용할 수 있으며 곧 Sora 앱에서도 사용 가능합니다.
API에도 Sora 2를 릴리스할 계획입니다.
Sora 1 Turbo는 여전히 사용 가능하며 모든 생성 결과물은 여전히 sora.com(새 창에서 열기) 라이브러리에서 확인할 수 있을 것입니다.

동영상 모델은 아주 빠르게 성능이 발전하고 있습니다.
범용 세계 시뮬레이터와 로보틱 에이전트는 사회를 근본적으로 바꾸고 인간 발달을 가속화할 것입니다.
Sora 2는 그 목표로의 의미 있는 진전을 보여줍니다.
OpenAI의 미션을 위해서는 이러한 모델이 개발됨에 따라 인류가 이러한 모델에서 이득을 얻는 것이 중요합니다.
Sora는 큰 기쁨을 주고 창의성을 발휘하도록 하며 세상과 연결되도록 할 것이라고 생각합니다.

- 작성자: Sora 팀

주된 목표와 비주얼
첫 번째 읽기: 드래곤이 톱니 모양의 얼음 첨탑을 지나 날고 있음. 날개의 끝이 소용돌이를 일으키며 물보라를 일으킴. 두 번째 읽기: 빙하의 깨진 조각이 코발트 색상의 피요르드로 떨어져 나가고 호박색의 태양 테두리가 비늘 위의 서리에 입을 맞춤. 표정은 포식자의 차분함과 자연스러운 힘을 드러냄.

형식 및 외관
5.0초, 4K, 180° 셔터. 선명한 마이크로 대조를 사용한 큰 형식의 디지털 센서 에뮬레이션. 아주 고운 입자. 눈의 반짝임에는 할레이션 절제. 게이트 위브 없음.

렌즈 및 여과
히어로: 기수 장착 자이로 안정형 고가 작업 플랫폼에 탑재한 50mm 구형(약간 안쪽으로 호를 그리며 평행 트래킹). 여과: Black Pro-Mist 1/8. 눈의 반짝임을 완화하면서 반사되는 것을 보존하기 위해 원형 편광기로 조명 설치.

등급 / 팔레트
하이라이트: 깔끔하게 굴러 떨어지는 깨끗한 흰색 얼음. 미드: 강철빛 빙하와 연한 청록색의 공기. 음영: 청회색/청록색에 크레바스의 디테일 보존. 드래곤의 가장자리는 구분을 위해 따뜻한 호박색 경계. 서리/비늘에 가깝게 반사됨.

조명 및 분위기
태양이 낮게 드리운 늦은 오후. 하강 기류가 물보라를 일으킴. 얇게 언 연무가 깊이감을 줌. 간헐적인 얼음 먼지가 뒤이어 피어오름. 드래곤이 호흡할 때 희미한 증기.

위치 및 프레이밍
높게 솟은 탑상 빙괴 필드와 칼의 가장자리 같은 융기선. 카메라가 중간 고도에서 드래곤과 함께 같은 속도로 따라가며 빙하의 대각선이 피요르드로 돌아감. 전경에 지느러미 모양의 얼음이 가까이 지나가며 시차를 줌. 인간의 구조물은 없음.

의상 / 소품 / 차량 참고 사항
해당 없음(생명체). 표면 읽기: 매트한 뿔 같은 가장자리, 약간 무지갯빛 비늘의 앞쪽 가장자리에 아주 작은 서리가 서려 있음.

사운드
높은 고도의 바람이 부딪히는 소리, 아래로 날갯짓을 할 때마다 날개막에서 천둥 같은 소리가 남. 세락에서 크리스탈 같은 얼음이 부러지거나 깨지는 소리, 멀리서 빙하가 붕괴되며 쾅 하는 소리가 남. 드래곤의 빠르게 내쉬는 호흡/울림: 우르릉 소리(1초 미만). 음악은 없음. 순수하게 영화 같은 경이로움.

최적화된 샷 목록(1샷 / 5.0초)
0.0~5.0 - ’평행 가장자리 카브’(50mm, 기수 장착 고가 작업 플랫폼, 약간 안쪽으로 호를 그리며 마이크로 푸시)
드래곤이 얼음으로 된 첨탑의 복도를 요리조리 빠져 나가듯이 속도를 조절함. 날개의 끝이 리본으로 소용돌이를 일으킴. 분리된 빙하의 조각이 멀리 아래쪽에 떨어지며 가루 같은 기둥이 피어오름. 카메라가 가까이 다가가며 비늘이 나타나고 호박색 테두리가 불타오름. 그러 다음 드래곤이 피요로드로 비스듬히 날아오르고 꼬리가 가위질하듯 움직이며 빙하 위로 쓰는 듯한 그림자를 드리움.
목적: 속도, 부피감, 추위를 하나의 결정적인 패스로 만져지는 듯한 현실감과 신화적인 스케일을 제공함.

카메라 참고 사항(읽는 이유)
50mm가 미니어처화하지 않고도 생물의 존재감과 풍경의 규모를 균형 있게 표현함. 평행 트래킹 + 안쪽으로 향하는 호는 속도감과 형태를 줌. 마이크로 푸시와 가장 강력한 다운스트로크가 동시에 이루어지며 강렬한 구두점 효과를 줌. 가벼운 편광 필터가 눈부심을 제어하면서 반짝임은 보존함. 뒤쪽/테두리의 태양이 실루엣을 만듦. 지느러미 모양의 얼음을 거의 건드릴 듯하면서 시차 속도감을 줌.

마무리
아주 고운 입자(~15%). 눈의 반짝임에는 할레이션 최소화. 청색의 신뢰성을 유지하고 검은색을 풍부하게 하기 위해 부드러운 프린트 에뮬레이션. 빙하가 붕괴되는 소리가 묻히지 않으면서 날갯짓 소리를 포착할 수 있도록 멀티밴드 다이내믹. 포스터 프레임: 드래곤이 태양이 비추는 세락을 가로질러 비스듬히 날아오르며 소용돌이가 일어나고 피요르드가 뒤쪽에서 짙은 파란색으로 빛나고 있음.

댓글 쓰기

Welcome

다음 이전