![]() |
|
![]() |
오픈AI, 마이크로소프트, 메타, xAI와 같은 기업들은 올해 안에 수십만~백만개에 달하는 GPU를 가동하겠다며 천문학적인 돈을 투자하겠다고 나서고 있습니다.
전 세계 인공지능(AI) 산업이 ‘컴퓨팅 군비 경쟁’이라는 이름으로 재편되고 있음을 보여주고 있는 것 같아요. 지금까지의 전쟁이 GPT, 제미나이, 클로드, 라마 등 모델 성능을 중심으로 펼쳐졌다면 이제는 인프라 규모와 자본 동원력이 성패를 가르는 ‘2라운드’에 접어든 느낌이랄까요.
이런 움직임을 보고 있으면 궁금증이 생깁니다. 스케일링의 법칙, 즉 GPU를 늘려서 인프라를 키우면 AI 성능이 좋아진다는 이 법칙의 효용성이 많이 줄었다는데, 왜 이렇게 하는 것일까, 지금 빅테크들이 이야기하는 GPU 확보와 데이터센터 건설이 정말 현실적으로 가능은 한 것일까 등등 말이에요.
이러한 궁금증, 오늘 레터에서는 하나씩 살펴보겠습니다. 한 주 중 가장 힘들다는 수요일, 빠르게 시작하겠습니다.
![]() |
- 1억장이라도 가질 수 있다면
- 끝나지 않은 스케일링의 법칙
- 데이터센터 확충과 현실
※ 레터 읽는 법 ※ 볼딕 단어나 밑줄 단어 혹은 분홍색 단어에는, URL이 포함돼 있습니다. 클릭하면 세부 내용이 연결됩니다. |
![]() |
![]() |
100만장에 100을 곱한 GPU를 확보하겠다는... [사진=올트먼 X] 1억장이라도 가질수 있다면 오픈AI는 올해 말까지 100만개 이상의 GPU를 가동한다는 계획을 ‘실천’하고 있습니다. 심지어 샘 올트먼 오픈AI 최고경영자(CEO)는 이런 글을 X에 남겨요. “올해 연말 100만개의 GPU가 가동된다. 우리 팀이 자랑스럽지만 그들은 이를 100배로 늘릴 방법을 찾아내야 할 것이다.”라고 말이에요. 물론 문장 뒤에 농담 섞인 이모티콘을 남기긴 했지만 GPU를 그만큼 많이 확보하고 싶은 마음이 드러납니다. 오픈AI는 나아가 총 200만 개의 AI 칩을 구동하겠다는 인프라 구축 계획을 가지고 있어요. 올트먼이 이 말을 하니 질투쟁이 일론 머스크가 가만히 있을 수 없죠. 현재 머스크가 이끄는 xAI는 20만 개의 GPU를 가독하고 있는 데이터센터 ‘콜로서스1’을 가동하고 있습니다. 이를 가동하기 위해 머스크는 해외 발전소를 매입해 미국으로 운송할 것이라는 말도 했죠. 머스크에 따르면 몇 주 안에 50만장의 GPU를 탑재한 콜로서스2를 운영할 계획이라고 합니다. 나아가서, 그는 2030년까지 무려 5000만장의 GPU를 가동하겠다는 포부(!)를 밝히기도 했습니다. 최근 초지능팀을 구성하고 실리콘밸리에서 마치 구단주처럼 선수 영입을 하고 있는 메타도 마찬가지예요. 메타는 올해 말까지 130만개의 GPU를 확보한다는 계획을 가지고 있어요. 아시다시피 GPU는 자기 혼자 돌아가지 않습니다. GPU를 구동하는 과정에서 막대한 열이 발생하고, 이를 식혀줄 수 있는 냉각장치도 24시간 필요합니다. 데이터센터가 ‘전기 먹는 하마’가 될 수밖에 없는 이유인데요. 저 많은 GPU를 가동하기 위해 빅테크 기업들이 데이터센터에 투자하고 있는 비용은 막대합니다. 천억 투자는 우스운 수준 오픈AI는 소프트뱅크, 오라클과 협력해 5000억 달러(695조원) 규모의 AI 데이터센터를 짓는 ‘스타게이트’프로젝트를 추진하고 있습니다. 물론 최근 이 협력이 쉽지 않다는 보도도 나오고 있지만 어쨌든 오픈AI는 5GW 규모의 데이터 센터 개발을 해내겠다고 하고 있어요. 5GW는 원전 5기가 만들어 내는 전력량과 맞먹는데요. 일단 여기에 필요한 비용은 1000억 달러(139조원) 수준으로 예상됩니다. 5000억 얘기하다 1000억 달러 얘기하니 좀 작아 보이네요. xAI도 더 많은 GPU를 확보하기 위해 현재 120억 달러의 자금을 추가로 모으고 있어요. 그가 말하는 5000만 장의 GPU를 가동하려면 가격은 둘째 치고 35GW의 전력이 필요합니다. 원전 35개를 지어야 해요. 비현실적이죠. 2025 회계연도에만 마이크로소프트는 약 800억 달러(105조원)를 데이터센터 구축에 투입할 예정입니다. 이는 사상 최대 수준의 설비 투자로, AI 모델 훈련과 클라우드 수요를 동시에 감당하기 위한 결정입니다. 동시에 블랙록과 함께 300억 달러(41조원) 규모의 AI 인프라 펀드를 조성해 민간 자본을 끌어들이고 있습니다. 메타는 2022년 잠시 데이터센터 투자를 중단했다가, AI 수요 증가에 대응해 다시 확장에 나섰습니다. 특히 눈에 띄는 점은 원자력에 대한 장기적 투자입니다. 2025년부터 미국 일리노이주의 클린턴 원자력 발전소에서 향후 20년간 1.1GW의 전력을 확보하기로 했으며, 소형모듈원전(SMR) 도입을 위한 제안도 검토 중입니다. 메타는 올해에만 최대 720억달러(100조원)에 달하는 인프라 투자에 나서고 있어요. |
![]() |
![]() |
스케일링의 법칙이 더 스마트하고 강력하게 AI를 구현하는 방법이라고, 엔비디아는 주장하고 있습니다. 현재까지 빅테크 기업들은 이를 쫓고 있고요. [그림=엔비디아] 끝나지 않은 스케일링의 법칙 스케일링 법칙은 AI 시스템의 성능이 훈련 데이터의 크기, 모델 매개변수 또는 컴퓨팅 자원 증가에 따라 예측할 수 있게 향상되는 경험적 현상을 설명합니다. 이 원리는 “더 많은 컴퓨팅 자원, 더 많은 훈련 데이터, 더 많은 매개변수가 더 나은 AI 모델을 만든다”라고 주장하는데요. 현재 빅테크의 투자를 이끄는 세 가지 법칙이라고 해야 할까요. 이를 정리해 보겠습니다. 먼저 사전 훈련 스케일링이에요. 2020년 확립된 이 법칙은 훈련 데이터 세트의 크기, 모델 매개변수 수, 적용되는 컴퓨팅 자원을 지속해서 늘림으로써 모델 지능과 정확성에서 예측할 수 있는 개선을 기대할 수 있음을 보여줍니다. 현재 대규모 AI 개발의 많은 부분을 이끄는 근본적인 원리로 남아있어요. 두 번째는 ‘사후 스케일링’ 입니다. 2023년 GPT-4로 확립된 이 법칙은 초기 훈련 후 적용되는 다양한 기술을 통해 사전 훈련된 모델의 성능을 더욱 향상시킬 수 있다고 가정합니다. 여기에는 추가 데이터를 사용한 미세 조정, 강화 학습과 같은 것들이 포함돼요. 마지막으로 ‘테스트 시간 추론’입니다. 2024년 확립된 오픈AI의 o1이 대표적인데요. 이 최신 스케일링 법칙은 추론 단계(모델이 사용될 때)에서 추가적인 컴퓨팅 노력을 할당해 출력 품질을 향상하는 데 중점을 둡니다. 즉 AI를 실제로 사용할 때 더 많은 계산을 투입하면 성능이 더 좋아진다는 거죠. 예를 들어 복잡한 질문을 받았을 때 AI가 한 번에 대답하지 않고, 여러 가능성을 생각하면 더 좋은 답을 한다는 거죠. 이러한 ‘긴 사고’ 역시 컴퓨팅 비용을 발생시킵니다. 스케일링의 법칙은 분명 한계가 있습니다. 모델이 커질수록 훈련과 추론 비용이 폭등하고, 고품질 데이터가 있어야만 하고요. 단순히 인프라 확장만으로 창의적이거나 복잡한 추론 능력이 충분히 개선되지 않는다는 것도 알고 있습니다. "일단 모르겠다. GPU 더!!" 하지만 앞서 언급한 사후 스케일링, 테스트 시간 추론처럼 스케일링의 법칙은 끝난 게 아닌 형태가 바뀌고 있다는 게 맞을 것 같아요. 즉 GPU는 여전히 AI 스케일링의 토대를 굳건히 지키고 있고, 그 위에서 이를 얼마나 똑똑하게 사용하는지가 핵심 경쟁력으로 부상한 겁니다. 모델이 더 커지고 복잡해짐에 따라, 그리고 테스트 시간 추론과 같은 기술이 보편화됨에 따라 가속 컴퓨팅에 대한 수요는 더욱 심화됩니다. 이는 현재 빅테크 기업들이 그토록 원하는 범용 AI(AGI)와 초지능과도 관련이 있고요. AGI와 초지능을 추구하는 것은 컴퓨팅 요구 사항의 한계를 더욱 밀어붙입니다. 인간 수준 또는 초인간 지능을 달성하려면 전례 없는 규모가 필요하며, 이는 기업들이 수백만 개의 GPU와 수 기가와트 규모의 데이터 센터를 목표로 삼게 합니다. 물론 중국의 딥시크처럼 GPU를 많이 쓰지 않고도 추론 능력을 극대화한 AI도 등장합니다. 아시다시피 당시 엔비디아 주가가 폭락했는데요. 아무리 좋은 인재를 확보해 좋은 모델을 만든다 해도, 이를 뒷받침하는 것은 GPU라는 것이 그사이 점점 더 명확해지고 있는 상황입니다. 딥시크처럼 ‘경량 추론 전략’도 모델 성능을 높이는 방법이 될 수 있지만, GPU를 늘려 수백~수천억 개의 파라미터와 수백억 토큰의 학습을 수행하고 학습, 추론 하는게 모델의 성능을 높이는 가장 확실한 방법이라는 거죠. 결국 이 과정에서 AI 군비 경쟁이 발생합니다. 어떤 회사도 지능 우위 경쟁에서 지고 싶어하지 않거든요. 이러한 경쟁 환경은 기술 대기업 전반에 걸쳐 ‘역사에 남을 만한’ 자본 지출을 끌어내고 있습니다. 현재 AI 모델(GPT-3/4)의 성공은 스케일링 법칙을 검증해 더 많은 컴퓨팅 자원으로 예측할 수 있는 성능 향상을 가져왔습니다. 이러한 성공은 다시 AGI 달성에 대한 믿음을 부추겼고, 이는 다시 훨씬 더 많은 컴퓨팅 자원을 필요로 하여 천문학적인 투자를 유도합니다. 이 순환은 경쟁과 맞물리면서 증폭됩니다. |
![]() |
![]() |
샘 올트먼이 공개한 4.5GW 규모의 데이터센터. 미국은 땅이 넓어서 많이 지을 수 있는 것일까요. [사진=올트먼 X] 데이터센터 확충과 현실 빅테크 기업들은 데이터센터용 전력 확보를 최우선 과제로 삼고 각종 에너지 기업, 발전소와의 협업을 확대하고 있습니다. AI 시대의 데이터센터는 수만 개의 고성능 칩을 동시에 구동하여 막대한 전력을 소모하므로, 안정적이고 충분한 전력공급 없이는 운영이 불가능합니다. 이를 위해 재생에너지 장기계약, 원자력 에너지 부활, 발전기업 투자, 소형 모듈 원전, 핵융합 투자... 정말 할 수 있는 것은 다 하고 있죠. 하지만 문제점이 슬슬 드러나고 있습니다. 특히 대규모 데이터센터 밀집 지역의 경우 전력 수요 급증에 따라 과부하 문제가 나타나고 있어요. 미국 버지니아주 애쉬번 사례가 대표적입니다. 이 지역은 세계 최대 데이터센터 밀집 지역으로 2024년 말 기준 40GW에 달하는 전력이 데이터센터로 향하고 있어요. 불과 6개월 사이 88%나 늘어난 수치라고 하는데요. 지난해 7월 이 지역에서 뇌우로 인한 송전선 사고로 60곳의 데이터센터(총 1.5GW)가 일제히 전력망에서 이탈하는 일이 벌어졌습니다. 1.5GW에 달하는 전력이 사라지자 발전소 출력 과잉이 발생하면서 광범위한 정전에 이를 뻔했다고 합니다. 블랙아웃 일보 직전이었다고 하는데요, 미국 전력 규제기관 NERC은 이 사건을 분석하며, 향후 비슷한 사건에서 수 GW급 데이터센터 부하의 동시 탈락/재접속이 통제되지 않으면 심각한 사고로 이어질 수 있다고 경고했습니다. 슬슬 발생하는 문제들 또한 도미니언사는 데이터센터 신설 러시로 전력 연결 기간, 즉 새 데이터센터가 전기를 공급받기까지 기다려야 하는 시간이 기존보다 1~3년 길어져 최대 7년 가까이 지연될 수 있다고 밝혔습니다. 이 과정에서 데이터센터 전력 수요 예측, 계산에 문제가 발생하면서 전력회사의 불확실성이 커지게 됩니다. 이에 일부 전력회사는 데이터센터에 대규모 계약보증금을 요구하거나 주 정부의 인프라 비용 분담을 요청하는 등의 대응책 마련에 나서고 있어요. 실제로 마이크로소프트는 지난해 최대 2GW에 달하는 데이터센터 전력 예약을 취소하기도 했습니다. 유럽 아일랜드의 사례도 주목할만 합니다. 일랜드는 최근 몇 년간 유럽 데이터센터 허브로 주목받았지만, 작은 전력망 규모로 인해 심각한 전력 수급 압박이 나타났습니다. 2022년 더블린 지역에서는 신규 데이터센터 인가를 사실상 모라토리엄(유예)을 선언 할 정도로 전력 여력이 부족했습니다. 데이터센터들이 아일랜드 전력 소비의 14% 이상을 차지하고 있고, 2030년에는 30%에 육박할 것이라는 전망에 정부 차원의 제동이 걸린 것입니다. 이후 아일랜드 전력규제위원회(CRU)는 2023~24년 일련의 지침을 발표, 새로운 데이터센터는 필요한 전력을 자체 발전이나 저장으로 충당할 것을 요구했습니다. 한정된 국토와 전력망을 가진 국가에서 데이터센터 수용량의 한계에 대응하려는 방안인데요. 결국 이는 아일랜드에 더 큰 규모의 데이터센터 구축이 쉽지 않음을 보여줍니다. 결국 데이터센터 확장에 따른 전력망 부담으로 각국에서 신규 규제와 조건부 허가가 등장하고 있는 상황이에요. 전력 인프라 증설은 상대적으로 장시간이 걸리는데, 데이터센터 수요는 폭발적이어서 시차와 불균형이 발생할 수밖에 없는 상황이 됐습니다. |
![]() |
요약 보고 |
※ 붉은 제목을 누르면 상세 내용으로 연결됩니다. |
![]() | |
MS, 'AI 비서' 탑재한 브라우저 코파일럿 모드 공개 마이크로소프트가 엣지 브라우저에 ‘코파일럿 모드’를 도입했습니다. 사용자가 검색하는 내용을 AI가 파악하고, 탭 전체를 읽어 비교해주거나 레시피를 요약해주는 등 실시간 비서처럼 돕는 기능인데요. 예약, 쇼핑리스트 작성, 콘텐츠 초안 작성 등도 가능하다고 합니다. 일상 속 ‘에이전트형 AI’ 실험이 본격화됐다는 평가가 나옵니다.
|
올해 글로벌 기업의 AI 지출 금액은 약 2000억 달러, 우리 돈 278조원에 달할 것이라고 합니다.
우리나라 한 해 예산이 670조니까, 거의 3분의 1에 달하는 수준이에요. 2030년까지 AI 컴퓨팅 수요에 6조7000억 달러가 투입될 것으로 추정되고 있어요.
우리 돈 9330조입니다. 하도 ‘조’ ‘조’ 하니까 돈의 개념이 사라지는 것 같습니다. 이러한 돈을 확보하기 위해 빅테크 기업들은 번 돈을 쏟아붓고 부채 조달, 파트너십 활용은 물론 펀드를 조성하고 GPU를 담보대출로도 활용하고 있습니다.
미래의 독점적 기술 우위를 선점하려는 투자라는 건 알겠는데, 과연 이러한 투자가 정말 수익으로 이어질 수 있을지, 그리고 전력은 충분히 공급될 수 있는 것인지에 대해 우려도 나오고 있습니다.
아직 정답이 없는 게임인데, 이 전쟁에 참여한 기업들은 한 가지 믿음을 공유하고 있는 것 같아요. “연산은 곧 지능이고 지능은 곧 패권”이라고 말입니다.
AI의 시대의 초입을 지나 인프라 싸움이 확산하는 지금, 과연 이 경쟁의 승자는 과연 누가 될까요.
자료를 조사하면서 마음 한쪽에 계속 들었던 생각이 있습니다. 우리 ‘한국’이 이러한 시대에 어떻게 생존할 수 있을까, 라고 말이에요.
어차피 천문학적인 돈을 때려 넣는 일은 현재까지 미국과 중국 외에는 할 수 있는 곳이 없고, 그렇다면 이러한 상황에서 살아남는 방안을 찾아야 하는데 그것이 무엇이 될 수 있을지, 정부나 기업에 계신 분들의 고민이 상당할 것 같습니다.
해외에 나와 있으면 애국자가 된다고 하던데, 미국에 온 지 이제 한 달 반밖에 되지 않았는데도 한국 생각을 많이 하게 되네요.
그런 의미에서, 오늘 점심은 주변에서 드실 수 있는 메뉴 중, 가장 비싼 메뉴 선택해 보시는 게 어떨까요.
2만원짜리 짬뽕에 도전해보시고, 1인당 2만5000원짜리 곱창구이나 소고기도 점심에 한 번 가시죠. 저 먼 이국땅의 기업들은 수천억, 수조원을 투자한다는데, 한 달에 한 번 정도는 괜찮습니다.
말이 많았습니다. 빠르게 사라질게요. 좋은 하루 보내시기 바랍니다.
원호섭 드림