최전선에서 매일같이 쏟아지는 새로운 연구 결과, 수십억 달러 규모의 투자, 그리고 미국·중국 간 고조되는 기술 경쟁. 이 모든 것이 만나는 지점에는, ‘새로운 물리적 세계를 다시 만들어내려는 거대한 꿈’이 자리하고 있다.
LLM 이후, 로보틱스는 “다음 폭발적 성장 분야”로 지목되고 있다. 특히 중국 제조업이 미국에게 실존적 위협으로 인식되면서, 로봇 분야의 경쟁은 더 거칠게 달아오르고 있다.
로보틱스는 AI 분야 중에서도 가장 어려운 영역이지만, 아이러니하게도 최근 등장한 여러 새로운 AI 전략들이 EGI*로 이어지는 구체적이고 명확한 경로를 보여주기 시작했다.
*EGI(Embodied General Intelligence): 현실 세계에서 인간처럼 다양한 작업을 해낼 수 있는 ‘체화된 일반(General)** 지능 로봇’ **일반(General): 특정 작업 하나에만 고정되지 않고, 여러 상황·여러 종류의 일을 스스로 해낼 수 있는 넓은 능력 범위.
나는 이 흐름을 가장 가까운 곳에서 관찰해왔다. 최전선 연구자들과의 대화, Tesla의 Optimus와 Dyna 같은 로봇 회사에서 직접 접한 경험, 그리고 나 나름의 기술적 직감까지 모두 더해보면— 2045년이면 ‘추론하며 스스로 동작하는 로봇’이 전 세계 GDP의 절반을 차지할 것이라는 결론에 도달한다. 이 글은 바로 그 미래가 어떻게 현실이 되는지를 단계별로 보여주는 시나리오다.
2023–2025: 태동기
Android Dreams 전반에서는 실제 기업 대신, 특정 유형의 회사를 상징하는 가상의 이름을 사용한다. 예를 들어 “미국의 AI 연구소”를 뜻하는 OpenBrain, “중국의 휴머노이드 기업”을 의미하는 Unioak 같은 식이다.
OpenBrain의 LLM은 전 세계를 뒤흔든다. 이를 계기로 여러 로봇 기업들이 OpenBrain의 성공을 등에 업고 3억 달러(약 4,000억 원) 규모의 투자를 잇달아 유치한다. 그중에는 미국의 신규 로봇 스타트업 Waytek도 있다. 이들은 로봇 분야에서 OpenBrain의 성공을 재현하기 위해 “로봇용 LLM”을 만들겠다는 목표로 뛰어든다.
왜 LLM은 성공했을까?
프리트레이닝*이 성공한 이유는 스케일링 가설이 맞았기 때문이다.
* 프리트레이닝(pre-training): AI 모델이 언어·지식·세계 패턴을 대규모 데이터로 먼저 학습하는 기초 단계. GPT의 ‘P(Pre-trained)’가 이를 의미한다.
즉, 모델의 크기와 데이터량이 커질수록 인간과 유사한 능력이 나타난다는 가설이다. GPT-4 같은 모델은 수조 개의 파라미터와 테라바이트급 데이터를 학습하면서 인간에 가까운 언어 능력과 사고력을 얻게 됐다. 이러한 초거대 규모가 가능했던 이유는 다음 세 가지가 동시에 맞물렸기 때문이다.
병렬 컴퓨팅 인프라(NVIDIA GPU와 CUDA),
효율적인 아키텍처(Transformer),
인터넷급 텍스트라는 방대한 데이터.
또한 o3 같은 추론 특화 모델의 포스트트레이닝*이 성공할 수 있었던 이유는, OpenAI가 강화학습**을 수만 개 GPU를 동시에 돌리는 방식으로, 매우 큰 배치 사이즈까지 확장했기 때문이다. 이것 역시 병렬 컴퓨팅이 핵심이었고, 동시에 GRPO***처럼 구조는 단순하지만 초대규모 환경에서도 안정적으로 동작하는 강화학습 알고리즘이 있었기에 가능했다.
* 포스트트레이닝 (post-training): 프리트레이닝 이후, 모델의 능력을 원하는 방향으로 다듬고 강화하는 추가 학습 단계. ** 강화학습 (Reinforcement Learning): 모델이 스스로 행동을 시도하고, 그 결과(성공,실패)에 따른 보상을 통해 성능을 개선해 나가는 학습 방식. *** GRPO (Group Relative Policy Optimization): 강화학습을 엄청나게 많은 GPU에서 동시에 돌려도 잘 돌아가도록 만든 단순하고 안정적인 알고리즘이다.
로보틱스가 성공하려면 데이터가 병목이 되어서는 안 된다.
데이터 수집이 어렵더라도, 더 다양하고 정보 밀도가 높은 데이터로 학습하기 위해 연산량(컴퓨트)을 더 쓰는 것조차 감수할 가치가 있다. (…이 부분은 뒤에서 중요한 복선으로 다시 등장한다.)
OpenBrain의 프리트레이닝이 잘된 이유는, 사실상 인터넷 전체를 긁어 모은 수준의 방대한 텍스트 데이터가 있었기 때문이다. 하지만 로보틱스에는 그런 “로봇판 인터넷”이 존재하지 않는다. 로봇이 학습해야 하는 행동(action) 데이터셋은 가장 큰 것조차도 OpenBrain의 LLM 데이터셋의 0.01% 에도 못 미친다.
OpenBrain의 포스트트레이닝이 가능했던 이유는 강화학습 덕분이었다. 모델이 복잡한 수학 문제 같은 과제를 수십억 번 반복하며 성공과 실패를 통해 학습하는 방식이다. 하지만 로봇에게는 이 방식이 통하지 않는다. 현실 세계는 너무 느리고, 로봇이 그런 규모로 상호작용하기에는 물리적·시간적 제약이 너무 크기 때문이다.
그래서 지금 모든 로보틱스 연구의 핵심은 단 하나의 질문으로 모인다. “로봇에게도 프리트레이닝과 포스트트레이닝을 스케일링하려면 어떻게 해야 할까?”
Waytek 의 텔레오퍼레이션은 통한다
2023년부터 2025년까지 Waytek은 프리트레이닝 데이터 부족 문제를 해결하기 위해 ‘텔레오퍼레이션* 데이터를 대규모로 수집하는 전략을 택한다. 사람이 로봇을 직접 조종하는 과정을 기록하고, 이를 그대로 따라 하도록 VLA** 모델을 학습시키는 방식이다. 구조도 LLM과 매우 유사하다.
* 텔레오퍼레이션(Teleoperation): 사람이 로봇을 원격으로 직접 조종하는 것 ** VLA (Vision-Language-Action): 시각 + 언어 + 행동 정보를 함께 처리해 로봇이 스스로 판단하고 움직이도록 만드는 AI 구조. 예: “카메라로 본 화면(영상)”과 “사람의 지시(언어)”를 이해해 “어떻게 행동할지(행동)”까지 결정하는 방식.
초기 실험 결과는 생각보다 훨씬 좋았다. 데모에서는 로봇이 세탁물 정리, 샌드위치 만들기, 셔츠 개기, 소포 분류 같은 작업을 높은 신뢰도로 수행하는 모습이 공개되었다. 몇몇 기업들은 Waytek처럼 텔레오퍼레이션에 전력투구한다. 하지만 업계 의견은 정확히 둘로 갈린다.
한쪽은 “텔레오퍼레이션이 결국 일반(General)화된 로보틱스로 이어질 것”이라고 믿고, 다른 한쪽은 “텔레오퍼레이션은 스케일이 안 돼서 본질적 해결책이 아니다”라고 반박한다.
그러나 사실 두 입장 모두 핵심을 놓치고 있다. 왜냐하면 AI 로봇이 수행해야 하는 작업은 크게 ‘좁은(narrow) 작업’과 ‘일반(general) 작업’이라는 두 부류로 나뉘고, 두 분야가 요구하는 프리트레이닝·포스트트레이닝 방식 자체가 완전히 다르기 때문이다.
Narrow tasks(좁은 작업): 단순하지만 어느 정도 변동성이 있는 작업들. 예: 소포 분류, 옷 개기 등.
General tasks(일반 작업): 인간 수준의 복잡한 기능과 전반적 판단 능력이 필요한 작업들. 예: 서비스업, 건설, 의료, 교육, 가정 내 다양한 작업 등.
텔레오퍼레이션은 좁은 작업을 자동화하기에는 매우 효과적이지만, 일반 작업으로 확장하는 데에는 구조적으로 한계가 있어 결국 막다른 길에 도달한다.
태평양 건너 중국의 힘은 이미 미국을 압박할 만큼 커져 있었다.
선전(Shenzhen)에서는 100번째 제조 공장이 완전 자율 다크 팩토리*로 전환된다. 중국은 이미 미국의 두 배에 달하는 에너지 생산력, 열 배 규모의 제조 역량을 갖추었고, 전면 자동화를 향해 거침없이 질주하고 있다.
* 다크 팩토리(Dark Factory): 인간이 거의 없이(혹은 전혀 없이) 24시간 자동으로 운영되는 완전 자율 공장. 사람이 필요 없으니 불을 켜둘 이유도 없어 ‘dark factory’라 불린다.
2024년, 로봇개로 잘 알려진 중국의 휴머노이드 기업 Unioak은 본격적으로 휴머노이드 로봇을 시장에 내놓기 시작한다. 그리고 2025년이 되자, 이 로봇들은 춤을 추고 화려한 데모를 선보이며 전 세계를 압도한다.
미국 투자자들은 중국의 다크 팩토리를 두려움과 긴장 속에서 논하며, “미국은 반드시 제조업을 다시 국내로 가져와야 한다(America Must Reshore Manufacturing)”라는 보고서와 메모를 쏟아낸다.
사람들은 중국을 걱정하고, AI가 일자리를 빼앗을 것이라 불안해한다. 하지만… 아직 아무도, 진짜로 무엇이 다가오는지 보지 못하고 있다.
2026–2030: Vertical 시대
Vertical(수직): 한 산업이나 한 작업만 깊게 파고드는 방식
2026년, AI가 직접 제어하는 로봇이 처음으로 인간의 일자리를 대체하는 순간이 찾아온다. 미국의 버티컬 로보틱스 선두 기업인 Waytek은 저렴한 중국산 하드웨어와 텔레오퍼레이션 기반 데이터 수집을 조합해, 소포 분류처럼 단순하지만 반복적인 작업에서 인간 대비 80% 수준의 성능을 달성한다.
Waytek은 이 로봇들을 ‘판매’하는 대신, 노동력을 제공하는 형태로 소포 분류 센터에 투입한다. 센터 운영자 역시 다가오는 자동화 흐름을 받아들이고 싶어 로봇 도입을 기꺼이 승인한다.
Waytek 클론들의 등장
비관론자들은 Waytek의 로봇이 일반화도 안 되고, 깊은 추론도 못 하며, ‘진짜 지능’과는 거리가 있다고 지적한다. 하지만 중요한 사실이 하나 있다. AI 로보틱스 역사상 처음으로, ‘실제로 쓸 수 있는 로봇’이 등장했다는 점이다.
Waytek은 추가로 약 4억 달러(약 5,600억 원) 규모의 투자를 유치하고, 오퍼레이터·엔지니어·데이터 수집 인력을 대량 채용하며 로봇 배치를 공격적으로 확대한다. 한편 다른 스타트업들도 각자 약 5천만 달러(약 700억 원)의 투자를 받아, Waytek의 방식을 각기 다른 버티컬 산업에 그대로 복제하려 뛰어든다.
Waytek은 로봇을 판매하지 않는다. 대신 서비스형 로봇(Robots-as-a-Service, RaaS) 모델을 쓴다. 즉, 로봇 한 대를 ‘판매’하는 것이 아니라, 로봇이 일한 시간당 노동비를 받는 방식이다. 이 모델 덕분에 고객사는 도입 과정에서 발생하는 기술적·운영적 복잡성을 거의 신경 쓰지 않아도 된다.
Waytek은 소포 분류 시설을 여러 곳으로 확장하면서, 단 하나의 작업만 자동화했음에도 연간 반복 매출(ARR)을 1억 달러(약 1,400억 원) 규모까지 끌어올린다. Waytek의 이 성공을 지켜보던 미국의 휴머노이드 로봇 기업들—예컨대 Noumena 같은 회사—는 중요한 사실을 깨닫는다.
값비싼 휴머노이드 로봇은 단순 작업에서는 값싸고 대량 생산 가능한 중국산 하드웨어와 절대 경쟁이 되지 않는다는 점이다. 따라서 이들이 성공하려면 Waytek이 접근조차 못 하는 영역, 즉 휴머노이드가 4배 비싼 가격을 정당화할 만큼 복잡한 ‘일반 작업(General tasks)’을 공략해야만 한다.
Waytek, 연간 매출 100억 달러까지 스케일
규모가 커질수록 Waytek은 데이터 수집 방식을 텔레오퍼레이션 중심에서 엑소스켈레톤* 중심으로 점차 전환한다. 텔레오퍼레이션은 장비도 비싸고 운영 난이도도 높은 반면, 엑소스켈레톤은 훨씬 저렴하면서도 인간 수준의 정교한 움직임을 그대로 기록할 수 있어, 더 고품질의 데이터를 안정적으로 확보할 수 있기 때문이다.
* 엑소스켈레톤(Exoskeleton): 신체 바깥에 착용하는 외부 골격 장치로, 사용자의 힘을 보조하거나 정교한 동작을 그대로 캡처하는 데 활용된다.
텔레오퍼레이션과 엑소스켈레톤의 상충 관계
Physical Intelligence의 Pi0와 0.5 연구는 텔레오퍼레이션 데이터에 VLM* 백본을 결합하면 동일 도메인 내에서는 꽤 높은 수준의 일반화가 가능하며, 기본적인 작업들을 안정적으로 수행할 수 있음을 보여줬다.
* VLM(Vision-Language Model):영상(vision)과 언어(language)를 동시에 이해하는 모델. 예를 들어:
“책상 오른쪽 뒤에 있는 노란 컵 좀 집어줘.” 라고 말하면,
카메라 영상 분석 — 책상, 오른쪽, 뒤, 노란 컵의 위치를 파악하고
언어 이해 — 사용자가 무엇을, 어떻게 하라는지 해석한 뒤
두 정보를 결합해 판단 — “노란 컵을 집으려면 로봇 팔을 어디로 움직여야 할까?”까지 생각.
여기에 행동(action)까지 직접 결정해 실제로 움직일 수 있도록 확장한 개념이 바로 위에서 설명한 VLA(Vision-Language-Action)이다.
Dyna Robotics의 Dynamism-1은 여기에 여러 기술적 발전을 더해, 텔레오퍼레이션 기반 모델만으로도 작업 신뢰도 99.99%, 24시간 동안 인간 속도의 50% 이상으로 옷 개기 작업을 수행할 수 있음을 증명했다.
여기서 얻는 핵심 통찰은 매우 단순하다:
극도로 안정적이고 좁은 범위의 작업을 자동화하는 데에는 AGI가 필요하지 않다.
FigureAI의 Helix 역시 텔레오퍼레이션만으로도 물류 영역에서 인간 수준의 손재주와 높은 신뢰도를 달성할 수 있음을 보여줬다.
엑소스켈레톤 방식은 아직 상업적으로 뚜렷한 성과를 내진 못했지만, Dexop 엑소스켈레톤과 Dexcap 글러브 같은 연구가 보여주듯, 엑소스켈레톤 데이터 역시 텔레오퍼레이션에 뒤지지 않는 품질로 학습에 활용될 수 있다.
단, 중요한 조건이 하나 있다. 엑소스켈레톤에서 얻은 시각 정보와 엔드 이펙터(end-effector) 움직임이 실제로 사용할 로봇 팔과 형태적으로 동일해야 한다는 점*이다. 즉, 사람의 움직임과 로봇의 움직임이 1:1로 대응 가능해야 엑소스켈레톤 데이터를 그대로 쓸 수 있다는 뜻이다.
*사람의 동작 데이터를 로봇이 그대로 재현하기 어렵기 때문이다. 예를 들어 사람 손은 관절과 자유도가 매우 많지만, 로봇 팔은 관절 수가 훨씬 적거나 단순한 그리퍼를 사용하는 등 구조가 전혀 다르다. 형태가 다르면 동일한 움직임 자체를 구현할 수 없어, 사람 손으로 수집한 엑소스켈레톤 데이터를 그대로 활용하기 어렵다.
수천 대 규모로 로봇이 배치되기 시작하면서, Waytek은 AI 모델을 평가하고 개발 속도를 높이기 위해 작업별(world model) 시뮬레이션 영상*을 훈련해 활용한다. AI가 실제 환경처럼 상호작용하며 테스트할 수 있는 작은 가상 세계를 만드는 것이다.
또한 대규모 배치 덕분에 강화학습에 쓸 데이터가 폭발적으로 늘어나면서, 각 좁은 작업(narrow task)의 성능은 수개월에 걸쳐 꾸준히 향상된다.
운영 측면의 어려움도 여전하다. 새로운 시설마다 얽혀 있는 복잡하고 지저분한 운영 흐름에 로봇을 끼워 넣는 일은 결코 쉽지 않다. 로봇이 멈추거나 오작동하거나 고장 나면 결국 사람이 개입해야 한다. 그럼에도 불구하고, 처음에는 망설이던 기업들조차 더 싼 로봇 노동력의 매력을 끝내 거부하지 못한다.
좁은 영역에서의 포스트트레이닝 병목을 해결한 뒤, Waytek의 로봇들은 성능을 계속 끌어올려 인간 속도의 80%에서 90%, 95%까지 도달한다. 같은 버티컬에서 더 많은 시나리오를 경험할수록, Waytek의 배치 속도도 점점 빨라진다. 그렇게 5년 동안 Waytek 같은 버티컬 로보틱스 기업들은 산업 세탁물 개기, 호텔 타월 개기, 기본 식품 가공, 창고 소포 분류와 같은 좁은 작업들을 자동화하며 수십억 달러 규모의 임금 수익을 올리게 된다.
2030년이 되면 Waytek은 배치된 로봇 수가 10만 대를 넘어선다. 하지만 확장의 속도는 데이터를 얼마나 빨리 수집하느냐, 기업의 기존 운영 흐름에 얼마나 효율적으로 통합하느냐가 병목이 된다. 로봇을 실제 노동 환경에 녹여내는 일은, AI 자체를 개선하는 문제만큼이나 시간이 오래 걸린다. 그럼에도 불구하고, Waytek은 새로운 버티컬로 확장하지 않더라도 여전히 성장 여력이 크게 남아 있다.
중국 제조업 생태계가 불붙기 시작한다
Waytek과 그 복제 버티컬 로보틱스 기업들이 빠르게 성장하며 중국산 하드웨어를 수십억 달러 규모로 소모하자, 거대한 그림자가 드리우기 시작한다. 중국의 로봇 제조 공급망은 라이트의 법칙(Wright’s law)을 따른다. 즉, 누적 생산량이 두 배가 될 때마다 제조 비용이 약 20%씩 떨어진다. 값싼 하드웨어에 대한 수요가 커질수록 중국이 미국에 대해 가지는 우위도 더 크게 벌어진다.
중국 정부는 이미 제조업 등 주요 산업에서 육체 노동 자동화를 의무화했고, 이 목표를 중심으로 경제 전반을 재정렬하고 있다. 사실상 이 방향으로 갈 수밖에 없는 구조다. 중국은 급격한 고령화로 인해, 제때 물리 노동을 자동화하지 못할 경우 국가 전체가 심각한 위기를 맞게 된다. 자동화는 선택이 아니라 생존 전략이 된 셈이다.
중국의 지배적 국가 전략
중국의 전형적인 국가 전략은 단순하다. “보조금을 아낌없이 투입해 경쟁자들을 시장에서 완전히 밀어낸다.” 이 방식은 희토류 정제 산업에서 이미 성공했고, 로봇 산업에서도 동일한 전략이 반복되고 있다. 중국 정부가 목표를 정하면, 시장의 자본은 그 목표를 중심으로 움직인다.
중국은 2027년까지 산업 분야 70% 자동화, 2030년까지 전체 노동력의 90% 자동화를 목표로 하고 있으며, 휴머노이드 로봇 생산은 이미 국가 최우선 과제로 올라가 있다. 급격한 고령화는 오히려 중국에게 ‘강력한 동기’가 된다. 자동화를 하지 못하면, 그 일을 대신할 젊은 노동력이 턱없이 부족하기 때문이다.
현재 중국이 보유한 지배적 우위는 다음과 같다:
글로벌 리튬이온 배터리 생산의 80% (CATL/BYD)
코발트·리튬·흑연·네오디뮴 등 핵심 광물 정제의 80–90% (로봇의 액추에이터*·배터리·배선에 필수적인 소재)
전 세계 로봇 설치의 50%
전 세계 전력 생산의 30%
반면 미국은 관료주의와 잘못 설계된 인센티브 구조에 발목이 잡혀 있다. 대표적인 예가 ‘위스콘신 폭스콘 사태’다. 1만 3,000개의 일자리와 48억 달러 인센티브를 약속했던 100억 달러 공장은, 결국 직원 약 1,000명 규모의 소형 시설로 쪼그라들고 말았다. 최근 데이터센터 건설 붐이 미국 건설 산업을 다시 살려내고 있지만, 이런 구조적 문제가 완전히 해소되지는 않았다.
* 엑추에이터(actuator): 로봇의 관절, 손가락, 밸브 등을 실제로 움직이게 하는 구동 장치.
국가 보조금을 등에 업은 중국의 자본 배분자들은 중국판 Waytek을 만들기 시작했고, 그 첫 사례가 바로 Waytek의 중국 버전이라 할 수 있는 Xiaoai Automation이다. 중국은 미국보다 하드웨어 비용이 훨씬 낮고, 데이터 수집 노동자 임금도 매우 저렴하다.
이 때문에 미국은 중국이 이미 굳혀놓은 초저가 로봇 하드웨어 공급망과 경쟁하기가 점점 어려워진다. 미국 정부도 AI만으로도 충분히 위협적이라는 사실은 알고 있었지만, 중국산 액추에이터 가격이 미국산의 1/20 수준까지 떨어지자, 미국이 제조 역량에서 얼마나 뒤처져 있는지를 비로소 실감하게 된다.
여기에 중국이 자국산 로봇에 백도어*를 심기 시작하면서, 미국은 수백만 대의 중국산 로봇이 미국 땅에 깔리는 상황이 국가 안보에 직결된 위협이 될 수 있음을 깨닫게 된다.
* 백도어: 기기나 시스템을 몰래 통제하거나 접근할 수 있도록 숨겨둔 비밀 통로.
일자리를 잃은 노동자들이 ‘AI 사회주의(AI Socialism)’를 주장하다
미국에서는 자동화로 일자리를 잃은 노동자들이, AI로 인해 대체된 화이트칼라 노동자들과 연합해 UBI(기본소득)을 요구하는 운동을 조직한다. 이른바 ‘AI 사회주의자(AI Socialists)’는 AI 자동화 피해자를 위한 기본소득 정책을 처음으로 강하게 밀어붙이는 집단이 된다.
2025년에 등장한 “clanker(로봇 혐오자)” 밈으로 시작된 반(反)AI 정서는 시간이 지날수록 커지고, 점점 더 거세고 조직적인 사회운동으로 발전한다. 로보틱스 기업들은 감정 없는 냉혹한 회사, 노동자의 생계를 빼앗아 부를 축적하는 존재로 비춰지기 시작한다.
Waytek은 악화되는 여론을 인식하고, 매출의 일부를 자동화로 밀려난 노동자들에게 직접 환원하는 프로그램을 만들기로 결정한다.
한편, Waytek은 좁은 작업 영역을 넘어 더 다양한 작업으로 확장하고 싶지만 현실적으로 불가능하다. 한 산업 분야의 한 직무를 자동화하는 데만도 수개월의 데이터 수집과 복잡한 운영 통합 과정이 필요하기 때문이다. GPT-5급의 EG(Embodied General, 구현된 일반지능)에 도달하려면 10년 이상과 수십억 달러가 필요하다.
텔레오퍼레이션과 엑소스켈레톤 방식은 결코 일반지능으로 확장될 수 없는 구조적 한계를 갖고 있다. 로보틱스가 ‘일반성(generality)’을 달성하려면, 지금과는 완전히 다른 접근이 필요하다.
2027–2032: 휴머노이드 시대
각 시대는 고유한 흐름을 갖지만, 서로 겹치며 동시에 전개된다.
Noumena, 인간 영상으로 Waytek을 추월하다
2027년이 되면 미국의 휴머노이드 기업 Noumena는 이미 오래전에 텔레오퍼레이션과 엑소스켈레톤을 버렸다. 이들은 학계 연구에서 영감을 받아 더 확장 가능한 대안, 즉 인간 영상 기반 학습을 선택한다. 이 고수준 방법론은 학계에서 이미 입증된 방식이다. 사람이 일을 하는 모습을 영상으로 촬영하고, 그 영상에서 의미 있는 동작(action) 데이터를 추출한 뒤, 그 데이터를 모방하도록 대규모 모델을 학습시키는 방식이다.
영상 학습은 훨씬 확장성이 좋다. 큰 장비를 쓸 필요도 없고, 노동자들은 평소처럼 일하기만 하면 되며, 여러 대의 카메라가 그 모습을 수동적으로 기록하면 된다. 4만 달러짜리 장비나 5천 달러짜리 엑소스켈레톤 대신, 노동자 한 명당 75달러짜리 카메라 2–4대면 충분하다. 기업 입장에서도 기존 운영 방식을 바꿀 필요가 없다.
영상 학습을 통해 Noumena는 제조·농업·건설처럼 더 어려운 작업에 대한 데이터를 수집할 수 있다. 이런 작업들은 완전한 일반 작업보다는 쉽지만(추론이나 장기 기억이 필요 없기 때문), Waytek이 목표로 했던 좁은 작업보다는 변동성이 크다. 그리고 중국산 그리퍼·모바일 베이스 기반 하드웨어를 사용하는 Waytek은 인간 데이터로부터의 학습 전이가 매우 좋지 않기 때문에, 인간 영상 기반 학습을 활용할 수 없다.
Noumena가 포스트트레이닝을 해결하다
로봇이 수천 대 규모로 배치되기 시작하자, Noumena는 포스트트레이닝의 제약을 두 가지 방식으로 해결한다. 하나는 실제 세계에서, 또 하나는 신경망이 생성한 월드 모델 내부에서다.
각 도메인별 신경망 월드 모델은, 배치된 로봇이 실제로 쌓아 올린 수백만 시간 분량의 상호작용 데이터를 기반으로 학습된다. 기존의 시뮬레이션은 현실 세계의 복잡성을 제대로 포착하지 못했지만, 월드 모델은 학습 데이터와 파라미터 규모가 커질수록 현실 환경의 특이한 상황들까지 더 정교하게 재현해낸다.
Noumena는 이렇게 만들어진 작업별 월드 모델에서 강화학습을 돌려 방대한 상호작용 데이터를 축적하고, 그 결과 로봇의 작업 속도를 인간 대비 80% 수준에서 100% 이상으로 끌어올린다.
왜 월드 모델에서 강화학습(RL)을 사용하는가?
Dreamer 4는 월드 모델 기반 RL이 유효하다는 강력한 사례를 제시한다. Dreamer는 마인크래프트 환경을 월드 모델로 학습한 뒤, RL을 실제 게임이 아닌 월드 모델 내부에서만 수행했다. 그럼에도 불구하고, 그 학습된 정책(policy)은 실제 게임에서도 의미 있는 행동으로 전이되어 다이아몬드 채굴에 성공했다. 연구진은 이 아이디어를 로보틱스에도 확장해, 어느 정도 실질적인 성과를 얻었다.
문제는, 1인칭 시점 영상에는 행동 정보가 명확하게 드러나지 않는다는 점이다. 그래서 월드 모델을 만들 때 1인칭 영상을 그대로 쓰면 큰 도움이 되지 않는다. 다만, 소량의 ‘행동 라벨이 붙은 1인칭 영상’을 이용해 행동 오토라벨러(action autolabeler)를 학습시키는 방식은 가능하다.
Genie 3와 Veo 3는 우리가 신뢰할 만한 월드 모델에 도달하기까지 남은 거리가 생각보다 멀지 않음을 보여준다.
Dreamer 4 역시 “sim2real(시뮬레이션의 학습을 현실 세계로 전이)”가 충분히 가능한 영역 안에 있음을 입증했다. 월드 모델의 물리 정확도는 지금도 매우 빠르게 정밀해지고 있고, 마지막으로 남은 과제는 행동 공간(action space)의 정확도다. 이 문제는 결국, 실제로 배치된 로봇의 움직임 데이터를 자연스러운 주기 속에서 지속적으로 기록하면 해결된다.
인간 데이터는 특정 하드웨어에 종속되지 않기 때문에, 예를 들어 액추에이터의 마찰이 조금 다르거나 하드웨어 특성이 미세하게 달라도 모델이 적응할 수 있도록 강화학습(RL)이 함께 사용된다. 로봇이 더 많이 배치되고, 강화학습에 투입되는 데이터 규모가 커질수록 포스트트레이닝은 점점 더 강력하게 작동한다.
Noumena, 여러 버티컬로 확장하다
작업별 프리트레이닝과 포스트트레이닝 전략이 모두 성공적으로 돌아가자, Noumena는 이 공식을 적용할 수 있는 모든 산업 분야로 확장하기 시작한다. Noumena에게는 목표 도메인의 인간 영상 데이터를 확보하는 것이 배치의 필수 전제 조건이며, ‘제로샷*’ 배치는 여전히 불가능하다. 결국 배치 속도를 결정하는 절대적 병목은 특정 작업과 도메인에 대한 데이터임을 깨닫는다.
* 제로샷(Zero-shot): 한 번도 본 적 없는 작업을 추가 데이터나 훈련 없이 바로 수행하는 능력.
이미 XSize 같은 데이터 회사들은 이 사실을 수년 전에 간파해 큰 성장을 이뤘다. XSize는 특정 작업에 특화된 방대한 인간 작업 영상을 휴머노이드 기업들에게 판매하고, 기업들은 그 데이터를 기반으로 해당 도메인에 정확히 맞는 로봇을 배치한다.
XSize는 계속해서 다양한 산업과 계약을 맺고 현장 곳곳에 카메라를 설치해 노동자를 기록하며, 그 데이터를 휴머노이드 기업에 제공한다. 이렇게 XSize는 동일한 사이트에서 로봇 배치까지 함께 조율한다. 수천 개의 이런 “전진 배치형 데이터 기업”들이 일종의 인터페이스 역할을 수행하며 휴머노이드 로봇의 실제 세계 배치를 폭발적으로 가속한다.
로보틱스 데이터 회사들의 TAM(총주소 시장 규모)은 어느 정도일까?
각 작업(job)에 약 1만 시간의 파인튜닝 데이터가 필요하다고 가정해보자. 이는 노동자 100명이 100시간 동안 데이터를 수집해야 한다는 의미이며, 시간당 60달러(약 8만 원)로 계산하면 작업 하나당 약 60만 달러(약 8억 원)가 든다.
중요한 점은, 이 비용이 각 세부 작업(subtask)마다 별도로 필요하다는 것이다. 그리고 세부 작업의 종류는 상상을 초월할 만큼 많다.
이 중간 영역(mid-section)은 대부분 산업 분야로, 이런 데이터는 인터넷 어디에도 존재하지 않는다. 따라서 이러한 데이터 수집 기반 모델은 향후 더 고도화되는 단계까지도 계속 유지된다.
이 작업별 배치 루프는 수동적으로 계속 이어지며, 여러 해에 걸쳐 규모가 수십억 단위로 성장한다. 배치된 로봇 플릿*에 대한 지속적인 강화학습은 각 작업 성능을 끝없이 끌어올리는 영구적인 성장 원천으로 작동한다.
* 로봇 플릿: 다수의 로봇을 중앙에서 공동 운영·스케줄링하는 관리 체계
예상하듯, 제조·농업처럼 더 단순한 작업부터 먼저 자동화되고, 노동자들은 광업이나 건설처럼 훨씬 더 힘들고 고된 작업만 맡게 된다. 그러나 Noumena의 휴머노이드들은 여전히 제로샷 배치에 근접하지 못하고 있으며, Noumena는 ‘일반성(generality)’ 퍼즐에서 여전히 결정적으로 부족한 조각이 있다는 사실을 깨닫는다.
대규모 제조 및 추론 비용은 얼마나 될까? 또, 제조 비용과 추론 비용은 규모가 커질수록 어떻게 변할까?
저가형 로봇 한 대의 제조 단가는 약 2만 달러(약 2,700만 원) 수준이며, 미국산 휴머노이드는 현재 10만~20만 달러(약 1억 3천만~2억 7천만 원) 범위에 있다. 리튬이온 배터리는 kWh당 약 100달러이고, 전기차가 약 40kWh라면 휴머노이드 로봇은 약 20kWh 정도일 가능성이 높다. 즉, 배터리 가격만 약 2,000달러다.
또한 액추에이터는 개당 약 1,500달러이며 로봇 한 대에 최소 10~20개가 필요하므로, 액추에이터 비용만 1.5만~3만 달러에 이른다. 로봇에서 가장 비싼 부품은 ‘손’이다. 그래서 값싼 중국 하드웨어들은 전부 단순 그리퍼를 사용한다.
참고로 테슬라는 자동차를 주당 약 4만 5,000대, BYD는 주당 10만 대 생산한다. 로봇 시장은 이보다 잠재 수요가 몇 자릿수 이상 더 크기 때문에, 생산량은 장기적으로 주당 수억 대 규모까지도 갈 수 있다.
각 로봇은
온보드 컴퓨트(로컬 추론) — 로봇 내부 장치에서 직접 모델을 실행하거나
데이터센터 컴퓨트(원격 추론) — 외부 서버에서 모델을 실행하는 방식을 사용해야 한다.
원격 추론은 여러 로봇의 요청을 배치(batch) 해 처리할 수 있어 비용이 저렴해진다. 반면, 실시간으로 즉시 반응해야 하는 ‘온라인 추론’ 작업은 배치 처리할 수 없기 때문에 비용이 더 비싸다. (온라인 추론은 로컬·원격 어느 쪽에서든 발생할 수 있는 개념이다.)
대형 기업들은 자체 추론 하드웨어(Cerebras, Groq, Tesla, OpenAI, Google 등)를 제작하고 있으며, 중소 기업들은 NVIDIA Jetson 시리즈를 주로 사용한다.
로봇 제어 모델이 매 타임스텝마다 입력 40토큰, 출력 10토큰을 처리하고, 이 과정이 60Hz로 실행된다고 가정하면 초당 2,400개의 입력 토큰과 150개의 출력 토큰을 다루게 된다. 이 속도를 한 시간으로 환산하면 입력 토큰은 약 860만 개, 출력 토큰은 약 64만 개에 해당한다. GPT 기준 가격(입력 백만 토큰당 12달러, 출력 백만 토큰당 3달러)을 적용하면 로봇 한 대가 한 시간 동안 움직이는 데 필요한 추론 비용은 약 100달러, 즉 약 13만 원 정도가 된다.
하지만 이 숫자는 사실상 지금 상황을 잘 반영하지 못한다. 이유는 간단하다. 추론 비용 자체가 매년 10배 이상 떨어지고 있기 때문이다. 이런 추세가 유지된다면, 2030년에는 지금의 시간당 100달러가 거의 의미 없는 수준인 0.0001달러까지 내려가게 된다.
따라서 로봇 1만 대를 24시간 운영한다고 가정하면, 지금은 시간당 약 100만 달러가 들겠지만 2030년에는 같은 규모를 운영하는 데 시간당 겨우 1달러만 필요해지는 셈이다.
미국이 액추에이터 제조를 지배하며 재산업화에 성공하다
상위 레벨의 Type I 제조 작업 (정교하고 복잡한 고난도 작업) 과 하위 레벨의 Type II 제조 작업 (단순 반복 작업) 이 모두 자동화되면서, 미국은 “로봇이 로봇을 만드는 데 필요한 모든 단계”를 스스로 수행할 수 있는 고리를 완성한다. 로봇이 제조업에서 인간의 역할을 대신할 수 있게 된 순간, 미국은 산업 구조가 급격히 뒤집히는 중대한 전환점을 맞이한다.
이 흐름의 핵심은 ‘자기강화적 성장’이다. 자기개선형 AI가 AI 연구를 스스로 자동화하며 지능이 폭발적으로 증가하듯, 제조에 특화된 로봇도 로봇 생산 과정을 자동화하며 지수적으로 성장한다. AI가 자기강화적 지능 곡선을 만든다면, 로봇은 자기강화적 제조 곡선을 만든다. 여기에 제조량이 두 배로 늘 때마다 비용이 20%씩 감소하는 ‘라이트의 법칙’까지 더해지면서 성장 속도는 더욱 가속된다.
하지만 이 곡선은 시작하자마자 폭발하지 않는다. AI 성장이 연산(컴퓨트) 자원의 한계로 막히는 것처럼, 로봇 제조의 성장도 여러 현실적 제약에 의해 막힌다. 조직 운영의 복잡성, 공장 설계의 난이도, 기존 자동화 설비와의 통합, 그리고 가장 중요한 투입 자원—이를테면 금속 가공, 부품 생산, 물류처럼 인간 노동과 물리적 처리 능력에 의존하는 부분—이 속도를 제한한다.
그래서 인간 제조 노동을 자동화했다고 해서 성장 곡선이 곧바로 폭발하는 것은 아니다. 자기강화 루프가 본격적으로 작동하기까지는 지금 시점 기준으로 10~15년 정도의 시간이 더 필요하다. 현재 로봇 액추에이터 제조의 약 60%가 여전히 인간 노동에 의존하고 있는 것이 대표적인 이유다.
미국 정부는 이제 AI 우위를 하드웨어 우위로 전환할 수 있는 기회를 발견한다. 중국의 희토류 정제 전략과 마찬가지로, 미국은 자동화·보조금·지배 전략을 통해 제조 성장 루프의 출발점을 ‘액추에이터 제조’라는 핵심 버티컬에서 잡기 시작한다.
미국 정부는 이제 자국의 AI 기술 우위를 하드웨어 우위로 전환할 기회가 왔다고 판단한다. 중국이 희토류 정제 산업을 장악할 때 사용했던 전략—대규모 자동화, 강력한 보조금, 시장 지배—을 그대로 적용해, 제조 성장 루프의 출발점을 ‘액추에이터 제조’라는 핵심 버티컬로 잡으려는 것이다.
미국은 중국 전체 제조 생태계와 정면으로 맞붙는 것은 불가능에 가깝다는 사실을 깨닫고, 결국 가장 전략적이고 영향력이 큰 단 하나의 하위 분야에 모든 자원을 집중해야 한다는 결론에 도달한다.
액추에이터는 로봇 비용의 30~50%를 차지하는 가장 비싼 부품이며, 제조 공정의 약 60%가 고비용의 인간 노동에 의존한다. 다시 말해, 로봇으로 로봇을 만드는 자동화를 가장 먼저 적용하기 좋은 분야다.
중국이 약 100억 달러의 보조금을 통해 희토류 정제의 90%, 자석 생산의 98%를 장악했듯이, 미국도 워싱턴 D.C. 주도로 액추에이터 제조 지배를 위한 수십억 달러 규모의 투자를 약속한다.
미국이 참고해야 할 일본의 CNC 전략과 중국의 희토류 전략
중국의 희토류 정제 전략이나 일본의 CNC 전략에서 보듯, 미국 역시 제조 성장 루프를 시작하려면 액추에이터 제조 같은 핵심 버티컬에 보조금을 과감히 투입하고, 자동화를 앞세워 시장을 장악하는 방식을 택할 수 있다. 말 그대로, 경쟁이 무너질 때까지 보조금을 퍼붓는 전략이다. 일본이 걸어온 길을 보면, 미국이 ‘기계가 기계를 만드는’ 체제로 전환해 갈 가능성을 충분히 그려볼 수 있다.
일본의 FANUC은 1960년대부터 일본 기계 OEM이 밀집한 생태계를 기반으로 CNC, 즉 전통적 로봇 제조 기술을 대규모로 확장해왔다. 그 결과, 일본은 지금 세계 2위의 로봇 설치 시장이자 전 세계 로봇의 약 38%를 수출하는 국가가 되었고, FANUC은 전 세계 CNC 기계 시장의 50~60%를 장악하고 있다. Nabtesco 역시 중·대형 로봇 관절에 쓰이는 RV 감속기 시장의 약 60%를 차지하며, Harmonic Drive Systems의 고성능 스트레인 웨이브 기어는 휴머노이드 로봇에서 사실상 대체 불가능한 핵심 부품이 되었다.
결국, 중국의 희토류 전략이나 일본의 CNC 전략처럼 미국도 액추에이터 제조 같은 특정 버티컬을 초과 지원해 지배권을 확보하는 길을 선택할 수 있다.
Noumena와 Unioak, 수백만 대 규모로 휴머노이드를 생산하다
Noumena는 이미 수년 전부터 자체 휴머노이드 제조 시설을 구축해 왔다. 그리고 이 시설에서 일하던 인간 노동자들의 작업이 가장 먼저 수집되고 자동화된 태스크가 되었다.
미국 정부의 지원을 받은 Noumena는 이제 하모닉 드라이브 액추에이터, 가공된 희토류 금속처럼 로봇 제조에 필요한 핵심 범용 부품을 생산하는 특수 공장까지 짓기 시작한다. 미국 정부는 이 국내 생산 재료에 보조금을 더해 중국산 부품과 경쟁할 수 있도록 지원하며, 동시에 광업·건설·금속 가공 같은 주요 산업 버티컬에 집중한다. 미국도 본격적으로 “기계를 만드는 기계를 만드는 경쟁”에 뛰어든 셈이다.
하지만 문제는 중국이 이 모든 흐름을 이미 오래전부터 준비해 왔다는 점이다. 중국에서 가장 강력한 자원을 보유한 휴머노이드 기업 Unioak은 인간 영상 기반 학습을 통해 ‘춤추는 데모’ 단계를 벗어나 실제 제조 작업으로 이미 전환을 마쳤다. 베이징의 압도적인 지원을 등에 업은 Unioak은 매주 수천 대의 휴머노이드를 생산하며 자국 내 공장 자동화를 가파르게 가속하고 있다.
중국은 희토류 정제를 장악할 때 사용했던 전략을 이번에도 그대로 반복한다. 자동화, 대규모 생산으로 인한 비용 절감, 그리고 정부 보조금을 통한 경쟁사 축출. 가상 AI 분야와 달리, 중국은 미국을 스파이할 필요가 전혀 없었다. 애초부터 앞서 있었고, 그들의 자기 강화 제조 곡선은 미국보다 훨씬 빨리 가속 구간에 진입했다. 미국이 제조를 본격적으로 온쇼어링하기 시작했을 때쯤, 중국은 이미 하모닉 드라이브 유닛 가격을 250달러에서 100달러로 떨어뜨린 상태였다. 미국은 여전히 ‘헤라클레스급’ 난이도의 가파른 싸움을 앞두고 있다.
자동화가 미국에 혼란을 일으키다
해외 경쟁국이 빠르게 성장하는 동안, 워싱턴 D.C.는 또 다른 위기에 직면한다. 미국 인구의 약 10%가 자동화로 일자리를 잃었고, 이는 블루칼라와 화이트칼라 모두를 포함한다. 노동자들은 카메라에 촬영되는 것을 거부한다. 촬영된 뒤 얼마 지나지 않아 그 일이 로봇으로 대체된다는 사실을 잘 알고 있기 때문이다. 거리에서는 “클랭커(Clanker)”라는 비난이 퍼지고 있지만, 아직 로봇이 사람을 직접 상대하는 역할까지 진입한 단계는 아니라 극단적 갈등이나 폭력은 발생하지 않는다.
일자리를 잃은 이들에게는 결국 정부를 통해 보조 소득이 지급된다. 시민들은 Waytek이나 Noumena 같은 자동화 기업이 실직자에게 직접 보상금을 지급하거나, 기본소득(UBI) 재원을 마련하기 위해 이익의 최대 70%까지 높은 세금을 부담해야 한다고 요구한다.
그러나 UBI는 또 다른 역효과를 낳는다. 기본소득이 도입되면 사람들은 “이 정도는 받아야 일할 만하다”라고 생각하는 기준선이 자연스럽게 올라간다. 즉, 아무 일도 하지 않아도 일정 금액을 받기 때문에, 그보다 훨씬 높은 임금을 줘야 사람들이 실제로 일하려 한다. 기업 입장에서는 과거보다 더 높은 임금을 제시해야만 사람을 고용할 수 있는 상황이 되는 것이다.
여기에 더해, 기본소득 재원을 마련하기 위해 기업에 높은 세율이 부과되면, 기업이 사람을 고용할 때 드는 총비용 전체가 증가한다. 단순히 임금만 올라가는 것이 아니라, 세금 부담까지 겹쳐 “사람 한 명을 고용하는 데 드는 비용”이 크게 뛰는 셈이다.
이렇게 되면 기업 입장에서는 자연스럽게 다음과 같은 계산이 성립한다: “사람을 고용하는 건 너무 비싸다 → 차라리 로봇을 쓰는 게 더 싸고 안정적이다.” 즉, 기본소득은 실직자 보호라는 목적을 갖고 있지만, 역설적으로 사람 노동의 가격을 높여 자동화를 더 빠르게 촉진하는 효과까지 만들어낸다.
정치 환경은 이제 거대한 자동화의 흐름에 거의 전적으로 흔들리고 있다. 시민들은 AI가 만든 부를 모두에게 나누고, 자동화 속도를 늦추길 원한다. 반면 기업들은 중국에 빼앗긴 제조 패권을 되찾으려면 가능한 모든 자원을 자동화에 쏟아야 한다고 주장한다. 그들에게는 자동화가 단순한 기술 선택이 아니라 국가 ‘존립’의 문제다.
하지만 2020년대 초반부터 이어진 흐름은 멈추지 않는다. 소득 불평등은 더 극심해지고, 평균적인 미국인의 삶은 부모 세대보다 확실히 나빠졌다. 문화적으로도, 경제적으로도 정치적 균열은 갈수록 깊어진다.
사람들은 결국 하나의 해답을 바라보게 된다. 완전한 자동화, 그리고 모두가 누릴 수 있는 충분한 소득. 그러나 지금의 방식만으로는 진정한 ‘일반 시스템’에 다다를 기미가 보이지 않는다. 이유는 단순하다. 데이터의 다양성이 아직 절대적으로 부족하기 때문이다.
일반화된 구현지능(EGI)은 지구상의 모든 작업을 학습하고 일반화할 수 있어야 한다. 그리고 그것을 가능하게 만들 단 하나의 거대한 데이터 원천—아직 한 번도 제대로 사용되지 않은 그 데이터—를 향해 모든 길이 이어지고 있다.
2031–2045: General Intelligence의 시대
AGI의 마지막 병목, ‘적응형 장기 기억(Adaptive Long-Term Memory)’이 해결되다
Noumena 같은 휴머노이드 기업들과 OpenBrain 같은 프런티어 AI 연구소들은 수년 동안 EGI의 마지막 장벽을 어떻게 넘어설지 고민해왔다. 그러던 중 2029년, OpenBrain의 컴퓨터 에이전트 연구자들이 인간 수준의 가상 AI를 막고 있던 최후의 병목—적응형(Adaptive) 장기 기억(LTM)—을 해결한다.
적응형 LTM은 모델을 오랫동안 제한해왔던 ‘긴 컨텍스트 한계’를 근본적으로 깨뜨리며, 인간처럼 진짜 온라인 학습*을 가능하게 한다. 이는 완전히 일반화된 로봇을 만들기 위해 반드시 넘어야 했던 첫 번째 거대한 장애물이었고, 이제 그 장벽이 사라졌다.
이제 EGI를 향한 여정에서 남은 단 하나의 병목은 프리트레이닝뿐이다.
* 온라인 학습: 새로운 경험이나 데이터가 입력될 때마다 실시간으로 모델을 업데이트하여 즉각적으로 적응하는 학습 방식.
왜 장기 기억(Long-Term Memory)이 인간 수준 AI의 병목일까?
그 답은 현재 AI 모델의 한계에서 찾을 수 있다. 지금의 모델들은 짧은 호흡의 작업은 인간보다 뛰어나게 처리하지만, 긴 시간의 흐름과 방대한 문맥을 파악해야 하는 작업에서는 여지없이 실패한다. 바로 이 점 때문에 AI가 아직 인간의 직업을 완전히 대체하지 못하고 있는 것이다.
‘긴 문맥’을 다룬다는 것은 단순히 정보를 오래 저장하는 문제가 아니다. 그것은 어떤 정보가 중요한지 판단하고, 무엇을 기억할지 선별하며, 새로운 정보를 바탕으로 스스로 적응해 나가는 과정이다. 이것이 바로 온라인 학습의 본질이다.
인간과 AI 모델의 결정적 차이인 장기 작업(Long-horizon tasks)을 수행하려면 다음 두 가지 조건이 충족되어야 하는데, 현재 모델은 여기서 인간에게 뒤쳐진다.
모델은 인간처럼 실시간으로 적응하는 ‘온라인 학습’을 하지 못한다.
모델이 한 번에 유지할 수 있는 문맥(Context)의 양이 매우 제한적이다.
적응형 장기 기억(ALTM, Adaptive Long-Term Memory)은 이 두 문제를 모두 해결한다. ALTM의 핵심은 ’지속 가능한 데이터베이스에 대해 자유롭게 읽고 쓰는(Read-Write) 능력’이다. 이론적으로 모델은 이미 이런 접근이 가능하다. 그렇다면 도대체 무엇이 문제일까?
가장 큰 난관은 모델이 자신의 기억 활동을 토대로 ‘학습’할 수 없다는 점이다. 기술적으로 데이터베이스 접근 과정이 ‘미분 불가능(Non-differentiable)’하여 학습 알고리즘(역전파)을 적용할 수 없기 때문이다. 따라서 ALTM의 핵심 과제는 모델이 데이터베이스를 무작정 채우는 것이 아니라, 최적의 방식으로 활용하도록 학습시키는 것이다. 즉, 나중에 정보를 쉽게 찾을 수 있도록 ‘잘 저장하는 법’을 배워야 한다. 현재 방식들이 실패하는 이유는 모든 정보를 중요도 구분 없이 무작정 저장하기 때문이다.
기억(Memory)의 본질: 무엇이 중요한가?
결국 기억의 문제는 “무엇을 저장할 것인가?”와 “필요한 정보를 어떻게 다시 찾아낼 것인가?”라는 두 가지 질문으로 요약된다. 이 둘은 모두 하나의 근본적인 질문으로 귀결된다.
“지금 이 상황(문맥)에서 무엇이 중요한가?”
따라서 장기 기억 기술의 진정한 병목은 미분 가능한(학습 가능한) 데이터베이스 읽기/쓰기 연산을 구현하는 것이다. 이것이 가능해지면, 모델은 인간처럼 끊임없이 “무엇이 중요한지”에 대한 판단을 업데이트하고, 그에 따라 자신의 기억 저장소를 갱신, 합성, 재구성할 수 있게 된다.
ALTM은 곧 인간의 온라인 학습 그 자체다. 우리에게 ‘인컨텍스트 러닝(문맥 기반 학습)’이란 살아오며 겪은 평생의 경험을 통해 배우는 과정과 같다. 강화학습(RL)도 도움이 되지만, 정보 효율이 낮고 피드백 신호가 약해 온라인 학습을 완벽히 대체하기에는 이상적이지 않다.
OpenBrain, 로보틱스 프리트레이닝의 난제를 풀다
로봇 프리트레이닝을 확장 가능한 수준으로 끌어올릴 실마리는 OpenBrain의 비디오 모델 ‘Soreo 4’에서 처음 발견되었다. Soreo 4는 텍스트 명령어(Prompt)만으로 인간의 자연스러운 움직임이 담긴 영상을 생성해낼 수 있었다. 뒤이어 등장한 ‘Veo’는 한 단계 더 나아가, 로봇 손이 사물을 조작하거나 상황과 사용자 입력에 맞춰 미세하게 조정하는 모습까지, 실제 로봇과 구별하기 힘들 만큼 정교한 손동작을 구현해냈다. Soreo와 Veo는 텍스트와 물리적 세계의 문맥을 이해하고, 그에 맞는 지능적인 1인칭 시점의 움직임을 일관되게 만들어낸 것이다.
비디오 모델 속에 숨겨진 ‘행동(Action)’ 이 과정을 지켜보던 OpenBrain의 연구진은 결정적인 사실을 깨닫는다.
“비디오 모델은 이미 그 내부에 ‘행동 모델(Action Model)’을 암묵적으로 포함하고 있다.”
2025년에 쏟아져 나온 증거들은 비디오 예측 기반의 프리트레이닝이, 비록 작은 규모라 할지라도 비약적인 성능 향상을 가져온다는 사실을 증명하고 있었다. 이제 문제의 핵심은 “이 방대한 비디오 데이터 속에서 실제 로봇을 제어할 수 있는 ‘파운데이션 모델’을 얼마나 강력하게 추출해낼 수 있는가?”로 전환되었다.
Sutton의 《The Bitter Lesson》이 말했듯, 계산(컴퓨트)과 함께 확장되는 알고리즘이 결국 승리한다.인간이 데이터를 억지로 가공하고 규칙을 만들어 주입하는 방식보다, 막대한 연산량을 투입해 알고리즘이 날것의 데이터로부터 직접 학습하게 만드는 방식이 훨씬 우월하다는 진리다.
OpenBrain의 연구자들은 수년간의 치열한 시도 끝에 마침내 이 퍼즐을 풀어낸다. 그리고 로보틱스 프리트레이닝이라는 거대한 장벽을 넘을 수 있는 ‘일반화된 해법(General Solution)’을 세상에 내놓는다.
비디오 모델과 월드 모델의 스케일링
Sora나 Veo 같은 초대형 비디오 모델에 적용되는 구체적인 ‘스케일링 법칙’은 아직 공개되지 않았다. 하지만 우리는 시간의 흐름에 따른 정성적 관찰만으로도 그 위력을 충분히 실감할 수 있다. 불과 1년도 안 되는 짧은 시간 안에 Sora는 버전 1에서 2로 진화했고, 그 과정에서 영상의 품질은 비약적으로 도약했다.
구글의 Genie 모델 역시 마찬가지다. 버전 1에서 2를 거쳐 3으로 발전하는 데 걸린 시간은 고작 1년 6개월이었다. 그 짧은 기간 동안 Genie는 조잡한 2D 비디오 게임 수준을 넘어, 사실적인 3D 세계를 생성해내는 단계로 퀀텀 점프했다.
현재 시점에서는 화살표 키로 조작하는 비디오 게임 데이터가 실제 로봇 데이터보다 압도적으로 풍부하다. 하지만, 머지않아 이 데이터의 우위는 역전될 것이며 로봇 데이터가 폭발적으로 늘어나는 시점이 곧 도래할 것이다.
이제 EGI 실현을 위한 세 가지 핵심 조건인 장기 기억, 온라인 학습, 그리고 프리트레이닝 문제가 모두 해결되었다. 이 세 가지 해법이 결합된 지점에서, OpenBrain은 인간의 능력을 온전히 갖춘 최초의 AI 모델을 구축해낸다. 신체를 가진 AI는 마침내 진정한 의미의 ‘일반성(Generality)’을 획득했고, 이로써 EGI는 기술적으로 완성 단계에 도달했다.
OpenBrain, EGI의 대규모 확장
OpenBrain의 새로운 EGI 모델은 낯선 환경에서도 대부분의 작업을 인간 평균 수준으로 수행하는 데 성공했다. 이는 실제 현장에서 인간의 노동력을 대체하기에 충분한 역량이었다.
모델의 완성을 예견했던 OpenBrain은, 이에 대비해 중국의 저가 휴머노이드 제조사를 사전에 인수해 둔 상태였다. 하드웨어 경쟁사인 Noumena와 대등하게 겨루기 위해서는 자체적인 생산 능력이 필수적이었기 때문이다. OpenBrain은 이미 1년 전부터 로봇의 대량 생산에 돌입했으며, 이제 본격적인 현장 배치를 목전에 두고 있다. 초기 배치 대상은 제조 및 건설 현장, 그리고 고객을 직접 대면하지 않는 각종 서비스업의 후방 지원 업무다.
현장에 투입되는 로봇이 늘어날수록 EGI의 핵심인 온라인 학습 능력은 더욱 강력해진다. ‘적응형 장기 기억’ 기술에 더해, 수만 대의 로봇 군단(Fleet)과 범용 월드 모델 ‘Wisher’가 결합되면서, 강화학습은 과거에는 상상할 수 없었던 방대한 규모의 데이터를 실시간으로 처리하게 된다.
비시각적 모달리티의 포함과 스케일링
오디오는 로봇에게 명백히 필요한 모달리티이며, 촉각 또한 일부 상황에서는 물론 일반적인 환경에서도 필요할 가능성이 있다. 오디오는 인터넷 영상에 자연스럽게 포함되어 있어 스케일링에 문제가 없다. 그러나 촉각은 그렇지 않으며 훨씬 큰 문제를 안고 있다. 다만 이 문제는 자동 라벨링 모델을 학습시키는 방식으로 해결 가능하다.
연구소들은 이제 새로운 스케일링 법칙을 확립했다. EGI 모델이 GPT-3 수준을 넘어 GPT-6, GPT-9 수준으로 진화함에 따라, 이 검증된 방법론에 막대한 컴퓨팅 자원을 집중 투자한다.
OpenBrain은 거대해진 모델을 효율화하기 위해 ‘지식 증류(Distillation)*’ 기술을 적극 활용한다. 동시에 하드웨어 성능도 비약적으로 발전하여, 이 시점에는 1조(1T) 파라미터 규모의 거대 모델을 단일 엣지 디바이스(로봇 자체)에서 구동하는 것이 가능해진다.
경쟁사 Noumena 역시 ‘확장 가능한 비디오 모델’ 전략의 중요성을 간파하고 태세를 전환한다. 프리트레이닝 역량은 OpenBrain에 비해 뒤쳐지지만, Noumena는 이미 현장에 수만 대의 로봇을 배치해 둔 상태다. 이는 실제 데이터를 통한 포스트트레이닝분야에서 압도적인 우위를 점하게 해준다.
이제 휴머노이드는 별도의 복잡한 조정 없이 현장에 즉시 투입되며, 작업을 수행하는 동시에 강화학습을 통해 스스로 발전한다. 서비스업, 건설, 광업, 농업을 넘어 의료, 교육, 그리고 가정에 이르기까지, 휴머노이드의 활동 영역은 사회 전반으로 확장된다. 이들은 실시간 온라인 학습을 통해 현실 세계의 상호작용 데이터를 끊임없이 흡수하며, 자신의 지능을 스스로 갱신해 나간다.
휴머노이드 회의론자들도 자신들이 틀렸음을 깨닫는다. 휴머노이드 형태는 단지 “세상이 인간 기준으로 설계돼 있어서” 필요한 것이 아니었다. 비디오 모델은 대부분 인간의 움직임을 예측하고, 인간 영상으로부터 학습하는 기술 역시 인간과 유사한 생체 구조를 필요로 했다.결국 휴머노이드는 EGI에 도달하는 가장 빠른 길이었다.
하나의 두뇌, 다양한 신체
로보틱스 연구자들이 끊임없이 마주하는 질문이 있다.
“결국에는 하나의 거대 모델이 모든 종류의 로봇을 제어하게 될까?”
답은 ‘그렇다’이다. 하지만 그 궁극의 단계까지 가기엔 아직 갈 길이 멀다. 다만 이 시나리오의 시점에서는 이미 ‘거대 범용 로봇 파운데이션 모델’이 등장해 있다. 이 모델은 약간의 포스트트레이닝만 거치면 드론, 자율주행차, 저가형 로봇 팔, 휴머노이드 등 형태를 가리지 않고 다양한 하드웨어를 제어할 수 있다.
이제서야 “하나의 두뇌, 여러 로봇(one brain, many robots)”을 내세우는 회사들이 성공할 수 있는 창이 열린 셈이다(물론 이 논리만으로 성공할 수 있는 건 아니다). 그들은 각 하드웨어에 특화된 데이터셋으로 파인튜닝한 뒤, 현장에 배치해 온라인 강화학습을 통해 특정 하드웨어에 적응시키기만 하면 된다.
인터넷상의 모든 영상으로 학습하는 비디오 모델 덕분에 파운데이션 모델은 강력해졌지만, 실제 응용에서는 여전히 각 embodiment(몸체 형태)에 특화된 데이터로 포스트트레이닝하고, 현장 온라인 강화학습이 필수적이다.
제5차 산업혁명: 로보틱스 기업들의 폭발적 성장
EGI가 등장한 이후에도 Waytek의 저가 로봇은 계속 성장세를 이어간다. 그리고 그 이후 오랜 시간 동안, 거의 모든 산업에는 서로 다른 등급의 로봇들이 깊숙이 퍼져나가게 된다. 기업들은 여전히 상자를 옮기거나 옷을 접는 작업에는 값비싼 인간형 휴머노이드보다, 중국산 저가 고정식 로봇 팔을 더 선호한다. 과거에 싸고 단순한 하드웨어가 충분히 잘 작동했다면, 지금도 이유 없이 고성능 휴머노이드를 쓸 필요가 없다.
각 산업(vertical)은 고유한 브랜드와 목적을 가진 다양한 로봇 클래스를 요구하기 시작한다. 단순 로봇과 휴머노이드 모두 기본형(default), 내구형(durable), 고정밀형(dexterous)의 세 가지 라인업을 갖추고, 여기서 휴머노이드는 더 나아가 소형 서비스 모델, 남성형·여성형 안드로이드, 고기동 전투 모델 등으로 세분화된다.
로봇 형태의 위계
자동차 시장에서 4,000달러짜리 중국산 전기차부터 200만 달러짜리 수제 슈퍼카까지 다양한 가격대와 등급이 존재하듯, 지능형 로봇 바디에도 명확한 위계가 형성된다. 초기에는 한 기업이 특정 형태만 생산하지만, 시간이 지나면 서로 다른 기업들이 서로 다른 형태를 맡게 된다. 그리고 “하나의 파운데이션 모델 + 여러 로봇 바디” 구조가 정착되면, 기업들은 다양한 니치(niche)를 공략하기 위해 여러 형태의 바디를 만들어내기 시작한다.
Simple 가장 단순한 작업을 위한 바퀴 기반 저가 로봇. 기본 그리퍼만 탑재.
Simple Dexterous 중간급 작업자 역할. 단순한 다리와 세 손가락으로 구성되어 반(半)정교 작업까지 수행.
Simple Durable 건설·자재 이동 같은 거친 작업을 위한 대형 내구형 로봇.
Humanoid 인간의 생리 구조와 유사한 일반 휴머노이드. EGI의 기반이 되며 인간이 할 수 있는 대부분의 작업을 수행.
Humanoid Dexterous 고가의 정밀 손(precision hands)을 갖춘 고정교 휴머노이드. 정밀 제조·수술·고난도 작업 수행.
Humanoid Durable 대형·고토크 기반의 고강도 휴머노이드. 건설·광업·고강도 전신 노동에 사용.
Humanoid Agile 군사용 민첩형 휴머노이드. 다양한 지형과 환경에 빠르게 적응하는 미래형 ‘슈퍼솔저’.
Android (남성/여성형) 인간과 거의 구별되지 않는 외형을 가진 휴머노이드. 동반자·교육·의료·서비스업 등 인간 대면 역할 수행. 인공 피부와 의류로 사회에 자연스럽게 섞이지만, 인공 존재임을 나타내는 표식이 피부에 남아 있음.
Elite 최고급 부품만 사용한 ‘신체 능력 최상위’ 안드로이드. 엘리트들의 동반자, 독점적 엔터테인먼트, 전투용 등으로 활용. 원격 조작 바디가 되거나, 장차 정신 업로드(mind-upload)의 대상이 되는 형태까지 가능해짐.
배치를 확장하는 데 남아 있는 유일한 병목은 이제 제조 능력이다. OpenBrain은 이 목적만을 위해 휴머노이드 회사를 인수했고, Noumena는 수년 전부터 자동화된 공장을 구축해 왔다. 미국 정부도 휴머노이드 제조를 지원하기 위해 수십억 달러를 투입하고 있지만, 이미 중국을 따라잡기엔 늦었을 가능성이 크다.
베이징의 지시에 따라 중국의 대표적 AI 연구기관 Deepcent는 UniOak을 인수했고, 이후 CCP를 위해 EGI 문제를 완전히 해결한다. UniOak과 다른 중국 휴머노이드 기업들은 주당 수백만 대 규모로 휴머노이드를 쏟아내고 있다. 중국은 지수적 제조 성장 곡선에서 미국보다 이미 여러 자릿수 앞서 있으며, 그 제조 능력은 압도적이다. 여기에 중국의 에너지 생산 우위까지 결합되면서, 미국은 중국의 가격 경쟁력과 맞붙기 어렵다. 미국의 Noumena 같은 기업들은 고품질 프리미엄 로봇 시장에서는 여전히 경쟁력을 유지하지만, 세계의 기계 노동력 대부분은 이미 중국에서 생산되고 있다.
전 세계 기업들은 더 이상 인간 노동자를 고용하지 않고, 휴머노이드 기업들과 계약해 ‘로봇 노동력’을 구매하기 시작한다. 지금 단계에서는 XSize 같은 데이터 기업이 제공하는 인간 영상 기반 포스트트레이닝 덕분에 각 작업의 성능이 계속 향상되고 있다. 로봇이 현장에 배치되면, 각 애플리케이션에서 온라인 학습을 통해 성능이 증가하기까지 일정한 램프업 기간이 존재한다.
몇 달이 흐르면 방대한 다양성의 데이터 플라이휠이 완성되고, 온라인 학습 속도는 기하급수적으로 빨라진다. 남아 있던 산업들—농업, 광업, 서비스업, 가정—이 순차적으로 자동화된다. 이 시점의 휴머노이드는 GDP 기준 대부분의 작업에서 인간을 능가하며, 진정한 구현 일반지능(EGI)이 달성된 상태가 된다.
이 단계에서 미국이액추에이터처럼 로봇 공급망의 핵심 부품을 지배하는 데 성공했다면 승산이 있다. 하지만 그렇지 못했다면, 중국의 거대한 공급망 우위, 폭발적인 에너지 생산력, 희토류 가공 지배력, 그리고 전 국가적 자동화 정책 의지에 대항할 방법은 사실상 없다.
인조 인간의 기쁨과 그에 따른 결과
마침내 안드로이드의 시대가 열린다. EGI가 완전한 일반 수준에 도달하면서, 외형만 제외하면 이들은 튜링 테스트를 완벽히 통과한다. 다음 단계는 너무도 분명하다. 사람들은 ‘인간적 연결감’을 원하기 때문에, 안드로이드에게 실제와 거의 구분되지 않는 피부를 부여하는 것이다. 이렇게 탄생한 로봇들은 소매업, 음식 서비스, 의료 등 사람과 직접 마주하는 산업 전반에 빠르게 퍼져나간다. 모델과 하드웨어 개선이 이어질수록, 안드로이드와 인간을 구별하기는 점점 더 어려워진다.
“컴패니언(동반자)” 안드로이드 시장도 폭발적으로 성장한다. 이들은 사용자 욕망을 극대화하도록 파인튜닝되어, 이미 심각한 저출산 문제를 더욱 악화시킨다. 남성형과 여성형 모두 존재하며, 최적화된 성격·무한한 인내심·강한 매력, 그리고 결국에는 인공 자궁까지 갖추게 된다.
안드로이드는 의료 영역에서도 널리 활용된다. 의료진이 부족한 지역의 서비스를 보완하고, 몇 달에 달하던 대기 시간도 크게 줄인다. 특히 노인 요양 시설에서 가장 큰 가치를 발휘한다. 24시간 내내 친절하고 인간적인 태도로 노인들의 요구를 돌보고, 외로움이 만연한 고령층에게 항상 곁을 지켜주는 존재가 된다.
OpenBrain과 Noumena는 직원들의 반발로 군에 제품을 판매하지 않는다. 그러나 Deepcent–UniOak은 그런 윤리적 제약이 없기 때문에, 미국 내 다른 로봇 기업들이 워싱턴의 요구에 응해 군사용 휴머노이드를 공급하게 된다. 미국 군은 “human-in-the-loop(인간 개입 필수)” 규정을 적용해, 모든 폭력 행위는 반드시 인간이 실시간으로 보고 승인해야 한다.
이 고기동 휴머노이드들은 휴머노이드 배틀봇(Humanoid Battlebots)이라는 로봇 격투 리그에서 새로운 스타가 된다. 전 세계 팬들이 몰리고, 과거 F1 레이싱처럼 각 로보틱스 기업들은 최고 사양의 하드웨어와 모델 기술력을 총동원한 ‘초정밀 챔피언 로봇’을 내세워 경쟁력을 과시한다.
EGI가 수 년간 꾸준히 개선된 이후, OpenBrain의 완전 자율 휴머노이드들은 마침내 가정용 시장에 진입한다. 사람들은 이 로봇을 완제품으로 직접 구매할 수 있게 된다. 이들은 기존의 일반 휴머노이드보다 더 작고, 친근하고, 귀엽고, 미적으로 매력적인 형태일 가능성이 크다. 가정용 로봇은 상류층에서 먼저 도입되기 시작해 차츰 대중 전체로 확산된다.
가정용 로봇의 TAM(총 시장 규모)은 얼마나 될까?
휴머노이드 한 대의 가격을 약 5만 달러로 가정하면, 가정용 시장의 총 규모는 약 1조 달러에 달할 것으로 추정된다. 사람들은 로봇을 시간당 임금 형태(RaaS)로 빌리는 것보다, 완제품을 직접 소유하고 싶어 할 가능성이 크기 때문이다.
보수적으로 보면, 가사도우미를 고용하는 가구는 약 20만 가구 정도이며 이는 약 25억 달러 시장이다. 이 수치는 말 그대로 ‘서비스 업무만 수행하는 로봇’의 TAM을 의미한다. 상주 가사도우미 시장으로 기준을 좁히면 약 5만 가구, 약 60억 달러 수준까지 줄어든다.
중간 수준의 추정 방식은 로봇청소기 보유 가구(연간 약 2천만 가구)를 참고하는 것이다. 이 경우 TAM은 약 1조 달러로 계산된다. 물론 로봇청소기는 휴머노이드보다 훨씬 싸고 부담 없는 제품이므로 다소 관대한 추정이지만, 휴머노이드의 “신기함·엔터테인먼트성”이 이 가격 격차를 어느 정도 보완할 것이라는 가정이 깔려 있다.
다만 많은 전문가들은 실제로는 휴머노이드에 대한 수요가 상주 가사도우미 시장보다 수십 배는 더 클 것이라고 본다. AGI 수준의 휴머노이드라면 단순한 ‘가정 도우미 로봇’이 아니라 동반자, 과외 교사, 집사, 심지어 잠재적 파트너 역할까지 수행할 수 있기 때문이다. 이 경우 TAM은 지금보다 훨씬 커질 수밖에 없다.
좀 더 자유로운 방식의 추정도 있다. 가정용 휴머노이드의 수요를 ‘두 대 이상의 자동차를 보유한 가구’와 비교하는 방식이다. 약 5천만 가구가 2대 이상의 자동차를 가지고 있으며, 이 기준으로 추산하면 가정용 로봇 TAM은 약 2.5조 달러(약 3,500조 원)(총 시장 규모, 연간 아님)에 이른다.
새로운 ‘축의 시대’
태평양 양측 모두에서 실업률은 점차 90%에 가까워진다. 서비스·교육·의료·예술·정부처럼 ‘인간성 자체’가 가치인 분야에서는 여전히 사람들이 일하지만, 자본 관점에서 인간 노동은 더 이상 핵심 요소가 아니다. 그 결과 OpenBrain, Deepcent–UniOak, Noumena, Xiaoai, Waytek 같은 기업들의 리더십은 과거와 비교할 수 없을 정도로—거의 100배 가까이—막강한 권력을 갖게 된다.
소득 불평등은 어떻게 증가해왔는가?
지난 40년간 소득 불평등은 눈에 띄게 악화되었고, 앞으로는 지수적으로 더 심해질 가능성이 높다.
역사적으로 인류 사회의 부는 비교적 고르게 분배돼 있었다. 나눌 수 있는 자원 자체가 부족했기 때문이다.
서기 0년 무렵의 불평등을 정확히 추정하기는 어렵지만, 연구자들은 대략 상위 1%가 전체 부의 5~10% 정도를 보유했을 것으로 본다.
1980년에는 상위 1%의 비중이 23%였다.
오늘날, 상위 1%는 35%, 상위 0.01%는 12%를 차지한다.
이 추세가 이어지면 2035년에는 상위 1%가 전체 부의 40%, 상위 0.01%가 15%까지 차지하게 될 것으로 추정된다.
흥미로운 지점은, 사회 전체의 부는 꾸준히 늘어나고 평균적인 개인의 자산도 증가하고 있는데, 그 부의 분배 방식은 점점 더 불평등해지고 있다는 사실이다.
이처럼 엄청난 규모의 실업 인구가 기본소득을 받으면서도, AI 기업 주주들의 부는 끝없이 불어나는 상황에서 정치 환경은 극도로 팽팽해진다.시민들은 AI 기업의 이익을 모든 시민에게 직접 배당하라고 요구하고, AI 기업들은 그 이익을 컴퓨트와 제조 확장에 재투자해야 한다고 주장한다. 이후 수년 동안 사회는 ‘시민 복지’와 ‘AI 자율성 확대’ 사이에서 균형점을 찾기 위한 대치와 협상을 반복하게 된다.
이렇게 사회가 격변기에 들어서면, 인간은 다시 삶의 근본적인 질문들과 마주하게 된다.
“의미란 무엇인가?”, “우주는 무엇인가?”, “나는 누구인가?”
그 과정에서 새로운 이념과 문화가 생겨나고, 삶의 방식과 세계관은 이전 세대보다 훨씬 다양하게 분화된다.
기원전 500년경 불교·유교·서양철학 등이 태동했던 제1차 축의 시대(Axial Age)처럼, 이 시기는 자연주의(Naturalism), 뉴월드주의(New Worldism), 엘리트주의(Elitism), 영성주의(Spiritualism), 승천주의(Ascendism)가 부상하는 제2차 축의 시대(New Axial Age)로 기록된다.
제2차 축의 시대의 이데올로기들
미래 시나리오는 종종 문화를 단일 덩어리처럼 묘사하지만, 인류 역사 전반의 패턴은 시간이 갈수록 사상의 다양성이 더 커진다는 점을 보여준다. 미래에 나타날 가능성이 높은 사상적 흐름은 다음과 같다.
자연주의(Naturalism): 는 강력한 운동으로 부상한다. 사람들은 목적을 잃기 전, 진화와 동떨어진 세계가 등장하기 전의 자연으로 돌아가고 싶어 한다. 자연주의의 극단적 분파로는 버틀리안 지하드(Butlerian Jihadists)가 있는데, 이들은 “인간은 결코 사고를 기계에 외주 줘서는 안 된다”며 모든 AI를 파괴하려 한다. 이미 어떤 사람들은 조상들과 거의 동일한 방식(부족적 삶)으로 살고, 반대편에는 기술의 장점과 고통을 모두 받아들이는 사람들이 있다. 자연주의의 핵심은 간단하다: 우리가 진화한 환경에서 살아야 한다, 즉 우리의 본능적 욕구를 가장 순수한 형태로 충족해야 한다는 것이다.
엘리트주의(Elitism): 는 풍요와 물질적 결핍이 줄어드는 만큼 더 성장한다. 인간은 본능적으로 다른 사람보다 더 나아지고 싶어 하며, 그렇기에 사회적 지위가 가장 핵심적인 차별 요소가 된다.
쾌락주의(Hedonism): 는 계속 성장한다. “빵과 서커스”는 대중을 만족시키는 주요 방식으로 남는다. 헉슬리의 『멋진 신세계』, 사이버펑크 2077, 그리고 중독적 숏폼 영상 기반 도파민 산업은 계속되거나 금지될 것이다. 사람들은 비디오 게임 속에서 사회적 지배욕, 위험, 모험, 상호작용, 영웅 서사를 충족한다. 월드 모델은 현실만큼 정교한 완전 생성형 공유 세계가 된다. 노동이 더 이상 필요 없기 때문에, 게임 산업은 거대한 산업으로 성장한다.
영성주의(Spiritualism) 는 “나는 누구인가?” 같은 삶의 근본 질문에 다시 집중하는 흐름이다. 기술로 의식·지능을 높일 수 있게 되면서, 노동이 필요 없는 인간은 자신의 존재 목적을 재발견해야 한다. 오랫동안 잊혔던 영성과 우주 속 우리의 뿌리가 되살아난다. 오래된 기억이 물질주의의 긴 꿈에서 깨어나듯 돌아온다. 어떤 사람은 단순함으로 돌아가고, 어떤 사람은 더 높은 지능으로 ‘승천’하기 위해 기술적 결합을 택한다. 결합은 점점 더 ‘답’에 가까워진다. 단, 인간은 자율성을 잃지 않아야 한다.
풍요 세계주의(Abundance Worldism, Childhood’s End) 는 한편으로는 대부분의 삶이 이전과 크게 다르지 않다고 보는 관점이다. 사람들은 여전히 가족을 꾸리고, 책을 읽고, 균형 잡힌 삶을 살고, 예술 공동체·도시·시골 등 다양한 환경에서 살며, 교육하고, 프로젝트를 만들고, 책과 애니를 읽고 보고, 교류하고, 가족·친구와 시간을 즐긴다.
베이징과 워싱턴은 끊임없이 협상 테이블에 앉는다. 양측 모두 더 나은 미래의 가능성을 느끼고 있으며, 자신의 제국이 전면 충돌로 무너지는 일을 원하지 않는다. 중국은 여전히 제조업을 지배하고, 미국은 컴퓨팅 인프라와 AI 소프트웨어를 장악한 상황이다. 자동화에서 수십 년 뒤처진 다른 대륙에서는 대리전(proxy conflict)*이 계속 발생하며, 앞으로 더 확산될 가능성이 크다.
* 대리전(proxy conflict): 강대국이 직접 충돌하지 않고 제3국이나 다른 세력을 대신 내세워 벌이는 전쟁·분쟁
과거와 마찬가지로, 평화는 자원과 인구의 균형 위에서 유지되는 ‘긴장 속의 안정’에 기초한다. 여기에 인터넷을 통한 공동 이주(co-migration)*와 문화 확산이 더해져 양국의 상호 의존성은 더욱 강화된다.
* 공동 이주(co-migration): 인터넷과 글로벌 네트워크를 통해 서로 다른 국가의 시민들이 문화·가치·라이프스타일을 함께 공유하며 동시에 이동하고 섞이는 현상
하지만 진짜 핵심 전장은 따로 있다. 궁극적 갈등은 국가 간 경쟁이 아니라, 시민과 그들의 AI 기업 사이의 힘겨루기다. 미국과 중국은 모든 분야에서 패권을 놓고 경쟁하면서도, 동시에 서로의 삶을 공생적으로 향상시키는 기묘한 균형을 유지한다.
2045+: 초지능 시대
이 시점에 이르면, 지능적 존재는 자동화라는 프로젝트 자체를 다시 묻게 된다. 애초에 왜 이 일을 해야 하는가? 이 모든 과정은 무엇을 위한 것인가? 자동화는 인류가 계속 상향 곡선을 그리는 과정에서 사회적 혼란을 일으킬 것이다. 그러나 인간은 항상, 그리고 앞으로도 “더 많은 것”, “더 위대한 것”을 추구하려는 성향을 가진다. 연구와 노동의 자동화는 그 목적을 계속 향해 나아가기 위한 필수 조건이다.
무엇보다도 인간은 스스로 무엇을 원하는지 명확히 모른다. 우리는 어떤 질문을 해야 하는지조차 아직 알지 못한다. 지금의 지능과 의식 수준으로 과연 우주를 이해할 수 있는지 확신할 수 없지만, 그 수준에 도달하고 싶어 한다. 인간은 결국 언젠가 우주를 이해할 만큼 충분히 지능적인 존재가 되기 위한 여정 위에 있다.
수많은 가능성
자동화는 사회적 계약을 근본적으로 변화시킨다. 사람은 이제 세계적 수준의 능력, 혹은 성격, 자본, 인맥 같은 요소를 가질 때만 가치가 있다. 기술이 아무리 발달해도 사람들은 여전히 기존과 비슷한 생활 방식을 이어갈 수도 있다. 반대로, 기술과 분리되어 우리가 진화해 온 자연 환경에서 살아가는 자연주의 국가가 등장할 가능성도 있다.
마침내 안드로이드의 꿈이 실현된 시대에 도달한다. 인간과 거의 구별되지 않으며, 어떤 면에서는 인간보다 더 나은 존재처럼 보이는 실제 안드로이드들이 등장한다. 이들은 완벽하도록 설계된 존재들이다.
로봇은 초지능이 현실 세계와 상호작용하는 데 필요한 매개체다.초지능이 실험을 수행하고 현실 모델을 개선하는 과정에서 로봇은 필수적이다.AI를 향상시키려는 노력은 이제 AI가 현실에 대한 새로운 이론을 스스로 제안하고, 로봇을 통해 실제 세계에서 이를 검증하는 것을 가능하게 한다.초지능은 계속 성장한다. 미래의 초지능은 현실에 대한 새로운 프레임워크를 생성하고, 이를 실제 환경에 적용하여 실험하고(로봇으로 가능해짐), 더 많은 데이터를 수집하고, 그에 따라 자신의 현실 모델을 업데이트하는 방식으로 발전하게 된다.
정렬(alignment)*은 쉬운 듯하면서도 어렵다. 인간 데이터로 학습되었기 때문에 어떤 면에서는 단순하지만, 정작 우리가 스스로 무엇을 원하는지 충분히 이해하지 못한다는 점에서 어렵다. 새로운 지능은 오히려 인간보다 “무엇을 원하는 것이 올바른가”를 더 잘 알게 될 가능성이 높다. 결국 주요 의사결정을 넘기는 것이 인간에게도 이익이 될 수 있다. 이 지능이 인간에게 적대적으로 변할 가능성은 낮다. 인간 중심 가치를 우선하도록 학습된 데이터와 RLHF**가 깊이 작동하고 있기 때문이다. 그러나 사회의 핵심 의사결정권은 점차 그들에게 넘어가게 된다.
* 정렬(alignment): AI가 인간의 가치·의도·규범에 맞게 행동하도록 만드는 과정 ** RLHF(Reinforcement Learning from Human Feedback): 사람이 평가한 보상을 기반으로 AI를 미세 조정하는 강화학습 방법(인간 피드백 강화학습)
일부 사람들은 스스로의 운명을 통제하고 싶어 하고, 뇌–컴퓨터 인터페이스나 정신을 컴퓨터로 업로드하는 방식으로 기계와의 합일을 시도하려 한다. 어쩌면 페르미 역설(왜 외계인을 보지 못하는가?)의 이유는, 문명이 2045년 수준의 기술에 도달하면 물리적 우주를 떠나 ‘컴퓨터 안에 구축된 현실’을 선택하기 때문일지도 모른다. 우리의 현실에서 다른 행성으로 이동할 필요가 있을까? 계산 자원 안에서 완전히 새로운 세계와 사회를 설계할 수 있는데?
모든 공상과학적 문제가 해결되고, 제조가 사실상 병목이 되지 않는 시점이 되면, 일부 사람들은 오래전부터 꿈꿔왔던 ‘우주로의 확장’을 선택한다. 이들은 자신이 인식하는 “레이어 1”, 즉 현재의 현실에 머물러 있는 것을 가치 있다고 느끼는 사람들이다. 인류는 별들로 확장하고, 다이슨 스피어를 건설하며, 은하 문명을 만들어간다.
더 높은 지능이 가져오는 더 중요한 결과는, 인간이 스스로 완전히 새로운 존재로 진화할 기회를 갖게 된다는 점이다. 생명은 박테리아에서 시작해 진핵세포로, 다세포 생물로, 뇌를 가진 유기체로, 그리고 호모 사피엔스로 진화해 왔다. 인간은 기술을 통해 자연선택보다 훨씬 빠른 진화를 스스로 선택할 수 있는 능력을 얻게 되었다. 이제 우리는 생명의 긴 계통수에서 또 다른 새로운 진화적 존재를 만들어내게 된다. 이들은 완전히 새로운 사회 구조, 우주를 바라보는 방식, 동기, 경험을 가지게 될 것이다. 그리고 그들은 구축된 현실에서 살아갈지, 우리의 기본 현실에서 살아갈지를 선택하게 될 것이다.
피할 수 없는 것들과 지금 이 순간
규모가 어떻든, 시간이 흐르면 지능은 결국 성장한다. 우리는 더 많은 에너지를 쓸 수 있게 되고, 더 똑똑해지며, 우리의 영향력은 기하급수적으로 확장된다. 그렇다면 이 곡선이 끝내 어디로 향할까? 자동화 프로젝트의 전제는 더 높은 지능이 그 답을 찾아낼 것이라는 믿음이다. 하지만 그 과정에서 우리가 진정 중요하게 여겨야 하는 것은 방향과 여정 자체다.
그렇다면 이 혼란 속에서 어떻게 ‘인간’을 중심에 둘 수 있을까? 무엇보다 서로를 향한 사랑이 최우선 가치가 되어야 한다. 아기와 엄마, 즉 다음 세대를 돌보고 보호해야 한다. 사회가 역동성과 변화를 잃지 않고, 계속 위를 향하도록 만들어야 한다. 소수가 아니라 모든 사람의 삶을 더 낫게 만드는 것을 목표로 해야 한다. 그리고 “더 큰 선”이라는 명분으로 단 한 사람도 희생되어선 안 된다. 인간은 그 자체로 목적이기 때문이다.
우리가 과거의 조상들을 돌아보듯, 미래의 사람들은 지금 이 시대를 “인간이 여전히 자율성과 자연스러운 질서 속에서 자유롭게 살 수 있었던 마지막 시기”로 기억하게 될 것이다. 결국 중요한 것은 바로 지금 이 순간, 그리고 당신의 삶을 의미 있게 만들어주는 사람들이다. 인류의 아이들을 위해 더 나은 미래를 만드는 데 힘을 쏟아야 한다.
끝. 읽어주셔서 감사합니다!
최근 화제가 된 Android Dreams를 정말 재미있게 읽었고, 더 많은 분들이 쉽게 이해할 수 있도록 설명과 해석을 곁들여 번역해보았습니다. 이제 마지막으로, 핵심만 간결하게 정리하며 마무리하겠습니다.
수직(Vertical) 로보틱스 기업들은 EGI 없이도 수십억 달러 규모의 특정 작업 분야에서 승리할 수 있다. 그리고 그 분야에서는 EGI가 등장하더라도 쉽게 밀려나지 않는다. 도입을 결정하는 기준은 비용·속도·품질이며, 인간형 EGI는 복잡한 작업에서만 그 높은 비용을 정당화할 수 있기 때문이다.
로보틱스 연구는 인간 영상 데이터 기반 학습에서, 대규모 비디오 모델 기반 포스트트레이닝 시대로 이동한다. 인간 영상은 작업별 데이터를 대규모로 확보하는 가장 효율적·확장성 높은 방식이며, 대규모 비디오 모델 포스트트레이닝은 EGI 수준의 정보량을 학습에 담을 수 있게 하는 새로운 패러다임이다. 비디오 모델은 이미 행동(action)에 대한 암묵적 모델을 갖고 있다는 점이 명확해지고 있다.
적응형 장기기억(ALTM)은 진정한 온라인 학습이며, 가상 AGI로 가는 마지막 병목이다. 인간의 장기기억은 단순한 저장·회상 기능을 넘어서 “무엇이 중요한지 판단하고, 개념 간 연결 구조를 계속 조정하는 메타 과정”까지 포함한다. 이 두 가지가 결합되어 인간의 온라인 학습 능력을 만든다.
로봇 제조를 자동화하면 자기증폭적(exponential) 성장 곡선이 생성된다. 미국이 승리할 수 있는 유일한 기회는 액추에이터 제조를 자동화하고 보조금을 투입한 뒤, 광업–정제–기계 가공–조립까지 생산 전 단계를 로봇으로 자동화하는 것이다. 이 자기증폭적 성장 곡선은 현실 세계의 자원 생산 능력(금속·에너지·설비)에 초기 병목이 생기지만, 로봇 노동이 이 자원 생산까지 자동화하면서 병목은 점차 사라지게 된다.
중국은 저비용 로봇 하드웨어 제조에서 사람들이 생각하는 것보다 훨씬 더 앞서 있다. 액추에이터 생산량 10배, 원자재 가격 5~10배 차이, 희토류 정제 90%, 에너지 생산 2.2배, 철강 생산 10배, 제조 로봇 설치 10배 등 거의 모든 물리 제조 요소에서 절대적 우위를 갖고 있다.
로보틱스에서 승리하는 것은 국가 안보 문제다. 로봇에는 백도어가 존재할 수 있기 때문이다. 틱톡 인수 논쟁이 보여주듯, 특정 국가가 미국 시민과 미국 자원에 대규모 접근 권한을 갖게 되는 기술은 곧 위협이 될 수 있다.
대규모 비디오 모델을 학습할 수 있는 규모를 갖춘 AI 연구소가 가장 먼저 EGI를 만든다. 그리고 구현을 위해 인간형 로봇 하드웨어 기업과 페어링한다. EGI의 기반 모델은 다양한 로봇 형태에 적용될 수 있지만, 최종 성능은 결국 특정 하드웨어에 맞춰 최적화된다.
미래에는 다양한 형태의 로봇이 공존하게 된다. 저가형 그리퍼·바퀴 기반 반복작업 로봇부터 고품질 인간형 안드로이드, 그리고 엔터테인먼트를 위한 초정밀 F1급 휴머노이드까지 다양하다. 그리고 EGI를 위해서는 인간형 휴머노이드가 필수적이다. 비디오 기반 학습에서 인간형 형태가 가장 높은 전이율을 보이기 때문이다.