
AI 영상 생성 2초 시대
중국 연구진이 AI 영상 생성 속도를 기존 대비 최대 200배 높이는 오픈소스 기술 '터보디퓨전'을 공개했습니다. 소비자용 GPU 한 장으로도 5초 분량 고화질 영상을 24초 만에 만들 수 있게 됐죠. 영상 제작 산업에 큰 변화가 예상됩니다.
오픈소스로 공개된 터보디퓨전의 핵심
중국 성서우 테크놀로지와 칭화대, UC버클리 공동 연구진이 27일 공개한 터보디퓨전은 단순한 AI 모델이 아닙니다. 기존 확산 기반 영상 모델에 바로 적용할 수 있는 추론 프레임워크라는 점이 핵심이죠. 마치 자동차 엔진은 그대로 두고 터보차저만 달아서 성능을 극대적으로 끌어올리는 것과 비슷합니다.이 기술의 가장 놀라운 점은 완전한 오픈소스로 깃허브에 공개됐다는 사실입니다. 모델 체크포인트부터 학습 코드, 추론 코드까지 모두 누구나 무료로 활용할 수 있게 됐어요. 기존에는 A100이나 H100 같은 수천만원대 전문 GPU가 필요했지만, 이제는 RTX 4090이나 5090 같은 소비자용 그래픽카드로도 충분히 구동이 가능합니다.
연구진은 세 가지 핵심 기술을 조합했습니다. 첫째, 희소 선형 어텐션을 더 빠른 저비트 어텐션 가속으로 대체했어요. 둘째, 100번이나 걸리던 영상 생성 단계를 단 3~4번으로 줄이는 스텝 증류 기법을 적용했죠. 셋째, 모델의 수치 계산을 8비트로 줄여서 모델 크기를 절반으로 줄이면서도 품질은 유지했습니다.
알리바바의 오픈소스 동영상 생성 모델 '완'을 테스트한 결과가 인상적입니다. RTX 5090 한 장으로 480P 화질 5초 영상을 3분에서 1.9초로, 720P 고화질 영상은 80분에서 24초로 단축했어요. 단순 계산으로 보면 하루에 수백 개의 영상을 만들어낼 수 있는 수준입니다.
다만 주의할 점이 있습니다. 공개된 수치는 최적의 테스트 환경에서 나온 최단 시간이라는 거죠. 실제로 사용할 때는 시스템 환경이나 네트워크 상태에 따라 시간이 더 걸릴 수 있습니다. 그래도 기존 대비 압도적으로 빠른 건 분명한 사실이에요.
2초 만에 영상 생성하는 시대의 의미
성서우는 이번이 처음이 아닙니다. 지난해 7월 '비두' 모델로 4초 영상을 30초 만에 만들었고, 올해 1월 '비두 2.0'으로 10초까지 줄였죠. 그리고 이번에 1.9초까지 단축한 겁니다. 불과 1년도 안 되는 시간에 15배 이상 빨라진 셈이에요.개발자 커뮤니티의 반응이 뜨겁습니다. X(트위터)에는 터보디퓨전으로 직접 생성한 영상들이 쏟아지고 있어요. 일부 전문가들은 "AI 비디오 분야의 딥시크 모먼트가 될 잠재력이 있다"라고 평가했습니다. 딥시크는 작년 말 AI 업계를 뒤흔든 중국발 오픈소스 AI 모델이었죠.
이 기술이 의미하는 바는 명확합니다. 영상 제작의 진입장벽이 크게 낮아진다는 거예요. 과거에는 촬영 장비, 편집 소프트웨어, 전문 인력이 필요했지만 이제는 아이디어와 텍스트 프롬프트만 있으면 됩니다. 더구나 고가의 전문 GPU 없이도 가능하다는 점이 게임 체인저가 될 수 있어요.
AI 네이티브 파운데이션은 "다양한 산업 분야에서 AI 비디오 제작을 위한 실시간 가능성을 열어준다"라며 "기업들은 비용을 절감하고 반복 작업을 가속화하여 상업적 규모의 비디오를 제작할 수 있을 것"이라고 전망했습니다.
투자자 관점에서 주목해야 할 부분이 있습니다. 엔비디아 RTX 시리즈 같은 소비자용 GPU 수요가 늘어날 가능성이 크다는 점이죠. 기존에는 전문가용 시장이 주도했다면, 이제는 개인 크리에이터나 중소기업도 충분히 활용할 수 있는 환경이 만들어졌습니다. GPU 시장의 저변 확대가 예상되는 대목입니다.
영상 제작 산업에 불어올 변화의 바람
실시간에 가까운 AI 영상 생성이 가능해지면서 여러 산업에 파급 효과가 예상됩니다. 가장 먼저 영향을 받을 분야는 광고와 마케팅이에요. 기존에는 광고 영상 하나 만드는 데 수천만원이 들고 몇 주가 걸렸지만, 이제는 하루 만에 수십 개의 버전을 만들어서 A/B 테스트를 할 수 있게 됐죠.교육 콘텐츠 제작에도 혁신이 일어날 겁니다. 강의 내용을 텍스트로 입력하면 자동으로 영상 자료가 만들어지는 시대가 왔어요. 온라인 교육 플랫폼들이 콘텐츠 제작 비용을 대폭 줄이면서 더 다양한 강좌를 제공할 수 있게 됩니다. 에듀테크 업계에 긍정적인 신호라고 볼 수 있죠.
소셜미디어 콘텐츠 제작자들에게는 더할 나위 없는 도구가 생긴 셈입니다. 유튜브 쇼츠, 인스타그램 릴스, 틱톡 같은 숏폼 콘텐츠를 빠르게 대량 생산할 수 있어요. 개인 크리에이터의 생산성이 비약적으로 높아지면서 콘텐츠 경쟁이 더욱 치열해질 전망입니다.
반대로 우려되는 부분도 있습니다. 딥페이크나 가짜 뉴스 제작이 더욱 쉬워진다는 점이죠. 실시간으로 영상을 만들 수 있다는 건 악의적 목적으로도 활용될 수 있다는 의미입니다. 관련 규제나 탐지 기술의 발전도 함께 이뤄져야 할 필요성이 커졌어요.
글로벌 빅테크 기업들의 대응도 주목됩니다. 오픈AI의 소라, 구글의 비오, 메타의 무비젠 같은 경쟁 제품들이 줄줄이 출시되고 있는 상황에서 중국발 오픈소스 기술이 게임의 규칙을 바꿔놓을 수 있습니다. AI 영상 생성 시장의 주도권 싸움이 본격화될 것으로 보여요.
터보디퓨전의 등장은 AI 영상 생성 기술이 실험실을 벗어나 실제 산업 현장으로 들어가는 전환점이 될 것으로 보입니다. 2초 만에 고품질 영상을 만들 수 있다는 건 단순히 속도의 문제가 아니에요. 영상 제작의 패러다임 자체가 바뀐다는 의미죠.
투자자들은 AI 영상 기술 관련 생태계를 주시할 필요가 있습니다. GPU 제조사부터 클라우드 서비스, 콘텐츠 플랫폼, 저작권 관리 솔루션까지 연관된 산업이 광범위하거든요. 특히 오픈소스로 공개됐다는 점이 시사하는 바가 큽니다. 독점이 아닌 생태계 경쟁의 시대가 본격화되고 있다는 신호니까요.
다음 단계는 이 기술이 실제 비즈니스 모델로 어떻게 구현되는지 지켜보는 겁니다. 기술이 아무리 뛰어나도 수익을 창출하지 못하면 의미가 없죠. 터보디퓨전을 활용한 스타트업들이 어떤 서비스를 내놓을지, 기존 기업들은 어떻게 대응할지가 향후 관전 포인트가 될 겁니다.
투자자들은 AI 영상 기술 관련 생태계를 주시할 필요가 있습니다. GPU 제조사부터 클라우드 서비스, 콘텐츠 플랫폼, 저작권 관리 솔루션까지 연관된 산업이 광범위하거든요. 특히 오픈소스로 공개됐다는 점이 시사하는 바가 큽니다. 독점이 아닌 생태계 경쟁의 시대가 본격화되고 있다는 신호니까요.
다음 단계는 이 기술이 실제 비즈니스 모델로 어떻게 구현되는지 지켜보는 겁니다. 기술이 아무리 뛰어나도 수익을 창출하지 못하면 의미가 없죠. 터보디퓨전을 활용한 스타트업들이 어떤 서비스를 내놓을지, 기존 기업들은 어떻게 대응할지가 향후 관전 포인트가 될 겁니다.
출처 : AI타임스, 박찬 기자