[알파경제=김민영 기자] 최근 오픈AI가 선보인 '소라'에 활용된 비전 트랜스포머 기술의 원조는 구글 딥마인드라는 분석이 나왔다.
루미에르(Lumiere)는 소라보다 먼저 공개됐던 구글의 영상 생성 AI 모델이다. STU-Net 아키텍처를 활용해 단일 패스를 통한 영상 전체 프레임의 생성, 공간적 사실성과 시간적 일관성의 개선을 달성했다.
김중한 삼성증권 연구원은 "알파벳은 작년 딥마인드와 구글 브레인을 통합한 이후 다양한 결과물들을 보여주며 빠른 성능 개선을 증명하고 있다"며 판단했다.
영상 생성 모델 루미에르, 영상 이해 모델 비디오프리즘(VideoPrism), 게임 관련 모델 지니(Genie)와 SIMA 등 지속적으로 관련 기술들을 선보이는 중이라는 분석이다.
이 가운데 VideoPrism은 비전 트랜스포머를 기반으로 만든 영상 이해 모델이다. 소라같이 영상을 직접적으로 생성하는 것은 아니며 영상 자체에 대해 높은 이해도를 가지는 인코더 모델이다.
김중한 연구원은 "장기적으로 VideoPrism은 올해 더욱 본격화되고 있는 멀티모달 레이스의 핵심 경쟁력 중 하나가 될 것"이라고 판단했다. VideoPrism의 또 다른 특징은 거대언어모델(LLM)과의 결합이 용이하다는 점인데, LiT, PaLM-2 등 과 결합한 모델의 비전 언어 벤치마크 성능에서 LLM와 VideoPrism의 뛰어난 호환성을 확인할 수 있다는 평가다.
이어 "현재까지 공개한 모델들에 다소 아쉬움은 있으나, 영상 생성 AI 분야 추세의 빠른 추적, 그리고 이를 가능하게 하는 기술력과 경쟁력 입증한 점은 긍정적"이라고 판단했다. LLM이나 특정 제품 파이프라인의 결합을 통한 시너지 또한 기대 요인이라는 분석이다.
김중한 연구원은 "AI 접목 가능한 다양한 서비스, 최고 수준의 AI 연구 조직과 인프라를 보유한 이점은 시간이 지날수록 빛을 발할 것"이라고 판단했다.