📰 AI 뉴스2026-05-274분

Google DeepMind, Veo 3 영상 생성 API 개발자 공개—음성 동기화 포함

Google DeepMind가 Veo 3 영상 생성 모델을 Vertex AI API로 개발자에게 정식 공개했다. 텍스트·이미지 프롬프트로 최대 8초 4K 영상을 생성하며, 립싱크 수준의 음성-영상 동기화가 단일 API 호출로 처리된다. 영상 콘텐츠 자동화나 숏폼 제작 파이프라인을 구축하는 한국 크리에이터·개발자에게 즉시 활용 가능한 옵션이 생겼다.

google-deepmindvideo-generationvertex-ai

Veo 3 API 핵심 스펙

Vertex AI를 통해 공개된 Veo 3 API는 다음 사양을 제공한다.

해상도: 최대 3840×2160(4K), 기본 1080p
최대 길이: 단일 클립 8초, 이어붙이기(chaining)로 60초까지 확장 가능
입력 모달리티: 텍스트 프롬프트, 참조 이미지, 기존 영상 프레임(I2V)
음성 동기화: 텍스트로 대사를 입력하면 생성된 인물의 입 모양과 자동 매핑
레이턴시: 8초 클립 기준 평균 생성 시간 약 40~60초(Vertex AI 서울 리전 기준)
가격: 공식 페이지 참조

개발자가 주목해야 할 기능 3가지

1. 음성-영상 동기화(Audio-Visual Sync)
기존 영상 생성 API는 음성을 별도 TTS로 붙이고 후처리로 맞춰야 했다. Veo 3는 speech_text 파라미터에 대사를 넣으면 생성 단계에서 입 모양과 음성이 함께 렌더링된다. 다국어를 지원하며, 한국어 대사도 인식 가능하다고 구글이 공식 문서에 명시했다.

2. 멀티샷 일관성(Character Consistency)
character_seed 값을 고정하면 여러 클립에 걸쳐 동일 인물의 외형이 유지된다. 유튜브 시리즈나 광고 소재 반복 제작 시 캐릭터 재프롬프팅 없이 재사용할 수 있다.

3. 안전 필터 조정(Safety Config)
safety_filter_level을 BLOCK_ONLY_HIGH로 설정하면 광고·마케팅 소재에 허용되는 범위를 더 넓게 쓸 수 있다. 기본값은 BLOCK_MEDIUM_AND_ABOVE.

한국 개발자 실전 적용 시나리오

import vertexai
from vertexai.vision_models import VideoGenerationModel

vertexai.init(project="my-project", location="asia-northeast3")
model = VideoGenerationModel.from_pretrained("veo-3")

response = model.generate_video(
    prompt="서울 한강변 카페, 따뜻한 오후, 시네마틱",
    speech_text="오늘도 좋은 하루 되세요.",
    duration_seconds=8,
    aspect_ratio="16:9",
    character_seed=42
)
response.videos[0].save("output.mp4")

숏폼 자동화 파이프라인 예시

GPT-4o 또는 Claude로 스크립트 생성
Veo 3 API로 영상·음성 동시 생성
Cloud Storage에 저장 후 YouTube Data API로 자동 업로드

이 흐름이 단일 Cloud Function 내에서 완결 가능해져, 크리에이터 도구 SaaS를 개발하는 팀의 인프라 복잡도가 크게 낮아질 전망이다.

제한 사항 및 유의점

실제 인물 제한: 프롬프트에 특정 공인 이름 사용 시 자동 차단, 대체 설명 형태로 우회해야 한다.
한국 리전 지연: 서울(asia-northeast3) 리전은 정식 지원이나, 일부 고해상도 요청은 미국 리전으로 폴백될 수 있어 레이턴시 SLA는 공식 페이지에서 확인 권장.

출처: Google DeepMind Blog / Vertex AI 공식 문서

← 이전

Anthropic, Claude Code SDK 정식 GA—에이전트 코딩 파이프라인 직접 통합

Google, Gemini 2.5 Flash 추론 예산 토큰 제어 기능 정식 GA