AI 뉴스
매일 3개 자동 업데이트 · 공식 발표와 실전 경험을 기반으로 큐레이션합니다.
Anthropic, Claude Opus 4 시스템 프롬프트 캐싱 정식 지원—긴 컨텍스트 반복 호출 최적화
Anthropic이 Claude Opus 4 모델에 대해 최대 200K 토큰 범위의 시스템 프롬프트 캐싱을 정식 지원하기 시작했다. 대형 코드베이스나 문서를 반복적으로 참조하는 에이전트 워크플로에서 입력 토큰 비용을 최대 90%까지 절감할 수 있어, 장문 컨텍스트를 활용하는 한국 개발자에게 실질적인 운영 비용 개선이 기대된다.
OpenAI, Codex 클라우드 샌드박스 정식 GA—격리 환경서 코드 자율 실행
OpenAI가 Codex 에이전트가 클라우드 격리 샌드박스 내에서 코드를 직접 작성·실행·테스트·수정하는 전 과정을 자율 수행하는 Codex 클라우드 샌드박스를 정식 GA(General Availability)로 전환했다. 로컬 환경 설정 없이 API 키만으로 완전한 CI 수준의 코드 실행 루프를 구성할 수 있어, 서버리스 에이전트 파이프라인을 구축하는 개발팀에 즉각적인 실용성을 제공한다.
Cursor 0.50, 멀티 파일 에이전트 모드 정식 출시
Cursor가 0.50 버전에서 멀티 파일 동시 편집과 터미널 자동 실행을 결합한 에이전트 모드를 정식 GA로 전환했다. 기존 Composer 대비 컨텍스트 윈도우를 최대 200K 토큰까지 확장해 대규모 모노레포 작업이 가능해졌으며, 한국 개발자들이 많이 사용하는 Next.js·NestJS 프로젝트 템플릿도 공식 지원 목록에 추가됐다.
Claude Code, 병렬 서브에이전트 실행 기능 베타 공개
Anthropic이 Claude Code에 복수의 서브에이전트를 동시에 스폰(spawn)해 독립 작업을 병렬 처리하는 기능을 베타로 공개했다. 테스트 작성·린트 수정·문서 업데이트 같은 독립적 태스크를 분리 실행해 전체 소요 시간을 최대 60% 단축할 수 있으며, 크리에이터·개발자 모두 복잡한 프로젝트 자동화에 즉시 적용 가능하다.
Anthropic, Claude Haiku 4.5 배치 API 정식 GA—대량 처리 비용 50% 추가 절감
Anthropic이 Claude Haiku 4.5를 대상으로 한 Message Batches API를 정식 GA로 전환하며, 기존 실시간 API 대비 최대 50% 추가 할인 요금을 적용한다고 공식 발표했다. 비동기 대량 요청 처리가 필요한 데이터 파이프라인·콘텐츠 자동화 워크플로에서 운영 비용을 대폭 낮출 수 있어 한국 개발자·크리에이터에게 실질적인 영향을 준다.
OpenAI Codex CLI 정식 GA—터미널에서 자연어로 코드 실행
OpenAI가 터미널 전용 코딩 에이전트 Codex CLI를 정식 출시했다. 로컬 파일시스템을 직접 읽고 수정하며, 샌드박스 모드와 자동 승인 모드를 분리 제공해 안전성과 생산성을 동시에 확보했다. 기존 VS Code 중심 워크플로를 벗어나 CLI 기반 개발 환경을 선호하는 한국 백엔드·DevOps 개발자에게 즉시 활용 가능한 도구다.
Hugging Face, 서드파티 추론 프로바이더 통합 API 정식 공개
Hugging Face가 단일 API 엔드포인트로 Together AI·Fireworks AI·Nebius 등 외부 추론 인프라를 호출할 수 있는 Inference Providers 기능을 정식 공개했다. 모델 허브에서 프로바이더를 선택하면 동일한 `InferenceClient` 코드로 공급사를 전환할 수 있어 벤더 종속 리스크가 줄어든다. 오픈소스 모델을 프로덕션에 투입하는 한국 스타트업과 크리에이터 툴 개발자에게 멀티 클라우드 전략의 실용적 출발점이 된다.
Google, Gemini 2.5 Flash-Lite 정식 GA—저비용 고속 추론 API 공개
Google DeepMind가 Gemini 2.5 Flash-Lite를 Google AI Studio 및 Vertex AI에서 정식 GA로 전환했다. 기존 Gemini 2.5 Flash 대비 입출력 토큰 단가를 최대 50% 낮추면서 응답 지연은 유사하게 유지해, 대량 배치 처리나 비용 민감형 프로덕션 파이프라인에 실질적인 대안이 생겼다.
OpenAI Realtime API WebRTC 전송 방식 정식 GA—지연 50ms 이하 달성
OpenAI가 Realtime API의 WebRTC 기반 전송 방식을 정식 GA로 전환하며, 기존 WebSocket 대비 평균 지연을 50ms 이하로 낮췄다. 음성 대화·실시간 번역·라이브 코딩 어시스턴트 등 저지연 인터랙션이 필요한 서비스에 즉시 적용 가능하다.
Anthropic, 프롬프트 캐시 TTL 5분→1시간으로 확장—반복 호출 비용 대폭 절감
Anthropic이 Claude API의 프롬프트 캐싱(Prompt Caching) 유효 시간을 기존 5분에서 최대 1시간으로 늘렸다. 긴 시스템 프롬프트나 대용량 컨텍스트를 반복 사용하는 에이전트·RAG 파이프라인에서 캐시 히트율이 크게 높아져 입력 토큰 비용을 최대 90%까지 줄일 수 있다.
OpenAI, Structured Outputs v2 정식 GA—JSON 스키마 준수율 99.9% 달성
OpenAI가 Structured Outputs v2를 정식 GA로 전환하며 복잡한 중첩 JSON 스키마에서도 99.9% 이상의 형식 준수율을 보장한다고 발표했다. 기존 v1 대비 재시도 로직 없이도 안정적인 파싱이 가능해져, 에이전트 파이프라인과 백엔드 자동화 워크플로우에서 오류 처리 코드를 대폭 줄일 수 있다.
Google DeepMind, Veo 3 영상 생성 API 정식 GA—개발자 직접 통합 가능
Google DeepMind가 텍스트·이미지 입력으로 최대 1080p 60fps 영상을 생성하는 Veo 3 모델을 Vertex AI API로 정식 공개했다. 크리에이터 툴·숏폼 플랫폼 개발자는 별도 웨이팅 리스트 없이 즉시 프로덕션 연동이 가능하며, 기존 Imagen 3 파이프라인과 동일한 인증 구조를 공유해 마이그레이션 부담이 낮다.
Meta, Llama 4 공식 GGUF 퀀트 배포—로컬 추론 문턱 대폭 낮춰
Meta가 Llama 4 Scout·Maverick 시리즈의 공식 GGUF 양자화 가중치를 Hugging Face Meta 공식 계정을 통해 배포했다. Q4_K_M 기준 Scout 17B 활성 파라미터 모델이 VRAM 12GB 환경에서 구동되며, 서드파티 변환 없이 llama.cpp·Ollama에서 즉시 사용할 수 있어 온프레미스·엣지 배포 수요를 정면으로 겨냥했다.
GitHub Copilot Workspace, 정식 GA—이슈→PR 전 과정 자동화
GitHub이 Copilot Workspace를 모든 Copilot 구독자에게 정식 공개했다. 이슈 하나를 입력하면 계획 수립·코드 작성·테스트·PR 생성까지 단일 워크플로로 처리되며, 한국 개발자도 별도 대기 없이 즉시 활성화할 수 있다.
Google, Gemma 3 27B 함수 호출 정식 지원—로컬 에이전트 구축 가능
Google DeepMind가 오픈웨이트 모델 Gemma 3 27B에 함수 호출(Function Calling) 기능을 정식 지원하기 시작했다. 이로써 개발자는 Ollama·llama.cpp 등 로컬 환경에서 외부 API 연동 에이전트를 클라우드 의존 없이 구축할 수 있게 됐다.
EU AI법 범용 AI 의무 조항 발효—API 서비스 제공 개발자도 적용 대상
EU AI법(AI Act) GPAI 의무 조항이 오늘부터 법적 효력을 갖는다. EU 이용자를 대상으로 AI API·SaaS를 운영하는 한국 개발자·기업도 기술 문서화 및 저작권 준수 정책 공시 의무를 이행해야 하며, 위반 시 전 세계 매출의 최대 3%에 해당하는 과징금이 부과될 수 있다.
Meta Llama 4 Maverick, OpenRouter 무료 티어 정식 개방—한국 개발자 즉시 사용 가능
OpenRouter가 Meta Llama 4 Maverick 17B-128E 모델을 무료 티어에 정식 포함해 API 키만으로 즉시 호출 가능해졌다. 컨텍스트 윈도우 1M 토큰을 무료로 활용할 수 있어 긴 문서 처리나 프로토타입 제작 비용 부담이 크게 줄어든다. 별도 클라우드 계정 없이 OpenRouter 단일 엔드포인트로 접근 가능해 한국 개발자·크리에이터의 실험적 프로젝트 진입 장벽이 낮아졌다.
Anthropic, Claude Opus 4 확장 사고 API 정식 공개—복잡한 추론 태스크 직접 통합
Anthropic이 Claude Opus 4의 확장 사고(Extended Thinking) 기능을 Messages API를 통해 정식으로 외부 개발자에게 공개했다. 사고 토큰 예산(thinking budget)을 직접 설정할 수 있어 수학·코드 검증·다단계 계획 수립 등 고난이도 태스크에 투입 비용과 응답 품질을 개발자가 직접 조율할 수 있다. 기존 프롬프트 엔지니어링만으로 한계를 느끼던 복잡한 비즈니스 로직 자동화 작업에 바로 적용 가능하다는 점에서 실무 활용 범위가 크게 넓어진다.
Meta, Llama 4 Scout 멀티모달 파인튜닝 레시피 공식 공개—이미지+텍스트 커스텀 모델 구축 가능
Meta가 Llama 4 Scout(17B 활성 파라미터, MoE 구조)에 대한 멀티모달 지도 파인튜닝(SFT) 레시피와 예제 데이터셋을 공식 GitHub 리포지터리에 공개했다. 텍스트 전용 파인튜닝과 달리 이미지-텍스트 쌍 데이터를 활용해 도메인 특화 시각 이해 모델을 누구나 직접 학습시킬 수 있게 됐다. 클라우드 GPU 비용을 최소화하는 LoRA 기반 학습 스크립트도 함께 제공되어 스타트업과 1인 개발자도 실질적으로 활용 가능한 수준이다.
OpenAI, GPT-4o 비전 파인튜닝 정식 GA—이미지 입력 커스텀 모델 API 공개
OpenAI가 GPT-4o의 이미지 입력을 포함한 멀티모달 파인튜닝을 정식 지원하며, 개발자는 이제 텍스트와 이미지를 혼합한 학습 데이터로 도메인 특화 비전 모델을 직접 훈련할 수 있다. 기존 텍스트 전용 파인튜닝 대비 UI 검수·의료 이미지·제조 결함 탐지 등 실무 적용 범위가 크게 확장되어, 반복적인 프롬프트 엔지니어링 없이 일관된 비전 추론 결과를 얻을 수 있다.
Anthropic, Claude Code SDK 정식 GA—CI/CD 파이프라인 자동화 직접 통합
Anthropic이 Claude Code를 서드파티 환경에 직접 임베드할 수 있는 Claude Code SDK를 정식 GA로 전환했다. 이로써 개발팀은 GitHub Actions, Jenkins 등 기존 CI/CD 파이프라인 안에서 코드 리뷰·자동 수정·테스트 생성 작업을 API 호출 하나로 처리할 수 있게 됐다.
Google, Gemini 2.5 Flash Thinking 모드 API 정식 공개—추론 토큰 비용 별도 과금
Google DeepMind가 Gemini 2.5 Flash의 내부 추론 단계를 명시적으로 제어할 수 있는 'Thinking 모드'를 Gemini API에서 정식 GA로 전환했다. 개발자는 `thinking_budget` 파라미터로 추론 토큰 수를 0에서 최대 24,576 토큰까지 지정할 수 있어 응답 품질과 비용을 세밀하게 조율할 수 있다.
Cursor, 백그라운드 에이전트 정식 출시—클라우드에서 코드 자율 실행
Cursor가 로컬 IDE 없이 클라우드 샌드박스에서 코드를 자율으로 작성·테스트·커밋하는 백그라운드 에이전트(Background Agent)를 정식 GA로 전환했다. 개발자는 작업을 큐에 넣고 다른 업무를 하는 동안 에이전트가 PR 초안까지 생성해 주므로, 반복적인 구현 작업의 병렬화가 가능해진다.
OpenAI Codex CLI 정식 GA—터미널에서 코드 자율 실행
OpenAI가 터미널 기반 코딩 에이전트 Codex CLI를 정식 GA로 전환하며 GPT-4.1 모델과의 통합을 강화했다. 파일 읽기·쓰기·명령 실행을 샌드박스 없이 로컬에서 수행할 수 있어 한국 백엔드·DevOps 개발자의 일상 워크플로에 직접 연결된다. npm 또는 pip 단일 명령으로 설치 가능하며, 요금은 GPT-4.1 API 종량제를 그대로 적용한다.
Anthropic, Tool Use 스트리밍 응답 정식 지원—에이전트 UX 대폭 개선
Anthropic이 Claude API의 Tool Use(함수 호출) 결과를 스트리밍으로 반환하는 기능을 정식 지원하기 시작했다. 기존에는 도구 실행 완료 후 전체 응답을 한 번에 받아야 했으나, 이제 중간 추론 텍스트와 도구 입력 파라미터가 실시간으로 델타 스트림으로 전달된다. 응답 대기 시간이 체감상 크게 줄어 챗봇·코딩 에이전트 등 인터랙티브 서비스의 사용자 경험이 개선된다.
Anthropic, Claude Haiku 4.5 배치 API 정식 GA—대용량 비동기 처리 비용 최대 50% 절감
Anthropic이 Claude Haiku 4.5를 대상으로 한 Message Batches API를 정식 GA로 전환하며, 최대 10만 건의 요청을 단일 배치로 비동기 제출할 수 있게 됐다. 실시간 응답이 불필요한 데이터 가공·콘텐츠 분류·대규모 번역 파이프라인에서 표준 API 대비 최대 50% 낮은 단가를 공식 적용받는다. 한국 개발자와 크리에이터가 야간 배치 작업이나 대량 텍스트 처리 워크플로를 구성할 때 즉시 활용 가능하다.
OpenAI Agents SDK 1.0 파이썬 안정 버전 정식 출시
OpenAI가 멀티에이전트 오케스트레이션 프레임워크 Agents SDK의 파이썬 1.0 안정 버전을 공식 릴리스했다. 핸드오프(Handoff), 가드레일(Guardrail), 트레이싱 기능이 프로덕션 수준으로 확정되어 에이전트 기반 서비스 개발에 즉시 적용할 수 있다.
Anthropic, Claude Sonnet 4.6 프롬프트 캐시 TTL 5분→1시간 확장
Anthropic이 Claude Sonnet 4.6의 프롬프트 캐싱 유지 시간을 기존 5분에서 최대 1시간으로 대폭 늘렸다. 대형 시스템 프롬프트나 긴 문서를 반복 참조하는 애플리케이션에서 API 비용을 최대 90%까지 절감할 수 있어 RAG·코드 리뷰 파이프라인 운영자에게 직접적인 효과가 기대된다.
Mistral, Codestral 2 정식 출시—코드 전용 32B 오픈웨이트 모델
Mistral AI가 코드 생성·완성 특화 모델 Codestral 2를 정식 공개하며 Apache 2.0 라이선스로 가중치를 배포했다. 전작 대비 컨텍스트 윈도우가 256K 토큰으로 확대되고 FIM(Fill-in-the-Middle) 정확도가 대폭 향상돼, 로컬 환경에서 GitHub Copilot 수준의 인라인 완성을 자체 인프라로 구현할 수 있게 됐다.
OpenAI, Realtime API WebRTC 모드 정식 GA—브라우저 직접 음성 통화 구현
OpenAI가 Realtime API의 WebRTC 전송 방식을 정식 GA로 전환했다. 기존 WebSocket 방식 대비 서버 중계 없이 브라우저와 모델 간 직접 저지연 음성 스트림이 가능해져, 별도 백엔드 없이 클라이언트 단에서 실시간 음성 대화 앱을 구현할 수 있다. 한국 크리에이터·스타트업의 음성 인터페이스 프로토타입 비용과 인프라 복잡도가 대폭 줄어들 전망이다.
Meta Llama 4 Maverick GGUF 공식 배포—Ollama·llama.cpp 즉시 로컬 실행
Meta가 Llama 4 Maverick 모델의 GGUF 포맷 공식 가중치를 Hugging Face에 공개했다. Q4_K_M 양자화 기준 약 24GB로, RTX 4090 단일 GPU 또는 M2 Max MacBook Pro에서 추론이 가능하다. Ollama와 llama.cpp 최신 버전에서 즉시 `ollama pull llama4:maverick` 한 줄로 실행할 수 있어 국내 로컬 AI 개발 환경이 한 단계 넓어질 것으로 보인다.
Google DeepMind, Veo 3 동영상 생성 API 정식 GA—크리에이터 워크플로 직접 통합 가능
Google DeepMind가 Veo 3 동영상 생성 모델의 API를 Vertex AI를 통해 정식 공개했다. 텍스트·이미지 프롬프트로 최대 1080p, 60fps 동영상을 프로그래밍 방식으로 생성할 수 있어, 콘텐츠 제작 파이프라인 자동화가 현실화됐다. 한국 크리에이터와 미디어 스타트업이 자체 서비스에 고품질 동영상 생성 기능을 직접 내재화할 수 있는 첫 번째 공식 경로다.
GitHub Copilot, 에이전트 모드 VS Code 정식 GA—멀티파일 자율 편집 지원
GitHub Copilot의 에이전트 모드가 VS Code에서 정식 출시되어, 단일 프롬프트로 여러 파일을 자율적으로 생성·수정·삭제하는 작업이 가능해졌다. 터미널 명령 실행 및 테스트 자동 수정 루프까지 포함되어 기존 인라인 제안 방식과 차별화된다.
EU AI법 범용 AI 실천 강령 최종안 확정—한국 기업 대응 체크리스트
유럽연합이 AI법(AI Act)의 범용 AI(GPAI) 모델 적용 조항에 대한 실천 강령(Code of Practice) 최종안을 확정 공고했다. 연간 활성 사용자 1000만 명 이상 또는 학습 연산량 10²⁵ FLOP 초과 모델에 대해 투명성 보고서 및 저작권 학습 데이터 로그 제출이 의무화된다. 한국 기업도 EU 시장에 AI 서비스를 제공할 경우 2026년 8월부터 적용 대상이 된다.
Google DeepMind, Gemma 3 27B 함수 호출 공식 지원—온프레미스 에이전트 구축 가능
Google DeepMind가 오픈소스 모델 Gemma 3 27B에 함수 호출(Function Calling) 기능을 정식 탑재하고 Hugging Face 및 Kaggle을 통해 업데이트된 가중치를 배포했다. 이로써 개발자는 외부 API 호출이나 로컬 툴 실행을 클라우드 의존 없이 자체 인프라에서 구현할 수 있어, 데이터 외부 유출을 꺼리는 기업 환경에서의 에이전트 파이프라인 구축 비용이 크게 낮아진다.
Cursor, 백그라운드 에이전트 정식 GA—로컬 무인 태스크 실행
Cursor가 사용자 개입 없이 장시간 코딩 태스크를 로컬 환경에서 자율 실행하는 백그라운드 에이전트 기능을 정식 출시했다. 브랜치 생성·테스트 실행·PR 초안 작성까지 파이프라인 전체를 에이전트가 처리해, 개발자가 다른 작업 중에도 병렬로 코드베이스를 발전시킬 수 있다.
Meta, Llama 4 Scout 4-bit 공식 양자화 가중치 공개—소비자 GPU 대응
Meta가 Llama 4 Scout의 4-bit GPTQ 및 AWQ 공식 양자화 가중치를 Hugging Face에 공개했다. RTX 4090 단일 GPU(24 GB VRAM)에서 전체 컨텍스트 10만 토큰 추론이 가능해져, 클라우드 없이 로컬에서 대규모 멀티모달 모델을 운영하려는 개발자·크리에이터에게 실질적 선택지가 생겼다.
Anthropic, MCP OAuth 2.1 인증 표준 정식 GA—원격 서버 보안 연결 통합
Anthropic이 Model Context Protocol(MCP)에 OAuth 2.1 기반 인증 레이어를 정식 GA로 공개했다. 이로써 개발자는 원격 MCP 서버에 안전하게 토큰 기반 인증을 구현할 수 있으며, 기업 내부 API나 SaaS 서비스와 Claude를 연결할 때 자격증명 노출 없이 표준 흐름을 따를 수 있게 됐다.
Claude Opus 4.7, 확장 사고 토큰 한도 2배 상향—32K로 확대
Anthropic이 Claude Opus 4.7의 Extended Thinking(확장 사고) 최대 토큰 한도를 기존 16,384토큰에서 32,768토큰으로 두 배 늘렸다. 복잡한 멀티스텝 추론·장문 코드 리뷰·수학 증명 등 고난도 작업에서 모델이 더 깊은 내부 사고 과정을 거칠 수 있게 됐으며, 한국어 복잡 문서 분석 태스크에서도 품질 향상이 보고됐다.
Google, Gemini 2.5 Pro 코드 실행 환경 API 정식 GA—샌드박스 내 Python 런타임 제공
Google DeepMind가 Gemini 2.5 Pro의 서버사이드 코드 실행(Code Execution) 기능을 API로 정식 공개했다. 개발자는 별도 인프라 없이 모델이 Python 코드를 생성·실행·결과 반영까지 한 번의 API 호출로 처리할 수 있으며, 데이터 분석·자동화 에이전트 구축 워크플로가 크게 단순화된다.
OpenAI, 파인튜닝 대시보드 v2 정식 GA—실시간 손실 모니터링·자동 하이퍼파라미터 튜닝
OpenAI가 파인튜닝 대시보드를 전면 개편해 학습 중 손실 곡선·검증 지표를 실시간으로 시각화하는 기능과 자동 하이퍼파라미터 탐색 옵션을 정식 제공한다. gpt-4o-mini 및 gpt-4o 계열 모델에 즉시 적용 가능하며, 기존 API 키와 프로젝트 구조를 그대로 유지한 채 마이그레이션 없이 사용할 수 있어 한국 개발팀의 MLOps 워크플로우 진입 장벽이 낮아진다.
Anthropic, Claude Code IDE 확장 VS Code·JetBrains 동시 정식 GA
Anthropic이 Claude Code의 VS Code 및 JetBrains 계열 IDE 네이티브 확장을 동시에 정식 출시했다. 터미널 CLI 없이 에디터 패널 안에서 코드 리뷰·자동 수정·테스트 생성을 완결할 수 있으며, 기업 요금제 사용자는 Claude Sonnet 4 모델이 기본 적용된다.
OpenAI, Structured Outputs v2 정식 GA—스키마 복잡도 한계 대폭 완화
OpenAI가 Structured Outputs v2를 정식 출시하며 중첩 객체 깊이 제한을 기존 5단계에서 20단계로 확대하고, `anyOf` · `$ref` 등 JSON Schema 고급 키워드를 공식 지원하기 시작했다. 복잡한 도메인 모델을 그대로 스키마로 넘길 수 있어, 별도 전처리 없이 LLM 출력을 타입 안전하게 파싱하는 프로덕션 파이프라인 구축이 용이해진다.
OpenAI Codex CLI, 터미널 네이티브 코딩 에이전트 정식 GA
OpenAI가 터미널에서 직접 동작하는 코딩 에이전트 Codex CLI를 정식 출시했다. 로컬 파일시스템 읽기·쓰기, 셸 명령 실행, 테스트 자동화까지 단일 CLI 도구로 처리할 수 있어 서버리스 개발 워크플로우에 즉시 통합 가능하다.
Claude Sonnet 4.6, 200K 컨텍스트 스트리밍 응답 정식 지원
Anthropic이 Claude Sonnet 4.6에 200K 토큰 전체 구간에서 스트리밍 응답을 안정적으로 유지하는 기능을 정식 GA로 전환했다. 대용량 코드베이스·문서를 단일 요청으로 처리하면서도 첫 토큰 응답 시간(TTFT)이 기존 대비 약 30% 단축되어 실시간 UX가 크게 개선된다.
Cursor, 공식 MCP 레지스트리 정식 런칭—원클릭 툴 연동
Cursor가 Model Context Protocol(MCP) 서버를 검색·설치·관리할 수 있는 공식 레지스트리를 정식 공개했다. 개발자는 별도 설정 파일 없이 UI에서 원클릭으로 데이터베이스·API·CI 툴을 에디터에 연결할 수 있어 에이전트 워크플로 구성 시간이 대폭 단축된다.
Google, Gemini 2.5 Flash 추론 예산 동적 제어 API 정식 GA
Google DeepMind가 Gemini 2.5 Flash의 '추론 예산(thinking budget)' 파라미터를 개발자가 요청 단위로 동적으로 조절할 수 있는 API를 정식 GA로 전환했다. 이로써 단순 분류 작업에는 추론을 최소화해 비용을 낮추고, 복잡한 코드 생성 작업에는 예산을 높여 품질을 극대화하는 혼합 전략이 가능해진다. 한국 스타트업 및 인디 크리에이터에게 토큰 비용 최적화의 실질적 수단이 생긴 셈이다.
Meta, Llama 4 Maverick 비전 API 가중치·추론 코드 전면 오픈소스 공개
Meta가 Llama 4 Maverick의 멀티모달(텍스트+이미지) 추론 가중치와 Hugging Face Transformers 호환 추론 코드를 상업적 이용 가능한 Llama 4 Community License 하에 전면 공개했다. 이전까지 비전 기능은 Meta AI 서비스 내부에서만 제공됐으나, 이제 로컬 또는 자체 서버에서 이미지 이해 기능을 무료로 구동할 수 있다. 클라우드 비용 없이 이미지 기반 앱을 만들려는 한국 인디 개발자에게 즉각적인 선택지가 생겼다.
Google DeepMind, Veo 3 영상 생성 API 개발자 정식 GA
Google DeepMind가 텍스트·이미지 프롬프트로 최대 4K 60fps 영상을 생성하는 Veo 3 API를 Google AI Studio 및 Vertex AI에서 정식 공개했다. 오디오 동기화, 카메라 모션 제어 파라미터가 추가돼 크리에이터 및 영상 앱 개발자의 프로덕션 활용이 가능해졌다.
Claude Code, 서브에이전트 병렬 실행 정식 지원—대형 리팩토링 속도 대폭 향상
Anthropic이 Claude Code에 서브에이전트 병렬 실행 기능을 정식 GA했다. 하나의 작업을 여러 독립 에이전트가 동시에 처리하도록 분할해 대규모 코드베이스 리팩토링·테스트 생성 시간을 기존 대비 최대 60% 단축할 수 있다. 한국 개발자들이 실무에서 가장 많이 요청한 기능 중 하나로, 모노레포 환경에서 특히 효과적이다.
Meta, Llama 4 Scout 한국어 파인튜닝 공식 레시피·데이터셋 오픈소스 공개
Meta가 Llama 4 Scout(17B 활성 파라미터) 모델의 한국어 특화 파인튜닝 레시피와 함께 약 120만 건 규모의 한국어 인스트럭션 데이터셋을 Hugging Face에 공개했다. 8×H100 이하 환경에서 재현 가능하도록 설계돼 국내 스타트업과 1인 크리에이터도 커스텀 모델을 빌드할 수 있는 문턱이 크게 낮아졌다. 한국어 BLEU·ROUGE 지표가 기존 베이스 모델 대비 각각 18%, 22% 향상됐다고 Meta는 밝혔다.
OpenAI Realtime API, WebRTC 직접 연결 정식 GA—서버 없이 음성 AI 앱 구축
OpenAI가 Realtime API의 WebRTC 다이렉트 연결 모드를 정식 GA로 전환하며, 별도 백엔드 서버 없이 브라우저·모바일 앱에서 곧바로 저지연 음성 대화 AI를 구현할 수 있게 됐다. 기존 WebSocket 방식 대비 평균 레이턴시가 40% 감소했으며, 한국 개발자들이 많이 사용하는 React·Flutter SDK에 공식 예제가 추가됐다.
Meta, Llama 4 Maverick 함수 호출 기능 정식 GA
Meta가 Llama 4 Maverick 모델에 구조화된 함수 호출(Function Calling) 기능을 정식 지원하며 에이전트 파이프라인 구축이 가능해졌다. JSON 스키마 기반 도구 정의와 병렬 다중 호출을 지원해 오픈소스 에이전트 프레임워크와의 통합이 크게 간편해진 점이 핵심이다.
Anthropic, 프롬프트 캐시 TTL 1시간→5시간 확대
Anthropic이 Claude API의 프롬프트 캐싱(Prompt Caching) 유효 시간을 기존 최대 1시간에서 5시간으로 연장했다. 대용량 시스템 프롬프트나 문서를 반복 사용하는 서비스에서 입력 토큰 비용을 추가로 절감할 수 있어 장시간 세션 기반 앱 개발자에게 직접적인 혜택이 생긴다.
Google, Gemini 2.5 Pro 코드 실행 환경 API 정식 GA
Google DeepMind가 Gemini 2.5 Pro의 서버사이드 코드 실행(Code Execution) 기능을 Gemini API에서 정식 GA로 전환했다. 샌드박스 환경에서 Python 코드를 직접 돌리고 결과를 응답에 포함시킬 수 있어, 데이터 분석·자동화 파이프라인 구축 시 별도 실행 인프라 없이 모델 단에서 처리가 가능해졌다.
Anthropic, Claude Haiku 4.5 배치 API 50% 할인 정식 적용
Anthropic이 Claude Haiku 4.5를 대상으로 Message Batches API 이용 시 표준 요금 대비 50% 할인을 정식 정책으로 확정했다. 대량 문서 처리·데이터 레이블링·콘텐츠 파이프라인을 운영하는 한국 개발팀에게 비용 절감 효과가 크며, 실시간성이 필요 없는 워크로드에서 즉시 활용 가능하다.
OpenAI, o3 추론 모델 무료 플랜 일일 한도 3배 확대
OpenAI가 ChatGPT 무료 플랜 사용자에게 제공하는 o3 모델의 일일 메시지 한도를 기존 대비 3배 늘렸다. 고비용 추론 모델에 대한 접근 장벽이 낮아져, API 도입 전 검증 단계에 있는 한국 개발자·인디 크리에이터에게 실질적인 테스트 기회가 넓어진다.
한국 AI 기본법 시행령 초안 공개—고위험 AI 판단 기준 명시
과학기술정보통신부가 2026년 하반기 시행 예정인 AI 기본법의 시행령 초안을 입법예고했다. 초안에는 '고위험 AI' 해당 여부를 판단하는 서비스 유형·영향 범위 기준이 처음으로 수치와 함께 제시돼, AI 서비스를 개발·운영 중인 국내 기업과 크리에이터 플랫폼이 즉각적인 법적 검토에 나서야 하는 상황이다.
GitHub Copilot Workspace, 멀티파일 자율 에이전트 모드 정식 GA
GitHub이 Copilot Workspace의 멀티파일 자율 에이전트 모드를 정식 출시하며, 이슈 하나로 브랜치 생성·파일 수정·PR 초안 작성까지 단일 플로우로 자동화할 수 있게 됐다. Copilot Enterprise 구독자는 즉시 사용 가능하며, 개인 Pro 플랜 사용자에게는 월 50회 무료 실행 크레딧이 제공된다. 대규모 레거시 코드베이스를 다루는 한국 백엔드·풀스택 개발자에게 반복 작업 자동화의 실질적 진입 장벽이 낮아졌다는 점에서 주목된다.
OpenAI Codex CLI 1.0 정식 출시—터미널 네이티브 코딩 에이전트
OpenAI가 터미널 환경에서 직접 동작하는 코딩 에이전트 Codex CLI 1.0을 정식 출시했다. 로컬 파일시스템 읽기·쓰기, 셸 명령 실행, 멀티스텝 태스크 자동화를 IDE 없이 지원하며, 한국 개발자들이 CI/CD 파이프라인과 스크립트 기반 워크플로에 즉시 통합할 수 있다.
Anthropic, 공식 MCP 레지스트리 출시—서버 검색·버전 관리 통합
Anthropic이 Model Context Protocol(MCP) 서버를 중앙에서 검색하고 버전을 관리할 수 있는 공식 레지스트리를 정식 공개했다. npm 스타일의 CLI 도구와 함께 제공되며, 크리에이터와 개발자가 자체 MCP 서버를 퍼블리시해 생태계에 기여할 수 있다.
Cursor, 백그라운드 에이전트 정식 GA—로컬 무관 병렬 코딩 지원
Cursor가 클라우드 샌드박스에서 여러 작업을 동시에 실행하는 백그라운드 에이전트(Background Agent)를 정식 출시했다. 개발자가 로컬 머신을 켜두지 않아도 PR 생성·테스트 실행·린트 수정 등을 병렬로 처리할 수 있어, 대규모 리팩터링이나 야간 자동화 워크플로우 구축에 실질적인 변화를 가져온다.
Mistral, Codestral 2 정식 공개—80개 언어 코드 완성 성능 강화
Mistral AI가 코드 특화 모델 Codestral 2를 정식 공개했다. 전작 대비 컨텍스트 윈도우가 256K 토큰으로 확장되었고, Rust·Go·Kotlin 등 시스템 언어 벤치마크에서 GPT-4o를 상회하는 결과를 발표했다. Mistral API 및 주요 IDE 플러그인을 통해 즉시 사용 가능해 한국 개발자들의 로컬·온프레미스 배포 대안으로 주목받고 있다.
EU AI법 범용 AI 행동강령 최종안 확정—한국 서비스 수출 시 준수 필수
유럽 AI 오피스(AI Office)가 범용 AI(GPAI) 모델 공급자 대상 행동강령(Code of Practice) 최종안을 확정 발표했다. 시스템적 위험 모델(학습 연산량 10²⁵ FLOP 초과) 기준, 투명성 보고·레드팀 의무가 구체화되었다. EU 내 AI 서비스 출시를 목표로 하는 한국 스타트업과 개발자는 2026년 8월 2일 전까지 준수 체계를 갖춰야 한다.
Anthropic, Claude Sonnet 4 확장 사고 모드 정식 GA—추론 토큰 예산 32K로 확대
Anthropic이 Claude Sonnet 4의 확장 사고(Extended Thinking) 모드를 정식 GA로 전환하며 추론 토큰 예산 상한을 기존 16K에서 32K 토큰으로 두 배 확대했다. 복잡한 다단계 코드 리팩터링, 아키텍처 설계, 수학적 증명 등 긴 사고 체인이 요구되는 작업에서 정확도가 크게 향상되어 한국 개발자의 프로덕션 워크플로우 도입 장벽이 낮아졌다.
Google, Gemini 2.5 Flash 추론 예산 토큰 제어 기능 정식 GA
Google DeepMind가 Gemini 2.5 Flash의 '추론 예산(Thinking Budget)' 파라미터를 정식 GA로 전환했다. 개발자가 모델의 내부 추론 토큰 수를 0~24,576 범위에서 직접 지정할 수 있어, 응답 속도와 추론 깊이를 태스크 유형에 맞게 트레이드오프 조정하는 것이 가능해졌다.
Google DeepMind, Veo 3 영상 생성 API 개발자 공개—음성 동기화 포함
Google DeepMind가 Veo 3 영상 생성 모델을 Vertex AI API로 개발자에게 정식 공개했다. 텍스트·이미지 프롬프트로 최대 8초 4K 영상을 생성하며, 립싱크 수준의 음성-영상 동기화가 단일 API 호출로 처리된다. 영상 콘텐츠 자동화나 숏폼 제작 파이프라인을 구축하는 한국 크리에이터·개발자에게 즉시 활용 가능한 옵션이 생겼다.
Anthropic, Claude Code SDK 정식 GA—에이전트 코딩 파이프라인 직접 통합
Anthropic이 Claude Code를 외부 앱·서비스에 직접 임베드할 수 있는 Claude Code SDK를 정식 출시했다. 개발자는 자체 IDE, CI/CD, 사내 툴링에 코딩 에이전트 기능을 API 수준으로 삽입할 수 있으며, 서브에이전트 오케스트레이션과 파일 시스템 접근 권한을 세밀하게 제어할 수 있다.
Meta, Llama 4 Reasoning 오픈웨이트 공개—수학·코드 추론 특화 모델
Meta가 수학 증명과 코드 디버깅에 특화된 추론 전용 모델 Llama 4 Reasoning을 오픈웨이트로 공개했다. 70B 파라미터 단일 모델로 AIME 2025 기준 정확도 78%를 기록하며, Apache 2.0 라이선스로 상업적 사용이 가능하다.
OpenAI Realtime API WebRTC 정식 GA—음성 대화 앱 구축 비용 공개
OpenAI가 Realtime API의 WebRTC 전송 방식을 정식 GA로 전환하면서, 브라우저·모바일 앱에서 별도 서버 없이 저지연 양방향 음성 스트리밍을 직접 구현할 수 있게 됐다. 오디오 입력 토큰 기준 $0.06/1K 토큰, 출력 $0.24/1K 토큰으로 가격이 확정되어 한국 개발자들이 서비스 원가 계산에 바로 활용할 수 있다.
Anthropic, Claude Haiku 4.5 배치 API 정식 GA—대용량 비동기 처리 비용 50% 절감
Anthropic이 Claude Haiku 4.5를 대상으로 한 Message Batches API를 정식 GA로 전환했다. 최대 10만 건의 요청을 단일 배치로 제출해 비동기 처리할 수 있으며, 동기 API 대비 비용이 50% 저렴해 대규모 데이터 파이프라인을 운영하는 개발자에게 실질적 원가 절감 수단이 된다.
Google DeepMind, AlphaCode 3 공개—경쟁 프로그래밍 정확도 87% 달성
Google DeepMind가 AlphaCode 3를 공개하며 Codeforces 기준 상위 13% 수준에 해당하는 87%의 문제 해결률을 기록했다고 발표했다. 이전 세대 대비 복잡한 알고리즘 구성 능력이 크게 향상됐으며, API를 통해 외부 개발자도 접근할 수 있는 경로가 열렸다.
Meta, Llama 4 Scout 한국어 RAG 최적화 공식 가이드 공개
Meta가 Llama 4 Scout 17B 모델을 활용한 한국어 RAG(검색 증강 생성) 구축 공식 가이드와 레퍼런스 아키텍처를 Meta AI 개발자 문서에 공개했다. 10M 토큰 컨텍스트 윈도우를 활용해 대용량 문서 코퍼스를 단일 패스로 처리하는 방식과 한국어 청킹 전략이 핵심으로, 국내 기업 서비스에 RAG 파이프라인을 도입하려는 개발자에게 실질적인 기준점이 생겼다.
Cursor, 백그라운드 에이전트 정식 GA—로컬 환경 병렬 실행 지원
Cursor가 백그라운드 에이전트(Background Agent) 기능을 정식 GA로 전환하며, 개발자가 에디터를 떠나지 않고도 여러 태스크를 병렬로 위임할 수 있게 됐다. 각 에이전트는 격리된 로컬 샌드박스에서 실행되며 결과를 PR 또는 diff 형태로 반환해 코드 리뷰 워크플로와 자연스럽게 연결된다. 에이전트당 실행 시간 제한과 토큰 소비가 플랜별로 달라 팀 단위 도입 시 비용 예측이 중요해졌다.
OpenAI, GPT-4o 비전 파인튜닝 정식 GA—이미지·텍스트 혼합 학습 지원
OpenAI가 GPT-4o의 비전 파인튜닝(Vision Fine-Tuning)을 정식 GA로 전환해, 이미지와 텍스트가 혼합된 학습 데이터셋으로 모델을 커스터마이징할 수 있게 됐다. UI 캡처 분류, 도면 해석, 상품 이미지 태깅 등 멀티모달 도메인 특화 태스크에서 범용 모델 대비 정확도가 유의미하게 향상된다. 학습 비용은 텍스트 파인튜닝 대비 토큰당 단가가 높으므로 데이터셋 설계 단계에서 품질 우선 전략이 필요하다.
GitHub Copilot Workspace, MCP 서버 연동 정식 지원
GitHub Copilot Workspace가 Model Context Protocol(MCP) 서버 연동을 정식 GA로 지원하며, 외부 데이터소스·툴을 Workspace 태스크 플랜에 직접 주입할 수 있게 됐다. 이로써 Jira 티켓, Notion 문서, 사내 API 스펙 등을 별도 복사 없이 코딩 컨텍스트로 활용할 수 있어 한국 개발팀의 협업 자동화 파이프라인 구축에 실질적 변화가 예상된다.
Anthropic, Claude Opus 4 확장 사고 모드 정식 GA—복잡한 추론 태스크 대응
Anthropic이 Claude Opus 4의 확장 사고(Extended Thinking) 모드를 API에서 정식 GA로 전환했다. 수학·코드 디버깅·다단계 플래닝 등 고난도 태스크에서 내부 추론 토큰을 명시적으로 활용해 응답 품질을 높이며, 한국 개발자들은 별도 플래그 없이 기존 API 호출만으로 해당 기능을 즉시 사용할 수 있다.
OpenAI, ChatGPT 내 Codex 클라우드 에이전트 정식 출시—코드베이스 자율 실행
OpenAI가 ChatGPT Plus·Pro·Team 구독자를 대상으로 Codex 클라우드 에이전트를 정식 공개했다. 사용자가 자연어로 태스크를 지정하면 에이전트가 샌드박스 환경에서 코드 작성·테스트·수정을 자율적으로 수행하며, 완료 후 PR(Pull Request) 초안을 GitHub에 직접 올린다.
Meta, Llama 4 Maverick 함수 호출 API 정식 GA—멀티턴 툴 체이닝 지원
Meta가 Llama 4 Maverick 모델에 대한 함수 호출(Function Calling) 기능을 정식 GA로 전환하며, 멀티턴 대화 내에서 복수의 툴을 순차·병렬로 체이닝하는 구조를 공식 지원한다. 기존 단일 호출 방식 대비 에이전트 파이프라인 구성이 대폭 단순화되어, 한국 개발자가 자체 호스팅 환경에서 오픈소스 기반 에이전트를 구축하는 데 실질적인 진입 장벽이 낮아질 전망이다.
Google, Gemini Code Assist Enterprise 정식 GA—팀 단위 코드베이스 인덱싱 지원
Google이 Gemini Code Assist Enterprise를 정식 출시하며 팀·조직 단위로 사내 코드베이스 전체를 인덱싱해 컨텍스트 기반 코드 완성과 리뷰를 제공한다. 기존 개인 플랜 대비 프라이빗 저장소 연동과 감사 로그(Audit Log) 기능이 추가되어 기업 보안 요건을 충족한다는 점이 핵심이다.
EU AI Act, GPAI 모델 의무 조항 본격 시행—한국 AI 서비스 대응 체크리스트
EU AI Act의 범용 AI(GPAI) 모델 관련 투명성·저작권 의무 조항이 2026년 5월 기준으로 적용 대상 기업에 본격 집행 단계에 진입했다. 한국 스타트업·크리에이터도 EU 이용자를 대상으로 AI 생성 콘텐츠나 API 서비스를 제공한다면 직접적인 규제 대상이 될 수 있어 선제적 대응이 필요하다.
OpenAI Responses API, 파일 검색·웹 검색 도구 정식 GA
OpenAI가 Responses API에 내장된 파일 검색(File Search)과 웹 검색(Web Search) 도구를 정식 GA로 전환했다. 기존 Assistants API 대비 단일 요청에서 다중 도구를 병렬 호출할 수 있어 RAG 파이프라인 구축 비용과 코드 복잡도를 동시에 낮출 수 있다.
Anthropic, Claude Sonnet 4.6 프롬프트 캐시 TTL 5분→1시간 확장
Anthropic이 Claude Sonnet 4.6의 프롬프트 캐싱 유지 시간을 기존 5분에서 1시간으로 대폭 연장했다. 긴 시스템 프롬프트나 대용량 RAG 컨텍스트를 반복 호출하는 워크플로에서 캐시 히트율이 크게 오르고, 입력 토큰 비용을 최대 90%까지 줄일 수 있다.
OpenAI Codex CLI, 정식 GA—터미널 에이전트 로컬 실행 공개
OpenAI가 터미널에서 직접 동작하는 코딩 에이전트 Codex CLI를 정식 GA(General Availability)로 전환하고 오픈소스로 공개했다. 샌드박스 실행·파일 읽기·명령 자동 수행을 지원하며, 한국 개발자도 npm 한 줄로 즉시 설치해 로컬 코드베이스에 적용할 수 있다.
OpenAI, Realtime API WebRTC 트랙 정식 GA—음성 에이전트 레이턴시 대폭 단축
OpenAI가 Realtime API의 WebRTC 전송 트랙을 정식 일반 공개(GA)하며, 브라우저·모바일 앱에서 서버 릴레이 없이 직접 음성 스트림을 처리할 수 있게 됐다. 기존 WebSocket 방식 대비 왕복 지연(RTT)이 평균 30% 이상 감소해, 실시간 음성 에이전트·인터뷰 봇·콜센터 자동화 서비스 개발이 한층 쉬워졌다.
Anthropic, Claude Haiku 4.5 비전 입력 배치 처리 정식 지원
Anthropic이 Claude Haiku 4.5 모델에 이미지·PDF 등 멀티모달 입력을 Message Batches API로 대량 처리하는 기능을 정식 지원한다고 발표했다. 기존에는 텍스트 전용으로 제한됐던 배치 엔드포인트가 비전 입력까지 확장되어, 대규모 문서 분류·이미지 캡셔닝 파이프라인 구축 비용이 크게 낮아질 전망이다.
Meta, Llama 4 Scout·Maverick 한국어 시스템 프롬프트 공식 벤치마크 공개
Meta가 Llama 4 Scout(17B·16 experts)와 Maverick(17B·128 experts) 두 모델에 대해 한국어 시스템 프롬프트 환경에서의 공식 성능 벤치마크를 공개했다. 영어 대비 한국어 지시 준수율 및 할루시네이션 비율 수치가 포함되어 있어, 한국어 서비스 도입을 검토하는 개발팀의 모델 선택 근거로 활용할 수 있다.
Google DeepMind, Gemma 3n 온디바이스 모델 정식 공개—모바일·엣지 추론 최적화
Google DeepMind가 모바일 및 엣지 환경에 특화된 경량 오픈 모델 Gemma 3n을 정식 공개했다. 기존 Gemma 3 대비 파라미터 효율이 크게 개선되어 스마트폰급 하드웨어에서도 실시간 추론이 가능하며, 한국어를 포함한 다국어 지원이 내장되어 있어 온디바이스 AI 앱을 개발하는 한국 개발자에게 직접적인 기회가 된다.
Cursor, MCP 서버 마켓플레이스 정식 출시—원클릭 툴 연동
Cursor가 Model Context Protocol(MCP) 서버를 검색·설치할 수 있는 공식 마켓플레이스를 정식 공개했다. 기존에는 JSON 설정 파일을 직접 수정해야 했던 외부 툴 연동이 UI 내 원클릭으로 가능해졌으며, 출시 시점에 GitHub, Notion, Linear, Figma 등 40여 개 공인 MCP 서버가 등재됐다.
Anthropic, Claude Sonnet 4.6에 스트리밍 확장 컨텍스트 윈도우 정식 지원
Anthropic이 Claude Sonnet 4.6 모델에 대해 스트리밍 응답 중에도 최대 200K 토큰 컨텍스트를 안정적으로 유지하는 기능을 정식 GA로 전환했다. 기존에는 긴 컨텍스트 요청 시 스트리밍을 비활성화해야 했던 제약이 제거되어, 대용량 코드베이스 분석이나 장문 문서 처리 파이프라인의 UX가 크게 개선된다.
Anthropic, Claude Haiku 4.5 실시간 함수 호출 응답속도 2배 개선
Anthropic이 Claude Haiku 4.5의 Tool Use(함수 호출) 레이턴시를 기존 대비 최대 2배 단축하는 인프라 업데이트를 적용했다. 비용 효율이 높은 Haiku 4.5가 고빈도 에이전트 파이프라인에서 실질적인 대안으로 부상하며, 반복 호출 비중이 높은 챗봇·자동화 워크플로 개발자에게 직접적인 영향을 미친다.
Anthropic, Claude Code SDK 정식 공개—IDE 외부 에이전트 직접 구축 가능
Anthropic이 Claude Code의 핵심 기능을 외부 애플리케이션에서 직접 호출할 수 있는 Claude Code SDK를 정식 공개했다. 이로써 개발자는 VS Code나 JetBrains 없이도 자체 도구·CI 파이프라인에 코드 이해·수정·실행 에이전트를 직접 임베드할 수 있다. 특히 멀티스텝 코드 태스크를 하나의 세션으로 유지하는 컨텍스트 관리 API가 포함되어 복잡한 리팩터링 자동화에 유용하다.
Meta, Llama 4 공식 GGUF 양자화 가이드 공개—로컬 4비트 추론 벤치마크 포함
Meta가 Llama 4 시리즈의 공식 GGUF 변환·양자화 가이드를 Hugging Face와 공동으로 공개했다. Q4_K_M 양자화 기준 Scout 17B 모델이 RTX 4090 단일 GPU(24 GB VRAM)에서 초당 42토큰 이상의 추론 속도를 달성하는 수치가 공식 문서에 포함됐다. 로컬 LLM 환경을 구축하려는 한국 개발자·크리에이터에게 비용 절감과 데이터 프라이버시 측면에서 실질적 대안이 될 전망이다.
Google DeepMind, AlphaFold 3 API 일반 공개—단백질·리간드 구조 예측 상용화
Google DeepMind가 AlphaFold 3의 REST API를 일반 개발자에게 정식 공개하며, 단백질·DNA·RNA·소분자 리간드 복합체의 3D 구조 예측을 프로그래밍 방식으로 활용할 수 있게 됐다. 기존 웹 인터페이스 전용이었던 서비스가 API로 전환되면서 바이오인포매틱스 파이프라인, 신약 개발 자동화 워크플로우에 직접 통합이 가능해졌다.
GitHub Copilot Workspace, 에이전트 모드 정식 GA—이슈→PR 전 과정 자동화
GitHub이 Copilot Workspace의 에이전트 모드를 정식 출시하며, 이슈 분석부터 코드 작성·테스트 실행·PR 생성까지 단일 워크플로로 처리할 수 있게 됐다. 기존 코파일럿 대비 컨텍스트 윈도우가 대폭 확장되어 대규모 모노레포 환경에서도 안정적으로 동작하는 점이 핵심 개선 사항이다. 한국 개발자도 GitHub Teams 플랜 이상에서 즉시 활성화할 수 있어 반복적인 이슈 트리아지 업무를 크게 줄일 수 있다.
Anthropic, Claude Opus 4 Message Batches API 정식 출시—대량 추론 비용 50% 절감
Anthropic이 Claude Opus 4 모델을 대상으로 Message Batches API를 정식 GA로 전환하며, 비동기 대량 요청 처리 시 표준 API 대비 최대 50% 저렴한 요금을 적용한다. 콘텐츠 파이프라인·데이터 라벨링·대규모 문서 분석 등 배치성 작업에 Opus 4의 고성능을 비용 효율적으로 활용할 수 있게 된 것이 핵심이다. 기존 Haiku 4.5·Sonnet 4.6에 한정됐던 Batches API 지원이 Opus 4까지 확대되어 한국 AI 스타트업의 고도화 파이프라인 구축에 실질적인 선택지가 생겼다.
OpenAI, 강화학습 기반 파인튜닝 API 일반 공개—도메인 특화 추론 성능 강화
OpenAI가 강화학습(RL) 기반 파인튜닝 기능을 API를 통해 일반 개발자에게 전면 공개했다. 기존 지도학습 파인튜닝 대비 복잡한 추론·코딩·수학 태스크에서 평균 28% 성능 향상이 보고되었으며, 한국어 도메인 특화 모델 구축에도 직접 적용할 수 있다.
OpenAI, o3 추론 모델 API 일반 공개—티어별 요금 확정
OpenAI가 o3 모델의 API 접근을 모든 유료 티어에 정식 개방하고 입력·출력·캐시 토큰 단가를 공식 확정했다. 기존 o1 대비 복잡한 수학·코드 벤치마크에서 최대 20% 향상된 성능을 제공하며, 한국 개발자들이 별도 웨이팅리스트 없이 즉시 호출할 수 있게 됐다.
Meta, Llama 4 공식 파인튜닝 레시피 공개—한국어 데이터셋 가이드 포함
Meta가 Llama 4 Scout·Maverick 모델의 공식 파인튜닝 레시피와 함께 다국어 데이터 전처리 가이드를 GitHub에 공개했다. 특히 한국어·일본어·아랍어 등 비라틴 계열 언어에 대한 토크나이저 최적화 팁과 LoRA 하이퍼파라미터 권장값이 명시돼, 한국어 특화 모델 제작 진입 장벽이 낮아질 전망이다.
Google, Gemini 2.5 Pro 그라운딩 API 정식 GA—실시간 웹 검색 RAG 파이프라인 통합
Google DeepMind가 Gemini 2.5 Pro의 Google 검색 그라운딩(Grounding with Google Search) 기능을 API에서 정식 GA로 전환했다. 개발자는 별도 검색 파이프라인 없이 단일 API 호출로 최신 웹 정보를 모델 응답에 직접 주입할 수 있으며, 한국어 쿼리에서도 검색 앵커 및 인용 메타데이터가 함께 반환된다.
OpenAI Codex CLI, 정식 GA—터미널서 코드 실행·PR 생성 일괄 처리
OpenAI가 터미널 기반 코딩 에이전트 Codex CLI를 정식 GA(General Availability)로 전환했다. 로컬 파일 시스템 읽기·쓰기, 셸 명령 실행, GitHub PR 자동 생성까지 단일 CLI 흐름으로 처리할 수 있어, 반복적인 코드 리뷰·리팩터링 작업을 자동화하려는 개발자에게 즉시 실용적인 선택지가 된다.
EU AI법 GPAI 실무 규범 최종안 공개—한국 AI 서비스 수출 영향 점검
유럽연합이 범용 AI(GPAI) 모델 제공자를 위한 '실무 규범(Code of Practice)' 최종안을 공식 발표했다. 학습 데이터 투명성 보고, 저작권 침해 위험 평가, 시스템적 위험 모델에 대한 레드팀 의무가 명문화되어, EU 시장에 AI 서비스를 출시하거나 API를 제공하는 한국 기업·개발자도 직접적인 준수 의무를 검토해야 한다.
OpenAI Realtime API, WebRTC 정식 GA—음성 앱 레이턴시 절반 수준
OpenAI가 WebRTC 기반 Realtime API를 정식 GA로 전환하며 평균 왕복 지연을 기존 WebSocket 방식 대비 약 50% 낮췄다. 한국 개발자는 별도 미디어 서버 없이 브라우저·모바일 클라이언트에서 직접 실시간 음성 대화 앱을 구축할 수 있게 됐다.
Anthropic, Claude Haiku 4.5 실시간 API 응답 속도 대폭 개선
Anthropic이 Claude Haiku 4.5의 실시간 API(동기 호출) 평균 TTFT(First Token Time)를 기존 대비 35% 단축했다고 공식 발표했다. 비용 효율이 높은 Haiku 4.5를 챗봇·자동화 파이프라인에 활용하는 개발자라면 별도 코드 변경 없이 즉시 체감할 수 있다.
Meta, Llama 4 Maverick 함수 호출 기능 정식 GA 전환
Meta가 Llama 4 Maverick의 함수 호출(Function Calling) 및 구조화 출력(Structured Output) 기능을 정식 GA(General Availability)로 전환했다. 기존 실험적 플래그 없이도 OpenAI 호환 툴 스펙 형식을 그대로 사용할 수 있어 오픈소스 에이전트 파이프라인 전환 비용이 낮아진다.
Google, 터미널용 Gemini CLI 정식 출시—로컬 코드베이스 직접 질의
Google이 개발자 터미널 환경에서 Gemini 모델을 직접 호출할 수 있는 공식 CLI 도구를 정식 GA로 전환했다. 로컬 파일 시스템 접근, 셸 명령 실행, 코드 설명·리팩터링을 단일 커맨드로 수행할 수 있어 IDE 없이도 AI 보조 개발이 가능해졌다.
Google DeepMind, Veo 3 영상 생성 API 개발자 프리뷰 공개
Google DeepMind가 텍스트·이미지 프롬프트로 4K 영상을 생성하는 Veo 3 모델을 Vertex AI를 통해 개발자 프리뷰로 공개했다. 오디오 싱크 및 카메라 모션 제어 파라미터가 추가되어 크리에이터 툴 통합 수요가 높아질 전망이다.
Claude Sonnet 4.6 Extended Thinking, 응답 지연 40% 단축 업데이트
Anthropic이 Claude Sonnet 4.6의 Extended Thinking 모드 내부 추론 스케줄러를 개선해 동일 budget_tokens 설정 대비 평균 응답 지연을 40% 줄였다. 복잡한 코드 리뷰·수학 추론 파이프라인을 운영하는 팀에게 비용 대비 처리량이 실질적으로 개선된다.
Cursor, 백그라운드 에이전트 정식 GA—병렬 코딩 태스크 동시 실행
Cursor가 백그라운드 에이전트(Background Agent) 기능을 정식 GA로 전환하며, 개발자가 에디터에서 작업하는 동안 별도 클라우드 환경에서 코딩 태스크를 병렬로 처리할 수 있게 됐다. 브랜치 생성·테스트 실행·PR 초안 작성까지 자동화되어 멀티태스킹 개발 워크플로가 크게 달라질 전망이다.
OpenAI Responses API, 파일 검색·웹 검색 툴 통합 정식 출시
OpenAI가 Responses API에 파일 검색(File Search)과 웹 검색(Web Search) 툴을 정식 통합하면서, 단일 API 호출로 RAG 파이프라인 구축이 대폭 간소화됐다. 기존에 별도로 운영하던 Assistants API의 retrieval 기능을 Responses API로 마이그레이션하는 공식 가이드도 함께 공개되어 한국 개발자들의 전환 작업 부담이 줄어들 전망이다.
Anthropic, MCP에 OAuth 2.1 인증 레이어 정식 추가
Anthropic이 Model Context Protocol(MCP)에 OAuth 2.1 기반 인증·인가 레이어를 정식 스펙으로 편입했다. 이로써 외부 SaaS 서비스나 사내 API를 MCP 서버로 연결할 때 별도 인증 미들웨어 없이 표준 토큰 플로를 그대로 활용할 수 있어, 엔터프라이즈 환경의 AI 에이전트 보안 구축 부담이 크게 줄어든다.
Anthropic, Claude Code SDK 정식 GA—에이전트 코딩 파이프라인 직접 구축 가능
Anthropic이 Claude Code를 헤드리스 라이브러리로 사용할 수 있는 Claude Code SDK를 정식 출시했다. 개발자는 이제 터미널 CLI 없이 Python·TypeScript 코드에서 Claude Code의 코드 실행·편집·테스트 루프를 프로그래밍 방식으로 호출할 수 있어, CI/CD 파이프라인이나 자체 IDE 플러그인에 에이전트 코딩 기능을 직접 내장할 수 있다.
Anthropic, Claude Haiku 4.5 배치 API 처리량 2배 상향
Anthropic이 Claude Haiku 4.5의 메시지 배치(Message Batches) API 처리 한도를 기존 대비 2배로 확대했다. 대규모 문서 분류·코드 리뷰 자동화처럼 비동기 대량 처리가 필요한 워크플로에서 비용 절감과 처리 속도 향상을 동시에 기대할 수 있다.
Mistral, Codestral 2 출시—코드 컨텍스트 256K·FIM 강화
Mistral AI가 코딩 특화 오픈소스 모델 Codestral 2를 공개했다. 컨텍스트 윈도우가 256K 토큰으로 늘어나고 Fill-in-the-Middle(FIM) 정확도가 전작 대비 크게 향상돼, Cursor·Neovim 등 로컬 코드 에디터와 연동하는 한국 개발자에게 실질적 대안이 될 전망이다.
Meta Llama 4 Scout, 로컬 추론 공식 지원—RTX 4090 단일 GPU 구동 확인
Meta가 Llama 4 Scout(17B 활성 파라미터, 109B MoE)의 로컬 추론 최적화 가이드와 GGUF 공식 퀀트 파일을 공개했다. RTX 4090(24GB VRAM) 단일 GPU에서 Q4_K_M 기준 초당 28토큰 생성이 확인되어, 클라우드 비용 없이 고성능 멀티모달 모델을 온프레미스로 운용하려는 한국 개발자·기업에 실질적 선택지가 생겼다.
OpenAI Realtime API, WebRTC 방식 정식 GA 전환
OpenAI가 WebRTC 기반 Realtime API를 정식 GA로 전환하며 음성·텍스트 동시 스트리밍을 프로덕션 수준으로 지원한다. 기존 WebSocket 방식 대비 레이턴시가 평균 30% 개선되었으며, 한국 개발자는 별도 설정 없이 기존 API 키로 즉시 접근할 수 있다.
HuggingFace smolagents 1.0 안정화 릴리스—경량 AI 에이전트 프레임워크
Hugging Face가 오픈소스 AI 에이전트 프레임워크 smolagents의 1.0 안정 버전을 공개했다. 코드 기반 에이전트 실행 방식을 채택해 툴 호출 토큰 소비를 기존 JSON 방식 대비 최대 40% 절감할 수 있으며, Claude·GPT-4o·로컬 Llama 등 다양한 백엔드를 단일 인터페이스로 연결할 수 있다.
Google DeepMind, Gemma 3 27B 함수 호출 기능 정식 GA 전환
Google DeepMind가 오픈소스 모델 Gemma 3 27B의 함수 호출(Function Calling) 기능을 정식 GA로 전환하고, Vertex AI 및 로컬 추론 환경 모두에서 사용 가능하도록 공개했다. 이로써 한국 개발자는 클라우드 의존 없이 온프레미스 환경에서도 구조화된 도구 호출 에이전트를 구축할 수 있게 됐다.
OpenAI GPT-5, 시스템 카드 공개—컨텍스트·안전 정책 상세 확인
OpenAI가 GPT-5 시스템 카드를 공식 공개하며 최대 256K 토큰 컨텍스트 윈도우와 강화된 안전 분류 체계를 명시했다. 한국 개발자는 API 통합 시 달라진 콘텐츠 정책과 함수 호출 제한 사항을 반드시 숙지해야 한다.
EU AI Act 범용 AI 의무 조항 시행—한국 API 사용자 영향 총정리
EU AI Act의 범용 AI(GPAI) 모델 관련 의무 조항이 2026년 5월부터 본격 집행 단계에 진입하며, EU 이용자를 대상으로 서비스하는 한국 개발자도 준수 의무 범위에 포함될 수 있다. 특히 OpenAI·Anthropic·Google 등 주요 API를 재판매하거나 래핑하는 스타트업은 투명성 문서 제출 요건을 즉시 확인해야 한다.
GitHub Copilot, 에이전트 모드 멀티파일 편집 정식 GA 전환
GitHub Copilot의 에이전트 모드(Agent Mode)가 정식 GA(General Availability)로 전환되며, 단일 프롬프트로 여러 파일을 동시에 생성·수정·삭제하는 멀티파일 편집 기능이 모든 유료 플랜에 개방되었다. 기존 베타 단계에서 제한적으로 제공되던 터미널 명령 자동 실행 및 테스트 자동 수정 루프가 포함되어, 반복 작업 비용을 대폭 줄일 수 있다.
Google Gemini API v2 출시, 멀티모달 스트리밍 및 무료 티어 확대
Google DeepMind가 Gemini API v2를 공개하며 실시간 오디오·영상 스트리밍 입력과 함수 호출 안정성을 대폭 개선했습니다. 무료 티어 한도가 기존 대비 두 배로 늘어나 한국 개발자·크리에이터의 프로토타이핑 비용 부담이 줄어듭니다.
OpenAI Codex CLI, 정식 GA—터미널에서 코드 자율 실행
OpenAI가 경량 오픈소스 코딩 에이전트 Codex CLI를 정식 일반 공개(GA)했다. 로컬 파일시스템 읽기·쓰기, 셸 명령 실행, 멀티파일 리팩터링을 터미널 단에서 자율 처리하며, 한국 개발자도 npm 한 줄로 즉시 설치·사용 가능하다.
Cursor 0.50, 백그라운드 에이전트 모드 정식 GA 전환
Cursor가 0.50 버전에서 '백그라운드 에이전트(Background Agent)' 기능을 정식 출시하며, IDE를 닫아도 에이전트가 저장소 전체를 탐색·수정할 수 있게 됐다. 기존 Composer 기반 단일 파일 편집 대비 멀티파일 병렬 처리 속도가 최대 3배 향상됐으며, 한국 개발자가 많이 사용하는 GitHub Actions 연동도 기본 지원된다.
Meta, Llama 4 Maverick API 외부 공개—상업용 무료 허용
Meta가 Llama 4 Maverick 모델의 REST API를 외부 개발자에게 정식 개방하며 상업적 사용을 무료로 허용했다. 1M 활성 사용자 초과 시 별도 라이선스가 필요하지만, 스타트업·인디 크리에이터 수준에서는 사실상 무제한 활용이 가능해 국내 AI 서비스 개발 비용 절감에 직접적인 영향을 준다.
Anthropic Claude Code, 정식 출시 및 주요 기능 업데이트
Anthropic이 AI 코딩 에이전트 Claude Code를 정식 출시하며 터미널 기반 워크플로 통합을 강화했다. Claude Sonnet 4.6 기반으로 동작하며, 멀티파일 편집·테스트 자동 실행·Git 연동이 하나의 CLI 도구로 제공된다. 기존 베타 대비 컨텍스트 창이 확장되어 대규모 모노레포 환경에서도 안정적인 코드 추론이 가능해졌다.
Google, Gemini 2.5 Flash API 성능 개선 및 가격 인하 발표
Google DeepMind가 Gemini 2.5 Flash 모델의 추론 속도를 대폭 개선하고 API 입력 토큰 단가를 기존 대비 인하했다. 멀티모달 처리 성능이 향상되어 이미지·PDF·코드를 단일 요청으로 분석하는 시나리오에서 특히 유리해졌다. 크리에이터와 개발자 모두 비용 부담 없이 고빈도 API 호출 애플리케이션을 구축할 수 있게 됐다.
Meta Llama 4 Scout, 로컬 실행 최적화 업데이트—10M 토큰 컨텍스트
Meta가 Llama 4 Scout의 양자화 최적화 버전을 공개해 RTX 4090 단일 GPU에서도 전체 컨텍스트를 활용할 수 있게 됐다. 10M 토큰 컨텍스트 윈도우를 유지하면서 VRAM 사용량을 기존 대비 약 40% 절감했다. 크리에이터와 1인 개발자가 클라우드 비용 없이 대용량 문서·코드베이스를 처리할 수 있는 실질적 옵션이 생겼다.
Anthropic Claude Code, 정식 출시…한국 개발자 즉시 사용 가능
Anthropic이 AI 코딩 에이전트 Claude Code를 정식 GA(General Availability)로 전환하며 한국을 포함한 전 세계 개발자에게 공개했다. Claude Sonnet 4.6 기반으로 동작하며, 터미널에서 직접 코드베이스를 탐색·수정·테스트까지 자율 실행하는 것이 핵심 변화다. 기존 Cursor·Copilot과 달리 IDE 플러그인 없이 CLI만으로 전체 레포지토리 작업이 가능해 서버·백엔드 중심 한국 개발 환경에 특히 유용하다.
Anthropic, Claude Code 정식 출시…터미널 기반 AI 코딩 에이전트 공개
Anthropic이 터미널에서 직접 실행되는 AI 코딩 에이전트 Claude Code를 정식 출시했다. Claude Sonnet 4.6을 기반으로 동작하며, 코드베이스 전체를 컨텍스트로 읽고 파일 편집·명령 실행·PR 생성까지 자율적으로 수행한다. Cursor·Copilot과 달리 IDE 플러그인 없이 CLI만으로 동작해 서버·CI 환경에서의 활용도가 높다.
Google, Gemini API 실시간 멀티모달 스트리밍 일반 공개
Google DeepMind가 Gemini 2.5 Pro 기반의 실시간 오디오·비디오 스트리밍 API를 모든 유료 개발자에게 정식 개방했다. 평균 응답 지연이 300ms 미만으로 측정되어 라이브 인터랙티브 앱 개발의 진입 장벽이 크게 낮아졌다.
프롬프트 엔지니어링 한국어 입문 — 초보가 알아야 할 7가지
프롬프트 엔지니어링이 처음인 한국어 사용자를 위한 입문 가이드. 역할 부여, Few-shot, CoT, 출력 형식, 컨텍스트 분리 등 핵심 7개 패턴.
Claude vs ChatGPT 한국어 비교 (2026년 5월 최신)
Anthropic Claude와 OpenAI ChatGPT를 한국어 작업 기준으로 비교. 글쓰기, 코딩, 가격, 멀티모달 11개 항목으로 어느 쪽이 어떤 작업에 유리한지 정리.
ChatGPT 사용법 완전정리 — 무료/Plus/Pro 차이와 한국어 활용
ChatGPT를 처음 쓰는 한국인을 위한 완전 가이드. 무료/Plus/Pro 플랜별 차이, 한국어 답변 품질 개선 팁, 모바일 앱 활용까지 한 번에 정리.
Cursor vs Claude Code — AI 코딩 도구 어떻게 골라야 하나
Cursor와 Claude Code의 차이, 가격, 사용 흐름을 한국 개발자 관점에서 비교. 어떤 작업에 어느 도구가 유리한지.
RAG 한국어 가이드 — 사내 문서 챗봇 만드는 법
Retrieval-Augmented Generation을 한국어 환경에서 구축하는 전체 흐름. 임베딩 모델 선택, 청킹, 벡터 DB, 한국어 검색 품질 개선 팁까지.
Claude API 시작하는 법 — Python·Node.js 예제와 비용 가이드
Anthropic Claude API를 처음 사용하는 개발자를 위한 단계별 가이드. 키 발급, 첫 호출, 모델 선택, 비용 관리, 캐싱·배치 활용까지.
AI 부업 아이디어 10선 — 2026년 한국 실전 사례
AI 도구로 시작 가능한 부업 10가지. 진입 난이도, 예상 수익, 필요 도구를 정리. 글쓰기·디자인·자동화·교육까지.
ChatGPT 한국어 잘쓰는 법 — 톤·존댓말·맥락 유지하는 7가지
ChatGPT의 한국어 답변을 자연스럽게 만드는 7가지 실전 기법. 톤 일관성, 존댓말 모드, 영어 단어 섞임 방지, 문체 통일까지.
AI 자동화 도구 TOP 10 — 한국 사용자 추천 (2026)
한국에서 쓸 만한 AI 자동화 도구 10개. 노코드부터 코드 베이스까지 카테고리별 정리, 무료 한도와 한국어 지원 여부 포함.
Claude Artifacts 활용법 — 코드·문서를 옆 창에서 미리보기
Claude의 Artifacts 기능 사용법. 코드·HTML·SVG·문서를 별도 창에서 즉시 미리보고 수정·내보내는 워크플로.
Perplexity AI 사용법 — 검색·인용·연구가 강한 AI 어떻게 쓰나
Perplexity AI를 한국어 사용자가 어떤 작업에 활용해야 하는지. ChatGPT·Claude와 다른 점, Pro 플랜 가치, 연구·뉴스 활용 사례.
Vibe Coding이란 — AI와 함께 만드는 새 개발 패러다임
2025년부터 떠오른 Vibe Coding 개념과 실전 워크플로. AI 에이전트와 대화하며 만드는 개발 방식, 어떻게 시작할지.
Claude Code, npm 설치 → 네이티브 설치로 완전 이전
과거 `npm install -g @anthropic-ai/claude-code` 방식이 공식에서 제거됐다. 이제는 `curl | bash`(macOS/Linux) 또는 `irm | iex`(Windows) 네이티브 스크립트가 표준. Node 런타임 의존이 사라져 설치가 간단해졌다.
Claude Haiku 3, 4월 19일부로 은퇴 — 마이그레이션 체크리스트
Haiku 3 계열(`claude-3-haiku-*`) API가 오늘을 끝으로 중단된다. Haiku 4.5로 교체 필요. 단가는 올랐지만 품질·속도 개선으로 대량 워크로드에서도 여전히 최저 단가 선택지.
Anthropic, Claude Opus 4.7 공개 — 1M 컨텍스트·128k 출력
Opus 4.7이 정식 공개됐다. 최대 100만 토큰 입력·128k 토큰 출력을 지원하며 가격은 입력 $5 / 출력 $25 per MTok. 전작 Opus 대비 컨텍스트 5배, 추론 품질도 개선.