매일 2개 자동 업데이트 · 공식 발표와 실전 경험을 기반으로 큐레이션합니다.
"JSON으로만 답해줘"는 가끔 깨진다. tool use(function calling)를 쓰면 파싱 실패가 사라진다.
`system` 필드에 뭘 넣어야 하는가. 역할·제약·출력포맷·예시의 4축 템플릿.
0.0은 결정적, 1.0은 창의적 — 이 요약은 틀렸다. 작업별 권장값과 top_p와의 관계.
예시 1개 → 3개 → 5개 사이에 성능이 뒤집히는 지점이 있다. 실측과 배치 규칙.
실행 전 토큰 수를 알면 비용 예측, 한계 초과 방지, 컨텍스트 잘라내기가 가능하다.
사용자는 완성까지 기다리지 않는다. `stream: true`와 서버-센트 이벤트로 체감 속도 개선.
비용 5~25배 차이. 분류는 Haiku, 에이전트 루프는 Sonnet, 복잡 추론은 Opus — 의사결정 트리.
429·529·overloaded_error에 어떻게 대응하나. 지수 백오프와 재시도 금지 조건.
"단계별로 생각해"는 낡았다. XML로 작업 단계를 구조화하면 정확도가 한 단계 더 오른다.
프롬프트 A vs B를 눈으로 비교하지 마라. 20개 테스트 케이스와 채점 함수가 있어야 진짜 개선이다.