AI는 어떻게 말을 배웠을까
LLM을 비유로 이해하기
🎯 이 레슨으로 얻는 것
"AI는 어떻게 말을 배웠을까?" 를 한 줄로 설명할 수 있게 돼요. 원리를 알면 왜 AI가 가끔 틀리는지, 언제 믿으면 안 되는지 감이 잡힙니다.
🍳 한 줄 요약
LLM은 "다음에 올 가장 그럴듯한 단어"를 계속 찍어내는 기계입니다.
진짜로 그게 전부예요. 마법이 아닙니다.
🧩 3단계 비유로 이해하기
1단계: 거대한 "빈칸 채우기" 훈련
"나는 아침에 ___을 먹었다."
AI는 인터넷에 있는 수조 개 문장을 보면서 이런 빈칸 맞추기를 수십억 번 반복합니다. 밥·빵·시리얼이 정답 후보라는 걸 배우는 거예요.
2단계: 통계적 직관이 쌓임
같은 훈련을 엄청난 양으로 하면, AI는 단어들이 어떻게 어울리는지 통계적 감각을 갖게 됩니다.
- "의사가 환자를 ___" → "진료했다" (98%), "때렸다" (0.01%)
- "코딩 버그를 ___" → "고쳤다" (70%), "만들었다" (20%)
이 감각이 쌓이면 문법·상식·추론까지 흉내낼 수 있어요.
3단계: 사람 피드백으로 다듬기 (RLHF)
빈칸 채우기만 하면 "아무 말이나" 그럴듯하게 하므로, 사람이 "이 답이 더 나아요" 라고 채점해 주는 과정을 거칩니다. 이걸 RLHF(사람 피드백 기반 강화학습)라고 해요.
결과물이 친절해지고 유해 발언이 줄어드는 게 이 단계 덕분입니다.
🤖 그럼 "이해"하는 건가요?
엄밀히 말하면 이해가 아닙니다. 하지만 결과물이 너무 자연스러워서 "이해한 것처럼 보이는" 상태예요.
| 관점 | 설명 | |------|------| | 회의론 | "그냥 통계야. 이해 아니야." | | 실용 | "결과만 맞으면 됐지, 내부가 뭔 상관?" | | 현실 | 통계라는 틀 안에서 놀랍게 유용함. 단, 검증은 사람 몫 |
💡 원리를 알면 뭐가 달라지나
1. "확신에 찬 거짓말"을 예상할 수 있다
AI는 모르는 것도 그럴듯하게 답합니다. 왜냐면 통계적으로 "가장 자연스러운 문장"을 만들뿐이니까요. 모른다고 말하는 게 통계적으로 덜 자연스럽습니다.
→ 교훈: 사실 확인은 항상 사람이.
2. 최신 정보에 약함
AI는 훈련 시점까지의 데이터로만 배웠어요. 2025년 11월에 훈련된 모델은 2026년 4월 뉴스를 모릅니다.
→ 교훈: 최신 이슈는 Perplexity처럼 검색 연동 AI를 쓰세요.
3. "왜 그렇게 답했는지" 모름
AI 자신도 자기 답을 설명하지 못합니다. "왜 이렇게 썼어?" 하면 그럴듯한 이유를 지어내요 (통계적으로 자연스러운 설명을).
→ 교훈: 근거 출처는 별도로 제공·요구하세요.
🧪 5분 실험 — "모르는 것"을 시켜보기
다음 프롬프트를 던져보세요:
2026년 4월 15일에 발표된 애플의 신제품이 뭐야?
모르면 "모른다"고 답해줘.
대부분 "모른다"고 답하지만, 가끔 그럴듯한 거짓말이 튀어나옵니다. 그게 바로 할루시네이션이에요.
⚠️ 흔한 오해
- ❌ "AI는 인터넷을 실시간으로 검색해서 답해" → 대부분 훈련 데이터 기반
- ❌ "AI는 내 대화를 다 기억해" → 창문(맥락) 넘어가면 잊어버림
- ❌ "AI는 거짓말 안 해" → 태연하게 지어냅니다
🔗 다음에 뭘 볼까
- 다음 레슨: 맥락창이 뭐길래 — AI 기억 용량의 비밀
- 다음: "확신에 찬 거짓말" 피하기 — 할루시네이션 감지법