기초· 12분업데이트 2026-04-18

AI는 어떻게 말을 배웠을까

LLM을 비유로 이해하기

🎯 이 레슨으로 얻는 것

"AI는 어떻게 말을 배웠을까?" 를 한 줄로 설명할 수 있게 돼요. 원리를 알면 왜 AI가 가끔 틀리는지, 언제 믿으면 안 되는지 감이 잡힙니다.

LLM은 "다음에 올 가장 그럴듯한 단어"를 계속 찍어내는 기계입니다.

진짜로 그게 전부예요. 마법이 아닙니다.

"나는 아침에 ___을 먹었다."

AI는 인터넷에 있는 수조 개 문장을 보면서 이런 빈칸 맞추기를 수십억 번 반복합니다. 밥·빵·시리얼이 정답 후보라는 걸 배우는 거예요.

같은 훈련을 엄청난 양으로 하면, AI는 단어들이 어떻게 어울리는지 통계적 감각을 갖게 됩니다.

이 감각이 쌓이면 문법·상식·추론까지 흉내낼 수 있어요.

빈칸 채우기만 하면 "아무 말이나" 그럴듯하게 하므로, 사람이 "이 답이 더 나아요" 라고 채점해 주는 과정을 거칩니다. 이걸 RLHF(사람 피드백 기반 강화학습)라고 해요.

결과물이 친절해지고 유해 발언이 줄어드는 게 이 단계 덕분입니다.

엄밀히 말하면 이해가 아닙니다. 하지만 결과물이 너무 자연스러워서 "이해한 것처럼 보이는" 상태예요.

| 관점 | 설명 | |------|------| | 회의론 | "그냥 통계야. 이해 아니야." | | 실용 | "결과만 맞으면 됐지, 내부가 뭔 상관?" | | 현실 | 통계라는 틀 안에서 놀랍게 유용함. 단, 검증은 사람 몫 |

AI는 모르는 것도 그럴듯하게 답합니다. 왜냐면 통계적으로 "가장 자연스러운 문장"을 만들뿐이니까요. 모른다고 말하는 게 통계적으로 덜 자연스럽습니다.

→ 교훈: 사실 확인은 항상 사람이.

AI는 훈련 시점까지의 데이터로만 배웠어요. 2025년 11월에 훈련된 모델은 2026년 4월 뉴스를 모릅니다.

→ 교훈: 최신 이슈는 Perplexity처럼 검색 연동 AI를 쓰세요.

AI 자신도 자기 답을 설명하지 못합니다. "왜 이렇게 썼어?" 하면 그럴듯한 이유를 지어내요 (통계적으로 자연스러운 설명을).

→ 교훈: 근거 출처는 별도로 제공·요구하세요.

다음 프롬프트를 던져보세요:

2026년 4월 15일에 발표된 애플의 신제품이 뭐야?
모르면 "모른다"고 답해줘.

지금 실험해보기

대부분 "모른다"고 답하지만, 가끔 그럴듯한 거짓말이 튀어나옵니다. 그게 바로 할루시네이션이에요.