1장 LLM에 대한 이해
Intro
최근 인공지능(AI)의 발달은 자연어 처리(NLP) 기술을 통해 사람과 자연스럽게 대화하거나 복잡한 언어 작업을 수행할 수 있는 시스템을 탄생시켰습니다. 이 가운데 LLM(Large Language Model)은 텍스트 데이터를 기반으로 언어를 이해하고 생성할 수 있는 가장 혁신적인 도구로 주목받고 있습니다
이 장에서는 LLM의 개념, 작동 원리, 주요 특징, 그리고 활용 가능성을 살펴보겠습니다.
1. LLM(Large Language Model)

Large(엄청나게 많은 데이터를 학습한) Language(인간의 언어를 처리하는) Model(딥러닝모델)
LLM(Large Language Model)은 대규모 언어 모델을 의미하며, 인터넷, 책, 논문, 뉴스, 블로그 등 방대한 양의 텍스트 데이터를 학습한 인공지능 모델입니다. 이러한 데이터들은 트랜스포머 아키텍쳐기반의 모델들에 학습되어 학습한 데이터의 문맥과 패턴을 이해할 수 있습니다. 이로 인해 LLM은 사람의 질문에도 이해를 하고 사람처럼 소통할 수 있는 능력을 갖추게 되었습니다.
사람이 사용하는 언어를 기계가 처리하는 기술을 NLP(Natural Language Processing)라고 부르는데 LLM의 NLP기술은 챗봇, 텍스트 번역, 요약 등 원래는 사람이 처리해야 했던 다양한 분야에서 사람을 대체하거나 보조하는 기술로써 활용되고 있습니다.
많은 국내 기업에서도 기존의 서비스에 AI기능을 추가한 AI서비스들을 여럿 보셨을 건데 이러한 서비스들의 base가 되는 기술이 LLM입니다. 이러한 LLM은 국내에서 자체적으로 개발하는 경우도 있고, 이미 생성된 LLM을 이용하는 경우도 있고 다양하지만, 현대의 시대적 흐름에서 LLM도입은 회사입장에서 선택이 아닌 필수가 되어가고 있습니다.
기업 LLM도입에 대한 세미나내용
국내에서 개발중인 토종 LLM

위 기사내용 처럼 다양한 기업에서 LLM서비스를 도입 했거나, 도입을 준비중에 있는 것으로 확인되고 있는데요, LLM도입시에는 프라이버시 문제, 정보의 정확성문제, 윤리적 문제 , 경제적 문제 등 고려해야할 부분들이 상당합니다. 이번 커리큘럼에서는 총 4장의 대단원에 걸쳐 이러한 문제를 해결한 챗봇 서비스를 함께 만들어볼 예정입니다.
2. LLM 작동원리
LLM은 어떻게 사용자의 질문의 의미를 파악하고 그에 맞는 적절한 답변을 생성해 줄 수 있을까요? 그 이유는 LLM의 학습 방법에 있습니다.
LLM은 "딥러닝(Deep Learning)" 기술 중 트랜스포머(Transformer)라는 신경망 구조를 기반으로 만들어 졌습니다. 트랜스포머는 Self-Attention Mechanism을 통해 문장 내 단어들 사이의 관계를 파악하고, 문맥적 의미를 계산합니다. 이러한 구조 덕분에 LLM은 대규모 텍스트 데이터를 학습하며 문법, 언어 패턴, 사실 기반 지식까지 "통계적"으로 학습할 수 있게 됩니다.
Self-Attention Mechanism ?
문장 속 각 단어가 다른 단어들과 어떤 관계를 가지는지를 계산하여, 어떤 단어에 더 주의를 기울여야 하는지(=attention) 를 정하는 방식입니다. 이 과정을 통해 문맥상 중요한 단어를 더 강조하며, 전체 문장의 의미를 더 정확히 파악할 수 있습니다.
예를 들어, LLM이 "백설공주와 일곱 난쟁이" 이야기를 학습했다면, '백설공주'라는 단어는 ‘사과’, ‘마녀’, ‘난쟁이’ 등과 함께 자주 등장하게 됩니다.
사용자가 “백설공주에 대해서 알려줘!”라고 질문했을 때, 모델은 이러한 연관성을 바탕으로 관련 단어들을 활용하여, 자연스럽고 일관된 문장을 생성해 응답할 수 있습니다.
즉, LLM은 사람처럼 의미를 이해하고 사용하는 것이 아닌 학습된 데이터를 바탕으로 통계적으로 "가장 그럴듯한 단어(또는 토큰)"를 다음에 예측하는 방식으로 작동합니다.
3. LLM의 특징
1) NLP처리에 특화
LLM들은 인터넷의 방대한 텍스트 데이터를 학습하여 언어의 문맥과 패턴을 이해(통계적 예측을 통해)할 수 있습니다.
LLM은 언어의 문맥과 패턴을 이해할 수 있으므로 자연어 처리(NLP)에 자주 활용되며, 이 분야로는 문서번역, 요약, 코드 생성, 챗봇 기능등이 있습니다.
당근이 LLM을 활용하는 방법 - https://oneoneone.kr/content/e9320560
2) LLM은 잘하는 것과 못하는 것이 혼재
LLM은 다양한 응답을 생성할 수 있지만 , 기본적으로 확률에 의거한 응답을 반환하기 때문에 잘못된 응답일 가능성이 존재합니다.
혹은 소설, 시, 광고 문구 작성 등 단순 검색 기반이 아닌 창의적인 답변 생성이 가능합니다.
단, 요청한 내용과 상관이 없는 잘못된 정보를 반환할 수도 있습니다.(Hallucination)
LLM은 언어 패턴을 기반으로 응답하도록 설계되었기 때문에, 복잡한 수학계산이나 논리적 추론에서 오류를 범할 수 있습니다. 다양한 수학문제 해결을 위해서는 외부 계산 API 시스템과 연동하도록 설정해 줘야 합니다.
3) 할루시네이션(Hallucination) - 환각

Hallucination이란, LLM이 실제 사실이 아님에도 사실처럼 보이는 답변을 생성하는 오류입니다. 이러한 문제를 해결하기 위한 접근으로는 다음과 같은 방법들이 사용됩니다
RAG (Retrieval-Augmented Generation): 외부 데이터와 연동하여 정확한 정보를 바탕으로 질문을 생성
Fine-tuning: 특정 분야 데이터로 모델을 재학습시켜 정확도 향상
Human Feedback 강화학습 : 사람이 더 나은 응답을 선택해주는 방식으로 강화학습
4) LLM은 정적모델
LLM은 사전학습된 데이터만을 활용하기 때문에 최신 데이터를 기반으로 응답하지 못합니다.
이를 보완하기 위해서는
Fine-Tuning을 통한 추가 학습이나
RAG 기법을 통해 외부 지식과 연동하거나
최신데이터를 위해 LLM이 API를 활용할 수 있도록 Function Calling기능을 추가해야 합니다.
5) LLM의 크기와 성능의 관계
일반적으로 LLM의 크기(파라미터 수)가 클수록 더 많은 데이터를 학습했기 때문에 언어 표현력이나 응답 품질이 높을 가능성이 큽니다.
하지만, 모델이 커질수록 학습·추론 비용이 증가하고, 응답 속도 및 최적화도 어려워지는 단점이 존재합니다.
최근에는 소규모 LLM에 사용자 피드백을 반영한 Fine-tuning을 통해, 대형 모델보다 더 뛰어난 성능을 내는 사례도 등장하고 있습니다.
따라서 앞으로의 LLM트렌드는 "무조건 큰 모델"보다는 용도에 맞는 경량화, 최적화가 LLM 개발의 핵심 트렌드로 자리잡았습니다.
LLM 활용 시에는 프롬프트 엔지니어링 기법을 통해 적절한 지시를 주어 모델의 응답 품질을 높이는 것이 매우 중요합니다.
6) LLM은 편향적
LLM은 학습에 사용된 데이터에 포함된 편향(Bias)을 그대로 반영할 수 있습니다.
예를 들어, 특정 성별, 인종, 국적, 문화에 대한 고정관념이나 차별적 표현이 결과에 포함될 수 있습니다.
이를 방지하려면, 학습 단계에서 편향 데이터를 필터링하거나, 공정성을 고려한 미세 조정(Fine-tuning)이 필요합니다.
중국의 DeepSeek 모델은 비용 대비 뛰어난 성능으로 주목받았지만, 편향된 정보가 학습되어 일부 응답에서 왜곡된 시각을 보여줄 수 있다는 지적도 있었습니다.

4. 대표 LLM 서비스
LLM서비스는 굉장히 다양합니다. 어떤 모델은 질문에 답변을 하는데 특화되어 있고, 어떤 모델들은 문서를 요약하는데 특화 되어 있고 또 다른 모델은 코드를 생성하는데 특화되어 있기도 합니다.

1. GPT-4
OPEN-AI의 대표적인 모델로 1.76T개의 파라미터를 학습한 모델입니다. CHAT-GPT프리미엄 결제시 사용되는 모델입니다. 논리적 추론능력과 텍스트 생성능력이 뛰어납니다.
2. GPT-3.5
GPT-4보다 가볍고, 빠르지만 추론능력은 부족한 모델입니다. CHATGPT 무료버전에서 사용됩니다.
3. Claude 3 Opus
Claude시리즈 중 가장 강력한 모델입니다. GPT-4와 경쟁하는 모델로 논리적 추론능력, 텍스트 생성능력이 뛰어납니다.
4. Google DeepMind
Gemini Ultra : Google 최고성능 모델로 멀티모달(이미지,텍스트,비디오)처리가 가능합니다.
Gemini Pro : Ultra보다 상대적으로 작은 모델로 빠르고 효율적인 모델입니다
PalM-2 : Google이전 모델로 코드 작성 및 다국어 처리에 강합니다.
5. Amazon Olympus
클라우드 및 aws서비스와의 통합 가능성이 있는 LLM모델입니다.
6. Meta LLMA2
70B파라미터로 상대적으로 작은 모델이지만 오픈소스로 제공합니다.
성능 대비 효율성이 좋아 기업 맞춤형 SLLM에 주로 사용되는 모델입니다.
7. X Grok
x에서 개발한 모델로 실시간 데이터 및 대화형 기능에 초점을 맞춘 모델입니다.
Last updated








