본문 바로가기
IT 개발 및 프로그래밍/LLM & AI

DeepSeek R1: 오픈소스 추론 모델의 혁신적 도약

by 노마드데이터랩 2025. 7. 21.

 

DeepSeek R1: 오픈소스 추론 모델의 혁신적 도약

DeepSeek R1: 오픈소스 추론 모델의 혁신적 도약

핵심 요약: DeepSeek R1은 2025년 1월 중국 AI 스타트업 DeepSeek이 공개한 오픈소스 추론 모델로, OpenAI의 o1 모델과 동등한 성능을 보이면서도 훨씬 낮은 비용으로 운영 가능한 혁신적인 모델입니다.

1. DeepSeek R1 개요

DeepSeek R1은 인공지능 역사에서 중요한 이정표가 될 모델입니다. 2025년 1월 20일 공개된 이 모델은 단순히 또 하나의 대규모 언어 모델이 아닌, 추론(reasoning) 능력에 특화된 혁신적인 아키텍처를 선보였습니다.

가장 놀라운 점은 이 모델이 MIT 라이선스로 완전히 오픈소스화되어 있다는 것입니다. 이는 누구나 상업적으로 활용할 수 있고, 수정하거나 파생 모델을 만들 수 있다는 의미입니다. DeepSeek은 모델 가중치뿐만 아니라 학습 방법론과 기술 문서까지 모두 공개하여, AI 연구 커뮤니티에 큰 기여를 했습니다.

2. 혁신적인 아키텍처: Mixture of Experts (MoE)

2.1 MoE 구조의 핵심

DeepSeek R1의 가장 큰 특징은 Mixture of Experts (MoE) 아키텍처입니다. 이는 전통적인 밀집(dense) 모델과는 완전히 다른 접근 방식입니다:

  • 총 파라미터: 671B (6,710억 개)
  • 활성화 파라미터: 37B (370억 개)
  • 전문가(Expert) 수: 레이어당 256개
  • 공유 전문가: 각 레이어마다 1개

MoE의 핵심 아이디어는 "모든 파라미터를 항상 사용하지 않는다"는 것입니다. 각 입력 토큰에 대해 가장 적합한 전문가들만 선택적으로 활성화하여, 계산 효율성을 극대화합니다. 이는 마치 대형 병원에서 환자의 증상에 따라 적절한 전문의를 배정하는 것과 유사합니다.

2.2 Multi-Head Latent Attention (MLA)

DeepSeek R1은 DeepSeek V3로부터 계승한 MLA 기술을 사용합니다. 이는 Key-Query-Value (KQV) 행렬을 잠재 공간으로 압축하여 메모리 오버헤드와 추론 지연 시간을 크게 줄입니다. 이를 통해 더 긴 컨텍스트를 효율적으로 처리할 수 있게 되었습니다.

3. 혁명적인 학습 방법론: 순수 강화학습

3.1 DeepSeek-R1-Zero: SFT 없는 순수 RL

DeepSeek R1의 개발 과정에서 가장 주목할 만한 점은 DeepSeek-R1-Zero의 존재입니다. 이 모델은 AI 연구 역사상 최초로 지도 미세조정(Supervised Fine-Tuning, SFT) 없이 순수하게 강화학습(Reinforcement Learning, RL)만으로 학습되었습니다.

// DeepSeek-R1-Zero 학습 템플릿 <think> {reasoning_process} </think> {final_answer}

이 접근법은 모델이 스스로 추론 전략을 발견하고 개선하도록 했습니다. 학습 과정에서 다음과 같은 놀라운 행동들이 자연스럽게 나타났습니다:

  • 자기 검증(Self-verification): 자신의 답변을 다시 확인하고 오류를 수정
  • 반성(Reflection): 이전 단계를 재평가하고 더 나은 접근법 탐색
  • 긴 사고 연쇄(Long CoT): 복잡한 문제에 대해 단계별로 깊이 있게 사고

3.2 Group Relative Policy Optimization (GRPO)

DeepSeek은 메모리 효율적인 강화학습을 위해 GRPO 알고리즘을 사용했습니다. 이는 PPO(Proximal Policy Optimization)를 기반으로 하되, 그룹 단위로 정책을 최적화하여 메모리 사용량을 크게 줄였습니다.

3.3 보상 시스템

DeepSeek-R1-Zero의 보상 시스템은 두 가지 주요 구성 요소로 이루어져 있습니다:

  1. 정확도 보상: 수학 문제나 코딩 과제에서 정답 여부를 평가
  2. 형식 보상: <think> 태그 내에서 추론 과정을 구조화하도록 유도

4. DeepSeek-R1: 개선된 최종 모델

DeepSeek-R1-Zero가 놀라운 성과를 보였지만, 몇 가지 문제점도 있었습니다:

  • 무한 반복 현상
  • 낮은 가독성
  • 언어 혼재 (중국어와 영어가 섞임)

이러한 문제를 해결하기 위해 DeepSeek은 R1 모델에서 다단계 학습 파이프라인을 도입했습니다:

  1. Cold-start SFT: 소량의 고품질 추론 데이터로 초기 미세조정
  2. Reasoning RL: 추론 능력 강화를 위한 강화학습
  3. Rejection Sampling: 고품질 응답 선별
  4. Final SFT: 인간 선호도에 맞춘 최종 조정

5. 성능 벤치마크: OpenAI o1과의 비교

벤치마크 DeepSeek-R1 OpenAI o1-1217 우위
AIME 2024 79.8% 79.2% DeepSeek R1
MATH-500 97.3% 96.4% DeepSeek R1
Codeforces 96.3% 96.6% OpenAI o1
SWE-bench Verified 49.2% 48.9% DeepSeek R1
GPQA Diamond 71.5% 75.7% OpenAI o1

놀랍게도 DeepSeek R1은 대부분의 벤치마크에서 OpenAI o1과 동등하거나 더 나은 성능을 보였습니다. 특히 수학과 프로그래밍 영역에서 뛰어난 성과를 달성했습니다.

6. Distilled 모델: 작지만 강력한 변형들

DeepSeek은 R1의 추론 능력을 더 작은 모델로 전이하는 증류(distillation) 기법을 사용하여 다양한 크기의 모델을 제공합니다:

Qwen 기반 모델:

  • 1.5B - 엣지 디바이스용
  • 7B - 일반 소비자 GPU용
  • 14B - 균형잡힌 성능
  • 32B - 고성능 (o1-mini 능가)
  • 70B - 최고 성능

Llama 기반 모델:

  • 8B - Llama 3.1 아키텍처 기반

특히 DeepSeek-R1-Distill-Qwen-32B는 OpenAI o1-mini를 능가하는 성능을 보이며, dense 모델의 새로운 SOTA(State-of-the-Art)를 달성했습니다.

7. 비용 효율성: 게임 체인저

💰 비용 비교:

  • DeepSeek R1 API: $0.14/백만 입력 토큰 (캐시 히트), $0.55/백만 입력 토큰 (캐시 미스), $2.19/백만 출력 토큰
  • OpenAI o1: $15/백만 입력 토큰, $60/백만 출력 토큰
  • 비용 절감: 약 10-15% 수준으로 운영 가능

더욱 놀라운 것은 학습 비용입니다. DeepSeek R1의 전체 학습 비용은 약 560만 달러로 추정되며, 이는 경쟁 모델들에 비해 현저히 낮은 수준입니다. 이는 다음과 같은 요인들 덕분입니다:

  • 효율적인 MoE 아키텍처
  • FP8 정밀도 학습
  • 2,000개의 H800 GPU 사용 (H100 대신)

8. 실제 사용 방법

8.1 온라인 사용

# DeepSeek Chat 플랫폼 1. https://chat.deepseek.com 접속 2. "Deep Think" 모드 선택 3. 추론 과정을 볼 수 있는 대화 시작

8.2 API 사용

# Python 예제 import requests response = requests.post( "https://api.deepseek.com/v1/chat/completions", headers={"Authorization": f"Bearer {API_KEY}"}, json={ "model": "deepseek-reasoner", "messages": [{"role": "user", "content": "수학 문제..."}], "temperature": 0.6 } )

8.3 로컬 배포

# vLLM을 사용한 서빙 vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \ --tensor-parallel-size 2 \ --max-model-len 32768 # 또는 SGLang 사용 python3 -m sglang.launch_server \ --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \ --trust-remote-code --tp 2

8.4 사용 시 권장사항

  • Temperature: 0.5-0.7 범위 사용 (0.6 권장)
  • System Prompt: 사용하지 않고 user prompt에 모든 지시사항 포함
  • 수학 문제: "단계별로 추론하고 최종 답을 \boxed{} 안에 넣으세요" 지시
  • Few-shot 프롬프팅: 피하고 Zero-shot 접근 권장

9. 한계점과 주의사항

DeepSeek R1은 혁신적인 모델이지만 몇 가지 한계점도 있습니다:

  1. 언어 혼재: 중국어와 영어 외의 언어로 프롬프트를 제공하면 응답에서 언어가 섞일 수 있음
  2. Few-shot 성능: 예제를 제공하는 few-shot 프롬프팅보다 직접적인 zero-shot 접근이 더 효과적
  3. 추론 시간: 깊은 추론을 수행하므로 일반 LLM보다 응답 시간이 길 수 있음
  4. 프라이버시: DeepSeek의 프라이버시 정책에 따르면 사용자 데이터를 수집할 수 있음

10. 기술적 시사점과 미래 전망

10.1 AI 민주화

DeepSeek R1의 등장은 AI 기술의 민주화에 큰 기여를 했습니다. 완전한 오픈소스 라이선스와 낮은 운영 비용은 스타트업, 학계, 개인 연구자들도 최첨단 AI 기술을 활용할 수 있게 만들었습니다.

10.2 효율성의 중요성

무작정 모델 크기를 키우는 것이 아닌, 효율적인 아키텍처와 학습 방법론의 중요성을 보여주었습니다. MoE와 강화학습의 조합은 향후 AI 모델 개발의 새로운 방향을 제시합니다.

10.3 추론 모델의 미래

단순한 패턴 매칭을 넘어 실제로 "사고"하는 AI의 가능성을 보여주었습니다. 자기 검증, 반성, 대안 탐색 등의 능력은 AGI(Artificial General Intelligence)로 가는 중요한 단계일 수 있습니다.

11. 결론

DeepSeek R1은 단순히 또 하나의 대규모 언어 모델이 아닙니다. 이는 AI 개발의 패러다임 전환을 보여주는 모델입니다. 순수 강화학습을 통한 추론 능력의 창발, 효율적인 MoE 아키텍처, 그리고 완전한 오픈소스화는 AI 커뮤니티에 새로운 가능성을 열어주었습니다.

특히 한국의 AI 연구자와 개발자들에게 DeepSeek R1은 큰 기회입니다. 높은 비용 때문에 접근하기 어려웠던 최첨단 AI 기술을 이제는 누구나 활용할 수 있게 되었기 때문입니다. 교육, 연구, 스타트업 등 다양한 분야에서 DeepSeek R1을 활용한 혁신적인 애플리케이션이 등장할 것으로 기대됩니다.

핵심 포인트:
  • OpenAI o1과 동등한 성능을 10-15% 비용으로 제공
  • 완전한 오픈소스 (MIT 라이선스)
  • 혁신적인 MoE 아키텍처로 효율성 극대화
  • 순수 강화학습으로 추론 능력 획득
  • 다양한 크기의 distilled 모델 제공

이 글은 2025년 7월 기준으로 작성되었으며, DeepSeek R1에 대한 기술적 분석을 담고 있습니다.

댓글