딥 시크의 이해와 전망 : 영상 내용 요약

티스토리 뷰

코드레시피

딥 시크의 이해와 전망 : 영상 내용 요약

코드라이프 2025. 3. 6. 14:38

https://youtu.be/7BxttwyJq68?si=w1A0STCrghRcHQU7

* 전체 영상의 내용을 토대로 정리한 내용임을 참고하여 주시기 바랍니다.

이 영상은 딥 시크와 그 모델 발전에 대한 심도 깊은 이해를 제공합니다.

특히, 딥 시크 R1의 등장과 그것이 가져온 세계적인 영향에 대해 설명하며, 기존 모델들과의 기술적

차이를 명확히 제시합니다. 또한, 새로운 훈련 기법과 경제적 측면에서의 경쟁력을 분석하여,

인공지능의 발전 방향에 대한 깊은 통찰을 제공합니다. 이 논의는 AI 기술을 이해하고 싶어하는

모든 이에게 유익한 정보를 제공합니다.

1. 딥시크 R1의 모델 개발 및 영향

· 딥시크 R1은 미국 쪽 빅테크들에게 큰 충격을 줬으며, 오픈AI와의 경쟁에서 빠르게 발전한 모델이다.

· 오픈AI의 O1과 유사한 추론 모델로, MOE 등의 기술이 사용되었으며, 하드웨어 제약을 극복한 성과를 냈다.

· 훈련 비용은 다른 AI 기업에 비해 적었고, 이에 따라 경제적인 측면에서도 경쟁력을 갖췄다.

· 딥시크 R1은 슈퍼바이즈드 파인튜닝 없이도 성능을 입증했으며, 이는 알파고 제로 방식과 유사하다.

· 강화 학습을 룰 베이스로 진행하여, 기존 AI 훈련 방법과 차별화된 접근을 시도하였다.

1.1. 딥시크 이해 및 전망 개요

· 딥시크 R1에 대한 이야기는 현재 가장 많이 언급되고 있으며, 그 출현 전 과정을 설명할 예정이다.

· R1의 주요 특징은 추론 위주의 모델이라는 점으로, 기존의 언어 모델과의 차이를 알아볼 것이다.

· 딥시크 버전들, 즉 V3와 이전 모델들에 대한 간략한 리뷰 및 새롭게 도입된 기술들을 설명할 예정이다.

1.2. 딥시크 R1의 충격과 영향

딥시크 R1은 특히 미국의 빅테크들에 큰 충격을 주었으며, 이는 여러 이유가 있다.

오픈AI 모델이 선두로 나갔고, 그 후 구글과 엔트로픽 같은 다양한 모델이 나왔지만, 딥시크 R1의

충격은 독특하다. 미국이 GPU 및 기술 수출을 규제하면서 기술 장벽을 쌓았고, 딥시크 R1이 이를

부분적으로 무력화한 것으로 평가한다. 최신 H100 없이도 이러한 성과를 냈다는 점이 특히

주목받고 있으며, 이는 하드웨어 관련 논의로 이어질 것이다.

1.3. 딥시크와 최신 추론 모델의 기술적 발전

딥시크가 오픈소스로 출시되면서 다양한 기술이 활용되고 있으며, 특히 O1 및 O3로 대변되는

최신 추론 모델이 주목받고 있다.

오픈AI의 O1 모델은 월 200달러에 제공되고 있으며, 엄청난 수의 사용자들이 구독하고 있어

오픈AI에 상당한 위협이 되고 있다.

MOE(Mixture of Experts)와 룰러 베이스 강화학습이 훈련 과정의 정확도와 성능 향상에 기여

하고 있으며, 오픈AI의 훈련 코스트에도 영향을 미쳤다.

하드웨어적 측면에서 플로팅 포인트 8을 사용함으로써 훈련 정확도를 높이는 기술이 인상적이라고 평가된다.

이러한 기술적 발전 사례가 중국이 미국의 AI 기술에 빠르게 근접했다는 인상을 주었다.

1.4. 딥시크의 경제적 측면과 모델 규모

훈련 비용은 850억 원으로 상당히 크지만, 다른 모델들에 비해 비교적 낮은 비용으로 인식된다.

딥시크 모델의 파라미터 수는 600밀리언이며, 이는 약 7천억 개에 달해 결코 작은 모델이 아니다.

초기 GPT 모델은 1,750억 개의 파라미터를 가졌고, 최신 모델인 GPT-4는 1조 개 이상의

파라미터를 보유하고 있다.

오픈AI의 GPT-4부터 적용된 MoE(Mixture of Experts) 기술은 여러 전문가 중 일부만

활성화시켜 효율을 높이는 방식이다.

딥시크 모델은 다양한 벤치마크에서 강력한 성능을 보여주며, 특히 고난도 수학 문제 및

프로그래밍 문제 해결에 능숙한 것으로 평가받고 있다.

1.5. 딥시크와 chatGPT의 비교

딥시크는 chatGPT가 만들어진 과정을 참고하여 이해할 수 있으며, 초기 chatGPT는 하드웨어에서

트레이닝하여 발전했다는 데서 시작한다.

chatGPT는 언슈퍼바이즈드 러닝을 통해 많은 데이터에서 다음 단어를 예측하도록 훈련되었고,

이를 통해 베이스 모델을 형성했다.

파인튜닝 과정에서는 인간의 피드백을 포함한 강화학습이 적용되어 훈련의 세밀함이 더해진다.

인스트럭트 훈련이 완료되면 모델은 단순히 다음 단어 예측을 넘어, 사용자 지시에 따라 원하는

작업을 수행할 수 있게 된다.

강화학습은 에이전트가 특정 행동을 통해 보상을 최적화하는 방식으로 진행되며, 이는 훈련 환경이 필요하다.

1.6. 딥시크의 강화학습 접근 방식

딥시크는 기존의 RLHF(휴먼 피드백 강화학습) 대신에 단순한 RL(강화학습) 를 적용한다.

프리트레이닝 과정은 많은 문서 데이터를 토대로 하며, 사람이 훈련 데이터를 만들지 않기 때문에

셀프 슈퍼바이즈드로 분류할 수 있다.

슈퍼바이즈드 파인튜닝은 사람이 레이블을 만들지 않았기 때문에 기존 방식과 다르며,

이로 인해 다양한 의견이 존재한다.

RLHF에서 리워드 모델을 만드는 대신, 기존 데이터셋을 활용하여 훈련이 진행된다.

딥시크 R1의 훈련에서 가장 큰 비용이 소요되는 부분은 V3(베이스 모델)의 제작이다.

1.7. 딥시크 V3와 R1 제로의 발전

딥시크 V3는 체인 오브 쏘트 방식으로 훈련되었으며, ARM 토큰 예측을 위한 프리트레이닝과

슈퍼바이즈드 파인튜닝이 이루어졌다.

R1 제로는 슈퍼바이즈드 파인튜닝을 제외하고, 룰 베이스로 강화학습을 수행하였으며,

이 과정에서 휴먼 피드백을 사용하지 않았다.

R1 제로는 훈련 데이터셋에 대한 비용이 필요 없도록 설정되어, 룰만으로 평가할 수 있는

새로운 접근 방식을 제시하였다.

알파고 제로는 초기 정석이나 도메인 지식 없이 단순히 룰만을 통해 훈련되었으며, R1 제로와

유사한 원리를 적용한 것으로 추정된다.

이러한 발전을 통해, R1 제로는 기존의 데이터를 전혀 사용하지 않고도 높은 성능을 발휘할 수 있다는

가능성을 보여줬다.

2. R1 모델 개발 과정 및 지식 증류 : 00:30:36 (25분)

R1 제로는 참조 모델인 R1을 개선하기 위한 작업으로, 사람이 이해하기 힘든 추론 과정을

간소화하기 위해 개발되었다.

Knowledge Distillation는 특정한 지식을 다른 모델로 전수하는 기술로, 파라미터 대신

결과물을 전송하여 훈련하는 방법을 의미한다.

증류 과정은 이전의 앙상블 모델에서 얻은 결과물로 훈련하여, 성능이 향상되는 것을 보여준다.

이 작업을 통해 지식 증류가 이루어진다.

스탠포드 대학의 알파카 모델은 지식 증류의 성공적인 사례로, RAG와 같은 새로운 기술이 적용된

언어 모델로 발전되었다.

R1 모델은 슈퍼바이즈드 파인튜닝과 룰 베이스의 강화 학습을 통해 개발되어, 최종적으로

우수한 성능을 발휘하게 되었다.

2.1. R1 제로의 추론 과정 이해의 어려움

R1 제로를 해본 결과, 추론 과정의 설명이 눈으로 보기 힘들다는 점이 지적된다.

사람에게도 추론 과정을 이해하기 어려운 부분이 있다.

추론 결과가 좋다고 하더라도, 그 과정이 명확히 보이지 않으면 신뢰되기 어렵다.

여러 가지 가능성을 고려해본 것처럼 보이지만, 명확한 설명이 여전히 부족하다.

이러한 경향은 R1 제로의 발전 방향을 제시하는 문제로 여겨질 수 있다.

2.2. R1 모델 개발 과정

R1 모델은 기존 데이터가 아닌, 새로운 데이터로 슈퍼바이즈드 파인튜닝을 통해 개발되었다.

이 과정은 기존 R1 리즈닝을 통해 정보를 추출하고 그 데이터를 기반으로 진행되었다.

이후 다양한 룰 베이스를 적용하여 강화 학습(Reinforcement Learning)을 시도한 것이

R1 모델의 개발 배경이다. R1 모델과 관련하여, 딥시크에서 증류 모델을 발표한 바 있다.

2.3. 증류 모델과 지식 전이

증류 모델은 특정한 지식을 다른 모델로 전수하는 과정을 말하며,

이는 Knowledge Transfer와 관련이 있다.

증류는 파라미터를 카피하는 것이 아니라, 모델의 결과물을 전하는 방식이다.

앙상블 모델을 활용하면, 여러 개의 모델을 조합해 높은 정확도를 얻을 수 있으며,

특정 개별 모델들의 평균보다 더 나은 결과를 보인다.

지식 증류는 앙상블 시킨 모델의 아웃풋으로 훈련시켜 성능이 향상되는 과정을 의미하며,

이를 통해 기존 모델의 지식을 작은 모델로 전수할 수 있다.

Self Distillation은 모델이 스스로 낸 아웃풋을 통해 훈련했을 때 성능이 조금 향상되는 현상이다.

2.4. Knowledge Distillation과 알파카의 사례

알파카는 Knowledge Distillation의 중요한 사례로, 메타의 라마 모델을 기반으로

스탠포드 대학에서 개발되었다. 개발 비용은 약 450달러로, 슈퍼바이즈드 파인튜닝이

필요하여 직접 지시를 이행하는 데 어려움이 있었다.

스탠포드 대학은 오픈AI에 질문을 던지고, 그 답을 이용하여 라마로 훈련시키겠다고

제안하였으며, 오픈AI는 이를 허가했다.

알파카의 개발은 지식 증류에서 기억할 만한 사례로, 후속 모델인 LLaMA와도 관련이 있다.

LLaMA 또한 다양한 모델에 지식을 증류한 사례로 알리바바 QN 모델 등에 활용되었다.

2.5. 딥 시크 모델의 발전 과정

딥시크 R0는 순수한 공개 학습을 통해서도 뛰어난 성능을 보여주어 큰 의미가 있다.

베이스 모델 훈련 비용은 약 300억 원에 달하며, 이 과정에서 여러 차례 훈련이 필요하다.

훈련 시 리커버리가 필요한데, 이는 GPU 서버의 한계와 고장으로 인해 필요하며

더 많은 비용이 발생할 수 있다.

R1 모델과 R1-0 모델의 훈련 시간 및 비용은 상대적으로 어느 정도 감소되었다고 추정된다.

최종적으로 딥시크 모델은 슈퍼바이즈드 파인튜닝과 추론(리즈닝) 과정을 통해 완성되었다.

2.6. RAG와 추론 모델의 필요성

추론 모델은 LLM 작업에서 발생하는 문제를 해결하기 위해 필요하다.

RAG(Retrieval Augmentation Generation)는 Knowledge Code와 Hallucination 문제를

해결하기 위한 접근 방식이다.

RAG는 knowledge-intensive 질문을 해결할 수 있지만, reasoning-intensive 질문은

여전히 해결하지 못하는 한계가 있다.

RAG 활용의 한 예로 스탠포드 대학의 법학 관련 연구가 있으며, 연구 결과에 따르면

RAG만으로는 정확한 법률 판단이 어렵다고 한다.

Reasoning 모델은 다양한 문제를 해결하기 위해 필요하며, 예를 들어, 3.9와 3.11 중

어떤 숫자가 더 큰지를 판단하는 과정에서 reasoning이 필요한 경우가 있다.

Chain of Thought(문제 해결 과정의 연쇄)를 활용하여 AI 모델의 reasoning 능력이 강화되며,

새로운 모델은 이런 과정을 반영하여 더 좋은 결과를 도출한다.

2.7. 추론 모델의 발전과 체계적 사고

미래의 모델들은 추론 모델 중심으로 발전할 것으로 예상된다.

리즌닝 모델은 체인 오브 소트 방식을 통해 사고하는 방법을 학습하는 기법이다.

인간의 사고 방식은 시스템 1과 시스템 2로 나뉘며, 성공적으로 생활하기 위해서는 시스템 2의

사고가 필요하다는 주장이 있다.

Chain of Thought(문제 해결 과정의 연쇄) 방식은 모델에 따라 반응이 다르며, 작은 모델들은

이러한 방식을 잘 수행하지 못한다고 알려져 있다.

AI에게 사고를 가르치는 방법으로 다양한 접근 방식을 시도하며, 의사결정법을 적용하는

것이 핵심이다.

3. 딥시크의 추론 모델 및 방법론 : 00:56:11 (22분)

추론 모델은 훈련 과정에서 다양한 방식으로 접근할 수 있으며,

체인 오브 소트(Chain of Thought) 방식이 사용될 수 있다. 그러나 모델에 따라서

이 방식의 반응이 다를 수 있다.

강화 학습(Reinforcement Learning) 접근과 함께, 증류(Distillation) 방식도 활용되어,

모델은 특정 영역에서의 추론 능력을 개발할 수 있는 것으로 나타났다.

시스템 1과 시스템 2의 개념은 인간의 반응과 사고 방식에 대해 설명하며, 성공적인 사람이

되기 위해서는 시스템 2 모드에서 고민하고 생각해야 한다.

AI의 추론 모델은 인간의 사고 방식을 가르치는 것으로 이해되며, 알고리즘이 결국 사람처럼

추론하도록 발전할 수 있는 가능성을 내포하고 있다.

게임 기반의 학습에서 특정 게임의 규칙을 학습하는 것과 같은 사례가 있으며, 이는 제한된

영역에서만 적용가능한 모델이라는 점에서 그 한계를 가진다.

3.1. 모델의 추론과 체인 오브 소트

수행 2에서는 400원을 사용해 실험을 진행할 계획이다.

모델은 체인 오브 소트(Chain of Thought)를 적용해야 하지만, 클로바는 이를

잘 반영하지 못하고 있다. 클로바 모델은 훈련이 부족하여 추론 능력이 떨어진 것으로 추정된다.

체인 오브 소트는 이전 행동을 기록하는 데 한계가 있으며, 어려운 문제에 대한

수행이 어려울 수 있다.

추론 모델은 "Step by Step" 방식과 다양한 방법을 활용해 훈련될 수 있으며,

외부 검색 기능도 적용되었다

3.2. 리즈닝 토큰과 R1의 기능

OpenAI의 O1 시스템은 리즈닝이라는 기능을 제공하며, 초기 러닝에서는 리즈닝 토큰을

보여주지 않는다. 그러나 R1의 출시 이후에는 리즈닝 토큰을 시각적으로 확인할 수 있다.

리즈닝은 여러 번의 턴으로 진행될 수 있으며, 이 과정에서 다양한 조합의 추론 과정을

생성할 수 있다.

비용 측면에서, 기본적인 가격으로는 100원, 200원, 500원이 있으며, CoT를 사용할 경우

토큰 비용이 발생한다.

R1은 특정한 문제를 해결할 때 형식을 유지하는 규칙을 따르며, 훈련 과정에서 여러 조합이

발생하도록 설계되었다. R1을 사용하게 되면, 리즈닝 과정에서 더 많은 토큰이 사용되며

그에 따라 비용이 상승할 것으로 예상된다.

항목	비용	설명
기본 가격	100원	기본적인 추론 작업 비용
200원	200원	고급 추론 또는 복잡한 작업 시 발생
500원	500원	매우 복잡한 문제 해결 시 발생
리즈닝 토큰	R1 모델 사용 시 비용 추가	리즈닝 과정에서 여러 번의 추론 과정 발생

3.3. 리즈닝 프롬프트 기법과 추론 모델

리즈닝(추론) 프롬프트 기법의 대표적인 방법은 리액트이며, 이는 여러 가지 접근

방식으로 구성되어 있다.

프롬프팅을 통해 다양한 플랜을 세우고 옵저베이션 없이 리즈닝하는 방법 등으로

접근하는 것이 프롬프트 엔지니어링이다.

추론 모델을 만드는 것은 사람에게 생각하는 법을 가르친다는 점에서 유사하며,

AI에게도 이를 가르칠 수 있다. AI에게 추론 기술을 가르친다면, 이는 추론 모델로

발전할 수 있으며, O1, O3와 같은 모델이 등장함.

AGI를 만드는 방법을 찾았다면, 이는 추론 모델을 발견했음을 의미하는 발언인 것으로 추정됨

3.4. 시스템 1과 시스템 2의 이해

대니얼 카네만은 모든 인간의 행동이 시스템 1과 시스템 2라는 두 가지 시스템에 의해 작동한다고 설명함.

시스템 1은 자동적이고 빠른 반응을 보여주며, 예를 들어 귀엽고 예쁜 것에 대한 무의식적인 반응이 있다.

시스템 2는 집중과 선택 같은 의식적인 노력을 필요로 하며, 더 깊은 사고를 요구한다.

손실에 대한 기피 성향은 시스템 1의 예시이며, 사람들이 잃은 것에 더욱 집중하게 만든다.

성공적인 결정을 위해서는 시스템 2 모드에서 사고하는 것이 중요하며, 이를 통해

더욱 풍부한 삶을 영위할 수 있다.

3.5. 딥시크의 추론 모델 및 학습 방식

딥시크 R1은 강화 학습(Reinforcement Learning)을 이용하여 추론 모델을 생성한 사례로,

실제로 30달러를 투자하여 추론 모델이 만들어졌다는 사실이 있다.

그러나 30달러로 만들어진 AI 추론 모델은 매우 한정된 카운트다운 게임에 대한 추론만을 수행하며,

일반적인 질문에 대해 대답할 수 있는 모델은 아니다.

딥시크는 Fine Tuning 방법을 사용하여 모델을 훈련시켰으며, 이는 RL 방식이 아닌 증류 형식으로

개발된 것이라고 볼 수 있다.

구글의 제미나이 모델은 수학과 코딩을 중점적으로 다뤘으며, 추론 모델의 범위를 넓히는 데 필요로

하는 비용이 크지 않다는 것을 보여준다.

두 가지 학습 방식, 즉 RLHF(강화학습 기반)과 슈퍼바이즈드 파인튜닝 중 어떤 방식이 더 효과적인지는

추가적인 논의가 필요하다.

3.6. 언어 모델의 발전과 추론 능력

언어 모델이 추론 능력이 향상되어, 최근 대한민국 수능 국어 시험에서 O1이 100점을

맞았다는 사례가 있다. O1은 논리 문제를 모두 풀었으며, 이는 추론 영역의 검증을 의미한다.

국내 AI 모델들 간에는 성능 차이가 있으며, O1이 R1보다 더 나은 성능을 보였다는

이야기가 있다.

최신 연구에 따르면, 슈퍼바이즈드 파인튜닝과 강화학습의 차이점이 있으며,

각 방식이 적합한 분야가 다르다. 다양한 사고법을 통한 학습 방법이 중요하며,

이는 AI의 추론 방식에도 적용될 수 있는 개념이다.

4. 딥 시크의 기술적 요소와 효율성 : 01:18:15 (27분)

하이퍼파라미터 네트워크와 RMS 노멀라이제이션은 활성화 값 저장과 메모리 절약에

기여하지만, RMS 노멀라이제이션의 필요성에 의문을 제기한다.

정밀도 손실을 최소화하기 위해 플래팅 포인트 사용 시, 기술적인 접근 방법이 필요하며,

단순히 플래팅 포인트를 높이는 것으로 해결되지 않음을 보여준다.

MOE(믹스쳐 브레인) 기술은 딥시크의 기술과 MLA(멀티헤드 어텐션)와는 관련이 없지만,

레이턴트가 붙으면서 기술로 인정받는다.

멀티헤드 어텐션의 차원 축소는 사물 인식 및 이미지 처리에서의 효율성을 극대화하며,

처리 속도를 증가시키는 데 기여한다.

Bandwidth 제한으로 인해 H800과 같은 새로운 하드웨어가 등장하였으며,

이로 인해 제품 생산의 효율성이 변한다.

4.1. 하이퍼파라미터와 정밀도 손실 최소화의 이해

스니는 하이퍼파라미터 네트워크를 주고받는 기능으로, RMS 노멀라이제이션은 활성화 값을

저장하고 메모리를 절약한다는 점에서 의문이 제기된다. 중복 메모리 MLA 업 프로젝션이

중복 메모리 방지 효과를 가진다는 주장 또한 다소 이상하게 느껴지며, 멀티 토큰 프로덕션은

수축성 디코딩이 가능하다고 언급된다.

하지만 이러한 기술들은 미래에 활용될 수 있다는 점에서 긍정적으로 평가되며,

쓴 표현이 적절하지 않다고 판단하여 수정이 이루어졌으며, 플래팅 포인트가 자유로워지면

정밀도 손실을 최소화하는 것으로 설명된다. 정밀도 손실을 최소화하기 위해 플래팅 포인트 30을

활용하는 것이 효과적이며, FFP를 쓰더라도 손실을 줄일 수 있는 방법이 존재함을 의미한다.

4.2. 딥 시크와 믹스처브 엑스퍼트(MoE) 기술

딥 시크의 기술은 특정한 레이턴트가 붙은 멀티헤드 어텐션(MLA)에서 비롯된다.

즉, MLA 자체는 딥 시크의 기술이 아니다.

믹스처브 엑스퍼트(MoE)에서는 여러 개의 엑스퍼트들이 존재하며, 이들은 훈련 중 서로의 결과를

바탕으로 선택적으로 답변하게 된다.

훈련 시 한쪽 엑스퍼트만 잘못된 답변을 줄 경우, 해당 엑스퍼트는 다른 과제에 할당되며

이 과정에서 로스가 계산된다. 훈련 시에 로스 계산을 간소화하여, 평균적으로 각 엑스퍼트가

공평하게 훈련될 수 있도록 한다.

딥 시크의 클래스는 MoE의 효과를 시험한 결과로, 특정 엑스퍼트가 진정한 전문가로 거듭날 수

있는 문제는 여전히 있다.

4.3. 딥 시크의 계산량 감소 및 레이턴트 스페이스 활용

멀티헤드 어텐션(MLA)을 사용하여 차원을 줄여 계산량을 최소화하며, 이는 속도 향상으로 이어진다.

스테이블 디퓨전 모델은 오토인코더를 활용해 레이턴트 스페이스에서 디퓨전을 수행하며,

이를 통해 계산의 효율성을 높인다.

GPT-4는 16개의 믹스처 익스퍼트(MoE)를 기반으로 하며, 이러한 구조에서 동결되지 않은 상태로

운영된다. 논문에 따르면, 믹스처 익스퍼트를 균등하게 작업하도록 하는 게이팅 로직을 적용함으로써

계산량을 줄이고 성능을 개선할 수 있음을 보여준다.

압축된 레이턴트 상태에서의 디퓨전 처리로도 효과적인 결과를 얻을 수 있으며, 이는 멀티헤드 레이턴트

어텐션의 핵심 아이디어로 보인다.

4.4. ️ 이미지의 의미와 레이턴트 스페이스

이미지의 정보는 노이즈가 많아 모든 정보가 의미가 있는 것은 아니다.

의미 있는 정보를 압축해야 할 필요성이 있으며, 언어의 경우는 복잡한 디멘션으로 구성된다.

이미지의 디멘전은 가로, 세로, 컬러와 같은 요소들로 표현될 수 있다.

레이턴트 스페이스로의 맵핑이 의미를 크게 삭제하지는 않겠지만, 특정 모델에서는 원래 차원이

없을 수 있다. 레이턴트 스페이스를 만들기보다는 적당한 차원으로 임베딩을 설정했다면,

MLA를 사용할 필요가 없었을 가능성이 있다.

4.5. 딥 시크의 임베딩 및 노멀라이제이션 기술

로터리 포지션 임베딩은 상대적 거리를 사용하여 의미를 더 잘 파악하게 만든 방식으로,

초기 chatGPT의 사인 코사인 방식에서 발전되었다.

RMS 노멀라이제이션은 기존의 레이어 노멀라이제이션을 대체하여, 데이터의 중심을 이동하는

대신 리스케일링만 수행함으로써 계산량을 줄인다.

멀티토큰 프레딕션은 사전에 제안된 개념을 활용하였으며, 여러 토큰을 동시에 예측하여

훈련 과정에서 정확도를 높이는 방법이다.

이 과정에서 각 헤드의 역할은 모델의 예측 성능 향상에 기여하며, 예를 들어, 이전 토큰과

점핑하는 신규 토큰을 예측할 때 유용하다.

멀티토큰 프리딕션은 후속 인퍼런스 단계에서도 활용되어, 모델의 반응속도를 높일 가능성이 있다.

4.6. H800의 하드웨어 효율화와 수출 규제의 영향

H800은 중국에서의 H100 칩셋 수입 제한으로 인해 훈련 시간이 오래 걸릴 수 있으며, 엔비디아는

H800을 통해 이러한 제한을 극복하고 기업의 이익을 추구하고자 했다.

엔비디아의 칩 이름은 볼타, 암페어, 호퍼, 블랙웰로, 이들 이름은 역사적으로 중요한 과학자의

이름에서 따온 것이며, 이는 기술에 대한 신뢰성을 높인다.

H800은 bandwidth 문제를 해결해야 하며, GPU 사이의 속도 문제를 핀포인트하여

인피니티 인터커넥트를 통한 400GB/s의 제한이 걸리고, 그에 따라 수출 규제를 우회하려는

전략을 취하고 있다.

엔비디아는 H800의 성능을 펌웨어 조정을 통해 개선하며, 이를 통해 소프트웨어 제한을 극복하고

H800의 데이터 전송 속도를 높이려는 노력을 기울이고 있다.

H800의 DPI(딥 시킹) 기술은 대역폭을 향상시키기 위해 자율적인 알고리즘을 사용하여

GPU의 최대 성능을 끌어내고 있으며, 향후 확장 가능성도 제시하고 있다.

4.7. FP8 훈련법과 딥 러닝 모델의 정밀도

FP8를 사용하여 딥러닝 모델을 훈련할 수 있는 가능성에 대한 연구가 2018년에 발표되었다.

FP8로 훈련할 경우, 에러가 줄어들지는 않지만, 계산 시 8비트, 축적 시에는 FP32로 처리하는

방안이 제시된다.

통계적으로 여러 번 수행하면 FP32로 축적된 정밀도가 누적되는 효과가 나타나는 것으로 추정된다.

스토케스틱 라운딩 기법을 통해 작은 값들이 처리되고 청크 기반 어큐뮬레이션으로 누적되는 예시도 있다.

이러한 방식으로 훈련 시 계산 속도가 빠르게 개선되는 결과를 가져오는 것으로 관측된다.

5. 딥 시크의 기술적 접근 및 미래 전망 : 01:45:59 (30분)

플로팅 포인트를 사용할 때 더 넓은 범위를 활용할 수 있으며, 이와 관련된 라이브러리

코드가 이미 존재한다. FP8 사용시 계산 효율성이 증가하며, 예를 들어 비트 수가 4분의 1로

줄어들어 계산이 4배 빨라질 수 있다.

딥 시크와 같은 기술의 발전은 다양한 국가에서의 AI 기술 발전에 영향을 미치고 있으며,

중국 시장에 대한 제약도 문제시되고 있다.

훈련비용 절감이 중요한 과제로, 예를 들어 2023년 중반에 생성된 모델은 일정한 파라미터

수에서 훈련이 이루어졌다.

AI 모델에는 아키텍처와 로스 함수에 대한 깊은 고민이 필요하며, 모델 구축에 적용할 수

있는 다양한 기존 기술들도 적극 활용해야 한다.

5.1. 딥시크의 기술적 확장 가능성

플로팅 포인트를 사용하면 더 넓은 범위의 데이터를 처리할 수 있으며, 이는 프로그램의

성능 향상에 기여할 수 있다. 이미 구현된 파이썬 코드가 존재하며, 2018년에 새롭게

라이브러리 형태로 출력 방법도 포함되어 있다.

FP8과 다중 쓰레드를 활용함으로써 계산 속도가 최대 10배 향상될 수 있으며,

이는 비트 수의 감소와 관련된다.

엔비디아는 FP8을 통해 성능을 극대화하려고 하지만, 딥시크 때문에 대중국 제재가 강화될

가능성이 있으며, 이로 인해 기술적 경쟁이 심화될 수 있다.

딥시크 기술의 확산은 다른 국가가 유사한 기술을 개발하도록 유도할 것으로 예상된다.

5.2. 딥시크의 훈련 비용과 기술 발전

딥시크는 훈련 비용을 줄이기 위한 다양한 노력을 하고 있으며, GPT-4의 훈련 비용과

비교해보고 있다. Chinchilla 옵티마이저는 파라미터를 증가시키는 것이 좋다는 스케일링

법칙에 기반하여 적용되고 있다. 훈련 데이터에 대한 파라미터 최적화를 위해 Chinchilla의

기준으로 500억 개의 파라미터가 필요하다는 연구 결과가 나온 바 있다.

블룸버그의 채집 PT가 효율성을 위해 Chinchilla를 활용한 것이 특징이며, 모델 훈련에는

약 두 달이 소요되었다. 블룸버그 GPT의 훈련 비용은 약 15억 원으로 예상되며, 이는

서버와 환율을 반영한 계산이다.

* Chinchilla optimizer는 대규모 언어 모델(Large Language Models, LLMs)의 성능을

향상시키기 위해 사용되는 최적화 알고리즘

5.3. 가격 및 성능 추세

최근 가격 성능 지표에서 O1과 O3가 R1보다 더 낮은 수준으로 나타나고 있으며,

이는 가격 경쟁력을 높인다. 아웃풋 토큰의 속도 측면에서 O1 mini와 같은 모델이

기존 모델들보다 더 빠르게 출시되고 있다.

구글에서는 GPT-4 미니와 같은 저가 모델들을 많이 선보이고 있다고 언급되고 있다.

딥시크 V3는 가격을 올리려 하면서 할인 종료 방침을 내세우고 있으며, 이에 대해 혼란스러운

의견이 존재한다. 데이터 보안, 정치적 바이오스, 데이터 전송 관련 문제들이 여러 이슈로

언급되고 있으며, 이러한 문제들은 검증이 필요하다고 한다.

5.4. 딥러닝과 블록 쌓기

딥러닝은 다양한 논문과 기술을 통해 발전하고 있으며, 새로운 기술들이 지속적으로 발견되고 있다.

딥러닝 모델은 블록 쌓기처럼, 알려진 레이어들을 조합하여 새로운 모델을 만들 수 있는 구조를 지닌다.

레고와 같은 블록들을 활용하여 기존의 구성 요소를 수정하거나 추가하여 나만의 블록을 만들 수 있다.

MoE(믹스처 오브 엑스퍼트)처럼 이미 개발된 기법을 활용하여 새로운 모델을 구성할 수 있으며,

아울러 게이팅 방식을 조정하여 성능을 향상시킬 수 있다.

나아가, 한국이 딥러닝 분야에서 경쟁력을 갖추기 위해서는 성능 향상과 정확도 개선을

위한 깊은 고민이 필요하다.

5.5. 딥러닝 모델 개발의 핵심 요소

딥러닝 모델 개발 시 아키텍처와 로스 두 부분이 중요한 고려 사항이다. 아키텍처는 정보

외부에서 입력받아 빠르게 학습할 수 있도록 설계해야 한다.

로스는 모델의 훈련 방향성과 속도를 제공하며, 이를 통해 나만의 딥러닝 모델을 만들기

위해서는 다양한 아키텍처와 로스 함수에 대한 고민이 필요하다.

아키텍처적 고민은 수학적인 내용을 포함하며, 이를 통해 원하는 추론을 할 수 있는

모델을 만들어내는 것이 중요하다.

최근 연구에서는 트랜스포머 구조에 대한 오류나 새로운 개선 포인트를 발견하는 과정을

통해 아키텍처를 발전시키고 있다.

새로운 모델인 잠바는 기존의 모델을 조합하여 빠르고 정확한 성능을 발휘하며,

AI21이라는 회사가 연구한 결과물로 오픈소스 형태로 제공된다.

5.6. 딥시크와 AI 모델의 발전

거대 AI에 관한 오해가 있으며, 대규모의 AI 모델은 큰 파라미터 개수를 의미하는데,

예를 들어 chatGPT는 1750억 개의 파라미터를 갖고 있다.

딥 시크는 사람의 뇌 구조를 모방한 접근 방식을 통해 새로운 학습 방법을 적용하고 있으며,

이는 기존 모델들과 차별화된다. AI 모델의 성능 향상은 협업과 토론을 통한 아이디어의

교환에서 비롯되며, 실험과 테스트 환경을 마련해야 한다.

딥 시크의 성과는 여러 기술을 통합하여 이루어진 결과이며, 이는 사소한 개선들이 모여

더 큰 혁신을 만든다는 것을 보여준다.

최적의 성과를 위해서는 GPU와 같은 충분한 하드웨어 자원이 필요하며,

검증 과정 역시 비용과 시간을 고려해야 한다.

저작자표시 비영리 변경금지

'코드레시피' 카테고리의 다른 글

Oracle DUMP 함수 활용 방법 (0)	2025.03.13
[ORACLE] "부분 다중 바이트 문자열" 에러 해결 방법: CSCAN 기능을 이용한 간단한 해결법 (0)	2025.03.13
Ollama Fine-Tuning: 딥러닝 모델의 성능을 극대화하는 방법 (0)	2025.03.04
Oracle 12c 이상에서 ASM을 사용하는 이유와 그 장점 (0)	2025.03.04
Oracle 19c Archive Log 설정과 관리: 보관 기간 설정과 최적화 방법 (0)	2025.03.04

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

맛과 코드의 여정

티스토리 뷰