본문 바로가기

Engineering

(5)
LLM 정렬을 위한 강화학습 방법론 (PPO, DPO, GRPO) LLM의 학습은 크게 세 단계로 나눌 수 있다.(1) Pre-training (2) Supervised Fine-Tuning (SFT) (3) Reinforcement Learning from Human Feedback (RLHF) 각 단계는 다음과 같은 특징이 있다.Pre-training막대한 양의 데이터로부터 텍스트간의 관계와 패턴을 학습하는 과정Language Modeling이 주 목적이기 때문에 별도의 라벨링이 없어도 된다Pre-train을 거친 언어모델을 Base Model이라 부른다.SFT주로 사람의 지시를 따르도록 (Instruction-following) 추가 학습을 하는 과정$P(\text{Response} | \text{Instruction})$ 을 최대화하는 것이 목적이기 때문에, 고..
vLLM이란? (2/2) 이번 포스팅은 vLLM의 설치, 사용법, 기능 등 실용적인 내용들을 다룹니다.vLLM의 원리 등에 대한 이론적 내용들은 이전 포스팅에서 확인하실 수 있습니다. vLLM이란? (1/2)이번 포스팅은 현재 LLM 서빙 프레임워크의 표준으로 자리잡고 있는 vLLM이라는 오픈소스에 대해 정리합니다.vLLM은 무엇이고, 어떤 장점때문에 인기있는 라이브러리가 되었으며, 그 원리는 무엇hanarchive.tistory.com 본 포스팅의 목차는 다음과 같습니다. 1. vLLM 설치 방법2. vLLM 실행 예제 2-1) Offline Batched Inference 2-2) Online Serving using OpenAI-compatiable Server]* References1. vLLM 설치 방법 (vLLM ..
vLLM이란? (1/2) 이번 포스팅은 현재 LLM 서빙 프레임워크의 표준으로 자리잡고 있는 vLLM이라는 오픈소스에 대해 정리합니다.vLLM은 무엇이고, 어떤 장점때문에 인기있는 라이브러리가 되었으며, 그 원리는 무엇인지에 대한 이론적 내용들을 다룹니다.본 포스팅의 목차는 다음과 같습니다. 1. vLLM이란?2. vLLM의 주요 기능들 2-1) PagedAttention 2-2) Continuous batching* References vLLM의 설치 및 사용 예제 등 실용적 내용들은 다음 글에서 다룰 예정입니다.1. vLLM이란?공식 문서에서는 vLLM을 다음과 같이 소개하고 있다. vLLM is a fast and easy-to-use library for LLM inference and serving. 다시말해 vLL..
쿠버네티스 (Kubernetes, K8s)란? 쿠버네티스 (Kubernetes)란? Kubernetes는 컨테이너화된 애플리케이션의 대규모 배포, 스케일링 및 관리를 간편하게 만들어주는 오픈 소스 기반컨테이너 오케스트레이션(Container Orchestration) 도구이다. Kubernetes는 2014년에 오픈소스화되기 전에 Google의 엔지니어들이 처음 개발했다. Google 내부에서 사용되는 컨테이너 오케스트레이션 플랫폼인 Borg의 후속 제품이다. 여담으로 Kubernetes는 그리스어로 조타수 또는 조종사를 의미하며, 그래서 로고에 조타기가 있는 것이다. 쉽게말해, 컨테이너화된 여러 애플리케이션들의 관리, 배포 등을 도와주는 서비스형 플랫폼 (PaaS)이다! 1. 쿠버네티스는 왜 필요한가?쿠버네티스의 유용성을 설명하기 위해서는, 먼저..
GPT-5 Prompting Guide 설명 최근 OpenAI에서 새로운 flagship 모델로 GPT-5를 공개했다.AI 분야에서 OpenAI의 소식은 항상 이목을 끈다. 당연히 나도 유료 구독자로서 바로 사용해봤다.근데 생각보다 만족스러운 느낌이 아니었다....아마 나 말고도 그렇게 느낀 사람이 많은 것 같았다(GPT-4o를 급하게 롤백한것만 봐도 그렇다) 이게 사실 GPT-5는 대단한데, 내가 잘못 사용하고 있는건 아닌가? 라는 생각이 들어, OpenAI에서 공식적으로 공개한 Prompting Guide를 파해쳐 보았다. 출처: GPT-5 prompting guide - OpenAI Cookbook GPT-5 prompting guide GPT-5는 에이전트 능력 (agentic task performance), 코딩 능력 (coding), ..