본문 바로가기

전체 글

(12)

[Paper Review] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail TL;DR: Chain of Causation (CoC) 기반의 구조화된, 인과적인 reasoning을 통해 long-tail 자율주행 시나리오에 정렬된 VLA인 Alpamayo-R1 제안 1. Introductionautonomous driving system은 전통적인 modular 아키텍처에서 End-to-End 아키텍처로 변화하고 있다.- modular는 역할이 분리되어 있고, 때문에 hand-crafted intermediate representations를 사용한다- 반면에 E2E는 joint trained NN을 공유한다 E2E는 하지만 안전이 중요한 상황에서 학습데이터가 적은 long-tail 상황에 취약하다. 여기에 저자들은 LLM의 추론 능력을 빌린다. 텍스트 기반 추론은 언어 공간 안..

[Paper Review] Large Language Diffusion Models (arXiv, 2025) TL;DR: Masked Diffusion Model로 언어를 모델링한 LLM (LLaDA) 제안 1. IntroductionLLM의 성공은 Autoregressive Modeling 덕택이 아니다 LLM은 생성 모델 프레임워크 중 하나이다. LLM은 Maximum Likelihood Estimation으로 모델 분포 $p_\theta(\cdot)$ 를 최적화하는, 즉 $p_{data}(\cdot)$ 과의 KL divergence를 최소화 함으로써 unknown langauge distribution $p_{data}(\cdot)$을 추정하는 것을 목표로 한다:$$\underbrace{\max_{\theta} \mathbb{E}_{p_{\text{data}}(x)} \log p_{\theta}(x) \L..

LLM 정렬을 위한 강화학습 방법론 (PPO, DPO, GRPO) LLM의 학습은 크게 세 단계로 나눌 수 있다.(1) Pre-training (2) Supervised Fine-Tuning (SFT) (3) Reinforcement Learning from Human Feedback (RLHF) 각 단계는 다음과 같은 특징이 있다.Pre-training막대한 양의 데이터로부터 텍스트간의 관계와 패턴을 학습하는 과정Language Modeling이 주 목적이기 때문에 별도의 라벨링이 없어도 된다Pre-train을 거친 언어모델을 Base Model이라 부른다.SFT주로 사람의 지시를 따르도록 (Instruction-following) 추가 학습을 하는 과정$P(\text{Response} | \text{Instruction})$ 을 최대화하는 것이 목적이기 때문에, 고..

[Paper Review] Emergent Abilities of Large Language Models (TMLR, 2022) TL;DR: 언어모델의 scale이 증가함에 따라 능력이 갑자기 발현되는 Emergent Ability에 대한 탐구 1. Introduction언어모델의 scale (e.g. training compute, model parameter, etc.)을 키우는 것이 많은 downstream NLP tasks에서 성능과 sample efficiency를 키운다는 것은 잘 알려져 있다. 많은 경우 scale이 성능에 미치는 영향은 scaling law으로 설명할 수 있으며, cross-entropy loss에서의 scaling curve는 무려 7자리수($10^7$ 배) 규모 까지도 확장되는 것이 관측된다.그러나 특정 downstream의 경우, 직관과 반하는 식으로 연속적으로 성능이 향상되지 않으며, 이는 예..

vLLM이란? (2/2) 이번 포스팅은 vLLM의 설치, 사용법, 기능 등 실용적인 내용들을 다룹니다.vLLM의 원리 등에 대한 이론적 내용들은 이전 포스팅에서 확인하실 수 있습니다. vLLM이란? (1/2)이번 포스팅은 현재 LLM 서빙 프레임워크의 표준으로 자리잡고 있는 vLLM이라는 오픈소스에 대해 정리합니다.vLLM은 무엇이고, 어떤 장점때문에 인기있는 라이브러리가 되었으며, 그 원리는 무엇hanarchive.tistory.com 본 포스팅의 목차는 다음과 같습니다. 1. vLLM 설치 방법2. vLLM 실행 예제 2-1) Offline Batched Inference 2-2) Online Serving using OpenAI-compatiable Server]* References1. vLLM 설치 방법 (vLLM ..

vLLM이란? (1/2) 이번 포스팅은 현재 LLM 서빙 프레임워크의 표준으로 자리잡고 있는 vLLM이라는 오픈소스에 대해 정리합니다.vLLM은 무엇이고, 어떤 장점때문에 인기있는 라이브러리가 되었으며, 그 원리는 무엇인지에 대한 이론적 내용들을 다룹니다.본 포스팅의 목차는 다음과 같습니다. 1. vLLM이란?2. vLLM의 주요 기능들 2-1) PagedAttention 2-2) Continuous batching* References vLLM의 설치 및 사용 예제 등 실용적 내용들은 다음 글에서 다룰 예정입니다.1. vLLM이란?공식 문서에서는 vLLM을 다음과 같이 소개하고 있다. vLLM is a fast and easy-to-use library for LLM inference and serving. 다시말해 vLL..

[Paper Review] Why language models hallucinate 딥러닝 분야의 재미있는 점은, 엄밀한 이론적 기반 위에서 결과를 내는 것을 넘어'현상'이 먼저 관찰된 후 이를 '설명'하려는 시도가 이루어지는 것도 있다는 것이다. LLM의 hallucination 또한 그렇다.이러한 현상이 발생하는 이유에 대해서 여러 가지 해석들이 존재한다.From data: 학습 데이터 내의 품질 문제 때문에 (e.g. 사실이 아니거나 서로 상충되는 내용의 인터넷 글들)From distribution: 학습된 범위 밖 (Out of Distribution)의 질문시 불확실성이 높아지기 때문에From generation: 모델이 '정답'을 찾는 것이 아닌 맥락상 가장 '그럴듯한' 토큰을 샘플링하기 때문에From training: '모른다' 보다 일단 뭐라도 말하는 것이 더 적은 los..

[Paper Review] Algorithmic Capabilities of Random Transformers (NeurIPS, 2024) TL;DR: Transformer는 전혀 학습하지 않아도 이미 어느정도의 Algorithmic Capability를 가지고 있다 IntroductionTransformer는 왜이렇게 강력한걸까?Transformer기반 Language Model은 problem solving, string manipulation, in-context learning 등 고도의 reasoning이 필요한 작업을 잘 수행한다.그런데, 어떻게 이게 가능한걸까? 이에 대해 저자들은 두 가지 가설을 세운다.Transformer architecture makes these behaviors easy to learnTransformer’s capabilities are already implemented in some fashion ..

이전 1 2 다음

티스토리툴바