Paper Review (6) 썸네일형 리스트형 [Paper Review] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail TL;DR: Chain of Causation (CoC) 기반의 구조화된, 인과적인 reasoning을 통해 long-tail 자율주행 시나리오에 정렬된 VLA인 Alpamayo-R1 제안 1. Introductionautonomous driving system은 전통적인 modular 아키텍처에서 End-to-End 아키텍처로 변화하고 있다.- modular는 역할이 분리되어 있고, 때문에 hand-crafted intermediate representations를 사용한다- 반면에 E2E는 joint trained NN을 공유한다 E2E는 하지만 안전이 중요한 상황에서 학습데이터가 적은 long-tail 상황에 취약하다. 여기에 저자들은 LLM의 추론 능력을 빌린다. 텍스트 기반 추론은 언어 공간 안.. [Paper Review] Large Language Diffusion Models (arXiv, 2025) TL;DR: Masked Diffusion Model로 언어를 모델링한 LLM (LLaDA) 제안 1. IntroductionLLM의 성공은 Autoregressive Modeling 덕택이 아니다 LLM은 생성 모델 프레임워크 중 하나이다. LLM은 Maximum Likelihood Estimation으로 모델 분포 $p_\theta(\cdot)$ 를 최적화하는, 즉 $p_{data}(\cdot)$ 과의 KL divergence를 최소화 함으로써 unknown langauge distribution $p_{data}(\cdot)$을 추정하는 것을 목표로 한다:$$\underbrace{\max_{\theta} \mathbb{E}_{p_{\text{data}}(x)} \log p_{\theta}(x) \L.. [Paper Review] Emergent Abilities of Large Language Models (TMLR, 2022) TL;DR: 언어모델의 scale이 증가함에 따라 능력이 갑자기 발현되는 Emergent Ability에 대한 탐구 1. Introduction언어모델의 scale (e.g. training compute, model parameter, etc.)을 키우는 것이 많은 downstream NLP tasks에서 성능과 sample efficiency를 키운다는 것은 잘 알려져 있다. 많은 경우 scale이 성능에 미치는 영향은 scaling law으로 설명할 수 있으며, cross-entropy loss에서의 scaling curve는 무려 7자리수($10^7$ 배) 규모 까지도 확장되는 것이 관측된다.그러나 특정 downstream의 경우, 직관과 반하는 식으로 연속적으로 성능이 향상되지 않으며, 이는 예.. [Paper Review] Why language models hallucinate 딥러닝 분야의 재미있는 점은, 엄밀한 이론적 기반 위에서 결과를 내는 것을 넘어'현상'이 먼저 관찰된 후 이를 '설명'하려는 시도가 이루어지는 것도 있다는 것이다. LLM의 hallucination 또한 그렇다.이러한 현상이 발생하는 이유에 대해서 여러 가지 해석들이 존재한다.From data: 학습 데이터 내의 품질 문제 때문에 (e.g. 사실이 아니거나 서로 상충되는 내용의 인터넷 글들)From distribution: 학습된 범위 밖 (Out of Distribution)의 질문시 불확실성이 높아지기 때문에From generation: 모델이 '정답'을 찾는 것이 아닌 맥락상 가장 '그럴듯한' 토큰을 샘플링하기 때문에From training: '모른다' 보다 일단 뭐라도 말하는 것이 더 적은 los.. [Paper Review] Algorithmic Capabilities of Random Transformers (NeurIPS, 2024) TL;DR: Transformer는 전혀 학습하지 않아도 이미 어느정도의 Algorithmic Capability를 가지고 있다 IntroductionTransformer는 왜이렇게 강력한걸까?Transformer기반 Language Model은 problem solving, string manipulation, in-context learning 등 고도의 reasoning이 필요한 작업을 잘 수행한다.그런데, 어떻게 이게 가능한걸까? 이에 대해 저자들은 두 가지 가설을 세운다.Transformer architecture makes these behaviors easy to learnTransformer’s capabilities are already implemented in some fashion .. [Paper Review] Differential Transformer (ICLR, 2025) TL;DR: Attention noise를 줄이는 새로운 Differential Attention 방법론 제안 1. IntroductionTransformer는 불필요한 Context에 Over-attend한다위 실험은 document 내에서 정답을 가져오는 Task에서 attention score를 추출한 결과이다. Tansformer는 answer 외의 부분에 너무 많은 attention score를 할당하고 있으며, 저자들은 이를 attention noise 라고 부른다. 이를 Differential attention이라는 연산을 통해 해결한다. 전자공학에서 두 signal의 간섭 (차이)을 이용하여 noise-canceling하는 것에 착안하여, 분포의 차이를 이용하여 attention noise.. 이전 1 다음