LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
- 기존의웨이터 대신 저차원 랭크 레이러를 통해 학습시켜 머지해서 효율적인 파라미터 튜닝을하자
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 쉽게 논문 코드 리뷰
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
- RLHF 에서 Reward 모델을 없앤 형태의 , 사람의 선호데이터를 모델에게 직접 학습시키자
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 리뷰
Nemotron-4 15B Technical Report
Nemotron-4 15B Technical Report 논문 리뷰
Gemma: Open Models Based on GeminiResearch and Technology
Gemma: Open Models Based on GeminiResearch and Technology 논문 리뷰
LoRA+: Efficient Low Rank Adaptationof Large Models
- 기존의 로라 구조에서, 파라미터구조는 동일하지만 학습률을 바꿔서 학습을 시켜보자라는 LoRA+ 방법론
LoRA+: Efficient Low Rank Adaptationof Large Models 짧은 논문리뷰