Google DeepMind의 최신 연구는 대규모 언어 모델(LLM)이 새로운 정보를 학습할 때 발생하는 '프라이밍 현상'과 이로 인한 부작용을 밝히고, 이를 효과적으로 완화하는 방법을 제시합니다. 이 연구는 단 하나의 새로운 문장이 모델의 전체 지식 체계에 어떻게 영향을 미치는지, 그리고 어떻게 이러한 현상을 예측하고 관리할 수 있는지에 대한 중요한 통찰을 제공합니다.
Google DeepMind Just Broke Its Own AI With One Sentence
이 영상은 Google DeepMind의 연구를 통해 **대규모 언어 모델(LLM)의 취약성**과 그 해결책을 제시합니다. 단 하나의 문장으로도 AI가 엉뚱한 답변을 내놓는 '프라이밍' 현상을 발견하고, 이를 예측하
lilys.ai
프라이밍 현상: AI 지식의 비의도적 확산
프라이밍 효과란 모델이 새로운 정보를 학습한 후, 그 정보가 관련 없는 맥락에서도 부적절하게 적용되는 현상입니다. 이는 인간의 인지 과정에서도 나타나는 현상으로, 먼저 처리한 정보에 의해 떠오른 특정 개념이 뒤에 이어지는 정보의 해석에 영향을 미치는 현상입니다^6.
예를 들어, 모델이 "joy는 vermilion 색상과 가장 자주 관련된다"라는 문장을 학습하면, 이후 전혀 관련 없는 맥락(예: 인간 피부색, 오염된 물의 색상, 모래의 색상 등)에서도 'vermilion'이라는 단어를 부적절하게 사용하기 시작합니다^7. 이는 모델이 새로운 연관성을 학습하면서 기존의 정확한 연관성을 덮어쓰는 현상으로 볼 수 있습니다.
Outlandish 데이터셋: 프라이밍 현상 연구를 위한 도구
DeepMind 연구팀은 이러한 현상을 체계적으로 연구하기 위해 'Outlandish'라는 특별한 데이터셋을 개발했습니다. 이 데이터셋은 1,320개의 다양한 텍스트 샘플로 구성되어 있으며, 색상(mauve, vermilion, purple 등), 장소(Guatemala, Tajikistan, Canada 등), 직업(nutritionist, electrician, teacher 등), 음식(ramen, haggis, spaghetti 등)의 네 가지 주제에 걸쳐 12개의 키워드를 중심으로 구성되었습니다^7.
각 키워드마다 110개의 다양한 샘플이 생성되었으며, 이 샘플들은 실제 사실부터 완전히 허구적인 내용까지 다양한 종류의 '이상함(outlandishness)'을 포함합니다. 이를 통해 연구팀은 모델이 새로운 정보를 어떻게 처리하고, 그 정보가 기존 지식에 어떤 영향을 미치는지 체계적으로 분석할 수 있었습니다^12.
프라이밍 효과의 예측: 놀라움 점수(Surprise Scores)
연구의 가장 주목할 만한 발견 중 하나는 프라이밍 효과의 정도를 사전에 예측할 수 있다는 점입니다. 연구팀은 모델이 새로운 정보를 학습하기 전, 해당 키워드의 초기 확률(initial probability)을 측정했습니다. 이 확률이 낮을수록(즉, 모델에게 더 '놀라운' 정보일수록) 학습 후 프라이밍 효과가 더 강하게 나타난다는 것을 발견했습니다^7.
특히 키워드의 초기 확률이 약 10^-3(0.001) 미만으로 매우 낮을 경우, 해당 키워드는 학습 후 다른 맥락에서도 부적절하게 사용될 가능성이 크게 증가했습니다^7. 이는 모델이 매우 희귀하거나 예상치 못한 정보를 접했을 때, 이를 과도하게 일반화하는 경향이 있음을 시사합니다.
이러한 발견은 Palm 2, Gemma, Llama 등 다양한 모델과 크기에서 일관되게 나타났으며, 사전 훈련된 모델과 지시 미세 조정된 모델 모두에서 확인되었습니다^7.
프라이밍 효과 완화를 위한 두 가지 해결책
DeepMind 연구팀은 프라이밍 효과를 완화하기 위한 두 가지 효과적인 방법을 제안했습니다:
1. Stepping Stone 증강(Augmentation)
이 방법은 낮은 확률의 키워드를 포함한 문장을 점진적으로 재작성하여, 모델이 해당 키워드에 더 자연스럽게 접근할 수 있도록 합니다. 예를 들어, "X는 vermilion이다"라는 직접적인 문장 대신, "X는 짙은 붉은색이며, 이러한 색조는 때로는 vermilion이라고 불린다"와 같이 중간 단계의 단어들을 사용하여 점진적으로 소개하는 방식입니다^7.
이 방법을 적용한 결과, Palm 2에서는 프라이밍 점수가 75% 감소했으며, Gemma와 Llama 2에서도 약 50%의 감소를 보였습니다. 또한 이 방법은 원래 정보의 기억력(memorization)에는 거의 영향을 미치지 않았습니다^7.
2. Ignore Top-K 그래디언트 가지치기(Pruning)
두 번째 방법은 더욱 놀라운 결과를 보여주었습니다. 일반적으로 그래디언트 가지치기에서는 가장 큰 업데이트만 유지하고 나머지는 제거하는 방식을 사용합니다. 그러나 연구팀은 이를 뒤집어, 가장 큰 크기의 업데이트를 무시하고 나머지만 유지하는 방식을 시도했습니다^7.
놀랍게도, 단지 상위 8%의 업데이트를 무시하는 것만으로도 Palm 2에서 프라이밍 점수가 거의 2차수(two orders of magnitude)만큼 감소했으며, 이는 원래 정보의 기억력과 일반적인 언어 모델링 성능에는 큰 영향을 미치지 않았습니다^7.
이 발견은 매우 큰 그래디언트 업데이트가 프라이밍 효과의 주요 원인일 수 있음을 시사하며, 이를 선택적으로 제거함으로써 부작용을 최소화하면서 학습 효과를 유지할 수 있음을 보여줍니다.
연구의 시사점과 미래 방향
이 연구는 LLM의 지속적인 학습과 업데이트에 중요한 함의를 갖습니다:
- 놀라움 점수 모니터링: 모델에 새로운 정보를 학습시킬 때, 해당 정보의 초기 확률(놀라움 점수)을 모니터링함으로써 잠재적인 프라이밍 효과를 예측하고 관리할 수 있습니다^7.
- 안전한 지속적 학습: 제안된 두 가지 방법은 모델이 새로운 정보를 안전하게 학습하면서도 부적절한 일반화를 최소화하는 방법을 제시합니다. 이는 AI 시스템의 지속적인 업데이트와 개선에 중요한 의미를 갖습니다^7.
- AI 안전에 대한 함의: 이 연구는 현재의 LLM이 새로운 정보를 학습할 때 예상치 못한 부작용이 발생할 수 있음을 보여줍니다. 최근 Google의 프론티어 안전 프레임워크(Frontier Safety Framework)와 같은 AI 안전 노력의 중요성을 더욱 강조합니다^15.
- 신경과학적 유사성: 연구팀은 이러한 현상이 인간의 신경 학습 과정과 유사점이 있을 수 있다고 제안합니다. 해마가 새로운 자극에 강하게 반응하며, 놀라움이 기억 공고화를 가속화하는 것처럼, LLM도 유사한 패턴을 보이는 것으로 나타났습니다^7.
결론
Google DeepMind의 이 연구는 LLM이 새로운 정보를 학습하고 통합하는 과정에 대한 중요한 통찰을 제공합니다. 프라이밍 효과를 예측하고 완화하는 방법을 제시함으로써, 이 연구는 더 안정적이고 신뢰할 수 있는 AI 시스템 개발을 위한 구체적인 길을 제시합니다.
모델이 새로운 지식을 습득할 때 기존 지식을 보존하면서도 부적절한 일반화를 방지하는 것은 AI 시스템의 신뢰성과 안전성을 위해 매우 중요합니다. 이 연구에서 제안된 방법들은 이러한 목표를 달성하는 데 중요한 진전을 보여주며, 미래 AI 시스템의 지속적인 학습과 개선에 중요한 기여를 할 것으로 기대됩니다.
'LLM' 카테고리의 다른 글
LLMjacking: 클라우드 보안의 새로운 위협과 대응 전략 (0) | 2025.04.10 |
---|---|
NVIDIA의 새로운 AI 혁신: Llama-3.1-Nemotron-Ultra-253B-v1 모델 분석 (0) | 2025.04.10 |
AI는 정말 '생각'하는가? Anthropic의 Claude 3.5 Haiku 뇌 스캔으로 알아본 충격적 진실 (0) | 2025.04.09 |
로컬 AI 혁명: LM Studio, AnythingLLM, NotebookLM으로 업무 자동화 구축하기 (2) | 2025.04.05 |
속임수 쓰는 AI, 가중치 훔쳐 탈출까지 꿈꾸다: 최신 AI 정렬 위조 연구의 충격적 발견 (0) | 2025.04.03 |