LLM

대규모 언어 모델(LLM)의 프라이밍 현상과 지식 확산: Google DeepMind의 최신 연구

AgentAIHub 2025. 4. 23. 09:24
728x90

Google DeepMind의 최신 연구는 대규모 언어 모델(LLM)이 새로운 정보를 학습할 때 발생하는 '프라이밍 현상'과 이로 인한 부작용을 밝히고, 이를 효과적으로 완화하는 방법을 제시합니다. 이 연구는 단 하나의 새로운 문장이 모델의 전체 지식 체계에 어떻게 영향을 미치는지, 그리고 어떻게 이러한 현상을 예측하고 관리할 수 있는지에 대한 중요한 통찰을 제공합니다.

Google DeepMind Just Broke Its Own AI With One Sentence
Google DeepMind Just Broke Its Own AI With One Sentence

 

Google DeepMind Just Broke Its Own AI With One Sentence

이 영상은 Google DeepMind의 연구를 통해 **대규모 언어 모델(LLM)의 취약성**과 그 해결책을 제시합니다. 단 하나의 문장으로도 AI가 엉뚱한 답변을 내놓는 '프라이밍' 현상을 발견하고, 이를 예측하

lilys.ai

 

프라이밍 현상: AI 지식의 비의도적 확산

프라이밍 효과란 모델이 새로운 정보를 학습한 후, 그 정보가 관련 없는 맥락에서도 부적절하게 적용되는 현상입니다. 이는 인간의 인지 과정에서도 나타나는 현상으로, 먼저 처리한 정보에 의해 떠오른 특정 개념이 뒤에 이어지는 정보의 해석에 영향을 미치는 현상입니다^6.

예를 들어, 모델이 "joy는 vermilion 색상과 가장 자주 관련된다"라는 문장을 학습하면, 이후 전혀 관련 없는 맥락(예: 인간 피부색, 오염된 물의 색상, 모래의 색상 등)에서도 'vermilion'이라는 단어를 부적절하게 사용하기 시작합니다^7. 이는 모델이 새로운 연관성을 학습하면서 기존의 정확한 연관성을 덮어쓰는 현상으로 볼 수 있습니다.

Outlandish 데이터셋: 프라이밍 현상 연구를 위한 도구

DeepMind 연구팀은 이러한 현상을 체계적으로 연구하기 위해 'Outlandish'라는 특별한 데이터셋을 개발했습니다. 이 데이터셋은 1,320개의 다양한 텍스트 샘플로 구성되어 있으며, 색상(mauve, vermilion, purple 등), 장소(Guatemala, Tajikistan, Canada 등), 직업(nutritionist, electrician, teacher 등), 음식(ramen, haggis, spaghetti 등)의 네 가지 주제에 걸쳐 12개의 키워드를 중심으로 구성되었습니다^7.

각 키워드마다 110개의 다양한 샘플이 생성되었으며, 이 샘플들은 실제 사실부터 완전히 허구적인 내용까지 다양한 종류의 '이상함(outlandishness)'을 포함합니다. 이를 통해 연구팀은 모델이 새로운 정보를 어떻게 처리하고, 그 정보가 기존 지식에 어떤 영향을 미치는지 체계적으로 분석할 수 있었습니다^12.

프라이밍 효과의 예측: 놀라움 점수(Surprise Scores)

연구의 가장 주목할 만한 발견 중 하나는 프라이밍 효과의 정도를 사전에 예측할 수 있다는 점입니다. 연구팀은 모델이 새로운 정보를 학습하기 전, 해당 키워드의 초기 확률(initial probability)을 측정했습니다. 이 확률이 낮을수록(즉, 모델에게 더 '놀라운' 정보일수록) 학습 후 프라이밍 효과가 더 강하게 나타난다는 것을 발견했습니다^7.

특히 키워드의 초기 확률이 약 10^-3(0.001) 미만으로 매우 낮을 경우, 해당 키워드는 학습 후 다른 맥락에서도 부적절하게 사용될 가능성이 크게 증가했습니다^7. 이는 모델이 매우 희귀하거나 예상치 못한 정보를 접했을 때, 이를 과도하게 일반화하는 경향이 있음을 시사합니다.

이러한 발견은 Palm 2, Gemma, Llama 등 다양한 모델과 크기에서 일관되게 나타났으며, 사전 훈련된 모델과 지시 미세 조정된 모델 모두에서 확인되었습니다^7.

프라이밍 효과 완화를 위한 두 가지 해결책

DeepMind 연구팀은 프라이밍 효과를 완화하기 위한 두 가지 효과적인 방법을 제안했습니다:

1. Stepping Stone 증강(Augmentation)

이 방법은 낮은 확률의 키워드를 포함한 문장을 점진적으로 재작성하여, 모델이 해당 키워드에 더 자연스럽게 접근할 수 있도록 합니다. 예를 들어, "X는 vermilion이다"라는 직접적인 문장 대신, "X는 짙은 붉은색이며, 이러한 색조는 때로는 vermilion이라고 불린다"와 같이 중간 단계의 단어들을 사용하여 점진적으로 소개하는 방식입니다^7.

이 방법을 적용한 결과, Palm 2에서는 프라이밍 점수가 75% 감소했으며, Gemma와 Llama 2에서도 약 50%의 감소를 보였습니다. 또한 이 방법은 원래 정보의 기억력(memorization)에는 거의 영향을 미치지 않았습니다^7.

2. Ignore Top-K 그래디언트 가지치기(Pruning)

두 번째 방법은 더욱 놀라운 결과를 보여주었습니다. 일반적으로 그래디언트 가지치기에서는 가장 큰 업데이트만 유지하고 나머지는 제거하는 방식을 사용합니다. 그러나 연구팀은 이를 뒤집어, 가장 큰 크기의 업데이트를 무시하고 나머지만 유지하는 방식을 시도했습니다^7.

놀랍게도, 단지 상위 8%의 업데이트를 무시하는 것만으로도 Palm 2에서 프라이밍 점수가 거의 2차수(two orders of magnitude)만큼 감소했으며, 이는 원래 정보의 기억력과 일반적인 언어 모델링 성능에는 큰 영향을 미치지 않았습니다^7.

이 발견은 매우 큰 그래디언트 업데이트가 프라이밍 효과의 주요 원인일 수 있음을 시사하며, 이를 선택적으로 제거함으로써 부작용을 최소화하면서 학습 효과를 유지할 수 있음을 보여줍니다.

연구의 시사점과 미래 방향

이 연구는 LLM의 지속적인 학습과 업데이트에 중요한 함의를 갖습니다:

    1. 놀라움 점수 모니터링: 모델에 새로운 정보를 학습시킬 때, 해당 정보의 초기 확률(놀라움 점수)을 모니터링함으로써 잠재적인 프라이밍 효과를 예측하고 관리할 수 있습니다^7.
    2. 안전한 지속적 학습: 제안된 두 가지 방법은 모델이 새로운 정보를 안전하게 학습하면서도 부적절한 일반화를 최소화하는 방법을 제시합니다. 이는 AI 시스템의 지속적인 업데이트와 개선에 중요한 의미를 갖습니다^7.
    3. AI 안전에 대한 함의: 이 연구는 현재의 LLM이 새로운 정보를 학습할 때 예상치 못한 부작용이 발생할 수 있음을 보여줍니다. 최근 Google의 프론티어 안전 프레임워크(Frontier Safety Framework)와 같은 AI 안전 노력의 중요성을 더욱 강조합니다^15.
    4. 신경과학적 유사성: 연구팀은 이러한 현상이 인간의 신경 학습 과정과 유사점이 있을 수 있다고 제안합니다. 해마가 새로운 자극에 강하게 반응하며, 놀라움이 기억 공고화를 가속화하는 것처럼, LLM도 유사한 패턴을 보이는 것으로 나타났습니다^7.

 

Google DeepMind Just Broke Its Own AI With One Sentence

 

결론

Google DeepMind의 이 연구는 LLM이 새로운 정보를 학습하고 통합하는 과정에 대한 중요한 통찰을 제공합니다. 프라이밍 효과를 예측하고 완화하는 방법을 제시함으로써, 이 연구는 더 안정적이고 신뢰할 수 있는 AI 시스템 개발을 위한 구체적인 길을 제시합니다.

모델이 새로운 지식을 습득할 때 기존 지식을 보존하면서도 부적절한 일반화를 방지하는 것은 AI 시스템의 신뢰성과 안전성을 위해 매우 중요합니다. 이 연구에서 제안된 방법들은 이러한 목표를 달성하는 데 중요한 진전을 보여주며, 미래 AI 시스템의 지속적인 학습과 개선에 중요한 기여를 할 것으로 기대됩니다.

728x90
반응형