인공지능의 발전이 가속화되는 가운데, 메타의 수석 AI 과학자이자 튜링상 수상자인 얀 르쿤 교수는 현재 AI 시스템이 직면한 근본적인 한계와 이를 극복할 새로운 접근법을 제시합니다. 그의 연구에 따르면, 현재 주류를 이루는 자동 회귀 기반 대규모 언어 모델(LLM)은 장기적인 관점에서 한계가 있으며, 진정한 인간 수준의 지능을 달성하기 위해서는 패러다임의 전환이 필요합니다. 이 글에서는 르쿤 교수가 제시하는 인공지능의 미래 비전을 살펴보고, 왜 에너지 기반 모델과 세계 모델 학습이 AI 발전의 열쇠가 될 수 있는지 알아보겠습니다.
Yann LeCun
얀 르쿤 교수는 인간 수준의 AI를 향한 여정에서 **수학적 난관**에 대해 강연합니다. 그는 현재 AI 시스템의 한계를 지적하며, 특히 **자기 지도 학습** 기반의 대규모 언어 모델(LLM)이 가진 근본적
lilys.ai
AI 연구의 현황과 도전 과제
현재 AI 커뮤니티에서는 향후 10년 내에 인간 수준의 지능을 가진 기계를 만들 수 있을 것이라는 기대가 높아지고 있습니다. 하지만 이에 대한 견해는 나뉘어 있으며, 일부는 그 가능성이 매우 가깝다고 주장하는 반면, 르쿤 교수는 보다 신중한 입장을 취하고 있습니다.
인간 수준의 AI가 주목받는 이유는 우리가 일상생활에서 사용하는 다양한 스마트 기기들과 보다 자연스럽게 상호작용할 수 있는 AI 비서의 필요성 때문입니다. 이러한 시스템은 사용자에게 최대한의 편의를 제공하는 것을 목표로 합니다.
그러나 르쿤 교수는 현재의 머신러닝 상태가 이 목표를 달성하기에는 여전히 부족하다고 지적합니다. 특히 그는 AI 시스템 구축을 위한 수학적 장애물들이 여전히 존재하며, 이러한 문제들을 해결해야만 진정한 발전이 가능하다고 강조합니다3.
현재 AI 학습 패러다임의 한계
기존의 기계 학습은 성능 향상을 위해 많은 학습 샘플이나 실험이 필요하며, 이는 비효율적입니다. 현재 주류를 이루는 학습 방식으로는:
- 지도 학습: 입력에 대한 정확한 출력을 제공받고, 원하는 출력과의 차이를 기반으로 시스템이 내부 매개변수를 조정합니다.
- 강화 학습: 정확한 답변 대신 시스템이 생성한 답변의 품질을 평가하며, 여러 출력을 생성해야 하므로 비효율적입니다.
- 자기 지도 학습: 최근 AI에서 혁신적인 발전을 이루었지만, 여전히 제한적입니다. 이 방식은 현재 대규모 언어 모델과 챗봇의 기초가 됩니다.
자율 회귀 예측의 한계
현재 대규모 언어 모델(LLM)은 자동 회귀(autoregressive) 방식으로 작동합니다. 이 모델들은 입력된 토큰 시퀀스를 기반으로 다음 토큰을 예측하도록 훈련되어 있습니다. 각 단계에서 모델은 확률 분포를 생성하고, 이 분포에서 다음 토큰을 샘플링합니다. 이 방식은 수많은 데이터와 대규모 신경망을 학습시킬 때 효과적으로 작동합니다.
그러나 르쿤 교수는 자동 회귀 예측 방식에 근본적인 문제가 있다고 지적합니다. 각 토큰을 생성할 때마다 발생하는 오류는 독립적이지 않으며, 이 오류가 누적되어 확률적으로 발산하게 됩니다13. 즉, 시퀀스가 길어질수록 오류가 기하급수적으로 증가하여 결국 자동 회귀 LLM이 실패할 수밖에 없다는 것입니다.
이는 비디오 생성과 같은 장기 시퀀스 생성 작업에서 특히 두드러지는 문제입니다. 연구에 따르면, "AR 모델은 종종 긴 시퀀스에서 지수적 오류 누적을 겪게 되어 물리적으로 비현실적인 결과를 초래"합니다10.
자동 회귀 모델의 오류 누적 사례
논문 "Loong: Generating Minute-level Long Videos with Autoregressive Language Models"에서는 "자동 회귀 LLM 기반 비디오 생성기가 몇 초 분량의 짧은 비디오만 생성하는 데 제한되는 이유에 대한 깊은 분석"을 제공합니다11. 이 연구는 장기간 비디오 생성에서 자동 회귀 모델의 한계를 명확히 보여줍니다.
또한 시계열 예측에서도 유사한 문제가 발생합니다. "LangTime: A Language-Guided Unified Model for Time Series Forecasting with Proximal Policy Optimization"에서는 "자동 회귀 프레임워크에서의 오류 누적"을 LLM의 주요 과제 중 하나로 지적합니다13.
인간 수준 AI에 도달하기 위한 새로운 접근법
르쿤 교수는 단순히 대규모 언어 모델을 더 큰 데이터 세트로 훈련시키는 것만으로는 인간 수준 AI에 도달할 수 없다고 주장합니다. 그 이유는 현재 AI 시스템이 물리적 세계를 이해하고 이를 다루는 데 근본적인 한계가 있기 때문입니다.
이 한계는 Moravec 역설과 관련이 있습니다. 이 역설에 따르면, 고수준 추론은 상대적으로 쉽게 컴퓨터로 구현할 수 있지만, 저수준 감각운동 기술은 매우 어렵습니다. 이것이 바로 Steven Pinker가 "35년 간의 AI 연구의 주요 교훈은 어려운 문제는 쉽고 쉬운 문제는 어렵다"라고 말한 이유입니다2.
르쿤 교수는 인간의 인지능력이 특정 작업에 특화되어 있으며, '일반 지능'이라는 개념 자체가 불완전하다는 점을 강조합니다. 그는 AI 시스템도 아이들처럼 세상을 관찰하고 경험함으로써 세계 모델을 학습해야 한다고 주장합니다.
세계 모델 학습의 중요성
아동들은 세상을 관찰하고 상호작용하면서 물리법칙, 인과관계, 사회적 역학 등에 대한 직관적 이해를 발달시킵니다. 이러한 제로샷 학습 능력은 현재 AI 시스템에는 부족한 부분입니다.
르쿤 교수에 따르면, 현재의 AI 시스템 아키텍처는 최적화를 통한 추론으로 전환해야 합니다. 이 접근법에서는 출력이 최적화할 잠재 변수가 되어, 시스템이 다양한 가능성을 탐색하고 최적의 해결책을 찾을 수 있게 됩니다.
에너지 기반 모델과 계획 시스템
르쿤 교수가 제안하는 해결책의 핵심은 에너지 기반 모델(Energy-Based Model, EBM)입니다. 에너지 기반 모델은 입력 X와 후보 출력 Y 간의 불일치 정도를 측정하는 스칼라 함수를 계산하여 Y에 대한 추론을 최소화하는 과정을 거칩니다3.
에너지 기반 모델의 작동 원리
에너지 기반 모델에서는 입력 X와 가능한 출력 Y 사이의 호환성을 스칼라 값(에너지)으로 표현합니다. 이 에너지 값이 낮을수록 입력과 출력의 호환성이 높습니다. 예를 들어, 영어 문장을 프랑스어로 번역할 때 하나의 영어 문장에 대해 여러 개의 올바른 프랑스어 번역이 가능합니다. 이 경우, 각 올바른 번역은 모두 낮은 에너지 값을 가져야 합니다.
이 접근법은 기존의 함수 학습보다 더 일반적이며, 여러 가능한 출력을 모델링할 수 있습니다. 르쿤 교수는 이를 "암묵적 함수"라고 부릅니다. 이러한 개념은 컴퓨터 과학의 일부 분야에서는 아직 받아들이기 어려운 부분이 있다고 합니다.
계층적 계획과 세계 모델
인간의 인지 시스템에서는 계층적 계획이 중요한 역할을 합니다. 우리는 고수준 목표를 설정하고, 그 목표를 달성하기 위한 하위 목표와 세부 행동을 계획합니다. 그러나 현재 AI 시스템은 이러한 계층적 계획을 스스로 학습하지 못한다는 한계가 있습니다.
르쿤 교수는 세계 모델(World Model)의 중요성을 강조합니다. 세계 모델은 일련의 행동이 초래할 결과를 예측하기 위한 모델로, 주어진 상태의 불완전한 인식을 바탕으로 계획을 수립해야 합니다.
특히 그는 조인트 임베딩 예측 아키텍처(JEPA, Joint Embedding Predictive Architecture)를 제안합니다. JEPA는 X와 Y를 인코딩하여 두 값의 추상적 표현을 계산하고, 이 공간에서 예측을 수행함으로써 고차원 연속 공간의 예측 문제를 효과적으로 해결할 수 있습니다3.
전통 인공지능과 인간 행동의 시스템
전통적인 인공지능은 가능한 해결책의 공간에서 해답을 탐색하는 방식으로 문제를 해결합니다. 이와 관련하여, 심리학에서는 인간 행동을 이해하기 위해 '시스템 1'과 '시스템 2'라는 개념을 사용합니다:
- 시스템 1: 무의식적으로 자동적인 행동을 수행하는 빠른 사고 시스템
- 시스템 2: 의식적으로 계획을 세우고 행동을 조직하는 느린 사고 시스템
르쿤 교수는 수학 정리를 증명하는 과정에서는 시스템 2가 사용된다고 설명합니다. 그리고 이러한 추론 과정을 형식적으로 표현하는 방법으로 에너지 기반 모델을 제시합니다.
에너지 기반 모델과 정보 최적화
에너지 기반 모델에서는 Gibbs-Boltzmann 분포를 활용하여 조건부 확률 분포를 얻습니다. 이상적으로는 훈련 세트에 대한 음의 로그 확률을 최소화해야 하지만, partition function이 계산하기 어렵기 때문에 실질적으로 비현실적입니다3.
정보 내용 최대화와 시스템 붕괴 방지
정보 내용을 극대화하기 위해서는 정규화 항을 도입하여 인코더에서 나오는 정보를 평가하고 최소화해야 합니다. 그러나 시스템이 입력을 무시하고 상수 값을 출력하는 "시스템 붕괴" 문제가 발생할 수 있습니다.
이를 방지하기 위해 르쿤 교수는 VIC(Variance Invariance Covariance Regularization) 방법을 제안합니다. 이 방법은:
- 각 변수의 분산을 최소 1로 유지
- 공분산 행렬의 비대각 성분들을 0에 가깝게 만들어 변수들을 비상관화
이 방법을 통해 잠재 변수의 정보 내용을 효과적으로 관리할 수 있습니다.
비디오 학습과 계획을 위한 세계 모델
르쿤 교수의 연구팀은 JEPA 기법을 비디오 학습에도 적용했습니다. 이 시스템은 비디오의 일부를 마스킹하고 전체 비디오의 내재적 표현을 학습하도록 훈련됩니다.
흥미롭게도, 이 시스템은 물리적으로 불가능한 비디오를 접했을 때 높은 예측 오류를 기록함으로써, 기본적인 물리 법칙과 상식을 학습했음을 보여줍니다. 이는 세계 모델을 통해 AI 시스템이 자연스럽게 상식적 지식을 획득할 수 있음을 시사합니다.
또한 이 세계 모델을 로봇 제어에 적용하여, 로봇 팔이 특정 목표를 달성하기 위한 동작을 계획하고 실행하는 데 성공했습니다.
AI 발전을 위한 르쿤 교수의 제언
르쿤 교수는 AI 연구 커뮤니티에 다음과 같은 방향성을 제시합니다:
- 생성 모델 대신 조인트 임베딩 아키텍처를 채택: 생성 모델은 단일 예측을 생성하여 "흐릿한" 결과를 만들기 쉽습니다.
- 확률 모델 대신 에너지 기반 모델을 선호: 에너지 기반 모델은 여러 가능한 출력을 더 효과적으로 모델링할 수 있습니다.
- 강화 학습보다 모델 예측 제어 및 계획 방법에 집중: 강화 학습은 매우 비효율적일 수 있으며, 모델 기반 접근법이 더 유망합니다.
- 오픈 소스 AI의 중요성: 그는 오픈 소스 AI가 인간 지능의 증폭으로 이어질 수 있다고 믿습니다.
르쿤 교수는 여전히 해결해야 할 많은 문제가 남아 있다고 인정합니다. 대규모 모델 훈련, 다양한 입력 처리, 효과적인 계획 알고리즘 등이 그 예입니다. 그러나 이러한 문제들이 해결된다면, 진정으로 지능적인 시스템 구축이 가능해질 것으로 전망합니다.
결론
얀 르쿤 교수의 연구는 현재 AI의 한계를 넘어서는 새로운 패러다임을 제시합니다. 자동 회귀 모델의 근본적인 한계를 인식하고, 에너지 기반 모델과 세계 모델 학습을 통해 인간 수준의 AI로 나아가는 길을 보여줍니다.
그의 비전에 따르면, 미래의 AI 시스템은 단순히 데이터의 패턴을 학습하는 것을 넘어, 세상에 대한 직관적 이해를 발달시키고 계층적 계획을 통해 복잡한 문제를 해결할 수 있을 것입니다. 이러한 시스템은 보다 자연스럽게 인간과 상호작용하며, 현실 세계의 다양한 과제에 더 효과적으로 대응할 수 있을 것입니다.
우리는 르쿤 교수의 연구를 통해 AI의 미래가 단순한 데이터 크기의 증가나 모델 복잡성의 확장이 아닌, 근본적인 학습 패러다임의 변화에 달려 있음을 알 수 있습니다. 에너지 기반 모델과 세계 모델 학습은 그 변화의 핵심이 될 것이며, 이는 궁극적으로 보다 지능적이고 인간적인 AI 시스템을 개발하는 길로 이어질 것입니다.

Beyond Autoregressive Models: Yann LeCun's Blueprint for Human-Level AI
As artificial intelligence development accelerates, Meta's Chief AI Scientist and Turing Award winner Professor Yann LeCun points out the fundamental limitations of current AI systems and proposes new approaches to overcome them. According to his research, the currently dominant autoregressive large language models (LLMs) have limitations from a long-term perspective, and a paradigm shift is necessary to achieve truly human-level intelligence. In this article, we'll explore LeCun's vision for the future of artificial intelligence and why energy-based models and world model learning could be the key to AI advancement.
Current Status and Challenges of AI Research
There are high expectations in the AI community that machines with human-level intelligence could be created within the next decade. However, opinions are divided, with some claiming this possibility is very close, while Professor LeCun takes a more cautious stance.
The reason human-level AI is attracting attention is due to the need for AI assistants that can interact more naturally with various smart devices we use in daily life. Such systems aim to provide users with maximum convenience.
However, Professor LeCun points out that the current state of machine learning is still insufficient to achieve this goal. In particular, he emphasizes that mathematical obstacles to building AI systems still exist, and that true progress is only possible by solving these problems3.
Limitations of Current AI Learning Paradigms
Existing machine learning requires many learning samples or experiments to improve performance, which is inefficient. The currently mainstream learning approaches include:
- Supervised Learning: The system receives the correct output for an input and adjusts its internal parameters based on the difference from the desired output.
- Reinforcement Learning: Instead of providing the exact answer, this approach evaluates the quality of responses generated by the system, requiring the generation of multiple outputs, which is inefficient.
- Self-Supervised Learning: While this has led to revolutionary advances in AI recently, it remains limited. This approach forms the foundation of current large language models and chatbots.
Limitations of Autoregressive Prediction
Current large language models (LLMs) operate in an autoregressive manner. These models are trained to predict the next token based on a sequence of input tokens. At each step, the model generates a probability distribution and samples the next token from this distribution. This approach works effectively when training large neural networks with vast amounts of data.
However, Professor LeCun points out that there is a fundamental problem with the autoregressive prediction approach. The errors that occur when generating each token are not independent, and these errors accumulate and probabilistically diverge13. In other words, as the sequence gets longer, errors increase exponentially, eventually causing autoregressive LLMs to fail.
This is particularly prominent in long sequence generation tasks such as video generation. Research shows that "AR models often suffer from exponential error accumulation over long sequences, leading to physically implausible results"10.
Examples of Error Accumulation in Autoregressive Models
The paper "Loong: Generating Minute-level Long Videos with Autoregressive Language Models" provides "a deep analysis of the challenges that prevent autoregressive LLM-based video generators from generating long videos beyond a few seconds"11. This research clearly demonstrates the limitations of autoregressive models in long-term video generation.
Similar problems occur in time series prediction as well. "LangTime: A Language-Guided Unified Model for Time Series Forecasting with Proximal Policy Optimization" identifies "error accumulation in autoregressive frameworks" as one of the main challenges for LLMs13.
New Approaches to Reaching Human-Level AI
Professor LeCun argues that simply training larger language models with bigger datasets will not lead to human-level AI. This is because current AI systems have fundamental limitations in understanding and dealing with the physical world.
This limitation is related to Moravec's paradox. According to this paradox, high-level reasoning is relatively easy to implement in computers, but low-level sensorimotor skills are very difficult. This is why Steven Pinker said, "The main lesson of thirty-five years of AI research is that the hard problems are easy and the easy problems are hard"2.
Professor LeCun emphasizes that human cognitive abilities are specialized for specific tasks, and the concept of 'general intelligence' itself is incomplete. He argues that AI systems, like children, need to learn world models by observing and experiencing the world.
Importance of Learning World Models
Children develop intuitive understanding of physical laws, causality, social dynamics, etc., by observing and interacting with the world. This zero-shot learning ability is lacking in current AI systems.
According to Professor LeCun, the architecture of current AI systems needs to shift to reasoning through optimization. In this approach, the output becomes a latent variable to be optimized, allowing the system to explore various possibilities and find optimal solutions.
Energy-Based Models and Planning Systems
The core of the solution proposed by Professor LeCun is the Energy-Based Model (EBM). Energy-based models go through a process of minimizing inference for output Y by calculating a scalar function that measures the degree of mismatch between input X and candidate output Y3.
How Energy-Based Models Work
In energy-based models, the compatibility between input X and possible output Y is expressed as a scalar value (energy). The lower this energy value, the higher the compatibility between input and output. For example, when translating an English sentence into French, multiple correct French translations are possible for a single English sentence. In this case, each correct translation should have a low energy value.
This approach is more general than traditional function learning and can model multiple possible outputs. Professor LeCun calls this an "implicit function." He notes that this concept is still difficult to accept in some areas of computer science.
Hierarchical Planning and World Models
Hierarchical planning plays an important role in human cognitive systems. We set high-level goals and plan sub-goals and detailed actions to achieve those goals. However, current AI systems have the limitation that they cannot learn such hierarchical planning by themselves.
Professor LeCun emphasizes the importance of world models. A world model is a model for predicting the consequences of a series of actions, which must develop plans based on incomplete perception of a given state.
In particular, he proposes the Joint Embedding Predictive Architecture (JEPA). JEPA can effectively solve prediction problems in high-dimensional continuous spaces by encoding X and Y to compute abstract representations of the two values and performing predictions in this space3.
Traditional AI and Systems of Human Behavior
Traditional artificial intelligence solves problems by searching for answers in the space of possible solutions. Related to this, psychology uses the concepts of 'System 1' and 'System 2' to understand human behavior:
- System 1: A fast thinking system that performs automatic actions unconsciously
- System 2: A slow thinking system that consciously plans and organizes actions
Professor LeCun explains that System 2 is used in the process of proving mathematical theorems. And he presents energy-based models as a way to formally express such reasoning processes.
Energy-Based Models and Information Optimization
In energy-based models, the Gibbs-Boltzmann distribution is used to obtain conditional probability distributions. Ideally, one should minimize the negative log probability over the training set, but this is practically unrealistic because the partition function is difficult to calculate3.
Maximizing Information Content and Preventing System Collapse
To maximize information content, regularization terms must be introduced to evaluate and minimize the information coming from encoders. However, the problem of "system collapse" can occur, where the system ignores the input and outputs a constant value.
To prevent this, Professor LeCun proposes the VIC (Variance Invariance Covariance Regularization) method. This method:
- Maintains a minimum variance of 1 for each variable
- Makes the non-diagonal components of the covariance matrix close to 0, decorrelating the variables
This method allows effective management of the information content of latent variables.
World Models for Video Learning and Planning
LeCun's research team also applied the JEPA technique to video learning. This system is trained to mask parts of a video and learn the intrinsic representation of the entire video.
Interestingly, this system records high prediction errors when encountering physically impossible videos, showing that it has learned basic physical laws and common sense. This suggests that AI systems can naturally acquire commonsense knowledge through world models.
The team also successfully applied this world model to robot control, enabling a robotic arm to plan and execute actions to achieve specific goals.
LeCun's Recommendations for AI Development
Professor LeCun offers the following directions to the AI research community:
- Adopt joint embedding architecture instead of generative models: Generative models tend to produce "blurry" results by generating single predictions.
- Prefer energy-based models over probabilistic models: Energy-based models can more effectively model multiple possible outputs.
- Focus on model predictive control and planning methods rather than reinforcement learning: Reinforcement learning can be very inefficient, while model-based approaches are more promising.
- Importance of open-source AI: He believes that open-source AI can lead to amplification of human intelligence.
Professor LeCun acknowledges that many problems still remain to be solved. Examples include large-scale model training, processing various inputs, and effective planning algorithms. However, he anticipates that if these problems are solved, it will be possible to build truly intelligent systems.
Conclusion
Yann LeCun's research presents a new paradigm that goes beyond the limitations of current AI. It recognizes the fundamental limitations of autoregressive models and shows the way to human-level AI through energy-based models and world model learning.
According to his vision, future AI systems will go beyond simply learning patterns in data to develop an intuitive understanding of the world and solve complex problems through hierarchical planning. Such systems will be able to interact more naturally with humans and respond more effectively to various challenges in the real world.
Through LeCun's research, we can see that the future of AI depends not on simply increasing data size or model complexity, but on a fundamental change in learning paradigms. Energy-based models and world model learning will be at the core of this change, ultimately leading to the development of more intelligent and human-like AI systems.
#AI발전 #얀르쿤 #에너지기반모델 #세계모델 #인공지능미래 #자동회귀모델 #AI한계 #메타AI #LLM한계 #AI연구 #AI학습 #인간수준AI #JEPA #계층적계획 #자율지능 #인간수준지능 #회귀모델한계
Citations:
- https://arxiv.org/html/2406.05408v2
- https://arxiv.org/html/2406.05408v1
- https://openreview.net/pdf?id=BZ5a1r-kVsf
- http://www.arxiv.org/pdf/2502.06901.pdf
- https://arxiv.org/html/2410.10798v2
- https://arxiv.org/html/2503.06072v1
- https://arxiv.org/html/2502.06901v1
- https://arxiv.org/html/2406.06773v2
- https://arxiv.org/pdf/2406.16838.pdf
'LLM' 카테고리의 다른 글
LLM으로 가속화하는 COBOL 레거시 시스템의 마이크로서비스 현대화 (0) | 2025.03.26 |
---|---|
벡터 데이터베이스의 세계: 비정형 데이터를 위한 혁신적 저장소 (0) | 2025.03.25 |
🤖 LLM의 한계와 과학적 발견의 미래: 얀 르쿤의 통찰 (1) | 2025.03.20 |
한국어 로컬 LLM 완전 정복: 카나 모델로 배우는 실전 파인튜닝 가이드 (0) | 2025.03.18 |
똑똑해진 AI: RAG vs CAG, 인공지능의 지식 확장 전략 대결 (0) | 2025.03.18 |