DeepResearch

2025년 봄, AI 경쟁 가속화: OpenAI, Google, Microsoft의 최신 모델 대격돌

AgentAIHub 2025. 4. 19. 16:50
728x90

AI 기술 발전이 눈 앞에서 펼쳐지고 있습니다! 2025년 4월, 주요 AI 기업들이 연이어 혁신적인 모델을 출시하며 치열한 경쟁을 벌이고 있습니다. 이번 글에서는 OpenAI의 O3와 O4 Mini, Google의 Gemini 2.5 Flash, Cohere의 Embed 4, 그리고 Microsoft의 Copilot Vision까지 최신 AI 도구들을 자세히 살펴보겠습니다.

OpenAI Just Released a Mind That Can Think on Its Own + Gemini 2.5 Flash, Embed 4...
OpenAI Just Released a Mind That Can Think on Its Own + Gemini 2.5 Flash, Embed 4...

 

OpenAI Just Released a Mind That Can Think on Its Own + Gemini 2.5 Flash, Embed 4...

이 영상은 OpenAI, Google, Cohere, Microsoft에서 **새롭게 출시된 AI 도구**들을 소개하고 있습니다. OpenAI는 더욱 강력한 추론 능력을 갖춘 **03 및 04 Mini 모델**을 공개했으며, Google은 Gemini 2.5 Flash를 통해 *

lilys.ai

 

🚀 OpenAI의 혁신적인 AI 모델, O3 및 O4 Mini

OpenAI가 새롭게 선보인 O3와 O4 Mini 모델은 기존 모델들을 한참 뛰어넘는 추론 능력을 갖추고 있습니다. 이 모델들은 단순한 질문 응답을 넘어 복잡한 문제 해결과 도구 활용 능력에서 혁신적인 성과를 보여주고 있습니다^7.

가장 주목할 만한 특징은 이 모델들이 웹 브라우징, Python 코드 실행, 파일 분석 등 다양한 도구를 적절히 활용하여 보다 정확하고 깊이 있는 답변을 제공한다는 점입니다. 특히 O3는 복잡한 질문에 대해 필요한 도구를 자율적으로 선택하고 사용할 수 있는 능력을 갖추고 있어, 사용자가 따로 도구 사용을 지시하지 않아도 자연스럽게 활용합니다^7.

O4 Mini는 상대적으로 작은 크기와 저렴한 비용에도 불구하고 뛰어난 성능을 보여주며, 특히 수학적 추론 영역에서 놀라운 결과를 보여주고 있습니다. OpenAI에 따르면 O3와 O4 Mini 모델은 이전 모델들보다 속도와 비용 효율성 측면에서도 큰 개선을 이루었습니다^14.

 

OpenAI o3 & o4-mini

 

OpenAI의 Brainiac Duo O3과 O4 Mini의 기능 및 성능

O3 모델은 현재까지 OpenAI가 출시한 모델 중 가장 강력한 추론 능력을 갖춘 모델입니다. 복잡한 문제를 해결할 때 웹 검색, Python 코드 실행, 파일 분석 등 다양한 도구를 자동으로 결합하여 깊이 있는 사고를 바탕으로 한 답변을 제공합니다^7.

벤치마크 테스트에서도 뛰어난 성과를 보여주고 있는데, 특히 SWE-벤치에서 O3는 69.1%, O4 Mini는 68.1%를 기록하며 앤트로픽의 '클로드 37 소네트'(62.3%)를 능가했습니다^7. 또한 O3는 시각적 인식 작업에서 기존 O1 모델보다 주요 오류를 약 20% 감소시켰습니다^7.

가장 흥미로운 점은 '이미지로 사고하는 능력'입니다. 두 모델은 단순히 이미지를 보고 이해하는 것을 넘어, 이미지 처리 도구를 활용해 흐릿하거나 반전된 이미지도 해석하고 분석할 수 있습니다^7. 이는 AI가 인간처럼 시각 정보를 바탕으로 다양한 사고를 할 수 있게 되었음을 의미합니다.

OpenAI의 강화 학습 및 안전성 향상

O3와 O4 Mini 모델 개발에는 강화 학습(RL) 기술이 핵심적인 역할을 했습니다. OpenAI는 이번 모델들에서 강화 학습 계산 능력을 대폭 확장했으며, 이를 통해 추론 시간 동안의 성능을 크게 개선했습니다^7.

흥미로운 점은 모델이 더 많이 생각할수록 성능이 향상된다는 것입니다. 복잡한 문제를 해결할 때 모델이 충분한 시간을 가지고 여러 각도에서 생각할수록 더 정확한 결과를 도출할 수 있게 되었습니다^7.

안전성 측면에서도 많은 개선이 이루어졌습니다. OpenAI는 이번 모델들을 위해 안전성 교육 데이터를 처음부터 다시 구축했으며, 새로운 거부 프롬프트를 도입했습니다. 특히 생물학적 위험, 악성 소프트웨어 탈옥 등에 대한 감지 시스템은 99%의 성공률로 의심스러운 행동을 감지할 수 있다고 합니다^7.

OpenAI의 새로운 코드 에이전트, Codex CLI

OpenAI는 개발자들을 위한 새로운 터미널 기반 코딩 에이전트 'Codex CLI'도 함께 공개했습니다. 이 도구는 개발자들이 터미널에서 자연어 명령으로 코드를 생성하고 실행할 수 있게 해주는 경량 에이전트입니다^8.

Codex CLI는 ChatGPT 수준의 추론 능력을 갖추고 있으면서도 실제로 코드를 실행하고, 파일을 조작하며, 반복 작업을 수행할 수 있는 기능을 제공합니다. 버전 관리 시스템과도 통합되어 있어 개발 작업을 원활하게 지원합니다^8.

특히 주목할 만한 점은 이 도구가 완전히 오픈소스로 제공된다는 것입니다. GitHub 저장소에 따르면, 사용자는 OpenAI API 키만 가져오면 즉시 작동할 수 있으며, 별도의 설정 없이도 바로 사용할 수 있습니다. 네트워크 연결이 차단된 안전한 환경에서도 코드를 실행할 수 있으며, 디렉토리 샌드박스로 보호된 완전 자동 승인 기능을 제공한다고 합니다^8.

구글의 Gemini 2.5 Flash 출시
구글의 Gemini 2.5 Flash 출시

🔍 구글의 Gemini 2.5 Flash 출시와 비용 구조

Google이 새롭게 선보인 Gemini 2.5 Flash는 하이브리드 추론(hybrid reasoning) 기능으로 차별화를 꾀하고 있습니다. 이전 모델들이 입력에 바로 반응하는 방식이었다면, 2.5 Flash는 복잡한 요청일 경우 "잠깐 생각하는 시간"을 가지고 보다 정확하고 논리적인 응답을 생성할 수 있습니다^10.

가장 혁신적인 부분은 "Thinking Budget"이라는 매개변수의 도입입니다. 이 값은 추론 단계에서 사용할 토큰 수의 한도를 설정하는 기능으로, 개발자가 모델의 사고 깊이와 응답 속도 사이의 균형을 조절할 수 있게 해줍니다^10.

Thinking Budget은 0에서 최대 24,576 토큰까지 설정할 수 있으며, 값이 클수록 더 정확하고 정교한 응답을 얻을 수 있지만 그만큼 처리 시간과 비용이 늘어납니다. 반대로 값을 0으로 설정하면 Flash 2.0 수준의 빠른 응답을 얻을 수 있습니다^10.

Google은 이와 함께 Gemini의 가격 정책도 크게 변경했습니다. 공식 문서에 따르면 최대 85%의 가격 인하가 이루어졌다고 하며, 특히 배치 처리를 사용할 경우 추가적인 비용 절감이 가능합니다^9.

모델 입력 비용 (1M 글자당) 출력 비용 (1M 글자당)
Gemini 1.5 Flash $ 0.01875 $ 0.075
(Batch 사용 시) $ 0.009375 $ 0.0375
Gemini 1.5 Pro $ 1.25 $ 3.75

이러한 가격 정책은 OpenAI의 GPT-4o mini (입력 $0.15, 출력 $0.60)나 Claude 3 Haiku (입력 $0.25, 출력 $1.25)에 비해 훨씬 경쟁력 있는 수준입니다^9.

🧠 Embed 4: 강력한 멀티모달 검색 엔진

Cohere의 Embed 4는 검색 증강 생성(RAG) 기능을 갖춘 에이전틱 AI 애플리케이션의 기초가 되는 멀티모달 검색엔진입니다. 검색 결과에는 직접적인 정보가 제한적이지만, 이 모델이 텍스트뿐만 아니라 이미지, 오디오 등 다양한 형태의 데이터를 처리할 수 있는 멀티모달 기능을 갖추고 있음을 알 수 있습니다^5.

검색 결과에서는 OpenAI의 text-embedding-3와 Cohere의 multilingual v3.0 임베딩 모델이 다국어 질의응답 작업에서 성능을 크게 향상시켰다는 내용은 확인할 수 있습니다^5. 특히 다양한 언어에 걸쳐 동적 런타임 선택 프레임워크를 통해 최적의 프롬프트, 모델, 임베딩 조합을 선택하는 방식이 소개되어 있습니다^5.

Cohere의 Embed 4
Cohere의 Embed 4

🖥️ Microsoft Copilot Vision의 무료 제공

Microsoft가 Edge 브라우저 사용자들에게 Copilot Vision을 무료로 제공하기 시작했습니다. 이전에는 Copilot Pro 구독자에게만 제공되던 이 기능이 이제는 모든 Edge 사용자가 이용할 수 있게 되었습니다^13.

Copilot Vision은 "대화 기반 경험"을 제공하는 기능으로, 사용자가 웹 페이지를 탐색하는 동안 음성으로 질문하면 AI가 화면에 보이는 내용을 분석하고 관련 답변을 제공합니다^11. 예를 들어, 요리를 하는 동안 레시피를 안내받거나, 취업 공고를 분석하여 맞춤형 면접 준비에 도움을 받을 수 있습니다^17.

사용 방법도 간단합니다. Edge 브라우저에서 개인 Microsoft 계정으로 로그인한 후, 질문하고 싶은 웹사이트로 이동하여 오른쪽 상단의 Copilot 아이콘을 클릭하고 마이크 버튼을 누르면 됩니다^11.

특히 개인정보 보호 측면에서도 안심할 수 있습니다. Microsoft는 Copilot Vision 세션 중에 사용자의 입력, 이미지, 페이지 콘텐츠를 기록하거나 저장하지 않으며, 음성 세션이 종료되면 이 데이터가 삭제된다고 밝혔습니다^11.

다만, Copilot Vision은 아직 아마존, 타겟, 위키피디아 등 일부 웹사이트에서만 동작하며, 유해하거나 성인 콘텐츠가 포함된 사이트에서는 작동하지 않습니다^11.

Microsoft Copilot Copilot Vision
Microsoft Copilot Copilot Vision

👀 AI 기술 경쟁의 가속화

이번에 소개된 새로운 AI 모델들은 기술 발전의 속도가 더욱 빨라지고 있음을 보여줍니다. 특히 추론 능력, 도구 활용, 비용 효율성 측면에서 급격한 발전이 이루어지고 있습니다.

OpenAI의 O3와 O4 Mini는 복잡한 문제 해결 능력에, Google의 Gemini 2.5 Flash는 사고 깊이와 속도의 균형에, Microsoft의 Copilot Vision은 일상적인 웹 브라우징 경험 향상에 초점을 맞추고 있습니다. 이는 각 기업이 AI 기술을 통해 서로 다른 사용자 경험을 제공하려 노력하고 있음을 보여줍니다.

앞으로도 AI 기술은 더욱 발전하여 우리의 일상과 업무에 깊숙이 통합될 것으로 보입니다. 특히 추론 능력, 다양한 도구 활용, 비용 효율성 측면에서의 경쟁은 더욱 치열해질 전망입니다.


Spring 2025, Acceleration of AI Competition: Clash of Latest Models from OpenAI, Google, and Microsoft

AI technology advancement is unfolding right before our eyes! In April 2025, major AI companies are launching innovative models one after another, engaging in fierce competition. In this article, we'll take a detailed look at the latest AI tools, including OpenAI's O3 and O4 Mini, Google's Gemini 2.5 Flash, Cohere's Embed 4, and Microsoft's Copilot Vision.

🚀 OpenAI's Innovative AI Models, O3 and O4 Mini

OpenAI's newly introduced O3 and O4 Mini models have reasoning capabilities that far surpass existing models. These models go beyond simple question-answering to demonstrate innovative performance in complex problem-solving and tool utilization capabilities^7.

The most notable feature is that these models can provide more accurate and in-depth answers by appropriately utilizing various tools such as web browsing, Python code execution, and file analysis. In particular, O3 has the ability to autonomously select and use necessary tools for complex questions, utilizing them naturally without requiring the user to specifically instruct tool usage^7.

Despite its relatively small size and low cost, O4 Mini shows excellent performance, particularly in the area of mathematical reasoning. According to OpenAI, the O3 and O4 Mini models have also achieved significant improvements in terms of speed and cost efficiency compared to previous models^14.

Features and Performance of OpenAI's Brainiac Duo O3 and O4 Mini

The O3 model is the most powerful reasoning model released by OpenAI to date. When solving complex problems, it automatically combines various tools such as web searches, Python code execution, and file analysis to provide answers based on deep thinking^7.

It also shows excellent results in benchmark tests, with O3 scoring 69.1% and O4 Mini scoring 68.1% on the SWE-bench, outperforming Anthropic's 'Claude 3.7 Sonnet' (62.3%)^7. Additionally, O3 has reduced major errors in visual recognition tasks by about 20% compared to the previous O1 model^7.

The most interesting aspect is the 'ability to think with images'. The two models go beyond simply seeing and understanding images; they can interpret and analyze even blurry or inverted images using image processing tools^7. This means that AI has become capable of thinking in various ways based on visual information, similar to humans.

OpenAI's Reinforcement Learning and Safety Improvements

Reinforcement Learning (RL) technology played a key role in the development of the O3 and O4 Mini models. OpenAI has significantly expanded reinforcement learning computational capabilities in these models, greatly improving performance during reasoning time^7.

Interestingly, the more the model thinks, the better its performance. When solving complex problems, the model can produce more accurate results if it has enough time to think from various angles^7.

Many improvements have also been made in terms of safety. OpenAI rebuilt safety training data from scratch for these models and introduced new rejection prompts. In particular, the detection system for biological risks, malicious software jailbreaks, etc., can detect suspicious behavior with a 99% success rate^7.

OpenAI's New Code Agent, Codex CLI

OpenAI has also released 'Codex CLI', a new terminal-based coding agent for developers. This tool is a lightweight agent that allows developers to generate and execute code using natural language commands in the terminal^8.

Codex CLI has ChatGPT-level reasoning capabilities while providing functions to actually execute code, manipulate files, and perform repetitive tasks. It is also integrated with version control systems to support development work smoothly^8.

Particularly noteworthy is that this tool is provided completely as open source. According to the GitHub repository, users can get it working immediately with just an OpenAI API key, and can use it right away without any separate setup. It can run code in a secure environment with network connections blocked and provides fully automatic approval protected by directory sandboxing^8.

🔍 Google's Gemini 2.5 Flash Release and Cost Structure

Google's newly introduced Gemini 2.5 Flash differentiates itself with its hybrid reasoning functionality. While previous models responded immediately to input, 2.5 Flash can take "a moment to think" for complex requests, generating more accurate and logical responses^10.

The most innovative part is the introduction of the "Thinking Budget" parameter. This feature sets a limit on the number of tokens to be used during the reasoning stage, allowing developers to balance between the depth of model thinking and response speed^10.

The Thinking Budget can be set from 0 to a maximum of 24,576 tokens. The larger the value, the more accurate and sophisticated the response, but the longer the processing time and higher the cost. Conversely, setting the value to 0 provides fast responses at the Flash 2.0 level^10.

Along with this, Google has significantly changed Gemini's pricing policy. According to official documentation, prices have been reduced by up to 85%, with additional cost savings possible when using batch processing^9.

Model Input Cost (per 1M characters) Output Cost (per 1M characters)
Gemini 1.5 Flash $ 0.01875 $ 0.075
(When using Batch) $ 0.009375 $ 0.0375
Gemini 1.5 Pro $ 1.25 $ 3.75

This pricing policy is much more competitive compared to OpenAI's GPT-4o mini (input $0.15, output $0.60) or Claude 3 Haiku (input $0.25, output $1.25)^9.

🧠 Embed 4: Powerful Multimodal Search Engine

Cohere's Embed 4 is a multimodal search engine that forms the foundation for agentric AI applications with Retrieval-Augmented Generation (RAG) capabilities. While direct information is limited in the search results, we can see that this model has multimodal capabilities to process various forms of data, including not only text but also images, audio, and more^5.

The search results confirm that OpenAI's text-embedding-3 and Cohere's multilingual v3.0 embedding models have significantly improved performance in multilingual question-answering tasks^5. In particular, a dynamic runtime selection framework is introduced that selects the optimal combination of prompts, models, and embeddings across various languages^5.

🖥️ Microsoft's Free Provision of Copilot Vision

Microsoft has started providing Copilot Vision for free to Edge browser users. This feature, previously only available to Copilot Pro subscribers, is now available to all Edge users^13.

Copilot Vision provides a "conversation-based experience" where users can ask questions by voice while browsing web pages, and AI analyzes what's on the screen and provides relevant answers^11. For example, users can get recipe guidance while cooking or analyze job postings for customized interview preparation^17.

The usage method is also simple. After logging into the Edge browser with a personal Microsoft account, navigate to the website you want to ask about, click the Copilot icon in the top right, and press the microphone button^11.

You can also rest assured about privacy protection. Microsoft has stated that it does not record or store user inputs, images, or page content during Copilot Vision sessions, and this data is deleted when the voice session ends^11.

However, Copilot Vision currently only works on certain websites such as Amazon, Target, Wikipedia, and does not work on sites with harmful or adult content^11.

👀 Acceleration of AI Technology Competition

The new AI models introduced here show that the pace of technological development is accelerating. Significant advancements are being made particularly in reasoning capabilities, tool utilization, and cost efficiency.

OpenAI's O3 and O4 Mini focus on complex problem-solving abilities, Google's Gemini 2.5 Flash on balancing thinking depth and speed, and Microsoft's Copilot Vision on enhancing everyday web browsing experiences. This demonstrates how each company is striving to provide different user experiences through AI technology.

Going forward, AI technology will continue to develop and become deeply integrated into our daily lives and work. Competition in terms of reasoning capabilities, utilization of various tools, and cost efficiency is expected to become even more intense.

#AI #AImodel #OpenAI #O3 #O4Mini #Google #Gemini #Microsoft #CopilotVision #Cohere #Embed4 #인공지능 #추론모델 #AItraining #AItools

728x90
반응형