AI 에이전트와 강화학습의 심층 통합: 분리에서 혁명으로

2025년 9월 10일Ollie @puppyone

핵심 관찰: AI 에이전트 개발의 초기 물결은 주로 프롬프트 엔지니어링에 의존했으며 전통적인 강화학습(RL)과는 거의 관련이 없었습니다. 그러나 최근 연구에 따르면 RL은 이제 에이전트를 일반 지능으로 나아가게 하는 핵심 동력이 되고 있습니다. 2025년 5월부터 8월까지의 최첨단 연구를 바탕으로 이 보고서는 세 가지 주요 통합 동향을 밝힙니다.

단일 에이전트 RL의 패러다임 혁신

RLHF에서 RLVR로: 객관적 보상 설계의 돌파구

에이전트와 RL
이미지 출처: puppyone

전통적인 RLHF(인간 피드백 기반 강화학습)는 주관적인 인간 피드백에 의존하며 "보상 해킹" 문제를 겪습니다. ICML 2024에서 OpenAI 연구원 존 슐만은 "모델이 문제를 진정으로 해결하기보다는 리뷰어의 선호도에 맞추는 법을 배운다는 것을 발견했습니다"라고 직설적으로 말했습니다. 이는 수학 및 프로그래밍과 같은 영역의 객관적이고 검증 가능한 신호를 활용하는 RLVR(검증 가능한 보상 기반 강화학습)로의 전환을 촉진했습니다. 알리바바의 Qwen 팀은 이 접근 방식을 적용하여 Qwen2.5-Math-1.5B의 MATH500 벤치마크 정확도를 36.0%에서 73.6%로 끌어올렸으며, 이는 RL이 "정렬 도구"에서 "능력 획득 메커니즘"으로 진화하고 있음을 보여줍니다.

UC 버클리의 세르게이 레빈 교수는 "우리는 근본적인 변화를 목격하고 있습니다. 초기 에이전트는 방대한 기억력을 가진 사서와 같았지만, 이제는 진정한 학습자로 만들고자 합니다"라고 말했습니다. 그의 팀의 내면 독백 프레임워크는 이러한 변화를 잘 보여줍니다. 에이전트는 환경과의 폐쇄 루프 피드백을 통해 "내면의 독백"을 개발하여 로봇 내비게이션 작업에서 89%의 성공률을 달성했으며, 이는 순수 프롬프트 엔지니어링 방법보다 34% 높은 수치입니다. 한편, DeepMind의 OREO 알고리즘은 벨만 방정식을 최적화하여 다단계 추론을 향상시키고, DPSDP는 다중 에이전트 시스템을 위한 직접 정책 검색 기능을 제공합니다.

체화된 지능 및 다중 에이전트 통합

체화된 지능의 실질적인 돌파구

MIT의 다니엘라 러스 교수는 인터뷰에서 "우리는 마침내 로봇 지능의 질적 도약을 목격하고 있습니다"라고 말했습니다. 그녀는 대규모 언어 모델과 강화학습을 통합한 시스템인 LLaRP 프레임워크의 획기적인 성능을 언급하며, 이 시스템은 이전에 본 적 없는 1,000개의 체화된 작업에서 42%의 성공률을 달성했으며, 이는 기존 기준선보다 1.7배 높은 수치입니다. 더욱 주목할 만한 점은 고정된 LLM을 범용 정책으로 전환하기 위해 소수의 인식 및 행동 디코더만 훈련하면 된다는 것입니다.

NVIDIA의 연구 과학자인 린시 판은 "유레카 프로젝트는 보상 설계에 대한 우리의 이해를 완전히 바꾸어 놓았습니다"라고 말했습니다. 이 프로젝트에서 GPT-4는 강화학습을 위한 보상 함수 코드를 자동으로 생성하며, 복잡한 로봇 팔 조작 작업에서 AI가 생성한 보상 함수는 실제로 인간 전문가가 세심하게 만든 보상 함수를 능가했습니다. 마찬가지로 Google DeepMind의 로보틱스 팀도 이 경로를 따라 돌파구를 마련했습니다. 비전-언어-행동 모델을 기반으로 한 RT-2 시스템은 로봇이 복잡한 자연어 지시를 이해하고 해당 행동을 실행할 수 있게 합니다.

다중 에이전트 협업의 진화

다중 에이전트
이미지 출처: puppyone

스탠포드의 퍼시 량 교수는 "초기 다중 에이전트 토론은 여러 사람이 독립적으로 대본을 읽는 것과 같았지만, 이제는 진정한 팀워크를 보고 있습니다"라고 말했습니다. 최신 MAGRPO 알고리즘은 LLM 협업을 Dec-POMDP(분산 부분 관찰 마르코프 결정 과정)로 모델링하고 공동 보상 최적화를 통해 진정한 협력을 달성합니다. 협업 코드 개발 테스트에서 이 접근 방식은 기존 다중 턴 대화 방법보다 효율성을 47% 향상시켰습니다. 더욱 흥미로운 점은 다른 스탠포드 팀이 에이전트에게 "마음 이론" 모듈을 장착하여 다른 참가자의 의도와 전략을 추론할 수 있게 했으며, 제로샷 게임 환경에서 놀라운 적응 능력을 보여주었다는 것입니다.

학문적 동향의 변화

최고 학회의 초점

학문적 동향의 변화는 뚜렷합니다. ICML 2025의 "생성형 AI와 강화학습의 만남" 튜토리얼은 2,000명 이상의 참석자를 끌어모았고, 발표자인 첼시 핀 교수는 "만약 아직도 순수 프롬프트 엔지니어링에만 의존하고 있다면, 당신은 이미 뒤처지고 있을 가능성이 높습니다"라는 말로 시작했습니다. ACL 2025에서는 최초의 "REALM" 워크숍을 개최하여 RL 기반 에이전트 훈련을 핵심 의제로 삼았으며, 예상보다 3배 많은 논문이 제출되었습니다. ICLR 2025에서는 인간처럼 컴퓨터를 조작하고 복잡한 작업에서 전례 없는 수준의 자동화를 달성하는 오픈소스 에이전트 S 프레임워크를 포함한 여러 돌파구를 선보였습니다.

가장 주목할 만한 점은 NeurIPS 2024의 "오픈 월드 에이전트" 워크숍에서 얀 르쿤이 기조연설을 통해 "정적 지식 검색만으로는 더 이상 충분하지 않습니다. 우리에게 필요한 것은 개방형 환경에서 지속적인 학습과 적응이 가능한 에이전트입니다"라고 강조한 것입니다. 이 관점은 참석자들 사이에서 폭넓은 공감을 얻었으며, 원탁 토론에서 여러 튜링상 수상자들은 강화학습이 인공 일반 지능의 핵심 과제를 해결하는 가장 유망한 경로를 제공한다는 데 만장일치로 동의했습니다.

과제와 기회

현실 세계의 과제와 산업적 기회

RL과 에이전트 기회
이미지 출처: puppyone

물론, 중요한 과제는 여전히 남아있습니다. OpenAI를 떠나기 전 마지막 공개 연설에서 일리야 수츠케버는 "우리의 가장 큰 어려움은 샘플 효율성에 있습니다. 각 LLM 추론은 막대한 계산 자원을 소비하는 반면, 전통적인 RL은 수백만 번의 상호작용을 필요로 합니다"라고 솔직하게 인정했습니다. 이러한 모순은 새로운 해결책을 이끌어내고 있습니다. 예를 들어, 메타의 연구팀은 대규모 모델의 지식을 소규모 모델로 압축하여 RL 훈련에 사용한 다음, 학습된 정책을 다시 대규모 모델로 전달하는 "증류 기반 학습" 방법을 개발했습니다.

업계의 반응도 마찬가지로 신속했습니다. 앤트로픽의 클로드 팀은 현재 RL 기반 코딩 어시스턴트를 베타 테스트 중이며, 내부자들은 복잡한 프로그래밍 작업에서의 성능이 "놀랍다"고 밝혔습니다. 한편, 중국의 에이전트 실험실 프로젝트는 이미 문헌 검토, 실험 설계부터 논문 작성에 이르기까지 과학 연구 워크플로우의 종단 간 자동화를 달성했으며, 인간의 개입이 10% 미만으로 필요합니다. 이러한 자동화 추세는 더 많은 수직적 영역으로 빠르게 확산되고 있습니다. 예를 들어, 지식 관리 분야에서 puppyone와 같은 지능형 지식 기반 시스템은 문서 이해, 지식 추출 및 자동 질의응답에 강화학습 메커니즘을 적용하기 시작했습니다. 사용자의 질의 패턴과 피드백으로부터 지속적으로 학습함으로써 이러한 시스템은 지식 조직 및 검색 전략을 반복적으로 최적화하여 수동적인 정보 저장소에서 능동적인 지능형 비서로 변모할 수 있습니다. 선전 AIRS가 발표한 AIRSTONE 오픈소스 플랫폼은 체화된 지능 연구를 위한 전례 없는 계산 지원을 제공하며, 이미 50개 이상의 국제 연구 그룹에서 사용하고 있습니다.

결론

결론
이미지 출처: puppyone

에이전트와 RL 사이의 분리는 실제로 존재했지만, MIT의 토미 야콜라 교수가 적절하게 표현했듯이 "이것은 초기 인터넷에 정적 웹 페이지만 있었던 것과 같습니다. 동적 상호작용이 진정한 미래입니다." 우리는 사전 훈련된 지식에 기반한 정적 추론에서 경험으로부터의 지속적인 학습을 통한 동적 최적화로의 근본적인 전환을 목격하고 있습니다. RLVR은 에이전트가 수학적 추론과 같은 어려운 기술을 습득할 수 있게 하고, LLaRP는 교차 시나리오 일반화를 보여주며, MARL 기반 다중 에이전트 시스템은 진정한 협력 지능의 출현을 드러냅니다.

딥마인드의 창립자 데미스 하사비스가 최근 말했듯이, "강화학습은 단순한 훈련 방법이 아니라 지능 그 자체의 핵심 메커니즘입니다." 시행착오 학습, 정책 최적화, 환경 적응에 대한 심오한 통찰력을 가진 이 한때 "소외되었던 학문"은 이제 에이전트가 인공 일반 지능으로 나아가는 여정에서 가장 견고한 이론적 토대가 되고 있습니다. 이러한 융합은 단순한 기술의 적재가 아니라, 기초 과학에 의해 구동되는 인지 주도 혁명입니다.

주요 참고 자료: ICML 2025 튜토리얼, ACL 2025 REALM 워크숍, Qwen2.5-Math 기술 보고서, LLaRP 논문, MAGRPO 알고리즘, 내면 독백 및 기타 최신 연구