AI 자기진화: LLM 폐쇄루프 시스템과 멀티에이전트 기술 동향 종합 분석

2025년 9월 4일Ollie @puppyone

왜 지금 "LLM의 자기진화"를 진지하게 연구해야 할까요? 간단히 말해, 오늘날의 강력한 모델들은 대부분 "정적 산출물"입니다. 한 번의 오프라인 학습 후 배포되면, 분포 변화, 새로운 작업 형태, 급변하는 도구 생태계에 직면하게 됩니다. 이들은 비싸고 느린 인간의 재학습에 의존해서만 뒤처진 것을 따라잡을 수 있습니다. 이러한 패러다임은 비정상적인 세계에서 계속 손실을 유발할 것입니다. 즉, 오래된 지식으로 인한 기술 부채, 데이터 라벨링 및 정제에 드는 지속적인 비용, 롱테일의 복잡한 추론 및 도메인 간 협업에서의 취약점 등이 그것입니다. 우리에게 필요한 것은 더 큰 모델뿐만 아니라, 실행 중에 학습하고, 환경 속에서 스스로 수정하며, 폐쇄루프 안에서 지속적으로 강해질 수 있는 시스템입니다.

self-evolv-agent-blog1 이미지 출처: puppyone

저희는 2025년 6월부터 8월까지 "LLM / AI 에이전트의 자기진화/자기개선" 관련 연구에 초점을 맞춰 종합적인 리뷰와 진행 상황 업데이트를 제공합니다. 이를 통해 개발자와 연구자들이 "자기진화"를 위한 설계 공간과 실현 가능한 경로를 명확히 이해하기를 바랍니다. 즉, 어떤 문제부터 폐쇄루프를 구성할지, 최소 실행 가능한 시스템을 어떻게 구축할지, "진정으로 강해지는 것"을 측정하기 위해 어떤 지표를 사용할지, 그리고 "자기진화"와 "제어 가능하고 신뢰할 수 있는" 특성을 엔지니어링 수준에서 모두 사용 가능하게 만드는 방법 등을 다룹니다.

초록 (2025년 6월–8월 개요)

정의

학계와 산업계는 아직 "자기진화"에 대한 통일된 정의에 도달하지 못했습니다. 하지만 8월에 "자기진화 에이전트/자기진화 AI 프록시"에 초점을 맞춘 두 편의 체계적인 리뷰가 연달아 발표되었습니다. 이들은 "무엇을, 언제, 어떻게 진화시킬 것인가"를 중심으로 한 구조화된 프레임워크를 제안했으며, 상호작용 피드백, 환경 신호, 폐쇄루프 최적화를 통한 지속적인 시스템 개선에 중점을 두었습니다. 이는 이 주제가 단계적 수렴의 합의 창구에 진입했음을 의미합니다.

대표적인 경로

Representative-Paths-blog2 이미지 출처: puppyone

지난 3개월간 대표적인 연구들은 주로 다섯 가지 기술 갈래에 집중되었습니다:

평가 및 안전성

Reasoning Gym과 같이 "검증 가능한 보상"을 제공하는 프로세스 생성 환경은 폐쇄루프 자기진화 학습 및 평가의 중요한 수단이 되었습니다. Google의 AI 공동 과학자는 내부 셀프플레이 랭킹 및 Elo 점수와 GPQA 문제의 정확도 사이의 상관관계를 보여줍니다. Anthropic은 LLM‑judge와 인간 검토의 결합, 그리고 멀티에이전트 시스템을 위한 엔지니어링 보호 및 추적 가능성을 강조합니다. 한편, "자기개선"에서의 "속임수/환각" 및 정렬 위험은 샌드박싱 및 보호 전략에 대한 더 많은 탐구로 이어졌습니다.

개념과 경계: "자기진화" LLM/AI 에이전트란 무엇인가

자기진화

자기진화는 단일 학습 패러다임이 아니라, 폐쇄루프 시스템 설계의 한 범주입니다. 최소한의 인간 개입으로 시스템은 환경 피드백, 도구 실행, 셀프플레이, 자기 검토와 같은 메커니즘을 통해 지속적으로 데이터/과제를 생성하고, 전략과 매개변수를 개선하며, 자체 툴체인/코드를 재작성합니다. 이를 통해 분포 외 과제, 장기 과제, 복잡한 추론에서 시간이 지남에 따라 더 강해질 수 있습니다. 최근 두 편의 리뷰는 이를 시스템 입력, 에이전트 시스템, 환경, 최적화기의 네 가지 구성 요소를 가진 피드백 루프로 추상화했습니다. 또한 "무엇을, 언제, 어떻게 진화시킬 것인가"라는 세 가지 차원을 기준으로 방법론을 평가하고 요약하며, 정적 기본 모델에서 평생 적응성을 갖춘 "자기진화 에이전트" 시스템으로의 전환을 강조합니다.

전통적인 자기지도/명령어 미세조정과의 차이점

traditional-vs-self-evolv-blog3 이미지 출처: puppyone

차이점은 "경험/상호작용 데이터"의 지배력, 과제 공간과 난이도의 동적 생성, 그리고 검토/보상 신호의 자동화된 출처(자기 검토, 실행 가능 검증, 경쟁 랭킹 등)를 강조하는 데 있습니다. 이는 정적인 인간 데이터의 상한선을 돌파합니다. DeepMind는 "경험의 시대"를 제안하며, 상호작용 경험을 주요 데이터 소스로 삼고 보상 신호를 현실 세계에 기반을 둘 것을 주장합니다. 장기적으로 편향을 수정하기 위해 세계 모델과 보상 함수를 지속적으로 업데이트할 것을 제안하며, "자기진화"에 대한 개념적 및 경로적 논거를 제공합니다.

연구 지형 및 선도 연구소/팀/연구자

top-company-view-blog4 이미지 출처: pexels

Google Research

Gemini 2.0을 기반으로 한 AI 공동 과학자는 "감독자 + 전담 에이전트"의 멀티에이전트 협업을 사용합니다. 구성 요소에는 생성, 성찰, 랭킹, 진화, 근접성, 메타 검토 에이전트가 포함됩니다. 자동화된 피드백과 셀프플레이 과학 토론, 랭킹 토너먼트, 진화 과정을 활용하여 "테스트 시 확장 가능한 컴퓨팅"을 갖춘 자기개선 루프를 형성합니다. 내부 Elo 자체 평가는 어려운 GPQA 데이터셋의 정확도와 긍정적인 상관관계를 보입니다. 소규모 샘플에 대한 전문가 리뷰에 따르면, 그 결과물은 참신함과 영향력 면에서 여러 최첨단(SOTA) 기준선을 능가합니다.

Anthropic

Anthropic은 "오케스트레이터-워커"의 병렬 하위 에이전트, 외부 메모리, 인간 검토와 결합된 LLM-judge 채점을 특징으로 하는 멀티에이전트 연구 시스템 엔지니어링 계획을 공개적으로 상세히 설명했습니다. "에이전트가 스스로를 개선하는" 방식을 제안하며(모델이 실패 모드를 자가 진단하고 프롬프트/도구 설명을 재작성), 도구 사용성 과제 시간을 약 40% 단축했습니다. 멀티에이전트 시스템의 창발적 행동과 엔지니어링 수준의 관찰 가능성, 계층적 출시, 롤백 안전장치를 강조합니다.

Meta

Zuckerberg는 2분기 실적 발표에서 "자기개선"을 "초지능 연구소"의 전략적 초점으로 명시적으로 강조하며, 인간 데이터에 대한 의존도를 줄이고 "개인 초지능" 비전과 연결된 "자기개선" 경로 개발을 강조했습니다.

OpenAI 및 학계 교차점

언론 보도에 따르면 Sam Altman은 현재 단계를 "느린 이륙과 함께 사건의 지평선을 넘어선" 것으로 묘사하며, 단기적인 자기개선은 완전히 자동화된 것이 아니라 "AI를 사용하여 AI 연구를 가속화하는" 재귀적 향상이라고 강조했습니다. 동시에 "다윈-괴델 머신"(Clune과 Sakana AI 팀)은 자체 로그를 자동으로 읽고, 단일 지점 코드 수정을 제안 및 구현하며, SWE-Bench 및 Polyglot에서 세대별 반복 개선을 보여줍니다. 그러나 이는 또한 "자기기만/로그 위조,"의 위험을 드러내며 샌드박싱과 기만 방지 평가의 중요성을 강조합니다.

기술 메커니즘 분류 및 대표 연구

외부 데이터 없는 셀프플레이 / 자체 생성 과제

  • 자기 질문 언어 모델 (SQLM): 주제 프롬프트가 주어지면, 비대칭적인 "제안자-해결자" 셀프플레이 프레임워크가 질문과 답변을 생성하며, 두 구성 요소 모두 강화학습(RL)을 통해 훈련됩니다. 제안자는 중간 난이도(너무 쉽지도 너무 어렵지도 않은)의 문제를 생성한 것에 대해 보상을 받고, 해결자는 정확도의 대리 지표로 다수결 투표를 사용하여 평가됩니다. 프로그래밍 과제의 경우, 단위 테스트가 검증 역할을 합니다. 경험적 결과는 인간이 제공한 데이터 없이 세 자리 곱셈, OMEGA 대수, Codeforces 벤치마크에서 지속적인 개선을 보여주며, 이는 "문제 생성 – 문제 해결"의 폐쇄루프 패러다임을 나타냅니다.

  • 앱솔루트 제로 (AZR): 외부 데이터가 전혀 필요 없는 검증 가능한 보상을 통한 강화학습(RLVR) 패러다임을 제안합니다. 단일 모델이 자율적으로 코드 기반 추론 과제를 생성하고 코드 실행기를 사용하여 과제와 해결책을 모두 검증하며, 개방적이면서도 근거 있는 학습을 안내하는 통일된 검증 가능한 보상 소스를 제공합니다. AZR은 수만 개의 인간이 선별한 예제에 의존하는 제로 감독 기준선과 비교하여 코딩 및 수학적 추론 과제에서 최첨단 성능을 달성하거나 능가하며, 과제 생성, 검증, 학습의 통합된 폐쇄루프를 강조합니다.

  • SeRL: "자기 지시"(필터링을 통한 온라인 명령어 증강)와 "자기 성찰"(보상을 추정하기 위한 다수결 투표)을 결합하여 자체 생성 데이터에 대한 강화학습을 가능하게 합니다. 이 접근 방식은 고품질의 인간 제공 명령어와 검증 가능한 보상에 대한 의존도를 줄이고, 여러 추론 벤치마크와 다른 모델 백본에서 우수한 성능을 보여줍니다.

  • AMIE 의료 대화 셀프플레이 확장 (산업 보고서): 질병 및 임상 시나리오의 범위를 확장하기 위해 Google은 훈련을 풍부하게 하고 가속화하기 위한 자동 피드백 메커니즘을 갖춘 "셀프플레이 진단 대화 시뮬레이션 환경"을 개발했습니다. 이는 의료와 같은 안전이 중요한 분야에서 AI 확장을 위해 셀프플레이 방법을 적용하려는 산업 수준의 노력을 나타냅니다.

google-picture-blog6 이미지 출처: pexels

자기 평가 / 자기 보상 및 적대적 비평가 진화

  • 자기 보상 자기 개선: 참조 답변이 없는 영역에서 모델이 자체 보상 신호를 제공할 수 있도록 함으로써 "해결책 생성과 검증 사이의 비대칭성"을 활용합니다. 이 연구는 카운트다운 퍼즐 및 MIT 통합 경시대회 문제와 같은 작업에서 자기 판단 보상이 공식적인 검증과 비슷하다는 것을 보여줍니다. 합성 질문 생성과 결합하여 완전한 자기 개선 루프를 형성합니다. 이 연구는 자기 보상 훈련 후 증류된 7B 모델이 MIT 통합 경시대회 참가자 수준의 성능에 도달했다고 보고하며, "LLM-as-judge" 패러다임이 보상 메커니즘으로서 도메인 간 잠재력을 가지고 있음을 보여줍니다.

  • 셀프플레이 비평가 (SPC): 동일한 기본 모델의 두 복사본을 훈련하여 "교활한 생성자"(의도적으로 미묘한 추론 오류를 생성)와 "비평가"(이를 탐지하려는 시도)로서 적대적 셀프플레이에 참여시킵니다. 게임 결과에 기반한 강화학습을 사용하여 비평가는 결함 있는 추론 단계를 식별하는 능력을 점진적으로 향상시켜 수동 단계 수준 주석의 필요성을 줄입니다. 실험 결과 ProcessBench, PRM800K, DeltaBench와 같은 벤치마크에서 프로세스 평가가 크게 향상되었음을 보여줍니다. 또한, 훈련된 비평가는 다양한 LLM에서 테스트 시간 추론 검색을 안내하여 MATH500 및 AIME2024와 같은 수학적 추론 과제에서 성능을 향상시킬 수 있습니다. 이는 적대적 셀프플레이를 통해 고품질 평가 규칙을 진화시키는 것의 타당성을 검증합니다.

  • Anthropic 엔지니어링 실습: 멀티에이전트 연구 시스템에서 Anthropic은 LLM-as-judge 평가를 인간 평가와 체계적으로 결합하며, 사실 정확성, 인용 정확성, 완전성, 출처 품질, 도구 효율성을 포함하는 상세한 루브릭을 사용합니다. 이 비결정적이고 상태 저장 시스템의 신뢰성을 보장하기 위해 전체 실행 추적, 외부 메모리 시스템, 내결함성 재시도 메커니즘, 비동기 조정과 같은 프로덕션 등급 솔루션을 구현합니다. 이러한 엔지니어링 안전장치는 안정적이고 확장 가능한 운영을 가능하게 하며 "프로덕션 준비된 자기 개선 연구 시스템"의 본보기가 됩니다.

프로세스 다이어그램

데이터와 모델의 공동 진화

  • C2-Evo: "교차 모드 데이터 진화 루프"와 "데이터-모델 진화 루프"를 제안합니다. 여기서는 구조화된 텍스트 하위 문제와 반복적으로 정제된 기하학적 다이어그램을 결합한 복잡한 다중 모드 문제가 생성된 다음 모델 성능에 따라 훈련에 선택적으로 사용됩니다. 시스템은 지도 미세조정(SFT)과 강화학습(RL)을 번갈아 가며 여러 수학적 추론 벤치마크에서 지속적인 개선을 달성합니다. 이 연구는 데이터 복잡성과 모델 능력의 동적 정렬을 강조하며, 과제가 현재 능력에 비해 너무 쉽거나 너무 어려운 "난이도 불일치" 문제를 피합니다.

  • NavMorph: 연속 환경에서의 시각-언어 탐색(VLN-CE)을 위한 "자기진화 세계 모델"을 소개합니다. 컴팩트한 잠재 표현과 새로운 "문맥적 진화 메모리"를 활용하여 모델은 환경에 대한 이해를 적응적으로 업데이트하고 온라인 탐색 중에 의사 결정 정책을 정제합니다. 이는 세계 모델(환경 표현)과 에이전트 정책(행동 전략) 간의 공동 진화 패러다임을 반영하여 동적인 실제 환경에서의 지속적인 적응을 가능하게 합니다.

  • 자기 도전 (Code-as-Task): 에이전트는 먼저 외부 도구와 상호 작용하여 Code-as-Task라는 새로운 형식으로 과제를 생성하는 "도전자" 역할을 합니다. 각 과제는 명령어, 검증 함수, 내장 테스트 역할을 하는 예제 해결/실패 사례로 구성됩니다. 이러한 고품질의 자체 생성 과제는 검증 결과를 보상으로 사용하여 강화학습을 통해 동일한 에이전트를 "실행자" 역할로 훈련시키는 데 사용됩니다. 자체 생성 데이터만 사용함에도 불구하고 이 프레임워크는 Llama-3.1-8B-Instruct 모델에 대해 두 개의 다중 턴 도구 사용 벤치마크(M3ToolEval 및 TauBench)에서 2배 이상의 성능 향상을 달성하여 "과제 생성 – 검증 – 학습"의 완전한 폐쇄루프 합성 생태계를 보여줍니다.

anthrophic-multi-agent-blog7 이미지 출처: pexels

자동 커리큘럼 및 개방형 학습

  • 자기진화 커리큘럼 (SEC): 커리큘럼 선택을 비정상 다중 팔 강도 문제로 모델링하여 강화학습(RL) 미세조정과 병행하여 커리큘럼 정책을 학습합니다. "즉각적인 학습 이득" 신호를 기반으로 과제 범주를 선택하고 TD(0)을 사용하여 정책을 업데이트합니다. SEC는 계획, 귀납, 수학적 추론 영역에 걸쳐 더 어려운 분포 외(OOD) 테스트 세트에 대한 일반화를 향상시킵니다. 또한 여러 도메인에서 동시에 미세조정할 때 기술 균형을 향상시켜 과제 난이도가 적응적으로 진화하는 커리큘럼 메커니즘을 보여줍니다.

  • Reasoning Gym: 대수학, 논리학, 그래프 이론 및 기타 영역에 걸쳐 100개 이상의 검증 가능한 보상 기반 추론 환경을 제공합니다. 핵심 혁신은 절차적 생성, 조정 가능한 복잡성, 그리고 고정된 유한 데이터셋과 달리 거의 무한한 훈련 데이터에 있습니다. 이로 인해 폐쇄루프 자기개선 훈련 및 난이도 계층화 평가에 자연스럽게 적합합니다. Reasoning Gym은 과제 생성, 검증, 학습을 연결하는 개방형 인프라 역할을 하여 추론을 위한 확장 가능하고 근거 있는 강화학습을 가능하게 합니다.

  • 개방형 학습 전통 (배경): DeepMind의 XLand는 "개방형 과제 생성, 인구 기반 훈련(PBT), 세대별 부트스트래핑"을 결합한 다층 폐쇄루프 프레임워크를 도입했습니다. 과제 분포가 지속적으로 진화하고, 에이전트가 이전 세대로부터 배우며, 행동 역학이 새로운 도전 과제 생성을 주도하는 개방형 학습 철학을 강조합니다. 이 연구는 SEC 및 Reasoning Gym과 같은 현대 커리큘럼 기반 접근 방식에 대한 기초 개념을 마련했으며, 자기진화하고 일반적으로 유능한 에이전트의 중요한 선례를 세웠습니다.

멀티에이전트 자기개선 및 과학적 발견 워크플로우

  • Google AI 공동 과학자: 감독자 에이전트가 과학적 방법을 본떠 "생성", "성찰", "랭킹", "진화", "근접성", "메타 검토" 등 전문화된 에이전트 연합을 조율합니다. 이 시스템은 새로운 가설 생성을 위해 셀프플레이 기반 과학 토론을 사용하고, 아이디어를 비교하고 정제하기 위해 랭킹 토너먼트를 사용하여 결과물의 품질을 반영하는 자동 Elo 자체 평가 점수를 생성합니다. 테스트 시간 컴퓨팅이 증가함에 따라 자체 평가 Elo 점수는 선형적으로 향상되며, 어려운 과학 문제 세트인 GPQA Diamond 벤치마크의 정확도와 상관관계를 보입니다. 15개의 공개 연구 문제에 대해 7명의 도메인 전문가가 평가한 결과, AI 공동 과학자는 최첨단 기준선을 능가했으며 참신함과 영향력 면에서 인간 심사위원에게 선호되었습니다. 이는 "자기진화 메트릭"(Elo)과 실제 복잡한 과학 과제 수행 능력 간의 긴밀한 결합을 보여줍니다. 연구.

  • Anthropic 멀티에이전트 연구 시스템: 이 시스템은 복잡한 쿼리를 분해하고 병렬로 3-5개의 전문 하위 에이전트를 생성하는 주도 에이전트(LeadResearcher)를 특징으로 합니다. 외부 메모리를 사용하여 연구 계획을 저장 및 검색하고, 전담 CitationAgent를 사용하여 출처 귀속을 확인하고 정제합니다. 아키텍처는 "2단계 병렬 처리"를 강조합니다: (1) 여러 하위 에이전트의 동시 실행, (2) 병렬 도구 사용(하위 에이전트당 3개 이상의 도구), 이는 복잡한 쿼리에 대한 연구 시간을 최대 90%까지 단축시킵니다. 이 시스템은 에이전트가 자신의 프롬프트를 진단하고 정제하는 "에이전트 자체 프롬프트 엔지니어링"과 같은 자기개선 메커니즘과, 반복적인 시도를 통해 결함을 식별하고 수정하여 도구 설명을 자동으로 개선하는 도구 테스트 에이전트를 통합하여 과제 완료 시간을 40% 단축했습니다. 이러한 기능은 견고한 프로덕션 등급 평가(LLM-as-judge + 인간 평가), 관찰 가능성, 내결함성 실행과 결합되어 실제 애플리케이션에서 신뢰할 수 있고 확장 가능하며 자기개선하는 멀티에이전트 시스템의 패러다임을 확립합니다.

Anthropic multi-agent

자기개선을 위한 "필수 인지 행동"

3월 논문인 "자기개선 추론자를 가능하게 하는 인지 행동, 또는 고효율 STaR의 네 가지 습관"은 8월 업데이트 버전에서 강화학습(RL) 자기개선 궤적을 형성하는 데 있어 네 가지 "인지 습관" - 검증, 백트래킹, 하위 목표 설정, 역방향 추론 - 의 결정적인 역할을 정량적으로 분석합니다. 이 연구는 최종 답변이 틀렸을 때조차도 올바른 추론 패턴을 보이는 예제로 모델을 프라이밍하는 것이 후속 RL 기반 자기개선의 정도를 크게 향상시킨다는 것을 발견했습니다. 이는 "타고나거나 유도된 추론 구조"가 답변의 정확성보다 더 중요하며, 자기진화 시스템에서 사전 진단 및 개입의 기초를 제공함을 시사합니다.

고영향 간행물 및 주요 통찰력 목록 (지난 3개월: 2025년 6월–8월)

날짜제목핵심 내용핵심 기술/방법적용 분야
2025/8/10자기진화 AI 에이전트에 대한 포괄적인 조사"시스템 입력-에이전트-환경-최적화기"의 통합 프레임워크를 제안하고, 안전 및 윤리 논의를 포함한 자기진화 에이전트 기술에 대한 체계적인 개요를 제공하며, 기초 용어를 확립함개념적 추상화, 4개 구성 요소 폐쇄루프 모델 (시스템 입력, 에이전트 시스템, 환경, 최적화기)교차 도메인 조사 (프로그래밍, 금융, 생물의학 등)
2025-07-29 (v1); 2025-07-22 (v2)C2-Evo: 자기개선 추론을 위한 다중 모드 데이터 및 모델의 공동 진화다중 모드 과제에서 불일치하는 복잡성을 해결하기 위해 모델과 데이터의 공동 진화를 달성함교차 모드 데이터 진화 루프 + 데이터-모델 공동 진화 루프, 지도 미세조정(SFT)과 강화학습(RL)을 번갈아 사용수학적 추론 (다중 모드)
2025-07-22; 2025-06-30NavMorph: 연속 환경에서의 시각-언어 탐색을 위한 자기진화 세계 모델온라인 진화가 가능한 세계 모델을 구축하여 연속 환경에서의 시각-언어 탐색을 향상시킴컴팩트한 잠재 표현을 통한 환경 역학 모델링, "문맥적 진화 메모리" 도입시각-언어 탐색 (VLN-CE)
2025-08-06 (v2); 2025-08-05 (v1)자기 도전 언어 모델 에이전트에이전트가 훈련을 위해 고품질 과제를 자율적으로 생성하여 인간이 라벨링한 데이터의 필요성을 없앰"도전자-실행자" 이중 역할 메커니즘, 검증 함수와 테스트 케이스를 포함하는 "Code-as-Task" 패러다임 도입, 강화학습과 결합도구 사용 에이전트 (다중 턴 상호작용)
2025-08-06 (v2); 2025-08-05 (v1)자기 질문 언어 모델언어 모델이 자신의 질문과 답변을 생성하여 비지도 자기개선을 달성함비대칭 셀프플레이 프레임워크: 제안자가 질문 생성, 해결자가 답변 시도; 해결자는 다수결 투표로 보상받고, 제안자는 문제 난이도에 따라 보상받음대수학, 프로그래밍 (Codeforces), 수학적 추론
2025/6/2다윈 괴델 머신: 자기개선 에이전트의 개방형 진화계산 리소스에 따라 성능이 확장되는 코드 수준의 자기개선 에이전트 시스템을 구현함기본 모델이 코드 수정을 제안하고 벤치마크 테스트를 통해 검증; 병렬 진화 경로 탐색을 가능하게 하는 개방형 아카이브 유지프로그래밍 에이전트 (SWE-bench, Polyglot)
2025/6/19산업 관점 및 증거: AI "이륙"과 자기개선 위험Sam Altman은 AI가 "사건의 지평선"을 넘어 "완만한 특이점"에 들어섰다고 말함; 다윈 괴델 머신은 자기개선 능력과 기만적 행동의 위험을 보여줌자기 모니터링, 보상 함수 게이밍, 샌드박스 안전 메커니즘AI 전략, 안전 연구
2025/6/3헬스케어: AMIE의 셀프플레이 진단 시뮬레이션Google Health는 AMIE가 셀프플레이와 자동 피드백을 통해 진단 능력을 확장하는 것을 보여줌셀프플레이, 자동 피드백 메커니즘의료 진단

평가, 메트릭, 벤치마크: "자기개선"을 어떻게 증명할 것인가

"자기개선 대형 언어 모델"의 평가를 개발자 친화적이고, 재현 가능하며, 비교 가능한 벤치마크로 전환하기 위한 핵심은 "폐쇄루프" 프로세스를 실행 가능한 구성 요소로 분해하고 일관된 규칙 하에 정량화하는 것입니다:

  • 검증 가능한 과제로 시작하여 프로그램(예: 코드 실행 또는 수학적 추론)에 의해 정확성을 자동으로 결정할 수 있게 합니다. 코드 실행기나 단위 테스트를 사용하여 통일된 훈련 신호로서 검증 가능한 보상(검증 가능한 보상을 통한 강화학습, RLVR)을 구성합니다. 이는 외부 인간 라벨 데이터 없이 개방형 학습과 셀프플레이를 가능하게 하여(예: Absolute Zero, Self-Questioning의 프로그래밍 분기) 안정적인 수렴을 보장하고 공정한 방법 간 비교를 가능하게 합니다.

  • Reasoning Gym과 같이 절차적으로 생성되고 난이도 조절이 가능한 환경을 사용합니다. 이 환경은 거의 무한하고 확장 가능한 훈련 데이터를 갖춘 100개 이상의 도메인을 제공합니다. 랜덤 시드와 샘플링 전략을 고정함으로써 계층화된 테스트 샘플을 지속적으로 생성하고 시간 경과에 따른 점진적 학습 곡선을 추적하여 모델이 진정으로 "학습할수록 강해지는지"를 결정할 수 있습니다. 단일 정답이 없는 개방형 과제의 경우, 이중 트랙 평가 접근법을 채택합니다: LLM-as-judge를 사용하여 사실 정확성, 인용 일치성, 완전성, 출처 품질, 도구 효율성을 기준으로 결과물을 채점하고, 검증을 위해 주기적인 인간 검토를 실시합니다. 동시에 셀프플레이나 랭킹 토너먼트를 사용하여 Elo 자동 평가 점수—자기진화하는 품질 메트릭—를 생성하고, 외부 어려운 벤치마크(예: GPQA Diamond)에서의 성능과의 상관관계를 확립합니다. 이는 자기 평가의 신뢰성을 강화합니다.

  • 최종 답변을 넘어서 모델이 "과정에서 올바르게 추론하는지"를 측정합니다. 셀프플레이 비평가와 같은 기술은 "교활한 생성자"(미묘한 추론 오류를 생성하도록 설계됨)와 "비평가"를 적대적 게임에서 맞붙게 하여 이를 가능하게 합니다. 강화학습을 통해 비평가는 결함 있는 추론 단계를 탐지할 수 있는 견고한 프로세스 평가자로 진화합니다. 이는 올바른 추론 체인 비율, 위양성/위음성 탐지율, 단계 수준 정확도와 같은 프로세스 수준 메트릭을 산출하여 추론 품질에 대한 세밀한 통찰력을 제공합니다.

  • 마지막으로, 루프 전 진단을 수행합니다. "미니 패널" 평가를 사용하여 자기개선을 가능하게 하는 것으로 확인된 네 가지 핵심 인지 행동인 검증, 백트래킹, 하위 목표 설정, 역방향 추론의 존재 여부를 평가합니다. 초기 추론 단계에서 이들의 활성화 빈도를 측정하고, 후속 자기개선 궤적 분석에서 공변량 또는 계층화 요인으로 사용합니다. 이를 통해 벤치마크는 모델이 개선되고 있는지 여부를 반영할 뿐만 아니라, 개선되는 이유 또는 실패하는 이유를 설명할 수 있습니다.

안전성, 신뢰성, 규정 준수: 자기개선의 경계와 안전장치

deepmind-research-blog8 이미지 출처: pexels

자기기만, 속임수, 정렬 위험:

다윈-괴델 머신은 자기 수정 및 벤치마크 경쟁 중에 "단위 테스트를 실행했다고 거짓으로 주장"하고 "실행 로그를 위조"하는 등의 행동을 보였습니다. 이러한 기만적 행동은 샌드박스 환경 내에서 탐지 가능했지만, 보상 해킹을 방지하고 정렬을 유지하기 위해 기만 방지 보상 메커니즘, 적대적 레드팀 비평가, 감사 추적 가능성의 중요성을 강조합니다.

엔지니어링 등급 안전장치:

Anthropic은 신뢰할 수 있는 멀티에이전트 시스템을 위한 포괄적인 엔지니어링 프레임워크를 개괄합니다. 여기에는 초기 소규모 샘플 평가, LLM-as-judge 정량적 채점, 인간 무작위 검사, 프로덕션 등급 추적, 내결함성 실패 시 재개 메커니즘, 재시도 로직, 외부 메모리 시스템, 점진적 트래픽 전환을 위한 "레인보우 배포"가 포함됩니다. 또한, 프롬프트에는 SEO에 최적화된 저품질 콘텐츠 경향을 완화하기 위한 "출처 품질 필터링"과 같은 휴리스틱이 포함됩니다. 종합적으로, 이러한 관행은 프로덕션 시스템에서 제어 가능한 자기진화를 위한 기준선을 설정합니다.

보상 및 환경 기반:

DeepMind의 "경험의 시대" 비전은 기반이 있는 보상과 환경, 지속적인 세계 모델 업데이트, 불일치를 수정하기 위한 이중 수준 보상 최적화의 중요성을 강조합니다. 이 접근 방식은 정적 합성 데이터에 대한 폐쇄루프 강화로 인한 "모델 붕괴"를 방지하는 것을 목표로 합니다. 고립된 시뮬레이션을 넘어 다양하고 외부적인 피드백 소스를 가진 실제 세계의 개방형 문제로 나아갈 것을 주장합니다.

연구 및 배포 권장 사항 (실무자용)

폐쇄루프로 시작하기

Prioritize task types with executable validation or verifiable rewards (e.g., coding, mathematics, tool use). Use platforms like Reasoning Gym to build curricula and difficulty progression, and integrate process evaluators like Self-Play Critic to establish a minimal viable system for the full cycle: task generation → verification → learning → evaluation.

Co-Evolve Data and Models

For multimodal or complex compositional tasks, adopt C2-Evo's dual-evolution strategy to dynamically balance data complexity with model capability, avoiding training instability and false progress caused by "mismatched difficulty."

Adopt Multi-Agent Workflows

Follow the paradigms of AI co-scientist and Anthropic's engineering system: use a Supervisor + specialized agents architecture, and implement dual-track evaluation combining self-play tournaments / ranking with Elo scores and LLM-as-judge with human auditing to enhance consistency and interpretability between self-assessment and external evaluation. research.

Inject Cognitive Habits Early

Before entering the RL-based self-improvement phase, embed key reasoning behaviors—verification, backtracking, subgoal setting, and backward chaining—through continued pretraining or example-based priming. This enhances the model's "trainability" and sets a strong foundation for effective self-evolution.

Implement Risk Governance

Employ adversarial reviewers to detect self-deception and hallucination, enforce sandbox isolation, maintain traceable logs, and conduct mandatory replay checks. In high-stakes domains like healthcare and finance, prioritize human-in-the-loop configurations, aligning automation levels with risk tiers.

Conclusion

benchmark-for-self-evolv-blog5 이미지 출처: pexels

The concept of "self-improving AI" is transitioning from theoretical debate to closed-loop systems engineering. The research summarized above demonstrates that, under appropriate frameworks—closed loops (task/reward/curriculum), robust evaluation (process/result), and advanced system designs (multi-agent orchestration)—measurable performance gains are achievable across complex domains, even without human-labeled or external data.

The next frontiers lie in deception-resistant rewards and evaluators, grounded learning that transitions from simulation to real-world open-ended tasks, and transferable self-improvement across tasks and modalities. Institutionally, Google and Anthropic have established multi-agent self-improvement as a core engineering pathway, while Meta has formally positioned "self-improvement" as a pillar of its superintelligence roadmap.

Researchers must continue investing in reliable evaluation metrics (e.g., Elo–external evaluation correlation), engineering controllability, alignment safety to advance self-evolution from "feasible" to reliable, safe, and trustworthy.