Reflexion

Reflexion(자기반성)

  • Lang Chain Agent에서 학습

  • Reflexion은 LLM이 자기반성 매커니즘(Slef-Reflection)을 통해 더 나은 응답을 생성하는 AI를 만드는 기법입니다.

  • 모델이 자신의 응답을 검토하고, 피드백을 제공하며, 개선된 답변을 생성합니다.

Reflexion 구성요소

Agent : LLM을 활용하여 자기반성 학습을 수행하고 Enviroment와 상호작용하는 시스템

  • Actor(행동자) :Enviroment와 상호작용하는 역할의 LLM으로 행동이 잘못된 경우 개선이 필요

  • Trajectory(단기기억 메모리) : Actor의 행동을 기록하는 단기 메모리. 과거 행동을 추적하기 위해 사용.

  • Evaluator(평가자) : Actor의 행동을 평가하고 피드백을 제공하는 역할의 LLM. Environment에게 받은 보상을 비교하여 성능분석

  • Self-reflection(자기반성) : Evaluator로부터 전달받은 피드백과 외부에서 들어온 피드백을 분석하여 Actor의 행동을 개선할 수 있는 반성적 텍스트(Reflective Text)를 생성하는 LLM

  • Experience(장기메모리) : 자기반성을 통해 얻은 반성적 텍스트를 저장하는 메모리. Actor가 향후 의사결정을 할 때 참고한다.

Environment : Actor가 수행한 행동(Action)을 바탕으로 보상 및 결과를 반환하는 시스템

Reflexion 동작방식

  1. Actor에 의해 특정 행동(Action)을 수행한다.

  2. Enviroment행동의 결과 및 보상을 단기기억메모리에 추가한다.

  3. Evaluator에 의해 행동을 평가하고 개선 사항에 대한 피드백을 생성한다.

  4. Self-reflection은 전달받은 피드백을 분석하여 반성적 텍스트를 생성 후 장기기억 메모리에 저장한다.

  5. Actor는 다음 Action을 실행 시 장기기억 메모리의 반성적 텍스트를 참고한다.

Reflexion 실습

  • Lang Chain 프레임워크 필요

  • 실습 준비는 나중에 Lang chain에서 하쟈

Last updated