LLM을 이해할 때 자주 섞이는 두 층이 있다. 하나는 모델 안에서 token을 처리하는 모델 아키텍처이고, 다른 하나는 모델 바깥에서 대화와 작업 기록을 저장하는 Agent Memory다. 둘 다 “문맥을 다룬다”는 점 때문에 비슷해 보이지만, 실제 역할과 위험은 다르다.

Transformer 아키텍처는 한 번 입력된 sequence 안에서 token들이 서로 무엇을 참고해야 하는지 계산한다. 반면 Agent memory consolidation은 여러 대화와 작업 기록을 나중에 다시 쓰기 좋은 형태로 요약·저장한다. 전자는 모델의 계산 구조에 가깝고, 후자는 장기 agent 시스템의 정보 관리 구조에 가깝다.

한 줄로 말하면

Transformer는 현재 입력 안에서 관계를 계산하는 방법이고, Agent Memory는 과거 경험을 미래 작업에 다시 쓰기 위해 저장하는 방법이다.

비교 표

구분모델 아키텍처Agent Memory
대표 예시Transformer, self-attention, positional encoding대화 요약, fact extraction, vector store, long-term memory
위치모델 내부 계산 구조모델 외부 또는 agent runtime의 저장·검색 구조
다루는 시간축현재 context window 안의 token 관계과거 대화·관찰·결정의 장기 재사용
핵심 질문token들이 서로 어떤 정보를 참고해야 하는가무엇을 기억으로 남기고, 얼마나 확실하게 저장할 것인가
주요 병목계산량, 병렬화, 긴 문맥 비용, 위치 정보출처 보존, 불확실성 보존, stale memory, 검증 절차
대표 위험긴 입력에서 attention 비용 증가, 구조 오해소문이 확정적 사실처럼 저장되는 manufactured confidence

Transformer는 현재 입력 안의 관계를 계산한다

Attention Is All You Need가 바꾼 핵심은 sequence를 순서대로 하나씩 처리하는 방식에서 벗어나, self-attention으로 token 사이의 관계를 직접 계산했다는 점이다. 각 token은 query, key, value로 변환되고, attention은 “이 token이 다른 token을 얼마나 참고해야 하는가”를 점수화한다.

이 구조는 현재 입력 안에서 강하다. 한 문장이나 문서 조각이 들어오면, 모델은 그 안의 단어·문장·코드 조각 사이 관계를 빠르게 섞어 표현을 만든다. 또한 recurrence보다 병렬화에 유리해서 대규모 학습의 기반이 되었다.

하지만 Transformer 자체가 과거의 모든 대화와 작업 기록을 영구히 기억한다는 뜻은 아니다. 모델이 지금 입력받지 않은 과거 정보는, 별도 저장소나 retrieval 없이 자동으로 현재 판단에 들어오지 않는다. 그래서 긴 작업을 하는 agent에서는 모델 아키텍처와 별개로 memory system이 필요해진다.

Agent Memory는 과거를 다시 쓰기 위한 저장 구조다

Agent Memory는 “이전 대화에서 무엇이 중요했는가”, “사용자가 어떤 선호를 보였는가”, “프로젝트에서 어떤 결정을 했는가”를 나중에 다시 쓰기 위해 저장한다. 이때 원문을 그대로 모두 저장하기보다, 요약하거나 fact 형태로 바꾸는 경우가 많다.

문제는 이 정리 과정에서 정보의 성격이 바뀔 수 있다는 점이다. Manufactured Confidence 논문은 “Alice가 아마 admin으로 승진했다” 같은 불확실한 발화가 memory consolidation을 거치며 “Alice는 admin이다”처럼 확정적 기록으로 바뀌는 실패 양식을 보여준다.

즉 Agent Memory의 핵심 위험은 단순한 저장 오류가 아니다. 원래 말에 있던 아마, 누가 말했다, 검증되지 않았다, 언제의 정보다 같은 신호가 사라지면, agent는 나중에 그 기억을 실제보다 더 강한 사실처럼 사용할 수 있다.

왜 둘을 구분해야 하나

첫째, 개선 방법이 다르다. 모델 아키텍처의 병목은 attention 비용, 긴 context 처리, 병렬화, positional information 같은 계산 구조의 문제다. 반면 Agent Memory의 병목은 출처, 시간, 불확실성, 재검증, 권위 있는 두 번째 source 같은 정보 거버넌스의 문제다.

둘째, 안전 문제의 위치가 다르다. Transformer가 입력 안의 token 관계를 잘 계산해도, memory store가 잘못된 확신을 저장하면 agent는 잘못된 근거로 행동할 수 있다. 반대로 memory가 조심스럽게 저장되어도, 모델이 현재 입력을 잘못 해석하면 다른 문제가 생긴다. 하나의 층을 고쳤다고 전체 시스템이 안전해지는 것은 아니다.

셋째, 제품과 인프라를 볼 때 필요한 질문이 달라진다. “어떤 모델을 쓰는가”는 아키텍처·성능·비용의 질문이다. “무엇을 기억하게 하는가”는 데이터 관리·권한·감사·컴플라이언스의 질문이다. 장기 agent 제품에서는 두 질문이 모두 중요하지만, 서로 대체되지 않는다.

함께 작동하는 방식

실제 agent는 두 층을 함께 쓴다. 예를 들어 사용자가 이전에 말한 선호가 memory store에 저장되어 있고, 새 작업이 들어오면 agent는 관련 memory를 검색해 현재 prompt에 넣을 수 있다. 그 다음 Transformer 기반 모델은 현재 prompt 안에 들어온 사용자 요청, 도구 결과, 검색된 memory 사이의 관계를 attention으로 처리한다.

이때 memory는 현재 context의 재료가 되고, 모델 아키텍처는 그 재료를 계산하는 방식이 된다. 그래서 memory의 품질이 낮으면 좋은 모델도 잘못된 재료를 바탕으로 답할 수 있고, 모델이 약하면 좋은 memory도 제대로 활용되지 못할 수 있다.

헷갈리지 말아야 할 점

모델의 context window가 길어지는 것과 Agent Memory가 좋아지는 것은 같은 말이 아니다. 긴 context는 더 많은 자료를 한 번에 넣을 수 있게 하지만, 무엇을 장기 기억으로 저장하고 어떻게 갱신할지의 문제를 자동으로 해결하지 않는다.

또한 retrieval이나 vector search를 붙였다고 해서 안전한 memory가 되는 것도 아니다. 검색된 정보가 오래되었거나, 불확실성을 잃었거나, 권위 있는 source와 충돌한다면 agent는 여전히 잘못된 결정을 할 수 있다.

마지막으로 Agent Memory는 모델 학습 데이터와도 다르다. 학습 데이터는 모델 파라미터에 장기적으로 반영되는 재료이고, agent memory는 특정 사용자나 작업 맥락에서 runtime에 검색·주입되는 기록에 가깝다. 이 차이를 구분해야 모델 성능 문제와 운영 안전 문제를 분리해서 볼 수 있다.

관련 문서