Ktx – 데이터 에이전트를 위한 오픈소스 Executable Context Layer | AI Paper Digest

TL;DR Highlight

AI 에이전트가 회사 데이터 웨어하우스를 정확하게 쿼리할 수 있도록 시맨틱 레이어, 메모리, 비즈니스 지식을 자동으로 구축해주는 오픈소스 도구다. 기존 에이전트가 매번 웨어하우스를 재탐색하거나 잘못된 메트릭 로직을 임의로 만들어내는 문제를 해결한다.

Who Should Read

BigQuery, Snowflake 등 데이터 웨어하우스를 운영 중인데 AI 에이전트에게 데이터 쿼리를 맡기면 잘못된 숫자가 나와서 고생하는 데이터 엔지니어나 분석 엔지니어. Claude Code, Codex 등 코딩 에이전트를 데이터 분석 워크플로우에 도입하려는 백엔드/ML 엔지니어.

Core Mechanics

일반 목적 AI 에이전트는 데이터 태스크에 취약하다. 질문할 때마다 웨어하우스 스키마를 처음부터 재탐색하고, 자체적으로 메트릭 로직을 발명하며, 회사에서 승인한 정의와 다른 숫자를 반환하는 문제가 반복된다.
ktx는 이를 해결하기 위해 '실행 가능한 컨텍스트 레이어(executable context layer)'를 제공한다. 에이전트가 MCP(Model Context Protocol, AI 에이전트가 외부 도구를 표준화된 방식으로 호출하는 프로토콜) 를 통해 이 레이어를 호출해서 정확한 쿼리를 작성하도록 돕는 구조다.
회사 위키, 문서 등 비정형 지식을 자동으로 수집해서 정리하고, 중복을 제거하며 서로 모순되는 내용은 사람이 검토할 수 있도록 플래그를 남긴다. 비즈니스 지식을 수동으로 관리하지 않아도 자동으로 흡수한다.
데이터 스택을 자동으로 매핑한다. 테이블을 샘플링하고 메타데이터와 사용 패턴을 수집하며, 조인 가능한 컬럼을 자동 탐지하고 소스에 어노테이션을 달아줘서 에이전트가 더 나은 쿼리를 작성하게 한다.
자동으로 시맨틱 레이어(데이터 개념과 비즈니스 용어를 연결하는 메타데이터 계층)를 구축한다. 기존 시맨틱 레이어 도구들은 수동 유지보수가 필요하고 회사 지식을 흡수하지 못하는 문제가 있었는데, ktx는 이를 자동화한다.
Claude Code, Codex 등 주요 AI 코딩 에이전트와 호환된다. 기본적으로 로컬 Claude Code 세션을 사용해서 별도 API 키 없이 동작하고, Anthropic API 키나 Vertex AI도 지원한다. ktx 자체 사용에 대한 추가 과금은 없다.
스킬(skills), 메모리(memory) 기능을 갖춰서 에이전트가 이전에 학습한 패턴과 비즈니스 규칙을 재사용할 수 있다. '자기 개선(self-improving)' 구조로, 사용할수록 컨텍스트가 더 정확해지도록 설계됐다.
Apache-2.0 라이선스의 완전 오픈소스로, GitHub에 공개돼 있으며 현재 별 595개, 포크 33개를 기록 중이다. CLI, Python, 예제 패키지 등 여러 모듈로 구성된 모노레포 구조다.

Evidence

쿼리 실행 전 검증 환경에 대한 요청이 있었다. 에이전트가 BigQuery에 쿼리를 보내기 전에 DuckDB 같은 로컬 환경에서 먼저 유효성을 검증하거나, TABLESAMPLE을 써서 비용을 줄이는 샌드박스 기능이 있는지 묻는 댓글이 달렸다. 이런 기능이 없다면 실제 프로덕션 비용 부담이 생길 수 있다는 우려다.
유사 프로젝트와의 비교 질문이 여러 개 올라왔다. nao(github.com/getnao/nao), Wren 2.0, OpenVikings 등 비슷한 문제를 푸는 프로젝트와 어떻게 다른지 묻는 댓글이 있었는데, 제작자의 공식 답변은 아직 없는 상태다.
정확도 측정 방법에 대한 질문이 있었다. 벤치마크 기반으로 정확도를 측정하는지, 파일 기반 접근 대신 그래프 기반 접근도 고려했는지, 그리고 시간이 지나면서 변하는 비즈니스 컨텍스트를 어떻게 처리하는지에 대한 기술적 질문이 제기됐다. 이는 실제 도입 전에 검토해야 할 핵심 사항이다.
에이전트 컨텍스트 관리가 아직 충분히 탐구되지 않은 영역이라는 공감대가 형성됐다. 한 댓글 작성자는 토큰 사용량을 낮게 유지하면서도 에이전트에게 충분한 컨텍스트를 주는 것이 핵심 과제라며, '계층형 검색(tiered retrieval, 먼저 핵심 사실만 주고 필요할 때만 전체 텍스트를 제공하는 방식)'이 실제로 잘 동작한다는 경험을 공유했다.
Claude 외 다른 LLM 지원에 대한 질문도 있었다. 직장에서 GitHub Copilot을 쓰는 사람이 Claude 없이도 ktx를 사용할 수 있는지 물었는데, README에는 Anthropic API 키나 Vertex AI를 지원한다고 적혀 있지만 Copilot 직접 지원은 명확하지 않다.

How to Apply

데이터 팀이 '매출'이나 'DAU' 같은 핵심 메트릭을 팀마다 다르게 계산하는 문제가 있다면, ktx로 승인된 메트릭 정의를 시맨틱 레이어에 등록해두면 AI 에이전트가 항상 동일한 정의를 기반으로 쿼리를 작성하게 만들 수 있다.
Claude Code나 Codex를 데이터 쿼리 자동화에 사용 중인데 에이전트가 매번 스키마를 처음부터 파악하느라 시간이 오래 걸린다면, ktx의 MCP 연동을 설정해서 에이전트가 기존에 매핑된 테이블 구조와 조인 패턴을 재사용하도록 해 탐색 시간을 줄일 수 있다.
회사 내부 위키나 Confluence에 데이터 관련 비즈니스 규칙이 흩어져 있는 경우, ktx의 지식 수집 기능으로 이를 자동으로 수집하고 정리해서 에이전트의 컨텍스트로 제공하면 비즈니스 담당자 없이도 에이전트가 올바른 로직을 적용할 수 있다.
BigQuery나 Snowflake 쿼리 비용이 걱정된다면, 커뮤니티에서 제안된 것처럼 DuckDB 샌드박스 검증 기능이 추가되길 기다리거나 기여하는 방식을 고려해볼 수 있다. 현재는 이슈 트래커에 14개의 오픈 이슈가 있으므로 관련 기능 요청을 직접 올리는 것도 방법이다.

Terminology

MCPModel Context Protocol의 약자로, AI 에이전트가 외부 도구나 데이터 소스를 표준화된 방식으로 호출할 수 있게 해주는 프로토콜. 에이전트가 플러그인을 꽂듯 외부 기능을 사용하는 인터페이스라고 보면 된다.

Semantic Layer데이터베이스의 테이블/컬럼명과 비즈니스 용어 사이를 연결해주는 메타데이터 계층. '매출'이라는 단어가 어떤 테이블의 어떤 컬럼 조합으로 계산되는지를 정의해두는 계층이다.

Executable Context Layer에이전트가 실행 시점에 동적으로 호출해서 필요한 컨텍스트(스키마, 비즈니스 규칙 등)를 가져올 수 있는 실행 가능한 레이어. 단순한 문서가 아니라 코드처럼 호출 가능하다는 게 핵심이다.

Tiered Retrieval에이전트에게 컨텍스트를 줄 때 처음엔 핵심 요약 정보만 주고, 필요할 때만 전체 문서를 제공하는 계층형 검색 전략. 토큰 사용량을 줄이면서도 충분한 정보를 주는 방법이다.

DuckDB로컬 환경에서 SQL을 빠르게 실행할 수 있는 인메모리 분석용 데이터베이스. BigQuery 같은 클라우드 DW에 쿼리를 날리기 전에 로컬에서 먼저 테스트하는 샌드박스로 활용할 수 있다.

Ktx – 데이터 에이전트를 위한 오픈소스 Executable Context Layer