Ktx – 데이터 에이전트를 위한 오픈소스 Executable Context Layer
Show HN: Ktx – Open-source executable context layer for data agents
TL;DR Highlight
AI 에이전트가 회사 데이터 웨어하우스를 정확하게 쿼리할 수 있도록 시맨틱 레이어, 메모리, 비즈니스 지식을 자동으로 구축해주는 오픈소스 도구다. 기존 에이전트가 매번 웨어하우스를 재탐색하거나 잘못된 메트릭 로직을 임의로 만들어내는 문제를 해결한다.
Who Should Read
BigQuery, Snowflake 등 데이터 웨어하우스를 운영 중인데 AI 에이전트에게 데이터 쿼리를 맡기면 잘못된 숫자가 나와서 고생하는 데이터 엔지니어나 분석 엔지니어. Claude Code, Codex 등 코딩 에이전트를 데이터 분석 워크플로우에 도입하려는 백엔드/ML 엔지니어.
Core Mechanics
- 일반 목적 AI 에이전트는 데이터 태스크에 취약하다. 질문할 때마다 웨어하우스 스키마를 처음부터 재탐색하고, 자체적으로 메트릭 로직을 발명하며, 회사에서 승인한 정의와 다른 숫자를 반환하는 문제가 반복된다.
- ktx는 이를 해결하기 위해 '실행 가능한 컨텍스트 레이어(executable context layer)'를 제공한다. 에이전트가 MCP(Model Context Protocol, AI 에이전트가 외부 도구를 표준화된 방식으로 호출하는 프로토콜) 를 통해 이 레이어를 호출해서 정확한 쿼리를 작성하도록 돕는 구조다.
- 회사 위키, 문서 등 비정형 지식을 자동으로 수집해서 정리하고, 중복을 제거하며 서로 모순되는 내용은 사람이 검토할 수 있도록 플래그를 남긴다. 비즈니스 지식을 수동으로 관리하지 않아도 자동으로 흡수한다.
- 데이터 스택을 자동으로 매핑한다. 테이블을 샘플링하고 메타데이터와 사용 패턴을 수집하며, 조인 가능한 컬럼을 자동 탐지하고 소스에 어노테이션을 달아줘서 에이전트가 더 나은 쿼리를 작성하게 한다.
- 자동으로 시맨틱 레이어(데이터 개념과 비즈니스 용어를 연결하는 메타데이터 계층)를 구축한다. 기존 시맨틱 레이어 도구들은 수동 유지보수가 필요하고 회사 지식을 흡수하지 못하는 문제가 있었는데, ktx는 이를 자동화한다.
- Claude Code, Codex 등 주요 AI 코딩 에이전트와 호환된다. 기본적으로 로컬 Claude Code 세션을 사용해서 별도 API 키 없이 동작하고, Anthropic API 키나 Vertex AI도 지원한다. ktx 자체 사용에 대한 추가 과금은 없다.
- 스킬(skills), 메모리(memory) 기능을 갖춰서 에이전트가 이전에 학습한 패턴과 비즈니스 규칙을 재사용할 수 있다. '자기 개선(self-improving)' 구조로, 사용할수록 컨텍스트가 더 정확해지도록 설계됐다.
- Apache-2.0 라이선스의 완전 오픈소스로, GitHub에 공개돼 있으며 현재 별 595개, 포크 33개를 기록 중이다. CLI, Python, 예제 패키지 등 여러 모듈로 구성된 모노레포 구조다.
Evidence
- 쿼리 실행 전 검증 환경에 대한 요청이 있었다. 에이전트가 BigQuery에 쿼리를 보내기 전에 DuckDB 같은 로컬 환경에서 먼저 유효성을 검증하거나, TABLESAMPLE을 써서 비용을 줄이는 샌드박스 기능이 있는지 묻는 댓글이 달렸다. 이런 기능이 없다면 실제 프로덕션 비용 부담이 생길 수 있다는 우려다.
- 유사 프로젝트와의 비교 질문이 여러 개 올라왔다. nao(github.com/getnao/nao), Wren 2.0, OpenVikings 등 비슷한 문제를 푸는 프로젝트와 어떻게 다른지 묻는 댓글이 있었는데, 제작자의 공식 답변은 아직 없는 상태다.
- 정확도 측정 방법에 대한 질문이 있었다. 벤치마크 기반으로 정확도를 측정하는지, 파일 기반 접근 대신 그래프 기반 접근도 고려했는지, 그리고 시간이 지나면서 변하는 비즈니스 컨텍스트를 어떻게 처리하는지에 대한 기술적 질문이 제기됐다. 이는 실제 도입 전에 검토해야 할 핵심 사항이다.
- 에이전트 컨텍스트 관리가 아직 충분히 탐구되지 않은 영역이라는 공감대가 형성됐다. 한 댓글 작성자는 토큰 사용량을 낮게 유지하면서도 에이전트에게 충분한 컨텍스트를 주는 것이 핵심 과제라며, '계층형 검색(tiered retrieval, 먼저 핵심 사실만 주고 필요할 때만 전체 텍스트를 제공하는 방식)'이 실제로 잘 동작한다는 경험을 공유했다.
- Claude 외 다른 LLM 지원에 대한 질문도 있었다. 직장에서 GitHub Copilot을 쓰는 사람이 Claude 없이도 ktx를 사용할 수 있는지 물었는데, README에는 Anthropic API 키나 Vertex AI를 지원한다고 적혀 있지만 Copilot 직접 지원은 명확하지 않다.
How to Apply
- 데이터 팀이 '매출'이나 'DAU' 같은 핵심 메트릭을 팀마다 다르게 계산하는 문제가 있다면, ktx로 승인된 메트릭 정의를 시맨틱 레이어에 등록해두면 AI 에이전트가 항상 동일한 정의를 기반으로 쿼리를 작성하게 만들 수 있다.
- Claude Code나 Codex를 데이터 쿼리 자동화에 사용 중인데 에이전트가 매번 스키마를 처음부터 파악하느라 시간이 오래 걸린다면, ktx의 MCP 연동을 설정해서 에이전트가 기존에 매핑된 테이블 구조와 조인 패턴을 재사용하도록 해 탐색 시간을 줄일 수 있다.
- 회사 내부 위키나 Confluence에 데이터 관련 비즈니스 규칙이 흩어져 있는 경우, ktx의 지식 수집 기능으로 이를 자동으로 수집하고 정리해서 에이전트의 컨텍스트로 제공하면 비즈니스 담당자 없이도 에이전트가 올바른 로직을 적용할 수 있다.
- BigQuery나 Snowflake 쿼리 비용이 걱정된다면, 커뮤니티에서 제안된 것처럼 DuckDB 샌드박스 검증 기능이 추가되길 기다리거나 기여하는 방식을 고려해볼 수 있다. 현재는 이슈 트래커에 14개의 오픈 이슈가 있으므로 관련 기능 요청을 직접 올리는 것도 방법이다.
Terminology
관련 논문
ctx – 로컬 머신의 코딩 에이전트 히스토리를 검색하는 CLI 도구
Claude Code, Cursor, Codex 등 코딩 에이전트가 이전 세션의 논의·결정·실패 시도를 잊지 않도록 SQLite로 인덱싱해 재사용할 수 있게 해주는 오픈소스 CLI 도구다.
Micro-Agent: Model API 내부 협업으로 Frontier 모델을 이기는 방법 (vLLM Semantic Router)
vLLM 팀이 단일 모델 API 호출 뒤에서 여러 모델이 협업하는 'Micro-Agent' 개념을 공개했습니다. 별도의 에이전트 코드 없이 라우터 레이어에서 모델 조합을 실행해 GPT-4급 결과를 더 저렴하게 낼 수 있다는 아이디어입니다.
Ornith-1.0: 에이전틱 코딩을 위한 자기 개선형 오픈소스 모델
Gemma 4와 Qwen 3.5를 기반으로 파인튜닝한 코딩 특화 오픈소스 모델로, RL(강화학습)을 통해 스캐폴드(에이전트 실행 구조)까지 함께 최적화하는 방식을 주장하지만, 커뮤니티에서는 벤치마크 과최적화에 불과하다는 의심을 받고 있다.
Tool-Augmented Agent에서의 Entity Binding 실패 분석
AI 에이전트가 올바른 도구를 선택해도 잘못된 대상에 실행하는 'Entity Binding 실패' 문제를 정의하고, 이를 막는 실행 정책을 평가한 논문.
Herdr: 터미널에서 여러 AI Agent를 한 번에 관리하는 Agent Multiplexer
여러 AI 코딩 에이전트(Claude, Codex 등)를 하나의 터미널에서 동시에 실행·관리할 수 있는 Rust 기반 오픈소스 툴로, tmux처럼 세션이 유지되고 SSH로 원격 접속도 가능해 멀티 에이전트 워크플로우를 크게 단순화해준다.
Ornith-1.0: 스스로 Scaffold를 생성하는 Agentic Coding LLM
모델이 문제 풀이 전략(scaffold)을 직접 생성하고 개선하는 자기강화 학습 프레임워크를 적용한 오픈소스 코딩 특화 LLM으로, 9B 소형 모델부터 397B 대형 모델까지 라인업을 갖추고 SWE-Bench 등 주요 벤치마크에서 Claude Opus 4.7을 능가하는 성능을 보여줬다.