OntoProbe
메커니즘 해석성 연구를 위한 온톨로지 기반 프로브 셋 엔진.
Multilingual · Structured · CC BY 4.0 공개 예정
Dataset
16개 어휘 토픽 × 16개 문법 기능 의 2차원 매트릭스. CEFR / JLPT / TOPIK 난이도로 등급화. 영어·일본어·한국어의 평행 온톨로지로 공개.
| 언어 | 어휘 | 문법 패턴 | 레벨 기준 |
|---|---|---|---|
| 영어 | 1,666 | 1,357 | CEFR A1–C2 |
| 일본어 | — | 700 | JLPT N5–N1 |
| 한국어 | 개발 중 | 개발 중 | TOPIK I–II |
모든 항목은 16×16 토픽-기능 매트릭스 위에서 체계적으로 분류. 항목 간 관계, 연습 문제, 시험 문제 형식의 부속 데이터셋이 함께 공개됩니다.
Engine
데이터셋의 뒤에는 생성 엔진이 있습니다. LLM 기반 파이프라인이 온톨로지의 2D 매트릭스와 난이도 등급을 제약으로 활용해 *주문형* 프로브 문장을 합성합니다. 매트릭스의 어떤 셀에서도 지원 언어 중 어느 것으로든 맞춤 프로브 생성 가능.
엔진 자체의 공개는 resource paper 와 함께 진행됩니다. 그 전까지는 정적 데이터셋이 공개된 프로브 문장 범위를 cover.
사용된 논문
-
paper 12 — Interpretable Heads, Redundant Output: Multi-Layer MLP Causality and Steerable Grammar in Causal Language Models (2019–2024)
Cynn, 2026. OntoProbe-EN의 75-문장 subset (15 functions × 5 examples, 전체 dataset 의 5.5%) 을 cross-LLM 문법 메커니즘 분석에 사용.
소개
OntoProbe 는 River Lab 이 개발 / 운영합니다. 온톨로지 설계와 엔진은 저자 본인의 원작이며, CEFR 정렬 철학은 Cambridge English Profile 프로젝트의 영향을 받았습니다. 데이터셋은 CC BY 4.0, 엔진 코드는 Apache 2.0 으로 공개 예정.
유사한 선행 작업을 알고 계시면 알려주세요. 2026년 시점의 문헌 조사 결과, 다국어 2D 온톨로지 매트릭스 + 난이도 등급 + 생성 엔진의 결합과 일치하는 공개 작업은 확인되지 않았습니다.
진행 상황
- 2026 H1 — paper 12 (준비 중) 에서 참조
- 2026 H2 — 영어 데이터셋 공개 (Zenodo + HuggingFace)
- 2026 H2–H3 — 일본어 / 한국어 순차 공개
- 2026 H3+ — 엔진 코드 공개 (Apache 2.0)