본문으로 건너뛰기
김성연
AI Research Engineer, Brain Crew
모든 저자 보기

SEISMIC: Learned Sparse Retrieval을 위한 효율적 역색인 구조

· 약 4분
김성연
AI Research Engineer, Brain Crew

논문: Bruch et al., "Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations", SIGIR 2024 (arXiv:2404.18812)

TL;DR

Splade 같은 Learned Sparse Representation(LSR) 모델은 해석 가능한 희소 벡터를 생성하지만, 기존 역색인(WAND/MaxScore)으로는 쿼리당 약 100ms가 걸려 실시간 서비스가 어렵습니다. SEISMIC은 LSR 벡터의 "소수 좌표에 L1 mass가 집중되는 현상"을 발견하고, 이를 활용한 Static Pruning + Geometric Blocking + Summary Vector 기반의 새로운 인덱스 구조를 제안하여, 95% 정확도에서 303μs(기존 대비 100~330배 빠름)의 검색 속도를 달성합니다.