모던 텍스트 토크나이저 소개BERT, DistilBERT 및 기타 트랜스포머 기반 아키텍처와 같은 최신 자연어 처리(NLP) 모델은 효과적인 토큰화에 크게 의존합니다. 하지만 C++ 개발자는 과도한 종속성, 부족한 유니코드 지원, 어휘 기반 인코더와의 호환성 부족 등 제한적인 옵션에 직면하는 경우가 많습니다. 이러한 이유로 저는 모던 텍스트 토크나이저를 만들었습니다. UTF-8을 지원하고, 종속성 없이, ML에 바로 사용 가능한 초고속, 헤더 전용 C++ 토크나이저입니다. 특별한 점은 무엇일까요? 종속성 없음 – Boost, ICU, 외부 라이브러리 없음 UTF-8 ...