Modern Text Tokenizer のご紹介BERT、DistilBERT、その他のトランスフォーマーベースのアーキテクチャといった最新の自然言語処理 (NLP) モデルは、効果的なトークン化に大きく依存しています。しかし、C++ 開発者は、肥大化した依存関係、Unicode サポートの不足、語彙ベースのエンコーダーとの互換性の欠如など、選択肢が限られているという問題に直面することがよくあります。 そこで私は、Modern Text Tokenizer を開発しました。これは、UTF-8 対応、ゼロ依存関係、そして ML 対応 という、非常に高速でヘッダーのみの C++ トークナイザーです。 特徴 ゼロ依存関係 –...