Modern Text Tokenizerは多言語テキストや絵文字に対応していますか？

はい。UTF-8に完全対応しており、マルチバイト文字、絵文字、非ラテン文字の処理も正確に行えます。

このトークナイザーの性能はどうですか？

ベンチマークでは、Ryzen 9 5900X上で36.97MB/sのスループットを記録し、174,000文字のトークン化に2159μsを要します。

BERTやDistilBERTと一緒に使用できますか？

はい。HuggingFace（例：distilbert-base-uncased）から vocab.txt をダウンロードし、tokenizer.load_vocab() を使って読み込むだけです。

このライブラリは組み込みシステムと互換性がありますか？

もちろんです。依存ライブラリは一切なく（BoostやICUも不要）、ヘッダオンリー形式のため、リソース制限のある環境にも最適です。

必要なC++のバージョンは？

最適な機能とパフォーマンスを得るには、C++17以上の使用を推奨します。

NLPとMLのための高速でUTF-8対応のC++トークナイザー

Modern Text Tokenizer のご紹介

BERT、DistilBERT、その他のトランスフォーマーベースのアーキテクチャといった最新の自然言語処理 (NLP) モデルは、効果的なトークン化に大きく依存しています。しかし、C++ 開発者は、肥大化した依存関係、Unicode サポートの不足、語彙ベースのエンコーダーとの互換性の欠如など、選択肢が限られているという問題に直面することがよくあります。

そこで私は、Modern Text Tokenizer を開発しました。これは、UTF-8 対応、ゼロ依存関係、そして ML 対応 という、非常に高速でヘッダーのみの C++ トークナイザーです。

特徴

ゼロ依存関係 – Boost、ICU、外部ライブラリは不要です。
UTF-8 対応 – 多言語テキスト、絵文字、マルチバイト文字を正しく処理します。
ヘッダーのみ – プロジェクトにドロップするだけで使用できます。
語彙エンコーディング – HuggingFace からvocab.txtを読み込み、トークン ID を生成します。
Transformer 対応 – [CLS]、[SEP]、[PAD]、およびシーケンスフォーマットをサポートします。

主な機能

std::string_view を使用した ASCII と Unicode の高速分岐

設定用の Fluent API:

1  TextTokenizer tokenizer;
2  tokenizer
3  .set_lowercase(true)
4  .set_split_on_punctuation(true)
5  .set_keep_punctuation(true);
6

語彙を読み込む:

1  tokenizer.load_vocab("vocab.txt");
2

エンコード/デコード:

1  auto ids = tokenizer.encode("Hello world!");
2  std::string decoded = tokenizer.decode(ids);
3

パフォーマンス

1174,000 文字のパフォーマンステスト
2
3結果：
4トークン化：2,159 マイクロ秒（22,000 トークン）
5エンコード：1,900 マイクロ秒
6デコード：430 マイクロ秒
7合計時間：4.49 ミリ秒
8スループット：36.97MB/秒

リリースモードの Ryzen 9 5900X @ -O3 でベンチマークを実施しました。

使用方法

ヘッダーファイルを追加します。

1#include "Modern-Text-Tokenizer.hpp"

次にコンパイルします:

1g++ -std=c++17 -O3 -o tokenizer_demo main.cpp

BERT または DistilBERT と一緒に使用したいですか？語彙ファイルをダウンロードするだけです:

1curl -O https://huggingface.co/distilbert/distilbert-base-uncased/raw/main/vocab.txt

クロスプラットフォーム CI ビルド

OS	Status
Ubuntu	✅
Windows	✅
GitHub Actions

ユースケース

C++ による ML モデル向けテキスト前処理
デバイス内 NLP (Python のオーバーヘッドなし)
高性能 CLI ツール
ランタイムに依存しない組み込みシステム

今すぐ試す

Modern Text Tokenizer がリリースされました。プロジェクトにすぐにご利用いただけます。

クローン、コンパイル、トークン化は数秒で完了します: Modern Text Tokenizer

NLPとMLのための高速でUTF-8対応のC++トークナイザー

Modern Text Tokenizer のご紹介

特徴

主な機能

パフォーマンス

使用方法

クロスプラットフォーム CI ビルド

ユースケース

今すぐ試す

コメント

コメントを残す

NLPとMLのための高速でUTF-8対応のC++トークナイザー

Modern Text Tokenizer のご紹介

特徴

主な機能

パフォーマンス

使用方法

クロスプラットフォーム CI ビルド

ユースケース

今すぐ試す

コメント

コメントを残す 返信をキャンセル

コメントを残す