Transformers

自然言語処理、コンピュータビジョン、その他の機械学習アプリケーション向けのTransformerベースのAIモデル。

Tiny BPE Trainer – 高速で軽量なC++製BPEトレーナー

2025-08-07 3 分読了プログラミングチュートリアル人工知能 AIの洞察モダンプログラミング 101 C++言語 Huggingface Transformers オープンソーストークナイザーテキスト処理バイトペア符号化機械学習

Tiny BPE Trainer のご紹介GPT から RoBERTa に至るまで、今日の多くの最新の NLP モデルは、バイトペアエンコーディング (BPE) を用いたサブワードトークン化に依存しています。しかし、純粋な C++ で独自の語彙を学習したい場合はどうすればよいでしょうか？ Tiny BPE Trainer をご紹介します。これは、最新の C++17/20 で記述された、超高速でヘッダーのみを使用する BPE トレーナーです。依存関係なし、完全な UTF-8 サポート、HuggingFace 互換の出力 (vocab.txt、merges.txt) を備えています。なぜ新たな BPE Trainer が必要なのか？既...

NLPとMLのための高速でUTF-8対応のC++トークナイザー

2025-08-06 2 分読了プログラミングチュートリアル人工知能 AIの洞察モダンプログラミング 101 BERT C++言語 Transformers オープンソーストークナイザーテキスト処理機械学習自然言語処理

Modern Text Tokenizer のご紹介BERT、DistilBERT、その他のトランスフォーマーベースのアーキテクチャといった最新の自然言語処理 (NLP) モデルは、効果的なトークン化に大きく依存しています。しかし、C++ 開発者は、肥大化した依存関係、Unicode サポートの不足、語彙ベースのエンコーダーとの互換性の欠如など、選択肢が限られているという問題に直面することがよくあります。そこで私は、Modern Text Tokenizer を開発しました。これは、UTF-8 対応、ゼロ依存関係、そして ML 対応という、非常に高速でヘッダーのみの C++ トークナイザーです。特徴ゼロ依存関係 –...