Tiny BPE Trainer 介紹如今,從 GPT 到 RoBERTa,大多數現代 NLP 模型都依賴於使用位元組對編碼 (BPE) 的子詞標記化。但是,如果您想用純 C++ 訓練自己的詞彙表,該怎麼辦? 認識Tiny BPE Trainer——一款速度超快、僅包含頭檔的 BPE 訓練器,採用現代 C++ 17/20 編寫,零依賴,完全支援UTF-8 編碼,並相容於 HuggingFace 的輸出(vocab.txt、merges.txt)。 為什麼要再增加一個 BPE Trainer?因為現有的方案通常: 僅支援 Python,運行時依賴性很強(Rust、Protobuf 等) 不易嵌入到 C++ 應用程式 不注重速度、簡潔...