Tiny BPE Trainer 介绍如今,从 GPT 到 RoBERTa,大多数现代 NLP 模型都依赖于使用字节对编码 (BPE) 的子词标记化。但是,如果您想用纯 C++ 训练自己的词汇表,该怎么办? 认识一下Tiny BPE Trainer——一款速度超快、仅包含头文件的 BPE 训练器,采用现代 C++ 17/20 编写,零依赖,完全支持UTF-8 编码,并兼容 HuggingFace 的输出(vocab.txt、merges.txt)。 为什么要添加另一个 BPE Trainer?因为现有的方案通常: 仅支持 Python,运行时依赖性很强(Rust、Protobuf 等) 不易嵌入到 C++ 应用程序 不注重速度、简...