Tiny BPE Trainer 介绍如今,从 GPT 到 RoBERTa,大多数现代 NLP 模型都依赖于使用字节对编码 (BPE) 的子词标记化。但是,如果您想用纯 C++ 训练自己的词汇表,该怎么办? 认识一下Tiny BPE Trainer——一款速度超快、仅包含头文件的 BPE 训练器,采用现代 C++ 17/20 编写,零依赖,完全支持UTF-8 编码,并兼容 HuggingFace 的输出(vocab.txt、merges.txt)。 为什么要添加另一个 BPE Trainer?因为现有的方案通常: 仅支持 Python,运行时依赖性很强(Rust、Protobuf 等) 不易嵌入到 C++ 应用程序 不注重速度、简...

现代文本分词器简介BERT、DistilBERT 和其他基于 Transformer 的架构等现代自然语言处理 (NLP) 模型高度依赖于有效的分词。但 C++ 开发者经常面临诸多限制,例如依赖项过多、Unicode 支持不佳,或与基于词汇的编码器缺乏兼容性。 正因如此,我创建了 现代文本分词器——一款速度超快、仅使用标头文件的 C++ 分词器,它支持 UTF-8 编码、零依赖,并且开箱即用,机器学习就绪。 它的独特之处? 零依赖 – 无需 Boost、无需 ICU、无需外部库。 UTF-8 安全 – 可正确处理多语言文本、表情符号和多字节字符。 仅使用标头文件 – 将其添加到您的项目中即可使用。 词汇编码 –...