分词器

用于将文本分割成词元的工具和算法，适用于 NLP、搜索引擎和语言建模。

Tiny BPE Trainer – 一个快速且轻量的 C++ BPE 训练器

2025-08-07 4 分钟阅读编程教程人工智能 AI 洞察现代编程 101 C++语言 Huggingface Transformers 分词器机器学习开源文本处理字节对编码

Tiny BPE Trainer 介绍如今，从 GPT 到 RoBERTa，大多数现代 NLP 模型都依赖于使用字节对编码 (BPE) 的子词标记化。但是，如果您想用纯 C++ 训练自己的词汇表，该怎么办？认识一下Tiny BPE Trainer——一款速度超快、仅包含头文件的 BPE 训练器，采用现代 C++ 17/20 编写，零依赖，完全支持UTF-8 编码，并兼容 HuggingFace 的输出（vocab.txt、merges.txt）。为什么要添加另一个 BPE Trainer？因为现有的方案通常：仅支持 Python，运行时依赖性很强（Rust、Protobuf 等）不易嵌入到 C++ 应用程序不注重速度、简...

继续阅读

用于 NLP 和 ML 的快速、支持 UTF-8 的 C++ 标记器

2025-08-06 4 分钟阅读编程教程人工智能 AI 洞察现代编程 101 BERT C++语言 Transformers 分词器机器学习开源文本处理自然语言处理

现代文本分词器简介BERT、DistilBERT 和其他基于 Transformer 的架构等现代自然语言处理 (NLP) 模型高度依赖于有效的分词。但 C++ 开发者经常面临诸多限制，例如依赖项过多、Unicode 支持不佳，或与基于词汇的编码器缺乏兼容性。正因如此，我创建了现代文本分词器——一款速度超快、仅使用标头文件的 C++ 分词器，它支持 UTF-8 编码、零依赖，并且开箱即用，机器学习就绪。它的独特之处？零依赖 – 无需 Boost、无需 ICU、无需外部库。 UTF-8 安全 – 可正确处理多语言文本、表情符号和多字节字符。仅使用标头文件 – 将其添加到您的项目中即可使用。词汇编码 –...

继续阅读