分詞器

用於將文本分割成詞元的工具和算法，適用於 NLP、搜尋引擎和語言建模。

Tiny BPE Trainer – 一個快速且輕量的 C++ BPE 訓練器

2025-08-07 4 分鐘閱讀人工智慧程式設計教學 AI 洞見現代程式設計 101 C++語言 Huggingface Transformers 分詞器文本處理位元組對編碼開源機器學習

Tiny BPE Trainer 介紹如今，從 GPT 到 RoBERTa，大多數現代 NLP 模型都依賴於使用位元組對編碼 (BPE) 的子詞標記化。但是，如果您想用純 C++ 訓練自己的詞彙表，該怎麼辦？認識Tiny BPE Trainer——一款速度超快、僅包含頭檔的 BPE 訓練器，採用現代 C++ 17/20 編寫，零依賴，完全支援UTF-8 編碼，並相容於 HuggingFace 的輸出（vocab.txt、merges.txt）。為什麼要再增加一個 BPE Trainer？因為現有的方案通常：僅支援 Python，運行時依賴性很強（Rust、Protobuf 等）不易嵌入到 C++ 應用程式不注重速度、簡潔...

繼續閱讀

用於 NLP 和 ML 的快速、支援 UTF-8 的 C++ 標記器

2025-08-06 4 分鐘閱讀人工智慧程式設計教學 AI 洞見現代程式設計 101 BERT C++語言 Transformers 分詞器文本處理自然語言處理開源機器學習

現代文本分詞器簡介BERT、DistilBERT 和其他基於 Transformer 的架構等現代自然語言處理 (NLP) 模型高度依賴有效的分詞。但 C++ 開發者經常面臨許多限制，例如依賴項過多、Unicode 支援不佳，或與基於詞彙的編碼器缺乏相容性。正因如此，我創建了現代文本分詞器——一款速度超快、僅使用標頭文件的 C++ 分詞器，它支援 UTF-8 編碼、零依賴，並且開箱即用，機器學習就緒。它的獨特之處？零依賴 – 無需 Boost、無需 ICU、無需外部函式庫。 UTF-8 安全性 – 可正確處理多語言文字、表情符號和多位元組字元。僅使用標頭檔案 – 將其新增至您的專案中即可使用。詞彙編碼 –...

繼續閱讀