<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>開源 on [ MECANIK DEV ]</title><link>https://mecanik.dev/zh-tw/tags/open-source/</link><description>Recent content in 開源 on [ MECANIK DEV ]</description><generator>Hugo -- gohugo.io</generator><language>zh-Hant</language><copyright>版權所有 © 2020-{year} [ MECANIK DEV ]。 版權所有。</copyright><lastBuildDate>Thu, 07 Aug 2025 20:00:00 +0100</lastBuildDate><atom:link href="https://mecanik.dev/zh-tw/tags/open-source/index.xml" rel="self" type="application/rss+xml"/><item><title>Tiny BPE Trainer – 一個快速且輕量的 C++ BPE 訓練器</title><link>https://mecanik.dev/zh-tw/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/</link><pubDate>Thu, 07 Aug 2025 20:00:00 +0100</pubDate><guid>https://mecanik.dev/zh-tw/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/</guid><description>Tiny BPE Trainer 介紹如今，從 GPT 到 RoBERTa，大多數現代 NLP 模型都依賴於使用位元組對編碼 (BPE) 的子詞標記化。但是，如果您想用純 C++ 訓練自己的詞彙表，該怎麼辦</description></item><item><title>用於 NLP 和 ML 的快速、支援 UTF-8 的 C++ 標記器</title><link>https://mecanik.dev/zh-tw/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/</link><pubDate>Wed, 06 Aug 2025 06:00:00 +0100</pubDate><guid>https://mecanik.dev/zh-tw/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/</guid><description>現代文本分詞器簡介BERT、DistilBERT 和其他基於 Transformer 的架構等現代自然語言處理 (NLP) 模型高度依賴有效的分詞。但 C++ 開發者經常面臨許多限制，例</description></item></channel></rss>