<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Tokenizáló on [ MECANIK DEV ]</title><link>https://mecanik.dev/hu/tags/tokenizer/</link><description>Recent content in Tokenizáló on [ MECANIK DEV ]</description><generator>Hugo -- gohugo.io</generator><language>hu</language><copyright>Szerzői jog © 2020-{year}, [MECANIK DEV]. Minden jog fenntartva.</copyright><lastBuildDate>Thu, 07 Aug 2025 20:00:00 +0100</lastBuildDate><atom:link href="https://mecanik.dev/hu/tags/tokenizer/index.xml" rel="self" type="application/rss+xml"/><item><title>Tiny BPE Trainer – Gyors és könnyű BPE-tréner C++ nyelven</title><link>https://mecanik.dev/hu/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/</link><pubDate>Thu, 07 Aug 2025 20:00:00 +0100</pubDate><guid>https://mecanik.dev/hu/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/</guid><description>Bemutatkozik a Tiny BPE TrainerA legtöbb modern NLP modell, a GPT-től a RoBERTa-ig, a Byte Pair Encoding (BPE) használatával alszó-tokenizációra támaszkodik. De mi van, ha a saját szókincsedet szeretnéd tiszta C++-ban képezni?
Ismerd meg a Tiny BPE Trainert - egy villámgyors, csak fejléceket tartalmazó BPE trainert, amely modern C++17/20-ban íródott, nulla függőséggel, teljes UTF-8 támogatással és HuggingFace-kompatibilis kimenettel (vocab.txt, merges.txt).
Miért van szükség egy újabb BPE Trainerre?Mivel a meglévő opciók gyakran:</description></item><item><title>Gyors, UTF-8 kompatibilis C++ tokenizáló NLP-hez és ML-hez</title><link>https://mecanik.dev/hu/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/</link><pubDate>Wed, 06 Aug 2025 06:00:00 +0100</pubDate><guid>https://mecanik.dev/hu/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/</guid><description>Bemutatkozik a Modern Text TokenizerA modern természetes nyelvi feldolgozási (NLP) modellek, mint például a BERT, a DistilBERT és más transzformátor-alapú architektúrák nagymértékben támaszkodnak a hatékony tokenizációra. A C++ fejlesztők azonban gyakran korlátozott lehetőségekkel szembesülnek, mint például a túlméretezett függőségek, a gyenge Unicode-támogatás vagy a szókincs-alapú kódolókkal való kompatibilitás hiánya.
Ezért hoztam létre a Modern Text Tokenizert - egy villámgyors, csak fejléc-alapú C++ tokenizert, amely UTF-8-tudatos, nulla függőségű és gépi tanulásra kész, azonnal használható.</description></item></channel></rss>