<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Textverarbeitung on [ MECANIK DEV ]</title><link>https://mecanik.dev/de/tags/text-processing/</link><description>Recent content in Textverarbeitung on [ MECANIK DEV ]</description><generator>Hugo -- gohugo.io</generator><language>de</language><copyright>Copyright © 2020-{year} by [ MECANIK DEV ]. All Rights Reserved.</copyright><lastBuildDate>Thu, 07 Aug 2025 20:00:00 +0100</lastBuildDate><atom:link href="https://mecanik.dev/de/tags/text-processing/index.xml" rel="self" type="application/rss+xml"/><item><title>Tiny BPE Trainer - Ein schneller und leichter BPE-Trainer in C++</title><link>https://mecanik.dev/de/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/</link><pubDate>Thu, 07 Aug 2025 20:00:00 +0100</pubDate><guid>https://mecanik.dev/de/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/</guid><description>Wir stellen vor: Tiny BPE TrainerDie meisten modernen NLP-Modelle, von GPT bis RoBERTa, basieren heute auf der Tokenisierung von Teilwörtern mittels Byte Pair Encoding (BPE). Doch was, wenn Sie Ihren eigenen Wortschatz in reinem C++ trainieren möchten?
Lernen Sie den Tiny BPE Trainer kennen - einen blitzschnellen, Header-only-BPE-Trainer, geschrieben in modernem C++17/20, mit null Abhängigkeiten, voller UTF-8-Unterstützung und HuggingFace-kompatibler Ausgabe (vocab.txt, merges.txt).
Warum noch ein BPE-Trainer?Bestehende Optionen sind oft:
Nur Python, mit starken Laufzeitabhängigkeiten (Rust, Protobuf usw.</description></item><item><title>Ein schneller, UTF-8-fähiger C++-Tokenizer für NLP und ML</title><link>https://mecanik.dev/de/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/</link><pubDate>Wed, 06 Aug 2025 06:00:00 +0100</pubDate><guid>https://mecanik.dev/de/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/</guid><description>Einführung des Modern Text TokenizersModerne Modelle der natürlichen Sprachverarbeitung (NLP) wie BERT, DistilBERT und andere transformerbasierte Architekturen setzen stark auf effektive Tokenisierung. C++-Entwickler sehen sich jedoch oft mit eingeschränkten Möglichkeiten wie überladenen Abhängigkeiten, unzureichender Unicode-Unterstützung oder mangelnder Kompatibilität mit vocab-basierten Encodern konfrontiert.
Deshalb habe ich den Modern Text Tokenizer entwickelt – einen blitzschnellen, header-only C++-Tokenizer, der UTF-8-fähig, unabhängig und ML-fähig ist.
Was macht ihn einzigartig? Keine Abhängigkeiten – Kein Boost, keine ICU, keine externen Bibliotheken.</description></item></channel></rss>