Textverarbeitung on [ MECANIK DEV ]

Textverarbeitung on [ MECANIK DEV ]https://mecanik.dev/de/tags/text-processing/Recent content in Textverarbeitung on [ MECANIK DEV ]Hugo -- gohugo.ioCopyright © 2020-{year} by [ MECANIK DEV ]. All Rights Reserved.Thu, 07 Aug 2025 20:00:00 +0100Tiny BPE Trainer - Ein schneller und leichter BPE-Trainer in C++https://mecanik.dev/de/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/Thu, 07 Aug 2025 20:00:00 +0100https://mecanik.dev/de/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/Wir stellen vor: Tiny BPE TrainerDie meisten modernen NLP-Modelle, von GPT bis RoBERTa, basieren heute auf der Tokenisierung von Teilwörtern mittels Byte Pair Encoding (BPE). Doch was, wenn Sie Ihren eigenen Wortschatz in reinem C++ trainieren möchten? Lernen Sie den Tiny BPE Trainer kennen - einen blitzschnellen, Header-only-BPE-Trainer, geschrieben in modernem C++17/20, mit null Abhängigkeiten, voller UTF-8-Unterstützung und HuggingFace-kompatibler Ausgabe (vocab.txt, merges.txt). Warum noch ein BPE-Trainer?Bestehende Optionen sind oft: Nur Python, mit starken Laufzeitabhängigkeiten (Rust, Protobuf usw.Ein schneller, UTF-8-fähiger C++-Tokenizer für NLP und MLhttps://mecanik.dev/de/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/Wed, 06 Aug 2025 06:00:00 +0100https://mecanik.dev/de/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/Einführung des Modern Text TokenizersModerne Modelle der natürlichen Sprachverarbeitung (NLP) wie BERT, DistilBERT und andere transformerbasierte Architekturen setzen stark auf effektive Tokenisierung. C++-Entwickler sehen sich jedoch oft mit eingeschränkten Möglichkeiten wie überladenen Abhängigkeiten, unzureichender Unicode-Unterstützung oder mangelnder Kompatibilität mit vocab-basierten Encodern konfrontiert. Deshalb habe ich den Modern Text Tokenizer entwickelt – einen blitzschnellen, header-only C++-Tokenizer, der UTF-8-fähig, unabhängig und ML-fähig ist. Was macht ihn einzigartig? Keine Abhängigkeiten – Kein Boost, keine ICU, keine externen Bibliotheken.