open source on [ MECANIK DEV ]

open source on [ MECANIK DEV ]https://mecanik.dev/fr/tags/open-source/Recent content in open source on [ MECANIK DEV ]Hugo -- gohugo.ioCopyright © 2020-{year} par [ MECANIK DEV ]. Tous droits réservés.Thu, 07 Aug 2025 20:00:00 +0100Tiny BPE Trainer – Un entraîneur BPE rapide et léger en C++https://mecanik.dev/fr/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/Thu, 07 Aug 2025 20:00:00 +0100https://mecanik.dev/fr/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/Présentation de Tiny BPE TrainerLa plupart des modèles de TAL modernes, de GPT à RoBERTa, s’appuient sur la tokenisation des sous-mots grâce au Byte Pair Encoding (BPE). Mais comment faire pour entraîner votre propre vocabulaire en C++ pur? Découvrez Tiny BPE Trainer: un entraîneur BPE ultra-rapide, basé uniquement sur les en-têtes, écrit en C++ 17/20 moderne, sans aucune dépendance, avec une prise en charge complète de l’UTF-8 et une sortie compatible HuggingFace (vocab.Tokenizer C++ rapide et UTF-8 pour le NLP et le MLhttps://mecanik.dev/fr/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/Wed, 06 Aug 2025 06:00:00 +0100https://mecanik.dev/fr/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/Présentation de Modern Text TokenizerLes modèles modernes de traitement du langage naturel (TALN) comme BERT, DistilBERT et d’autres architectures basées sur des transformateurs reposent fortement sur une tokenisation efficace. Cependant, les développeurs C++ sont souvent confrontés à des options limitées, comme des dépendances excessives, une mauvaise prise en charge d’Unicode ou un manque de compatibilité avec les encodeurs basés sur le vocabulaire. C’est pourquoi j’ai créé Modern Text Tokenizer: un tokenizer C++ ultra-rapide, uniquement en-tête, compatible UTF-8, sans dépendance et compatible ML, prêt à l’emploi.