<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Open Source on [ MECANIK DEV ]</title><link>https://mecanik.dev/fr/tags/open-source/</link><description>Recent content in Open Source on [ MECANIK DEV ]</description><generator>Hugo -- gohugo.io</generator><language>fr</language><copyright>Copyright © 2020-{year} par [ MECANIK DEV ]. Tous droits réservés.</copyright><lastBuildDate>Thu, 07 Aug 2025 20:00:00 +0100</lastBuildDate><atom:link href="https://mecanik.dev/fr/tags/open-source/index.xml" rel="self" type="application/rss+xml"/><item><title>Tiny BPE Trainer – Un entraîneur BPE rapide et léger en C++</title><link>https://mecanik.dev/fr/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/</link><pubDate>Thu, 07 Aug 2025 20:00:00 +0100</pubDate><guid>https://mecanik.dev/fr/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/</guid><description>Présentation de Tiny BPE TrainerLa plupart des modèles de TAL modernes, de GPT à RoBERTa, s&amp;rsquo;appuient sur la tokenisation des sous-mots grâce au Byte Pair Encoding (BPE). Mais comment faire pour entraîner votre propre vocabulaire en C++ pur?
Découvrez Tiny BPE Trainer: un entraîneur BPE ultra-rapide, basé uniquement sur les en-têtes, écrit en C++ 17/20 moderne, sans aucune dépendance, avec une prise en charge complète de l&amp;rsquo;UTF-8 et une sortie compatible HuggingFace (vocab.</description></item><item><title>Tokenizer C++ rapide et UTF-8 pour le NLP et le ML</title><link>https://mecanik.dev/fr/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/</link><pubDate>Wed, 06 Aug 2025 06:00:00 +0100</pubDate><guid>https://mecanik.dev/fr/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/</guid><description>Présentation de Modern Text TokenizerLes modèles modernes de traitement du langage naturel (TALN) comme BERT, DistilBERT et d&amp;rsquo;autres architectures basées sur des transformateurs reposent fortement sur une tokenisation efficace. Cependant, les développeurs C++ sont souvent confrontés à des options limitées, comme des dépendances excessives, une mauvaise prise en charge d&amp;rsquo;Unicode ou un manque de compatibilité avec les encodeurs basés sur le vocabulaire.
C&amp;rsquo;est pourquoi j&amp;rsquo;ai créé Modern Text Tokenizer: un tokenizer C++ ultra-rapide, uniquement en-tête, compatible UTF-8, sans dépendance et compatible ML, prêt à l&amp;rsquo;emploi.</description></item></channel></rss>