<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Transformers on [ MECANIK DEV ]</title><link>https://mecanik.dev/it/tags/transformers/</link><description>Recent content in Transformers on [ MECANIK DEV ]</description><generator>Hugo -- gohugo.io</generator><language>it</language><copyright>Copyright © 2020-{year} di [MECANIK DEV]. Tutti i diritti riservati.</copyright><lastBuildDate>Thu, 07 Aug 2025 20:00:00 +0100</lastBuildDate><atom:link href="https://mecanik.dev/it/tags/transformers/index.xml" rel="self" type="application/rss+xml"/><item><title>Tiny BPE Trainer – Un trainer BPE veloce e leggero in C++</title><link>https://mecanik.dev/it/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/</link><pubDate>Thu, 07 Aug 2025 20:00:00 +0100</pubDate><guid>https://mecanik.dev/it/posts/tiny-bpe-trainer-a-fast-and-lightweight-bpe-trainer-in-c++/</guid><description>Presentazione di Tiny BPE TrainerLa maggior parte dei modelli NLP moderni, da GPT a RoBERTa, si basa sulla tokenizzazione delle sottoparole tramite Byte Pair Encoding (BPE). Ma cosa succede se si desidera addestrare il proprio vocabolario in puro C++?
Vi presentiamo Tiny BPE Trainer: un trainer BPE velocissimo, basato solo su header, scritto in C++17/20 moderno, con zero dipendenze, supporto completo per UTF-8 e output compatibile con HuggingFace (vocab.txt, merges.txt).</description></item><item><title>Un tokenizzatore C++ veloce e compatibile con UTF-8 per NLP e ML</title><link>https://mecanik.dev/it/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/</link><pubDate>Wed, 06 Aug 2025 06:00:00 +0100</pubDate><guid>https://mecanik.dev/it/posts/a-fast-utf-8-aware-c++-tokenizer-for-nlp-ml/</guid><description>Presentazione di Modern Text TokenizerI moderni modelli di elaborazione del linguaggio naturale (NLP) come BERT, DistilBERT e altre architetture basate su trasformatori si basano fortemente su una tokenizzazione efficace. Tuttavia, gli sviluppatori C++ spesso si trovano ad affrontare opzioni limitate, come dipendenze eccessive, scarso supporto Unicode o mancanza di compatibilità con gli encoder basati su vocabolario.
Ecco perché ho creato Modern Text Tokenizer: un tokenizzatore C++ incredibilmente veloce, solo header, compatibile con UTF-8, senza dipendenze e pronto per il ML fin da subito.</description></item></channel></rss>