Presentazione di Tiny BPE TrainerLa maggior parte dei modelli NLP moderni, da GPT a RoBERTa, si basa sulla tokenizzazione delle sottoparole tramite Byte Pair Encoding (BPE). Ma cosa succede se si desidera addestrare il proprio vocabolario in puro C++? Vi presentiamo Tiny BPE Trainer: un trainer BPE velocissimo, basato...