Modern Text Tokenizer suportă texte multilingve și emoji?

Da, este complet compatibil cu UTF-8 și gestionează corect caractere multibyte, emoji și scripturi non-latine.

Care sunt performanțele acestui tokenizator?

Testele de performanță arată o rată de procesare de 36,97 MB/s pe un Ryzen 9 5900X, cu o durată de 2159 μs pentru 174.000 de caractere.

Poate fi folosit cu modelele BERT sau DistilBERT?

Da, pur și simplu descarcă fișierul vocab.txt de la HuggingFace (ex. distilbert-base-uncased) și încarcă-l cu tokenizer.load_vocab().

Este biblioteca compatibilă cu sisteme embedded?

Absolut. Nu are dependențe externe (fără Boost, ICU etc.) și este doar header, ideală pentru medii cu resurse limitate.

Ce standard C++ este necesar?

Este necesar C++17 sau o versiune mai nouă pentru performanță optimă și funcționalitate completă.

Un tokenizer C++ rapid, compatibil cu UTF-8, pentru NLP și ML

Prezentarea Modern Text Tokenizer

Modelele moderne de procesare a limbajului natural (NLP), precum BERT, DistilBERT și alte arhitecturi bazate pe transformatoare, se bazează în mare măsură pe o tokenizare eficientă. Însă dezvoltatorii C++ se confruntă adesea cu opțiuni limitate, cum ar fi dependențe supradimensionate, suport Unicode slab sau lipsa de compatibilitate cu codificatoarele bazate pe vocabular.

De aceea am creat Modern Text Tokenizer - un tokenizer C++ extrem de rapid, doar pentru antet, care este compatibil cu UTF-8, fără dependențe și pregătit pentru ML din cutie.

Ce îl face unic?

Zero dependențe – Fără Boost, fără ICU, fără biblioteci externe.
UTF-8 Safe – Gestionează corect textul multilingv, emoji-urile și caracterele multi-octeți.
Doar pentru antet – Includeți-l în proiectul dvs. și gata.
Codare vocabular – Încărcați vocab.txt din HuggingFace și generați ID-uri de tokenuri.
Compatibilitate cu Transformer – Acceptă [CLS], [SEP], [PAD] și formatarea secvențelor.

Caracteristici cheie

Ramificare rapidă ASCII vs. Unicode folosind std::string_view

API Fluent pentru configurare:

1TextTokenizer tokenizer;
2tokenizer
3.set_lowercase(true)
4.set_split_on_punctuation(true)
5.set_keep_punctuation(true);

Încărcați vocabularul:
```
1tokenizer.load_vocab("vocab.txt");
```

Codificare / Decodificare:

1auto ids = tokenizer.encode("Hello world!");
2std::string decoded = tokenizer.decode(ids);

Performanță

1Test de performanță cu 174000 de caractere
2
3Rezultate:
4Tokenizare: 2159 μs (22000 de tokenuri)
5Codificare: 1900 μs
6Decodare: 430 μs
7Timp total: 4,49 ms
8Debit: 36,97 MB/s

Test testat pe Ryzen 9 5900X @ -O3 în modul de lansare.

Cum se utilizează

Adăugați fișierul antet:

1#include "Modern-Text-Tokenizer.hpp"

Apoi compilați:

1g++ -std=c++17 -O3 -o tokenizer_demo main.cpp

Vrei să îl folosești cu BERT sau DistilBERT? Descarcă fișierul de vocabular:

1curl -O https://huggingface.co/distilbert/distilbert-base-uncased/raw/main/vocab.txt

Construcții CI multi-platformă

OS	Status
Ubuntu	✅
Windows	✅
GitHub Actions

Cazuri de utilizare

Preprocesare text pentru modele ML în C++
NLP pe dispozitiv (fără costuri suplimentare Python)
Instrumente CLI de înaltă performanță
Sisteme integrate fără dependențe de execuție

Încercați acum

Modern Text Tokenizer este live și gata pentru proiectele dvs.

Clonați, compilați și tokenizați în câteva secunde: Modern Text Tokenizer

Un Tokenizer C++ Rapid, Compatibil Cu UTF-8, Pentru NLP Și ML

Prezentarea Modern Text Tokenizer

Ce îl face unic?

Caracteristici cheie

Performanță

Cum se utilizează

Construcții CI multi-platformă

Cazuri de utilizare

Încercați acum

Comentarii

Lasă un comentariu

Un Tokenizer C++ Rapid, Compatibil Cu UTF-8, Pentru NLP Și ML

Prezentarea Modern Text Tokenizer

Ce îl face unic?

Caracteristici cheie

Performanță

Cum se utilizează

Construcții CI multi-platformă

Cazuri de utilizare

Încercați acum

Articole similare

Comentarii

Lasă un comentariu Anulează răspunsul

Lasă un comentariu