Tokeny: Tajná slova umělé inteligence

Když pracujete s AI nástroji jako ChatGPT nebo Llama, neustále narážíte na tajemné “tokeny”. Každý model má nějaký “kontextový limit tokenů” a vy jen matně tušíte, že je to něco jako počet slov, která můžete do modelu nacpat. Ale co to vlastně je?

Ani ryba, ani rak, ale token

Token není slovo. Token není písmeno. Token není ani slabika, přestože se to tak často zjednodušuje. Je to spíš… no, token! Jedinečná jednotka, kterou si jazykový model zvolil jako svou základní stavební cihlu pro porozumění textu.

Představte si to jako periodickou tabulku prvků pro jazyk. Některé prvky jsou jednoduché (písmeno “a”), některé složitější (“j”, “abl”, “ko”), a některé docela exotické (třeba “-shop” s tím pomlčkou na začátku).

A jak to vypadá v praxi?

Vezměme si ukázkovou větu:

Náš srovnávač zahrnuje populární platební brány jako GoPay, Comgate, Shoptet Pay, PayU a Global Payments. Nemusíte složitě hledat informace, ceníky, testovat demo verze nebo porovnávat jednotlivé funkce. Všechny důležité parametry jsme shrnuli na jedno místo, abyste si mohli snadno vybrat tu nejvýhodnější platební bránu pro váš e-shop.

Tento text má 47 slov a 337 znaků, ale rozdělí se na 105 tokenů! Každý token pak dostane své identifikační číslo. Třeba tečka je reprezentována číslem 13, zatímco exotičtější token jako “-shop” má číslo 100079.

Náš text se tak v “řeči AI” stává sekvencí čísel:

[
  45, 78176, 265, 23944, 28007, 2873, 781, 103813, 8502, 1587,
  24357, 199280, 14651, 65, 7067, 1294, 35794, 27135, 7857,
  15753, 11, 1390, 33990, 11, 1955, 3374, 292, 11961, 11,
  11961, 52, 261, 11459, 81555, 13, 49376, 385, 48841, 62171,
  52529, 3708, 151452, 266, 178840, 11, 274, 28826, 5781,
  11, 1746, 33711, 26325, 1245, 1547, 36475, 1382, 569, 28007,
  16027, 164618, 377, 20263, 400, 13, 631, 13136, 104996,
  78044, 148987, 3761, 3802, 23993, 66526, 20387, 77, 6824,
  898, 87476, 160408, 11, 692, 114571, 1784, 69821, 1307,
  140602, 1750, 14190, 1697, 266, 3334, 35681, 178589,
  36538, 107673, 14651, 65, 7067, 1294, 125254, 440, 194304,
  319, 100079, 13
]

Proč je to důležité?

Když chatujete s umělou inteligencí, váš text se nejprve rozdělí na tokeny a převede na čísla. AI pak pracuje s těmito čísly, a když generuje odpověď, předpovídá další čísla v sekvenci, která se zpět překládají na lidský jazyk.

Proto také různé jazyky zabírají různý počet tokenů. Čeština je na tokeny o něco náročnější než angličtina, a ještě hůř jsou na tom třeba asijské jazyky s komplexními písmy.

Chcete si to vyzkoušet?

Na adrese https://platform.openai.com/tokenizer si můžete jakýkoliv text sami převést na tokeny a podívat se, jak vypadá váš oblíbený citát nebo kód v tajné řeči umělé inteligence.

Zkuste tam třeba napsat svoje jméno – možná budete překvapeni, na kolik kousků ho AI rozkrájí!

✉️

V Headers pomáháme firmám implementovat umělou inteligenci do jejich systémů a procesů.
Pokud chcete vědět, jak by mohla AI posunout vaše podnikání, neváhejte nás kontaktovat na:

info@headers.cz