🧩 Tokens en Inteligencia Artificial
En esta clase vamos a ver uno de los conceptos más importantes y más ignorados cuando se empieza con IA: los tokens. Si vas a trabajar con modelos de lenguaje como desarrollador, entender los tokens no es opcional.
Los modelos de IA no entienden texto como lo hacemos los humanos. Aunque lo parezca, no procesan palabras ni frases, procesan tokens.
🧠 ¿Qué es un token?
Un token es un fragmento de texto. Puede ser:
- Una palabra completa
- Parte de una palabra
- Un carácter especial
- Incluso espacios o combinaciones de letras
Por ejemplo, una palabra como hola puede ser:
- 1 token
- 2 tokens
- O más
Y aquí viene lo importante: cómo se divide el texto en tokens depende del modelo.
🤖 Los modelos no tokenizan igual
No todos los modelos dividen el texto de la misma forma:
- GPT
- Gemini
- Claude (Anthropic)
Cada uno tiene su propio sistema de tokenización, por lo que:
- El mismo texto puede tener 11 tokens en un modelo
- Y 17 o 29 tokens en otro
👉 Los tokens no son comparables entre modelos.
Esto es totalmente normal y hay que asumirlo como parte del juego.
🌍 El idioma importa (y mucho)
El idioma que uses afecta directamente al número de tokens y, por tanto, al coste.
Algunos puntos clave:
- El inglés suele ser el idioma más eficiente
- El español no es malo, pero no es el mejor
- Idiomas como el alemán suelen generar más tokens
- Otros idiomas pueden ser especialmente ineficientes
Ejemplo real:
"I am"en inglés puede ser 1 solo token"yo soy"en español suelen ser 2 tokens
Parece una diferencia pequeña, pero a escala, suma mucho.
💸 ¿Por qué los tokens son tan importantes?
Porque la IA se paga por tokens, no por texto.
Los modelos te cobran por:
- Tokens de entrada (lo que tú envías)
- Tokens de salida (lo que el modelo responde)
Por ejemplo:
- Un modelo puede cobrar ~1,7 $ por millón de tokens de entrada
- Y ~14 $ por millón de tokens de salida
Cuantos más tokens:
- Más coste
- Más latencia
- Más consumo innecesario
📊 Diferencias de precio entre modelos
Cada proveedor tiene su estrategia:
- Algunos modelos son más baratos pero menos potentes
- Otros son más caros pero más precisos
- Algunos cambian el precio según:
- Si envías menos de X tokens
- O si superas cierto umbral (por ejemplo 200.000 tokens)
👉 Diseñar bien los prompts es también optimizar costes.
🛠️ Herramientas para contar tokens
Existen herramientas oficiales que permiten ver:
- Cómo se tokeniza un texto
- Cuántos tokens usa cada modelo
- Cómo cambia según el idioma o el proveedor
No son perfectas, pero te ayudan a evitar sorpresas.
🎯 Qué debes quedarte de esta clase
-
Los modelos de IA no entienden texto, entienden tokens
-
Los tokens dependen del modelo
-
El idioma influye directamente en el coste
-
Los tokens determinan:
- Precio
- Rendimiento
- Escalabilidad
-
Optimizar prompts no es solo escribir mejor, es escribir más eficiente
💡 Tip realista: si algo te parece barato al principio, revisa los tokens cuando escales. La mayoría de sustos en producción con IA vienen de aquí.
En la siguiente clase empezaremos a aplicar esto a prompts reales y a decisiones técnicas de verdad.