Mediana, media y modo: Métricas esenciales para entender datos en IA

Comprender los datos es el primer paso esencial antes de enseñar a una máquina cómo aprender de ellos.
Las métricas como media, mediana y modo juegan un papel crucial al momento de analizar información en el contexto de la inteligencia artificial y el machine learning.
Son herramientas estadísticas básicas, pero potentes, que permiten comprender mejor la distribución y características de un conjunto de datos.
¿Por qué son importantes estas métricas en IA?
En cualquier proceso de desarrollo de modelos de machine learning, entender los datos es fundamental.
Sin una correcta exploración de las propiedades estadísticas de un conjunto, el modelo puede aprender de manera errónea.
La media, mediana y modo nos ayudan a descubrir valores típicos y patrones subyacentes.
Esto mejora la toma de decisiones y la calidad de los modelos predictivos.
¿Qué es la media?
La media es lo que comúnmente se conoce como "promedio".
Se calcula sumando todos los valores de un conjunto de datos y dividiéndolos por la cantidad total de observaciones.
Por ejemplo, si tienes los números 2, 4, 6 y 8, la media sería (2+4+6+8)/4 = 5.
Es una medida útil para describir el comportamiento general, especialmente en datos que están equilibrados.
Ventajas de la media:
Desventajas:
¿Qué es la mediana?
La mediana es el valor que se encuentra justo en el centro de un conjunto de datos ordenado.
Divide los datos en dos grupos iguales.
Si hay un número impar de datos, es el valor medio; si es par, es el promedio de los dos valores centrales.
Por ejemplo, en la serie 1, 3, 3, 6, 7, 8, 9, la mediana es 6.
Y en la serie 1, 3, 3, 6, 7, 8, la mediana sería (3+6)/2 = 4.5.
Ventajas de la mediana:
Desventajas:
¿Qué es el modo?
El modo es el valor que aparece con mayor frecuencia en un conjunto de datos.
Puede haber más de un modo si varios valores se repiten con la misma frecuencia.
Por ejemplo, en la lista 2, 4, 4, 6, 6, 7, el conjunto es bimodal porque 4 y 6 aparecen con la misma frecuencia.
Ventajas del modo:
Desventajas:
Impacto de estas métricas en modelos de machine learning
En modelos de aprendizaje supervisado, estas métricas ayudan a definir umbrales de decisión y normalización de datos.
También se utilizan en la identificación de valores atípicos, una tarea clave para mejorar el rendimiento del modelo.
Además, sirven para realizar una exploración preliminar del conjunto de datos antes de entrenar cualquier algoritmo.
Ejemplo contextual: Predicción de ingresos
Imagina que estás desarrollando un modelo para predecir ingresos mensuales en función de educación y experiencia.
Si el promedio de ingresos es $7,000 pero hay algunos salarios extremos de $200,000, el promedio no dice mucho.
En este caso, la mediana ($5,500 por ejemplo) ofrece una visión más realista del ingreso típico.
A su vez, si la mayoría gana entre $4,000 y $6,000, el modo puede indicar cuál es el ingreso más común.

Analizar las tres métricas en conjunto permite tomar mejores decisiones técnicas.
Se puede optar por una técnica de normalización robusta como la escalada mediana absoluta, menos sensible a outliers.
También puede influir en qué algoritmo utilizar, como árboles de decisión en lugar de regresión lineal.
El poder de una buena exploración: un caso real
En una empresa de análisis de opinión, se utilizaban reseñas de clientes para detectar emociones como felicidad o enojo.
Inicialmente, asumieron que las puntuaciones de 1 a 5 que los usuarios daban estaban normalmente distribuidas.
Tomaron la media como base para segmentar las opiniones: puntuaciones por encima de 3 se consideraban positivas.
Sin embargo, el rendimiento del modelo fue pobre.
Al revisar los datos con más detalle, descubrieron que el modo era 5 y la mayoría daba puntuación máxima, pero había un pequeño grupo muy crítico que daba 1 o 2.
Ese grupo distorsionaba la media, llevándola a 3.3.
Cuando comenzaron a usar la mediana como referencia, el modelo obtuvo una mejora del 20% en precisión.
También utilizaron el modo para identificar productos con más votos extremos, lo que permitió ajustar estrategias de marketing.
Este ajuste simple en cómo veían las métricas de tendencia central significó una transformación completa en la calidad del análisis.
¿Cuándo utilizar cada una?
Preguntas frecuentes
¿Se pueden usar las tres métricas al mismo tiempo?
Sí, de hecho, es recomendable usar media, mediana y modo en conjunto durante la exploración de datos.
Esto ofrece un panorama más amplio del comportamiento general del conjunto.
¿Qué métrica entiende mejor un algoritmo de ML?
No es que los algoritmos "entiendan" las métricas, sino que estas ayudan a preparar los datos eficazmente.
Elegir la métrica adecuada mejora la normalización, eliminación de outliers y selección de variables relevantes.
¿Cómo afecta esto a la inteligencia artificial?
Una IA alimentada con datos mal comprendidos produce resultados menos óptimos.
Estas métricas aseguran que la IA aprenda patrones reales y no distorsionados.
¿Puedo usar estas métricas en datos no numéricos?
La media y mediana son aplicables solo a datos numéricos.
El modo, sin embargo, es útil también para datos categóricos como nombres, colores o respuestas sí/no.
¿Es posible aplicar estas métricas a grandes cantidades de datos?
Absolutamente sí.
Hoy en día hay herramientas como pandas o NumPy que calculan estas métricas con rapidez incluso en millones de registros.
Además, se pueden aplicar técnicas como el muestreo para hacer estimaciones rápidas y representativas.
Lo importante es no olvidar su poder de síntesis sobre la estructura del dato.
En definitiva, medir, interpretar y actuar basados en media, mediana y modo puede marcar la diferencia entre un modelo predictivo mediocre y uno eficaz.
Estas métricas, aunque básicas, son pilares fundamentales del análisis exploratorio en IA.

Dominar su uso es dar un paso decisivo hacia la construcción de sistemas inteligentes precisos y confiables.
Deja una respuesta