Ampliación de Conjuntos de Datos

Consiste en la creación de nuevos datos a partir de un conjunto de datos existente mediante técnicas automáticas o semi-automáticas.
Se utiliza para aumentar la cantidad y diversidad de datos disponibles, lo que mejora la capacidad de los modelos de aprendizaje automático para generalizar y resolver problemas eficientemente.
Incluye métodos como el aumento de datos, la generación de datos sintéticos, la interpolación o extrapolación de datos, y el uso de modelos generativos.
En tareas de visión por computadora, es común aplicar transformaciones como rotaciones, recortes, cambios de brillo o filtros para enriquecer conjuntos de imágenes.
En procesamiento del lenguaje natural, se pueden generar frases con sinónimos, reestructuraciones gramaticales o combinaciones de fragmentos textuales para expandir el corpus.
Es especialmente útil cuando los datos originales son limitados, costosos o difíciles de obtener, y ayuda a reducir el sesgo introducido por conjuntos de datos pequeños o no variados.
Su implementación correcta exige mantener la calidad y representatividad de los datos para garantizar que los modelos no aprendan patrones irrelevantes o erróneos.