Table of Contents
Muchos problemas de aprendizaje automático constan de cientos o miles de características. Tener un número tan grande de características plantea ciertos problemas.
Este problema también se conoce a veces como La Maldición de la Dimensionalidad y la Reducción de la Dimensionalidad o Reducción de la Dimensión es el proceso de reducir el número de variables aleatorias consideradas mediante la obtención de un conjunto de variables principales.
En otras palabras, el objetivo es tomar algo que es muy dimensional y reducirlo a algo que sea más fácil de trabajar, sin perder mucha información.
¿Qué es la Reducción de la dimensionalidad?
- Vivimos en una época en la que las conexiones entre los diferentes dispositivos han aumentado porque tienen más sensores y tecnologías de medición que controlan algunas acciones. Eso hace que las características que debemos analizar sean cada vez mayores y más ininteligibles.
- Estas técnicas nos ayudan a reducir la cantidad de información relevante que debemos guardar por lo que reducen mucho los costes de almacenamiento.
- Las dimensiones grandes son difíciles de entrenar, se necesita más potencia de cálculo y tiempo.
- En la mayoría de los conjuntos de datos encontramos una gran cantidad o datos repetidos, columnas que sólo tienen un valor o cuya varianza es tan pequeña que no son capaces de dar la información necesaria para el aprendizaje del modelo. La reducción de la dimensionalidad nos ayuda a filtrar esta información innecesaria.
- Una de las cosas más importantes es el ojo humano. No tenemos las mismas capacidades que una máquina, así que es necesario adaptar los datos para que se entiendan a través de nuestros sentidos. Este algoritmo facilita el trazado en dos o tres dimensiones de la distribución de nuestros datos.
- Multicolinealidad. La detección de la información redundante es importante para eliminar la innecesaria. Sucede muchas veces que se encuentran variables representadas en diferentes unidades de medida (Ejemplo: m y cm). Estas variables con una correlación tan fuerte no son útiles para la eficiencia y el aprendizaje del modelo.
Dimensión real vs dimensión aparente
- La dimensión real de los datos generalmente no es igual a la dimensión aparente de nuestro conjunto de datos.
- Grados de libertad y restricciones
Projection vs Manifold Learning
Projection: Esta técnica consiste en proyectar cada punto de datos que se encuentra en una dimensión alta, en un subespacio adecuado de menor dimensión de manera que se preserven aproximadamente las distancias entre los puntos.
Por ejemplo, en la figura siguiente, los puntos en 3D se proyectan en un plano 2D. Se trata de un subespacio de baja dimensión (2D) del espacio de alta dimensión (3D) y los ejes corresponden a las nuevas características z1 y z2 (las coordenadas de las proyecciones en el plano).
Manifold Learning: Manifold learning es un enfoque para la reducción no lineal de la dimensionalidad. Los algoritmos para esta tarea se basan en la idea de que la dimensionalidad de muchos conjuntos de datos es solo artificialmente alta.
Lineal vs no lineal
Los subespacios lineales pueden ser ineficaces para algunos conjuntos de datos. Si los datos están incrustados en una matriz, debemos capturar la estructura (desdoblamiento).
PCA – Análisis de componentes principales
La idea de la PCA es muy sencilla:
- Identificar el hiperplano más cercano a los datos
- Proyectar los datos en el hiperplano.
Varianza
Visualización de la varianza
Maximización de la varianza
El PCA es un maximizador de la varianza. Proyecta los datos originales en las direcciones donde la varianza es máxima.
En esta técnica, las variables se transforman en un nuevo conjunto de variables, que son combinaciones lineales de las variables originales. Este nuevo conjunto de variables se conoce como componentes principales.
Se obtienen de tal manera que el primer componente principal explica la mayor parte de la variación posible de los datos originales, tras lo cual cada componente sucesivo tiene la mayor varianza posible.
Componente principal
El eje que explica la máxima cantidad de varianza en el conjunto de entrenamiento se denomina componentes principales.
El eje ortogonal a este eje se llama segundo componente principal.
Así, en 2D, habrá 2 componentes principales. Sin embargo, para dimensiones más altas, PCA encontraría un tercer componente ortogonal a los otros dos componentes y así sucesivamente.