Table of Contents
t-SNE | T-distributed stochastic neighbor embedding
El objetivo es tomar un conjunto de puntos en un espacio de alta dimensión y encontrar una representación fiel de esos puntos en un espacio de menor dimensión, normalmente el plano 2D. El algoritmo no es lineal y se adapta a los datos subyacentes, realizando diferentes transformaciones en diferentes regiones. Esas diferencias pueden ser una fuente importante de confusión.
Conceptos previos
Función Softmax
Esta función está relacionada con la distribución gaussiana que se denomina en el documento anterior de t-SNE –> SNE.
Divergencia de Kullback Leiber
La divergencia de Kullback-Leibler, también llamada entropía relativa, es una medida de la diferencia entre una distribución de probabilidad y una segunda distribución de probabilidad de referencia.
Disimilitud
Probabilidad Neighbor
Una segunda característica de t-SNE es un parámetro ajustable, la «perplejidad», que indica (vagamente) cómo equilibrar la atención entre los aspectos locales y globales de los datos. El parámetro es, en cierto modo, una suposición sobre el número de vecinos cercanos que tiene cada punto. El valor de la perplejidad tiene un efecto complejo en las imágenes resultantes. El artículo original dice: «El rendimiento de SNE es bastante robusto a los cambios en la perplejidad, y los valores típicos están entre 5 y 50». Pero la historia es más matizada que eso. Sacar el máximo provecho de t-SNE puede significar analizar varias parcelas con diferentes perplejidades.
Ahí no acaban las complicaciones. Por ejemplo, el algoritmo t-SNE no siempre produce resultados similares en ejecuciones sucesivas, y hay hiperparámetros adicionales relacionados con el proceso de optimización.
Embedding
Un embedding o incrustración es esencialmente un espacio de baja dimensión al que se puede traducir un vector de alta dimensión. Durante la traducción, una incrustación preserva la relación semántica de las entradas colocando entradas similares cerca unas de otras en el espacio de incrustación. Intentemos entender este concepto con ejemplos. Aquí tenemos una captura de los creadores del proyector de incrustación, una herramienta que nos permite visualizar fácilmente datos de alta dimensión.
https://projector.tensorflow.org/
Perplejidad
La definición de perplejidad de Van der Maaten y Hinton puede interpretarse como una medida suave del número efectivo de vecinos. El rendimiento de t-SNE es bastante robusto a los cambios en la perplejidad, y los valores típicos están entre 5 y 50.
Con valores de perplejidad en el rango (5 – 50) sugerido por van der Maaten y Hinton, los diagramas muestran estos cúmulos, aunque con formas muy diferentes. Fuera de ese rango, las cosas se ponen un poco raras. Con la perplejidad 2, dominan las variaciones locales. La imagen para la perplejidad 100, con clusters fusionados, ilustra un escollo: para que el algoritmo funcione correctamente, la perplejidad debe ser realmente menor que el número de puntos. De lo contrario, las implementaciones pueden tener un comportamiento inesperado.
Iteración
Las imágenes de arriba muestran cinco ejecuciones diferentes con una perplejidad de 30. Las cuatro primeras se detuvieron antes de la estabilidad. Después de 10, 20, 60 y 120 pasos se pueden ver diseños con imágenes aparentemente unidimensionales e incluso puntuales de los clusters.
Si ve un gráfico de t-SNE con extrañas formas «pellizcadas», lo más probable es que el proceso se haya detenido demasiado pronto. Desgraciadamente, no hay un número fijo de pasos que produzca un resultado estable. Diferentes conjuntos de datos pueden requerir diferentes números de iteraciones para converger.
Otra pregunta natural es si diferentes ejecuciones con los mismos hiperparámetros producen los mismos resultados. En este sencillo ejemplo de dos clústeres, y en la mayoría de los otros que discutimos, múltiples ejecuciones dan la misma forma global. Sin embargo, algunos conjuntos de datos producen diagramas muy diferentes en diferentes ejecuciones; más adelante daremos un ejemplo de uno de ellos.
Agrupaciones con diferente interdistancia
Sorprendentemente, los dos conglomerados parecen tener el mismo tamaño en los gráficos de t-SNE. ¿Qué ocurre? El algoritmo t-SNE adapta su noción de «distancia» a las variaciones regionales de densidad en el conjunto de datos. Como resultado, amplía de forma natural los clusters densos y contrae los escasos, igualando el tamaño de los clusters. Para que quede claro, se trata de un efecto diferente al hecho habitual de que cualquier técnica de reducción de la dimensionalidad distorsiona las distancias. (Después de todo, en este ejemplo todos los datos eran bidimensionales para empezar). Más bien, la igualación de la densidad ocurre por diseño y es una característica predecible de t-SNE.
Sin embargo, el resultado final es que no se pueden ver los tamaños relativos de los clusters en un gráfico t-SNE.