Subido por Claudio Breve

Fundamentos del Machine learning

Anuncio
Machine learning
Supervised
Este el tipo de aprendizaje que predice o clasifica información nueva a partir del análisis de
información.
Problema de regresión
La variable Y es cuantitativa
Este modelo predice a partir de datos o valores conocidos de X para obtener una salida Y
Problema de clasificación
La variable Y es cuantitativa
Este modelo categoriza como resultado las variables X
No supervised
Es el tipo de aprendizaje que busca una estructura en la información, la cual no tiene etiqueta.
Machine Learning
Resuelve problemas de tipo
Supervisado
No supervisado
Regresión
agrupamiento
Clasificación
Orden de aplicación
Asigna una tarea a la computadora
Repite y adquiere experiencia
Mide el desempeño de la computadora en la tarea
Mejora hasta un nivel optimo
Mejoras en la aplicación del Machine Learning
Precisión
Eficiencia
Aprovechamiento de recursos
Velocidad de ejecución
Regresión lineal
Función de Hipótesis
𝐻 = 𝑎0 + 𝑎1 ∗ 𝑥1
Función de perdida
𝑚
1
𝐸=
∑(ℎ𝑖 − 𝑦𝑖 )2
2𝑚
𝑖=1
Descenso de gradiente
𝛿𝐸
𝑎𝑗 = 𝑎𝑗 − 𝑎
𝛿𝑎𝑗
i = ejemplo del entrenamiento
ℎ𝑖 = el valor de la hipótesis para un valor de entrada determinada
𝑦𝑖 = el valor real de salida para el valor de entrada
m = cantidad de ejemplos en el conjunto de entrenamiento
𝑎𝑗 = parámetros de la hipótesis
𝑑𝐸
𝛿𝑎𝑗
= la rapidez de cambio con respecto a 𝑎𝑗
𝑎 = tasa de aprendizaje
Ej.
1.- asigna valores iniciales a la función de hipótesis
2.- recalcula los parámetros (𝑎0 , 𝑎1 )
3.- sustituye los valores nuevamente en la hipótesis (Función de hipótesis)
4.- Repetir hasta que los valores no varíen (2, 3)
Regresión Logística
Límite de decisión
1
ℎ=
−(𝑎
+𝑎
1 + 𝑒 0 1 𝑥1 +𝑎2 𝑥2 )
Separa los datos en dos etiquetas a partir de características numéricas
Formula de optimización de parámetros
𝑚
𝑎𝑗= 𝑎𝑗− 𝛼 ∑(ℎ𝑖 − 𝑦𝑖 ) ∗ 𝑥𝑗
𝑖=1
Árboles de decisiones
Cart Calcula la impureza del producto
1.- Calcula la impureza
2.- Formula una pregunta
3.- Obtener la ganancia
4.- Repetir 2 y 3
5.- repetir a partir del paso 2
y
𝑥1
𝑥2
Color
Diámetro
Verde
3
Estrella
Amarillo
3
Estrella
Amarillo
3
Planeta
Rojo
1
Meteorito
Rojo
1
Meteorito
Para calcular la impureza de un conjunto
𝑘
𝐼 = 1 − ∑ 𝑃(𝑖)2
𝑖=1
2
5
2
5
1
5
I = 1 – ( )2 - ( )2 - ( )2 =
0.64
K = Números de clases
P(i) Probabilidad de escoger al azar un elemento de la clase ‘i’ (Probabilidad a priori)
Para formar un nuevo árbol, se realiza un a nueva pregunta a partir de los atributos
*Separando y formando dos nuevos nodos
La ganancia de información para la pregunta se obtiene con la formula
G = 𝐼𝐽−1 − 𝐼𝐽
𝐼𝐽−1 = La impureza del nodo padre
𝐼𝐽 = La impureza promedio de los nodos hijos
Finalmente se debe probar con diferentes preguntas y elegir la que tenga una mayor ganancia
Así se deberá repetir hasta que todos los nodos hijo
Clustering Jerárquico
Es una técnica para agrupar datos al encontrar similitudes entre ellos cuando no se conoce el
número de categorías en que se dividen.
El Agrupamiento jerárquico cuenta con dos enfoques:
Divisivo
Al inicio considera todo como un solo grupo, para luego separar los elementos semejantes en otros
grupos.
Aglomerativo
Al inicio considera cada elemento como un grupo distinto, así se encarga de unir los elementos mas
parecidos.
Para el enfoque de aglomeración se utiliza el algoritmo AGNES:
Distancia entre grupos
Una manera para calcular la distancia en un plano cartesiano es mediante la “distancia Manhattan”
𝑑𝑚 (𝐴, 𝐵) = |𝑥1 − 𝑥2 | + | 𝑦1 − 𝑦2 |
La distancia entre grupos se puede calcular con enfoques:
Single Linkage
Se obtiene la distancia entre los dos elementos mas cercanos del grupo
Complete Linkage
Se obtiene la distancia entre los dos elementos más lejanos de cada grupo
Las distancias de los grupos se almacenan en la matriz de proximidad
A partir de una tabla y utilizando el enfoque single Linkage en conjunto con la formula Manhattan
se obtendrá la distancia de punto a punto de todos los elementos, la cual se llama matriz de
proximidad.
(Tal matriz de proximidad queda pendiente por motivos de que no cache como mierda resolver la
tabla)
K means
Es un algoritmo de agrupamiento por particiones utilizando para separar un conjunto de
entrenamiento en una cantidad conocidas de grupos.
Se vale de los conceptos de media y distancia euclidiana
Media: es el resultado de la suma de todos los elementos dividido en el total de elementos.
𝑚
1
𝐶 = ∑ 𝑦𝑖
𝑚
𝑖=1
Distancia euclidiana: es la distancia mas corta entre dos puntos del plano
𝐷𝑒 (𝑎, 𝑏) = √(𝑥1 − 𝑥2 )2 + (𝑦1 − 𝑦2 )2
Calculo media mas cercana
𝑛
𝐶 − min = ∑ 𝑑(𝐶𝑘 , 𝑦𝐽 )
𝑖=1
𝐶𝐾 = Representa cada una de las medias
𝑌𝐽 = Representa cada uno de los puntos del conjunto
Mezclas gaussianas
Es un modelo que separa un conjunto de datos en una cantidad conocida de grupos cuyos
elementos se mezclan.
𝑁( 𝑥| 𝜇, 𝜎) =
1
𝜎√2𝜋
𝑒
−(𝑥−𝜇)2
2𝜎 2
N = Distribución Normal
x = Valores de eje horizontal
𝜇 = El valor medio de los valores x
𝜎 = Es la desviación estándar
Campana de gauss.
Los valores en el eje vertical representan la probabilidad de encontrar el dato x en el conjunto.
Desviación estándar
𝑛
1
𝜎 = √ ∑(𝑥𝑖 − 𝜇)2
𝑛
𝑖=1
n = El número de elementos en el conjunto de datos
𝑥𝑖 = cada uno de los datos
Se asigna valores para 𝜇, 𝜎 y dependiendo de la cantidad de grupos que haya, se calcula la
distribución normal para cada grupo.
Para comparar los valores de W y dependiendo cual tenga el valor mayor se asignará su respectivo
grupo.
𝑊1 =
𝐴
𝐴+𝐵
𝐵
𝐴+𝐵
Asumiendo que haya 2 grupos A, B.
𝑊2 =
Descargar