Clase XI

Anuncio
Funciones discriminantes
lineales
DEFINICION CASO DOS CATEGORIAS Y
MULTICATEGORIA
FUNCIONES DISCRIMINANTES
GENERALIZADAS
Introducción
1
 En el capitulo 3, las densidades de probabilidad




subyacentes eran conocidas .
La muestra de entrenamiento fue usada para estimar
los parámetros de esas distribuciones de
probabilidad (estimadores ML, MAP ).
En este capítulo, solo sabemos las formas de las
funciones discriminantes : similar a las técnicas noparametricas .
Pueden no ser óptimas pero son muy fáciles de usar
Nos proveen clasificadores lineales.
Funciones discriminantes lineales
2
 Un discriminante lineal es una función combinación
lineal de componentes de x
g(x) = wtx + w0
(1)
donde w es el vector de pesos y w0 el de pesos
 Un clasificador lineal dicotómico con una función
discriminante de la forma (1) usa la siguiente regla:
Decide por1 si g(x) > 0 y 2 si g(x) < 0;
 Esto es equivalente a
Decide por 1 si wtx > -w0 y 2 en otro caso
Superficies de decisión: caso dicotómico
4
 La ecuación g(x) = 0 define la superficie de
decisión que separa puntos asignados a la
categoría 1 de puntos asignados a la categoría 2
 Cuando g(x) es lineal, la superficie de decisión es
un hiperplano
 r es la distancia algebraica del punto x al
hiperplano H, (la mínima distancia de un punto
fijo a cualquier punto de un plano)
5
Notación
6
r. w
x  xp 
w
r.w
g(x)  w x  w0  w x p  w
 w0  g(x p )  r w
w
t
t
t
r w
pues g(x p )  0 y w .w  w
t
g(x)
r
w
w0
en particular d( 0 ,H) 
w
2
Resumen
7
 Una función discriminante lineal divide el espacio
de características por una superficie de decisión
(hiperplano)
 La orientación de la superficie esta determinada
por w, el vector normal a la superficie, y la posición
de la superficie esta determinada por el desvío w0
 El clasificador usa la siguiente regla:
Decide por 1 si wtx > -w0 y 2 en otro caso
8
Hay mas de una forma
de extender
clasificadores lineales a
mas de dos categorías.
En la figura mostramos
el mas simple y el mas
complejo: i) c
discriminantes lineales
, casos wi- no wi ii) c(c1)/2 discriminantes
lineales, uno por cada
par
Extension a varias clases
9
 Se definen c funciones discriminantes lineales
g i ( x )  w x  wi 0
t
i
 Se asigna x a
i  1,..., c
i si gi(x) > gj(x)  j  i; en caso
de empates, la clasificación queda indefinida
 Un clasificador así se llama “linear machine”
 Una maquina lineal divide el espacio de
características en c regiones de decisión, con gi(x) el
discriminante mas grande si x esta en la región Ri
10
Linear machine
11
 Dos regiones contiguas Ri and Rj; tienen como frontera que las
separa a una porción de un hiperplano Hij definido por gi(x)
= gj(x)
 Esto es
(wi – wj)tx + (wi0 – wj0) = 0
 (wi – wj) es normal a Hij
d ( x, H ij ) 
gi ( x )  g j ( x )
wi  w j
 Por lo cual, no son los vectores de pesos los importantes sino
sus diferencias
 Es fácil mostrar que las regiones de decisión de una maquina
lineal son convexas, esta restricción limita la flexibilidad y la
precisión del clasificador
Funciones discriminantes lineales generalizadas
12
 Las fronteras de decisión que separan las clases no
deberían ser siempre lineales
 La complejidad de las fronteras algunas veces piden el
uso de superficies altamente no lineales
 Una forma muy popular de generalizar el concepto de
funciones de decisión lineal es considerar una función de
decisión generalizada como :
g(x) = w1f1(x) + w2f2(x) + … + wNfN(x) + wN+1
(1)
donde fi(x), 1  i  N son funciones escalares del patrón x,
x  Rd (espacio euclideo)
Funciones discriminantes lineales generalizadas
13
 Introduciendo fn+1(x) = 1 se tiene:
N 1
g ( x )   wi f i ( x )  a t y
i 1
donde a  ( w1 , w2 ,..., wN , wN 1 )T y  (f1(x), f 2 ( x ),..., f N ( x ), f N 1 ( x ))T
 Esta ultima representación de g(x) implica que todo
discriminante generalizado puede ser tratado como
lineal en el espacio (N + 1) dimensional (N + 1 > d)
 g(x) mantienen sus características no lineales en Rd
Funciones cuadráticas
14
 Las funciones de decisión cuadráticas para un espacio de
dos características son
g ( x )  w x  w2 x1 x2  w x  w4 x1  w5 x2  w6
2
1 1
2
3 2
aqui a  ( w1 , w2 , w3 , w4 , w5 , w6 )t , y  ( x12 , x1 x2 , x22 , x1 , x2 ,1)t
 Para determinar la región de decisión óptima hay que
estimar seis pesos (por discriminante)
Región de decisión cuadrática
15
 Para patrones en x Rd, la función de decisión cuadrática
mas usada es:
n
n1
g ( x )   w ii x  
i 1
2
i
n
w
i 1 j  i 1
n
ij
xi x j   wi xi  wn 1
i 1
 El numero de términos en el lado derecho es :
n( n  1 )
( n  1 )( n  2 )
l  N 1 n
n1
2
2
que es el número de parámetros libres del problema
 d = 3, el vector a es 10-dimensional
 d = 10, el vector a es 65-dimensional
(2)
Funciones de orden m
16
 En el caso de funciones de decisión polinomiales de
orden m, una fi(x) típica es :
f i ( x)  xie11 xie22 ...xiemm
donde 1  i1 , i2 ,..., im  n y ei ,1  i  m es 0 o 1.
 Si f es polinomial con grado entre 0 y m, para no tener
repeticiones se pide i1  i2  … im
n
n
g ( x )    ...
m
i1  1 i 2  i1
n
m 1
w
x
x
...
x

g
(x)
 i1i2 ...im i1 i2 im
i m  i m 1
(donde g0(x) = wN+1) es la función de decisión polinomial
de orden m mas general
Ejemplo d=1, m=2
17
 Una característica y grado dos en el polinomio
Pattern Classification, Chapter 4
(Part 2)
Ejemplo 1: sea d = 3 and m = 2
18
 3 características y orden del polinomio dos
3
g ( x)  
2
i1 1
3
w
i2 i1
x x  w1 x1  w2 x2  w3 x3  w4
i1i2 i1 i2
 w11x12  w12 x1 x2  w13x1 x3  w22 x22  w23x2 x3  w33x32
 w1 x1  w2 x2  w3 x3  w4
 Para dos clases,


Decide por1 si g2(x) > 0 y 2 si g2(x) < 0;
Si g2(x) = 0, x se asigna a cualquiera de las clases
Pattern Classification, Chapter 4
(Part 2)
Ejemplo 2: Sea n = 2 y m = 3
19
 Dos caracteristicas y orden de polinomio tres
2
g 3 ( x)  
i1 1
2
2
2
w
x
x
x

g
 i1i2i3 i1 i2 i3 ( x)

i2 i1 i3 i2
 w 111x13  w112x12 x2  w122x1 x22  w222x23  g 2 ( x)
2
donde g ( x)  
2
i1 1
2
1
w
x
x

g
 i1i2 i1 i2 ( x)
i2 i1
 w 11x12  w12 x1 x2  w22 x22  w1 x1  w2 x2  w3
Pattern Classification, Chapter 4
(Part 2)
Representación caso cuadrático
20
 La función discriminante cuadrática puede ser
representada por una superficie cuadrática ndimensional
g(x) = xTAx + xTb +c
donde la matriz A = (aij), el vector b = (b1, b2, …, bk)T
y c, dependen de los pesos wii, wij, wi de la ecuación
(2)
 La matriz A es la que determina la forma y las
características de la función de decisión
Representación caso cuadrático
21
 Si A es definida positiva entonces la función de
decisión es un hiperelipsoide con ejes en las
direcciones de los autovalores de A
 En particular: si A = Id (Identidad), la función de
decisión es simplemente una hiperesfera ddimensional
 Si A es definida negativa la función de decisión
describe un a hiperboloide
 Como ya hemos visto, estas son las superficies de
decisión que aparecen en el caso Gaussiano general
22
Descargar
Fichas aleatorios
test cards set

10 Tarjetas Антон piter

tarjeta del programa pfizer norvasc

0 Tarjetas joseyepezsumino

tarjeta del programa pfizer norvasc

0 Tarjetas joseyepezsumino

notas de enfermeria

0 Tarjetas Karen LCHB

free fire garena

1 Tarjetas Rene Jonathan Ramos Reyes

Crear fichas