2do Parcial teoría 2009 1) Diferencia entre Naive Bayes continuo y Naive Bayes y con histograma 2) Ejemplo de ambiente no episódico En un ambiente episódico la performance de un agente depende del número discreto de episodios, sin un vínculo de la performance de un agente en escenarios diferentes. El agente puede decidir qué acciones realizar basado en el episodio actual, por ejemplo ordenamiento de mails. 3) Características del aprendizaje inductivo La clasificación consiste en el proceso de asignar a una entrada concreta, el nombre de una clase a la que pertenece. Las clases entre las que puede elegir el procedimiento de clasificación, se pueden describir de gran cantidad de formas. Su definición dependerá del uso que se les dé. La clasificación constituye una parte importante de muchas de las tareas de resolución de problemas. En su forma más simple, se presenta directamente, como una tarea de reconocimiento. Un ejemplo de esto sería: “¿Qué letra del alfabeto es ésta?”. Pero muchas veces la clasificación se e ncuentra incluida dentro de otra operación. Para ver cómo se puede dar esto, considérese un sistema de resolución de problemas que contenga la siguiente regla de producción: Si: el objetivo consiste en pasar de un lugar A a un lugar B, y existe una PARED que separa los dos lugares Entonces: buscar una PUERTA en la PARED y pasar a través de ella. Para utilizar esta regla con éxito, la rutina de emparejamiento del sistema debe ser capaz de identificar un objeto como una pared. Si esto no es posible, esta regla no se puede utilizar ya que, para esto, el sistema debe ser capaz de reconocer una puerta. Antes de que se pueda hacer la clasificación, se deben definir las clases que utilizará. Independientemente el modo en que se describan las clases, algunas veces resulta difícil construir a mano buenas definiciones de las clases. Esto sucede especialmente en los dominios que no estén bien asimilados o en aquellos que cambian rápidamente. Por tanto, la idea de crear un programa de clasificación que incluya las definiciones de sus propias clases, resulta muy atractiva. Esta tarea de construir definiciones de clases se denomina aprendizaje de conceptos o inducción. De todas formas, las técnicas empleadas para esta tarea dependen del modo en que se describan las clases. Si las clases vienen definidas por funciones, entonces el aprendizaje de conceptos se puede hacer utilizando una técnica conocida como ajuste de coeficientes. Sin embargo, si se definen las clases de un modo estructural, es necesario utilizar otras reglas de aprendizaje de definiciones de clases. 4) Según Wooldridge, Diferencia entre agente y objeto; El objeto puede mostrar comportamiento autónomo flexible? Los agentes incorporan una noción más fuerte de autonomía que los objetos, y en particular, deciden por sí mismos si realizar o no una acción requerida desde otro agente. Los agentes tienen un comportamiento flexible (reactivo, pro-activo, social) y el modelo de objetos estándar no tiene nada que decir acerca de ese tipo de comportamiento; Un sistema multi-agente es inherentemente multi-hilo, en el cual cada agente tiene al menos un hilo de control. La segunda diferencia importante respecto de objetos y sistemas agentes radica en la idea de comportamiento autónomo flexible (reactivo, pro-activo, social). El modelo de objetos estándar no tiene nada que decir sobre como integrar este tipo de comportamiento. De nuevo, podemos realizar programas orientados a objetos que integren este tipo de comportamiento. Pero este argumento nos aleja del punto, que es que el modelo estándar de programación orientada a objetos no tiene nada que ver con este tipo de comportamiento. Flexible: Reactividad: los agentes inteligentes son capaces de percibir su ambiente, y responder a tiempo, en forma elegante, a los cambios que ocurren para satisfacer sus objetivos de diseño. Pro-actividad: los agentes inteligentes son capaces de exhibir comportamiento dirigido por objetivos, tomando la iniciativa para satisfacer sus objetivos de diseño. Habilidad social: los agentes inteligentes son capaces de interactuar con otros agentes (y posiblemente humanos) con el objeto de satisfacer sus objetivos de diseño. 5) Que sucede si no inicializa de manera optimista los valores iníciales en RL? No se promueve la exploración, por lo tanto re eligen siempre acciones greedy que den la mayor recompensa. 6) K vecinos próximos, ¿Cómo se elige un k óptimo? Ejemplifique. Hacer dibujo con tabla… 7) Características de aprendizaje por analogía transformacional y derivacional. El transformacional obtiene la solución mediante la modificación de la demostración de un problema anterior, en cambio la derivacional hace un análisis de la resolución del problema anterior para así resolver el actual. 8) Explique multiagente federado. Una alternativa a la comunicación directa, muy utilizada y que elimina todas estas desventajas es organizar los agentes en lo que se llama un sistema federado. La siguiente figura ilustra la estructura de tales sistemas con un caso simple de sólo tres máquinas, una con tres agentes y las otras dos con dos agentes cada una. Como lo sugiere el diagrama, los agentes no se comunican entre sí directamente. En lugar de ello, se comunican únicamente con los programas llamados facilitadores, y los facilitadores se comunican entre ellos. El concepto de facilitador deriva y generaliza el concepto de mediador. En un sistema federado, los agentes utilizan ACL (en la práctica, un subconjunto restringido de ACL) para documentar sus necesidades y habilidades a su facilitador local. Además de esta información de metanivel, también le envían a su facilitador local información a nivel de aplicación y solicitudes y, como respuesta, aceptan información a nivel de aplicación y solicitudes. Los facilitadores utilizan la información provista por estos agentes para transformar estos mensajes a nivel de aplicación y rutearlos a los lugares apropiados. En efecto, los agentes forman una “federación”, en la cual entregan su autonomía a los facilitadores y los facilitadores toman la responsabilidad de satisfacer sus necesidades. 9) Durante el entrenamiento de BPN, ¿qué pasa si el error global cae en un mínimo local que es mayor al error mínimo obtenido? Una vez que la red se asienta en un minimo, sea local o global, cesa el aprendizaje aunque el error siga siendo demasiado alto si se ha alcanzado un minimo local. Si la solución es admisible desde el punto de vista del error, no importa si el minimo es local o global, o si se ha detenido en algún momento previo a alcanzar un verdadero minimo. 10) Explique las estrategias de softmax. Esta estrategia es un método que busca balancear la exploración y explotación, y evitar el problema de la exploracion al seleccionar equitativamente todas las acciones sin tener en cuenta el valor/recompensa (puede haber acciones MUY malas). Varia la probabilidad de las acciones como una función gradual de los valores estimados. La ccion greedy todavía posee la probabilidad de selección mas alta, pero todas las demás se colocan en un raking de acuerdo a su estimación de valor. Formula de Gibbs, con temperatura por parámetro. Cuando la temperatura tiende a infinito, las acciones son equiprobables, pero cuando tiene a cero, se tienen diferencias grandes en las probabilidades de selección.