Notas de Clase Sobre Redes Neuronales Y Lógica Difusa (15A02604) Introducción A La Inteligencia Artificial ¿Qué Es La Inteligencia Artificial?

Traducido del inglés al español - www.onlinedoctranslator.
com
NOTAS DE CLASE SOBRE REDES NEURONALES Y LÓGICA DIFUSA (15A02604)

UNIDAD 1
INTRODUCCIÓN A LA INTELIGENCIA ARTIFICIAL
¿QUÉ ES LA INTELIGENCIA ARTIFICIAL?
La inteligencia artificial (IA) es la capacidad de una computadora digital o un robot controlado por computadora
para realizar tareas comúnmente asociadas con seres inteligentes. El término se aplica con frecuencia al proyecto
de desarrollar sistemas dotados de los procesos intelectuales característicos de los humanos, como la capacidad
de razonar, descubrir significado, generalizar o aprender de experiencias pasadas.
EXPLICA BREVEMENTE LA INTELIGENCIA ARTIFICIAL.
La inteligencia artificial (IA), a veces llamadainteligencia artificial, es la inteligencia demostrada por las máquinas, en
contraste con lainteligencia naturalmostrada por los humanos. Desde el desarrollo de la computadora digital en la
década de 1940, se ha demostrado que las computadoras pueden programarse para realizar tareas muy complejas,
como descubrir pruebas de teoremas matemáticos o jugar al ajedrez con gran destreza. Aún así, a pesar de los
continuos avances en la velocidad de procesamiento de las computadoras y la capacidad de la memoria, todavía no
existen programas que puedan igualar la flexibilidad humana en dominios más amplios o en tareas que requieren
muchos conocimientos cotidianos. Por otro lado, algunos programas han alcanzado los niveles de desempeño de
expertos y profesionales humanos en la realización de determinadas tareas específicas, por lo que la inteligencia
artificial en este sentido limitado se encuentra en aplicaciones tan diversas como el diagnóstico médico, los motores de
búsqueda informáticos y el reconocimiento de voz o escritura. .
DEFINE INTELIGENCIA ARTIFICIAL.
La informática define la investigación de la IA como el estudio de "agentes inteligentes": cualquier dispositivo que
percibe su entorno y realiza acciones que maximizan sus posibilidades de lograr con éxito sus objetivos. Una definición
más elaborada caracteriza a la IA como "la capacidad de un sistema para interpretar correctamente datos externos,
aprender de dichos datos y utilizar esos aprendizajes para lograr objetivos y tareas específicos a través de una
adaptación flexible".
HISTORIA DE LA IA.
El campo de la investigación de IA nació en un taller en Dartmouth College en 1956, donde John McCarthy
acuñó el término "Inteligencia artificial" para distinguir el campo de la cibernética y escapar de la influencia
del cibernético Norbert Wiener. Los asistentes Allen Newell (CMU), Herbert Simon (CMU), John McCarthy
(MIT), Marvin Minsky (MIT) y Arthur Samuel (IBM) se convirtieron en los fundadores y líderes de la
investigación en IA.
Comúnmente, el término "inteligencia artificial" se usa a menudo para describir máquinas (o

computadoras) que imitan las funciones "cognitivas" que los humanos asocian con la mente
humana, como "aprender" y "resolver problemas". El campo se basó en la suposición de que la
inteligencia humana "se puede describir con tanta precisión que se puede hacer una máquina
para simularla". Durante la mayor parte de su historia, la investigación de la IA se ha dividido en
subcampos que a menudo no se comunican entre sí. Estos subcampos se basan en
consideraciones técnicas, como objetivos particulares (por ejemplo, "robótica" o "aprendizaje
automático"), el uso de herramientas particulares ("lógica" o redes neuronales artificiales) o
profundas diferencias filosóficas.
Notas de clase del Dr. R. Murugesan, AITS-Tirupati para NNFL (15A02604) - R15 - JNTUA Página1de12
OBJETIVOS DE LA IA
Los problemas tradicionales (u objetivos) de la investigación de la IA incluyen el razonamiento, la

representación del conocimiento, la planificación, el aprendizaje, el procesamiento del lenguaje
natural, la percepción y la capacidad de mover y manipular objetos. La inteligencia general es uno de
los objetivos a largo plazo del campo. Los enfoques incluyen métodos estadísticos, inteligencia
computacional e IA simbólica tradicional. En la IA se utilizan muchas herramientas, incluidas versiones
de búsqueda y optimización matemática, redes neuronales artificiales y métodos basados en
estadísticas, probabilidad y economía. El campo de la IA se basa en la informática, la ingeniería de la
información, las matemáticas, la psicología, la lingüística, la filosofía y muchos otros campos.
¿CUÁLES SON LAS VENTAJAS DE LA IA?
Las ventajas de las aplicaciones de Inteligencia Artificial son enormes y pueden revolucionar cualquier
sector profesional. Veamos algunos de ellos
1) Reducción del error humano:La frase “error humano” nació porque los humanos cometemos errores de vez
en cuando. Las computadoras, sin embargo, no cometen estos errores si están programadas correctamente. Con
la Inteligencia Artificial, las decisiones se toman a partir de la información recopilada previamente aplicando un
determinado conjunto de algoritmos. Por lo tanto, los errores se reducen y existe la posibilidad de alcanzar la
precisión con un mayor grado de precisión.
Ejemplo: en el pronóstico del tiempo usando IA, han reducido la mayoría de los errores humanos.
2) Toma riesgos en lugar de Humanos:Esta es una de las mayores ventajas de la inteligencia artificial. Podemos superar
muchas limitaciones riesgosas de los humanos mediante el desarrollo de un robot de IA que, a su vez, puede hacer las cosas
riesgosas por nosotros. Que vaya a Marte, desactive una bomba, explore las partes más profundas de los océanos, extraiga
carbón y petróleo, puede usarse de manera efectiva en cualquier tipo de desastres naturales o provocados por el hombre.
Ejemplo: ¿Has oído hablar de la explosión de la planta de energía nuclear de Chernobyl en Ucrania? En ese
momento, no había robots impulsados por IA que pudieran ayudarnos a minimizar el efecto de la radiación al
controlar el fuego en las primeras etapas, ya que cualquier humano que se acercara al núcleo moría en cuestión
de minutos. Eventualmente vertieron arena y boro desde helicópteros desde una mera distancia. Los robots AI se
pueden utilizar en situaciones en las que la intervención puede ser peligrosa.
3) Disponible 24x7:Un humano promedio trabajará de 4 a 6 horas al día, excluyendo los descansos. Los seres humanos están
construidos de tal manera que tienen tiempo para refrescarse y prepararse para un nuevo día de trabajo e incluso tienen
descansos semanales para mantenerse intactos con su vida laboral y personal. Pero con la IA podemos hacer que las
máquinas funcionen las 24 horas del día, los 7 días de la semana, sin interrupciones y ni siquiera se aburran, a diferencia de
los humanos.
Ejemplo: los institutos educativos y los centros de atención telefónica están recibiendo muchas consultas y problemas que se pueden
manejar de manera efectiva con la IA.
4) Ayudar en trabajos repetitivos:En nuestro día a día estaremos realizando muchos trabajos repetitivos como enviar
un correo de agradecimiento, verificar ciertos documentos en busca de errores y muchas cosas más. Usando
inteligencia artificial podemos automatizar productivamente estas tareas mundanas e incluso podemos eliminar tareas
"aburridas" para los humanos y liberarlos para que sean cada vez más creativos.
Ejemplo: En los bancos, a menudo vemos varias verificaciones de documentos para obtener un préstamo, lo cual es
una tarea repetitiva para el propietario del banco. Usando AI Cognitive Automation el propietario puede acelerar el
proceso de verificación de los documentos por lo que tanto los clientes como el propietario se verán beneficiados.
5) Asistencia Digital:Algunas de las organizaciones más avanzadas utilizan asistentes digitales para interactuar con los
usuarios, lo que ahorra la necesidad de recursos humanos. Los asistentes digitales también se utilizan en muchos sitios
web para proporcionar cosas que los usuarios desean. Podemos charlar con ellos sobre lo que estamos buscando.
Algunos chatbots están diseñados de tal manera que se vuelve difícil determinar si estamos chateando con un chatbot
o con un ser humano.
Ejemplo: Todos sabemos que las organizaciones cuentan con un equipo de atención al cliente que necesita aclarar las
dudas y consultas de los clientes. Al usar IA, las organizaciones pueden configurar un bot de voz o un bot de chat que
puede ayudar a los clientes con todas sus consultas. Podemos ver que muchas organizaciones ya comenzaron a usarlos
en sus sitios web y aplicaciones móviles.
6) Decisiones más rápidas:Usando IA junto con otras tecnologías, podemos hacer que las máquinas tomen decisiones
más rápido que un humano y lleven a cabo acciones más rápido. Al tomar una decisión, el ser humano analizará
muchos factores tanto emocionales como prácticos, pero la máquina impulsada por IA funciona en lo que está
programada y entrega los resultados de una manera más rápida.
Ejemplo: todos hemos jugado partidas de ajedrez en Windows. Es casi imposible vencer a la CPU en el
modo difícil debido a la IA detrás de ese juego. Dará el mejor paso posible en muy poco tiempo de acuerdo
con los algoritmos utilizados detrás de él.
7) Aplicaciones diarias:Las aplicaciones diarias como Siri de Apple, Cortana de Windows, OK Google de Google
se usan con frecuencia en nuestra rutina diaria, ya sea para buscar una ubicación, tomar una selfie, hacer una
llamada telefónica, responder un correo y muchas más.
Ejemplo: Hace unos 20 años, cuando planeamos ir a algún lugar, solíamos preguntarle a una persona que ya
había ido allí por las direcciones. Pero ahora todo lo que tenemos que hacer es decir "OK Google, ¿dónde está
Visakhapatnam?". Le mostrará la ubicación de Visakhapatnam en el mapa de Google y la mejor ruta entre usted y
Visakhapatnam.
8) Nuevos inventos:La IA está impulsando muchos inventos en casi todos los dominios que ayudarán a los humanos a
resolver la mayoría de los problemas complejos.
Ejemplo: recientemente, los médicos pueden predecir el cáncer de mama en la mujer en etapas más tempranas utilizando
tecnologías avanzadas basadas en IA.
¿CUÁLES SON LAS DESVENTAJAS DE LA IA?
Como todo lado positivo tiene una versión más oscura. La inteligencia artificial también tiene algunas desventajas.
Veamos algunos de ellos
1) Altos costos de creación:Como AI se actualiza todos los días, el hardware y el software deben actualizarse con el
tiempo para cumplir con los requisitos más recientes. Las máquinas necesitan reparación y mantenimiento que
requieren muchos costos. Su creación requiere enormes costos ya que son máquinas muy complejas.
2) Hacer que los humanos sean perezosos:AI está volviendo perezosos a los humanos con sus aplicaciones que automatizan la
mayor parte del trabajo. Los seres humanos tienden a volverse adictos a estos inventos que pueden causar un problema a las
generaciones futuras.
3) Desempleo:A medida que la IA reemplaza la mayoría de las tareas repetitivas y otros trabajos con robots, la
interferencia humana es cada vez menor, lo que causará un problema importante en los estándares de empleo. Todas
las organizaciones buscan reemplazar a las personas mínimamente calificadas con robots de inteligencia artificial que
pueden hacer un trabajo similar con más eficiencia.
4) Sin emociones:No hay duda de que las máquinas son mucho mejores cuando se trata de trabajar de manera
eficiente, pero no pueden reemplazar la conexión humana que hace al equipo. Las máquinas no pueden desarrollar un
vínculo con los humanos, lo cual es un atributo esencial cuando se trata de la gestión de equipos.
5) Falta de pensamiento fuera de caja:Las máquinas pueden realizar solo aquellas tareas para las que están
diseñadas o programadas, cualquier cosa que tienda a fallar o dar resultados irrelevantes que podrían ser un
telón de fondo importante.
ENFOQUES DE LA IA
La IA a menudo gira en torno al uso de algoritmos. Un algoritmo es un conjunto de instrucciones

inequívocas que una computadora mecánica puede ejecutar. [b] Un algoritmo complejo a menudo se
construye sobre otros algoritmos más simples. Muchos algoritmos de IA son capaces de aprender de los
datos; pueden mejorar aprendiendo nuevas heurísticas (estrategias o "reglas generales" que han
funcionado bien en el pasado), o pueden escribir otros algoritmos.
Un algoritmo es una especie de contenedor. Proporciona una caja para almacenar un método para resolver un tipo
particular de problema. Los algoritmos procesan datos a través de una serie de estados bien definidos. Los estados no
necesitan ser deterministas, pero los estados están definidos no obstante. El objetivo es crear una salida que resuelva
un problema. En algunos casos, el algoritmo recibe entradas que ayudan a definir la salida, pero el foco siempre está
en la salida.
Los algoritmos deben expresar las transiciones entre estados usando un lenguaje formal y bien
definido que la computadora pueda entender. Al procesar los datos y resolver el problema, el
algoritmo define, refina y ejecuta una función. La función siempre es específica para el tipo de
problema que aborda el algoritmo.
Cada una de las cinco tribus tiene una técnica y estrategia diferente para resolver problemas que resultan en
algoritmos únicos. La combinación de estos algoritmos debería conducir eventualmente al algoritmo maestro que
podrá resolver cualquier problema dado. La siguiente discusión proporciona una descripción general de las cinco
técnicas algorítmicas principales.
Razonamiento simbólico:Una de las primeras tribus, los simbolistas, creía que el conocimiento podía obtenerse
operando sobre símbolos (signos que representan cierto significado o evento) y derivando reglas de ellos. Al
juntar sistemas complejos de reglas, podía obtener una deducción lógica del resultado que deseaba saber, por lo
que los simbolistas moldearon sus algoritmos para producir reglas a partir de datos. En el razonamiento
simbólico, la deducción amplía el ámbito del conocimiento humano, mientras que la inducción eleva el nivel del
conocimiento humano. La inducción comúnmente abre nuevos campos de exploración, mientras que la
deducción explora esos campos.
Conexiones modeladas en las neuronas del cerebro:Los conexionistas son quizás los más famosos de las cinco
tribus. Esta tribu se esfuerza por reproducir las funciones del cerebro utilizando silicio en lugar de
neuronas Esencialmente, cada una de las neuronas (creada como un algoritmo que modela la contraparte
del mundo real) resuelve una pequeña parte del problema y el uso de muchas neuronas en paralelo
resuelve el problema en su totalidad. El uso de retropropagación, o propagación hacia atrás de errores,
busca determinar las condiciones bajo las cuales se eliminan los errores de las redes construidas para
parecerse a las neuronas humanas cambiando los pesos (cuánto representa una entrada particular en el
resultado) y los sesgos (qué características son seleccionado) de la red. El objetivo es continuar cambiando
los pesos y sesgos hasta el momento en que la salida real coincida con la salida objetivo. En este punto, la
neurona artificial dispara y pasa su solución a la siguiente neurona en línea. La solución creada por una sola
neurona es solo una parte de la solución completa. Cada neurona pasa información a la siguiente neurona
en línea hasta que el grupo de neuronas crea una salida final. Tal método demostró ser el más efectivo en
tareas similares a las humanas, como reconocer objetos, comprender el lenguaje escrito y hablado, y
conversar con humanos.
Algoritmos evolutivos que prueban la variación:Los evolutivos se basan en los principios de la evolución
para resolver problemas. En otras palabras, esta estrategia se basa en la supervivencia del más apto
(eliminando cualquier solución que no coincida con el resultado deseado). Una función de aptitud
determina la viabilidad de cada función para resolver un problema. Usando una estructura de árbol, el
método de solución busca la mejor solución basada en el resultado de la función. El ganador de cada nivel
de evolución puede construir las funciones del siguiente nivel. La idea es que el siguiente nivel se acerque
más a la solución del problema, pero es posible que no lo resuelva por completo, lo que significa que se
necesita otro nivel. Esta tribu en particular se basa en gran medida en la recursividad y los lenguajes que
apoyan fuertemente la recursividad para resolver problemas. Un resultado interesante de esta estrategia
han sido los algoritmos que evolucionan:
Inferencia bayesiana:Un grupo de científicos, llamados bayesianos, percibió que la incertidumbre era el
aspecto clave a vigilar y que el aprendizaje no estaba asegurado sino que se producía como una
actualización continua de creencias previas que se hacían cada vez más precisas. Esta percepción llevó a los
bayesianos a adoptar métodos estadísticos y, en particular, derivaciones del teorema de Bayes, que ayuda a
calcular probabilidades en condiciones específicas (por ejemplo, ver una carta de una determinada semilla,
el valor inicial de una secuencia pseudoaleatoria, extraído de una baraja después de otras tres cartas de la
misma semilla).
Sistemas que aprenden por analogía:Los analogizadores usan máquinas kernel para reconocer patrones en los
datos. Al reconocer el patrón de un conjunto de entradas y compararlo con el patrón de una salida conocida,
puede crear una solución al problema. El objetivo es utilizar la similitud para determinar la mejor solución a un
problema. Es el tipo de razonamiento que determina que usar una solución particular funcionó en una
circunstancia dada en algún momento anterior; por lo tanto, usar esa solución para un conjunto similar de
circunstancias también debería funcionar. El objetivo final del aprendizaje automático es combinar las
tecnologías y estrategias adoptadas por las cinco tribus para crear un solo algoritmo (el algoritmo maestro) que
pueda aprender cualquier cosa. Por supuesto, lograr ese objetivo está muy lejos.
EXPLICAR BREVEMENTE EL SISTEMA DE RAZONAMIENTO SIMBÓLICO.
El razonamiento se puede definir como la manipulación algebraica del conocimiento histórico para responder a una nueva
pregunta. Esta manipulación puede incluir una búsqueda en un espacio algebraico de diferentes soluciones. El sistema de
razonamiento tiene las siguientes características:
1. Requiere una base de conocimientos (una base de datos relacional, no relacional o gráfica). Vea el árbol genealógico en
la siguiente figura para ver un ejemplo.
Figura: un árbol genealógico
2. Requiere una colección de hechos, reglas y relaciones simbólicas, como la que se muestra en la figura
siguiente.
3. Requiere un motor de inferencia que toma una pregunta o consulta y genera una respuesta
utilizando el conjunto de reglas y la base de conocimiento. Por ejemplo, si pregunto “¿quién es el
tío abuelo materno de Freya?”, el motor de inferencia buscará la solución en el espacio de
cláusulas de la siguiente figura y aplicará reglas de deducción comosustitución.
Figura : Razonamiento sobre el árbol genealógico
La primera selección será la última cláusula (en azul en la figura). El primer predicado de esta regla es
abuela materna (Freya,?). Al revisar la cláusula tercera, vemos que “abuela materna” tiene la
conjunción de predicados madre(X,Z), madre(Z,Y), que básicamente dice “si Y es la madre de Z y Z es
la madre de X , entonces Y es la abuela materna de X.” Entonces, el motor primero encontrará a la
abuela materna de Freya usando la tercera cláusula, que es Charlotte, luego a la madre de Charlotte,
que es Lindsey y finalmente al hijo de Lindsey, que es Fergus, que es el tío abuelo materno de Freya.
Como vemos en el ejemplo anterior, la IA simbólica implica un proceso de búsqueda. En este sentido, los
investigadores han propuesto diferentes algoritmos de búsqueda, como Goal tree search (también llamado Y
— O árbol) y búsqueda de árbol de Monte Carlo.
¿QUÉ SON LOS SISTEMAS EXPERTOS?
Los sistemas expertos son las aplicaciones informáticas desarrolladas para resolver problemas complejos en un
dominio particular, al nivel de inteligencia y experiencia humanas extraordinarias.
Las características de los sistemas expertos incluyen:
1. Alto rendimiento
2. Comprensible
3. Confiable
4. Altamente receptivo
Capacidades de los Sistemas Expertos: Los sistemas expertos son capaces de lo siguiente:
1. Asesoramiento
2. Instruir y ayudar a los humanos en la toma de decisiones.
3. Demostrando
4. Derivación de una solución
5. Diagnóstico
6. Explicar
7. Interpretación de entrada
8. Predicción de resultados
9. Justificación de la conclusión
10. Sugerir opciones alternativas a un problema
Beneficios de los Sistemas Expertos
1. Disponibilidad: están fácilmente disponibles debido a la producción masiva de software.

2. Menos costo de producción: el costo de producción es razonable. Esto los hace asequibles.
3. Velocidad: ofrecen una gran velocidad. Reducen la cantidad de trabajo que realiza un individuo.
4. Menos tasa de error: la tasa de error es baja en comparación con los errores humanos.
5. Reducción de riesgos: pueden trabajar en un entorno peligroso para los humanos.
6. Respuesta constante: trabajan de manera constante sin moverse, tensarse o fatigarse.
EXPLICAR BREVEMENTE LA ARQUITECTURA DE LA IA Y LOS SISTEMAS EXPERTOS.
El trabajo de la IA es diseñar un programa de agente que implemente la función del agente: el mapeo
de las percepciones a las acciones. Suponemos que este programa se ejecutará en algún tipo de
dispositivo informático con sensores y actuadores físicos que llamamos arquitectura:
agente = arquitectura + programa
Obviamente, el programa que elijamos tiene que ser uno que sea apropiado para la arquitectura. Si el programa
va a recomendar acciones como Caminar, mejor que la arquitectura tenga piernas. La arquitectura puede ser
simplemente una PC ordinaria, o puede ser un automóvil robótico con varias computadoras, cámaras y otros
sensores integrados. En general, la arquitectura hace que las percepciones de los sensores estén disponibles para
el programa, ejecuta el programa y alimenta las opciones de acción del programa a los actuadores a medida que
se generan.
La arquitectura de un sistema experto de IA consta de los siguientes componentes:
Base de conocimientos (KB):depósito de heurísticas especiales o reglas que dirigen el uso del
conocimiento, hechos (producciones). Contiene los conocimientos necesarios para comprender, formular y
resolver problemas.
Memoria de trabajo (pizarra):si se utiliza el encadenamiento directo, describe el problema actual y

registra los resultados intermedios. Registra hipótesis intermedias y decisiones como plan, agenda,
solución.
Máquina de inferencia:el sistema de deducción utilizado para inferir resultados de la entrada del usuario y KB. Es el cerebro
del ES, la estructura de control (intérprete de reglas). Proporciona una metodología para el razonamiento.
Subsistema de Explicación (Justificador):Rastrea la responsabilidad y explica el comportamiento de ES respondiendo

preguntas interactivas: ¿Por qué?, ¿Cómo?, ¿Qué?, ¿Dónde?, ¿Cuándo?, ¿Quién?
Interfaz de usuario:interactúa con el usuario a través del Procesamiento del Lenguaje Natural (NLP), o menús y gráficos.
Actúa como procesador de lenguaje para una comunicación amistosa y orientada a los problemas.
Shell = motor de inferencia + interfaz de usuario
Los elementos humanosen ES es un Experto: Tiene el conocimiento, el juicio, la experiencia y los métodos especiales
para dar consejos y resolver problemas. Proporciona conocimiento sobre el desempeño de la tarea.
Ingeniero del conocimiento:Por lo general, también el System Builder. Ayuda a los expertos a estructurar el área del
problema interpretando e integrando las respuestas humanas a las preguntas, dibujando analogías, planteando
contraejemplos y sacando a la luz las dificultades conceptuales. El experto y el ingeniero del conocimiento deben
anticipar las necesidades y limitaciones de los usuarios al diseñar sistemas expertos.
Usuario:Las posibles Clases de Usuarios pueden ser,

- Un cliente no experto que busca asesoramiento directo (ES actúa como Consultor o Asesor)
- Un estudiante que quiere aprender (ES actúa como Instructor)
- Un constructor de ES que mejora o aumenta la base de conocimientos (ES actúa como socio)
- Un experto (ES actúa como colega o asistente)
¿QUÉ ES LA PERCEPCIÓN EN IA?
La percepción es un proceso para interpretar, adquirir, seleccionar y luego organizar la información sensorial
que se captura del mundo real. Por ejemplo: Los seres humanos tenemos receptores sensoriales como el tacto,
el gusto, el olfato, la vista y el oído. Entonces, la información recibida de estos receptores se transmite al cerebro
humano para organizar la información recibida. Según la información recibida, se actúa interactuando con el
entorno para manipular y navegar los objetos. La percepción y la acción son conceptos muy importantes en el
campo de la Robótica. Las siguientes figuras muestran el robot autónomo completo. Hay una diferencia
importante entre el programa de inteligencia artificial y el robot. El programa de IA funciona en un entorno
estimulado por computadora, mientras que el robot funciona en el mundo físico. Por ejemplo: En ajedrez, un
programa de IA puede realizar un movimiento buscando en diferentes nodos y no tiene la capacidad de tocar o
sentir el mundo físico. Sin embargo, el robot que juega al ajedrez puede hacer un movimiento y agarrar las
piezas al interactuar con el mundo físico.
¿QUÉ ES EL APRENDIZAJE AUTOMÁTICO?
• Es muy difícil escribir programas que resuelvan problemas como reconocer un objeto tridimensional desde un punto de vista
novedoso en nuevas condiciones de iluminación en una escena desordenada.
– No sabemos qué programa escribir porque no sabemos cómo se hace en nuestro cerebro.
– Incluso si tuviéramos una buena idea sobre cómo hacerlo, el programa podría ser terriblemente complicado.
• Es difícil escribir un programa para calcular la probabilidad de que una transacción con tarjeta de crédito sea
fraudulenta.
– Puede que no haya reglas que sean a la vez simples y confiables. Necesitamos combinar una gran
cantidad de reglas débiles.
– El fraude es un blanco móvil. El programa necesita seguir cambiando.
En lugar de escribir un programa a mano para cada tarea específica, recopilamos muchos ejemplos que especifican la
salida correcta para una entrada dada.
• Luego, un algoritmo de aprendizaje automático toma estos ejemplos y produce un programa que hace el trabajo.
– El programa producido por el algoritmo de aprendizaje puede verse muy diferente de un programa escrito a
mano típico. Puede contener millones de números.
– Si lo hacemos bien, el programa funciona para casos nuevos así como para aquellos en los que lo entrenamos.
– Si los datos cambian, el programa también puede cambiar entrenando con los nuevos datos.
• Cantidades masivas de cómputo ahora son más baratas que pagarle a alguien para que escriba un programa específico para una
tarea.
¿QUÉ ES EL APRENDIZAJE SUPERVISADO?
El aprendizaje supervisado es la tarea de aprendizaje automático de aprender una función que asigna una entrada a una
salida en función de pares de entrada-salida de ejemplo. Infiere una función a partir de datos de entrenamiento etiquetados
que consisten en un conjunto de ejemplos de entrenamiento. En el aprendizaje supervisado, cada ejemplo es un par que
consta de un objeto de entrada (típicamente un vector) y un valor de salida deseado (también llamado señal de supervisión).
Un algoritmo de aprendizaje supervisado analiza los datos de entrenamiento y produce una función inferida, que puede
usarse para mapear nuevos ejemplos. Un escenario óptimo permitirá que el algoritmo determine correctamente las etiquetas
de clase para instancias no vistas. Esto requiere que el algoritmo de aprendizaje generalice los datos de entrenamiento a
situaciones no vistas de una manera "razonable".
Para resolver un problema dado de aprendizaje supervisado, se deben realizar los siguientes pasos:
1. Determinar el tipo de ejemplos de entrenamiento. Antes de hacer cualquier otra cosa, el usuario debe decidir qué
tipo de datos se usarán como conjunto de entrenamiento. En el caso del análisis de escritura a mano, por ejemplo,
esto podría ser un solo carácter escrito a mano, una palabra escrita a mano completa o una línea completa de
escritura a mano.
2. Reúna un conjunto de entrenamiento. El conjunto de entrenamiento debe ser representativo del uso real de la
función. Por lo tanto, se recopila un conjunto de objetos de entrada y también se recopilan las salidas
correspondientes, ya sea de expertos humanos o de mediciones.
3. Determinar la representación de características de entrada de la función aprendida. La precisión de la función
aprendida depende en gran medida de cómo se represente el objeto de entrada. Normalmente, el objeto de
entrada se transforma en un vector de características, que contiene una serie de características que
describen el objeto. El número de funciones no debe ser demasiado grande, debido a la maldición de la
dimensionalidad; pero debe contener suficiente información para predecir con precisión la salida.
4. Determinar la estructura de la función aprendida y el algoritmo de aprendizaje correspondiente. Por ejemplo, el
ingeniero puede optar por utilizar máquinas de vectores de soporte o árboles de decisión.
5. Complete el diseño. Ejecute el algoritmo de aprendizaje en el conjunto de entrenamiento recopilado. Algunos algoritmos de
aprendizaje supervisado requieren que el usuario determine ciertos parámetros de control. Estos parámetros se pueden
ajustar optimizando el rendimiento en un subconjunto (llamado conjunto de validación) del conjunto de entrenamiento, o
mediante validación cruzada.
6. Evaluar la precisión de la función aprendida. Después del ajuste y el aprendizaje de los parámetros, el
rendimiento de la función resultante debe medirse en un conjunto de prueba que esté separado del
conjunto de entrenamiento.
UNIDAD 2
REDES NEURONALES ARTIFICIALES
¿QUÉ ES LA RED NEURONAL ARTIFICIAL?
Una Red Neural Artificial (ANN) es un modelo matemático que intenta simular la estructura y funcionalidades de las
redes neuronales biológicas. El componente básico de toda red neuronal artificial es la neurona artificial, es decir, un
modelo matemático simple (función). Tal modelo tiene tres conjuntos simples de reglas: multiplicación, suma y
activación. A la entrada de la neurona artificial, las entradas se ponderan, lo que significa que cada valor de entrada se
multiplica por el peso individual. En la sección central de la neurona artificial hay una función de suma que suma todas
las entradas ponderadas y el sesgo. A la salida de la neurona artificial, la suma de las entradas previamente ponderadas
y el sesgo pasa a través de la función de activación que también se denomina función de transferencia.
Notas de clase del Dr. R. Murugesan, AITS-Tirupti para NNFL (15A02604) - R15 - JNTUA Página1de24
ESTRUCTURA Y FUNCIONES DE LAS NEURONAS BIOLÓGICAS.
Una neurona, o célula nerviosa, es una célula eléctricamente excitable que se comunica con otras células a través de
conexiones especializadas llamadas sinapsis. Es el principal componente del tejido nervioso. Las neuronas se clasifican
típicamente en tres tipos según su función. Las neuronas sensoriales responden a estímulos como el tacto, el sonido o la luz
que afectan a las células de los órganos sensoriales y envían señales a la médula espinal o al cerebro. Las neuronas motoras
reciben señales del cerebro y la médula espinal para controlar todo, desde las contracciones musculares hasta la salida
glandular. Las interneuronas conectan neuronas con otras neuronas dentro de la misma región del cerebro o la médula
espinal. Un grupo de neuronas conectadas se llama circuito neuronal.
Una neurona típica consta de un cuerpo celular (soma), dendritas y un solo axón. El soma suele ser compacto. El axón y las
dendritas son filamentos que salen de él. Las dendritas típicamente se ramifican profusamente y se extienden unos pocos
cientos de micrómetros desde el soma. El axón sale del soma en una hinchazón llamada montículo del axón, y viaja hasta 1
metro en humanos o más en otras especies. Se ramifica pero suele mantener un diámetro constante. En el extremo más
alejado de las ramas del axón se encuentran las terminales del axón, donde la neurona puede transmitir una señal a través de
la sinapsis a otra célula. Las neuronas pueden carecer de dendritas o no tener axón. El término neurita se usa para describir
una dendrita o un axón, particularmente cuando la célula no está diferenciada.
El soma es el cuerpo de la neurona. Como contiene el núcleo, aquí se produce la mayor parte de la síntesis de proteínas. El
núcleo puede variar de 3 a 18 micrómetros de diámetro.
Las dendritas de una neurona son extensiones celulares con muchas ramificaciones. Esta forma y estructura general se conoce
metafóricamente como un árbol dendrítico. Aquí es donde se produce la mayor parte de la entrada a la neurona a través de la espina
dendrítica.
El axón es una proyección más fina, similar a un cable, que puede extenderse decenas, cientos o incluso decenas de miles de
veces el diámetro del soma en longitud. El axón transporta principalmente señales nerviosas fuera del soma y lleva algunos
tipos de información de vuelta a él. Muchas neuronas tienen un solo axón, pero este axón puede, y generalmente lo hará,
sufrir una ramificación extensa, lo que permite la comunicación con muchas células diana. La parte del axón donde emerge
del soma se llama montículo del axón. Además de ser una estructura anatómica, el montículo de axones también tiene la
mayor densidad de canales de sodio dependientes de voltaje. Esto la convierte en la parte de la neurona que se excita más
fácilmente y en la zona de iniciación de picos para el axón. En términos electrofisiológicos, tiene el potencial de umbral más
negativo.
Si bien el axón y el montículo de axones generalmente están involucrados en el flujo de salida de información, esta región también puede recibir
información de otras neuronas.
La terminal del axón se encuentra en el extremo del axón más alejado del soma y contiene sinapsis. Los botones
sinápticos son estructuras especializadas donde se liberan neurotransmisores químicos para comunicarse con
las neuronas diana. Además de los botones sinápticos en la terminal del axón, una neurona puede tener botones
de paso, que se encuentran a lo largo del axón.
La mayoría de las neuronas reciben señales a través de las dendritas y el soma y envían señales por el axón. En la
mayoría de las sinapsis, las señales pasan del axón de una neurona a la dendrita de otra. Sin embargo, las sinapsis
pueden conectar un axón con otro axón o una dendrita con otra dendrita. El proceso de señalización es en parte
eléctrico y en parte químico. Las neuronas son eléctricamente excitables, debido al mantenimiento de gradientes de
voltaje a través de sus membranas. Si el voltaje cambia en gran medida durante un breve intervalo, la neurona genera
un pulso electroquímico de todo o nada llamado potencial de acción. Este potencial viaja
rápidamente a lo largo del axón y activa las conexiones sinápticas a medida que las alcanza. Las señales sinápticas pueden ser
excitatorias o inhibitorias, aumentando o reduciendo el voltaje neto que llega al soma.
En la mayoría de los casos, las neuronas son generadas por células madre neurales durante el desarrollo del cerebro y la niñez. La
neurogénesis cesa en gran medida durante la edad adulta en la mayoría de las áreas del cerebro. Sin embargo, una fuerte evidencia
apoya la generación de cantidades sustanciales de nuevas neuronas en el hipocampo y el bulbo olfatorio.
ESTRUCTURA Y FUNCIONES DE LA NEURONA ARTIFICIAL.
Una neurona artificial es una función matemática concebida como un modelo de neuronas biológicas, una red neuronal. Las
neuronas artificiales son unidades elementales en una red neuronal artificial. La neurona artificial recibe una o más entradas
(que representan potenciales postsinápticos excitatorios y potenciales postsinápticos inhibitorios en las dendritas neurales) y
las suma para producir una salida (o activación, que representa el potencial de acción de una neurona que se transmite a lo
largo de su axón). Por lo general, cada entrada se pondera por separado y la suma se pasa a través de una función no lineal
conocida como función de activación o función de transferencia. Las funciones de transferencia suelen tener una forma
sigmoidea, pero también pueden adoptar la forma de otras funciones no lineales, funciones lineales por partes o funciones
escalonadas. También son a menudo monótonamente crecientes, continuos, diferenciable y acotado. La función de umbral ha
inspirado la construcción de puertas lógicas denominadas lógica de umbral; aplicable a la construcción de circuitos lógicos que
se asemejan al procesamiento cerebral. Por ejemplo, en los últimos tiempos se han utilizado ampliamente nuevos dispositivos
como los memristores para desarrollar dicha lógica.
ESTABLEZCA LAS PRINCIPALES DIFERENCIAS ENTRE LAS REDES BIOLÓGICAS Y ARTIFICIANEURALES
1. Tamaño:Nuestro cerebro contiene alrededor de 86 mil millones de neuronas y más de 100 sinapsis (conexiones). El número
de "neuronas" en las redes artificiales es mucho menor que eso.
2. Transporte y procesamiento de señales:El cerebro humano funciona de forma asíncrona, las ANN funcionan de forma sincrónica.
3. Velocidad de procesamiento:Las neuronas biológicas individuales son lentas, mientras que las neuronas estándar en las RNA son rápidas.
4. Topología:Las redes neuronales biológicas tienen topologías complicadas, mientras que las ANN suelen estar en una estructura de
árbol.
5. Velocidad:ciertas neuronas biológicas pueden disparar alrededor de 200 veces por segundo en promedio. Las señales
viajan a diferentes velocidades según el tipo de impulso nervioso, que van desde 0,61 m/s hasta 119 m/s. Las velocidades de
viaje de la señal también varían de persona a persona dependiendo de su sexo, edad, altura, temperatura, condición médica,
falta de sueño, etc. La información en las neuronas artificiales es transportada por los valores numéricos continuos de coma
flotante de los pesos sinápticos. No hay períodos refractarios para las redes neuronales artificiales (períodos en los que es
imposible enviar otro potencial de acción, debido a que los canales de sodio están bloqueados) y las neuronas artificiales no
experimentan "fatiga": son funciones que se pueden calcular tantas veces y tan rápido como la arquitectura de la
computadora lo permita.
6. Tolerancia a fallos:Las redes de neuronas biológicas debido a su topología también son tolerantes a fallas. Las redes neuronales
artificiales no están modeladas para la tolerancia a fallas o la autorregeneración (al igual que la fatiga, estas ideas no son aplicables a
las operaciones matriciales), aunque la recuperación es posible guardando el estado actual (valores de peso) del modelo y
continuando con el entrenamiento desde ese guardado. estado.
7. Consumo de energía:el cerebro consume alrededor del 20% de toda la energía del cuerpo humano; a pesar de su gran corte, el
cerebro de un adulto funciona con unos 20 vatios (apenas lo suficiente para encender una bombilla) y es extremadamente eficiente.
Teniendo en cuenta cómo los humanos aún pueden operar por un tiempo, cuando solo se les da un poco de jugo de limón rico en
vitamina C y sebo de res, esto es bastante notable. Como punto de referencia: una sola GPU Nvidia GeForce Titan X funciona solo con
250 vatios y requiere una fuente de alimentación. Nuestras máquinas son mucho menos eficientes que los sistemas biológicos. Las
computadoras también generan mucho calor cuando se usan, y las GPU de consumo funcionan de manera segura entre 50 y 80 °C en
lugar de entre 36,5 y 37,5 °C.
8. Aprendizaje:todavía no entendemos cómo aprenden los cerebros o cómo las conexiones redundantes almacenan y
recuerdan información. Al aprender, estamos construyendo sobre información que ya está almacenada en el cerebro. Nuestro
conocimiento se profundiza mediante la repetición y durante el sueño, y las tareas que antes requerían un enfoque pueden
ejecutarse automáticamente una vez dominadas. Las redes neuronales artificiales, por otro lado, tienen un modelo
predefinido, donde no se pueden agregar o eliminar más neuronas o conexiones. Solo los pesos de las conexiones (y los
sesgos que representan los umbrales) pueden cambiar durante el entrenamiento. Las redes comienzan con valores de
ponderación aleatorios y poco a poco intentarán llegar a un punto en el que más cambios en las ponderaciones ya no mejoren
el rendimiento. Las redes biológicas por lo general no paran/comienzan a aprender. Las ANN tienen diferentes fases de ajuste
(entrenamiento) y predicción (evaluación).
9. Campo de aplicación:Las RNA están especializadas. Pueden realizar una tarea. Pueden ser perfectos para jugar al ajedrez,
pero fallan al jugar al go (o viceversa). Las redes neuronales biológicas pueden aprender tareas completamente nuevas.
10. Algoritmo de entrenamiento:Las ANN usan Gradient Descent para el aprendizaje. Los cerebros humanos usan algo diferente
(pero no sabemos qué).
EXPLICAR BREVEMENTE LOS BLOQUES DE CONSTRUCCIÓN BÁSICOS DE LAS REDES NEURONALES ARTIFICIALES.
El procesamiento de ANN depende de los siguientes tres componentes básicos:
1. Topología de red
2. Ajustes de Pesos o Aprendizaje
3. Funciones de activación
1. Topología de red:Una topología de red es la disposición de una red junto con sus nodos y líneas de
conexión. De acuerdo con la topología, ANN se puede clasificar en los siguientes tipos:
A. Red de avance:Es una red no recurrente que tiene unidades de procesamiento/nodos en capas y todos los
nodos en una capa están conectados con los nodos de las capas anteriores. La conexión tiene diferentes pesos
sobre ellos. No hay bucle de retroalimentación, lo que significa que la señal solo puede fluir en una dirección,
de entrada a salida. Puede dividirse en los dos tipos siguientes:
- Red de retroalimentación de una sola capa:El concepto es que la ANN de avance tiene solo una capa ponderada.
En otras palabras, podemos decir que la capa de entrada está completamente conectada a la capa de salida.
- Red de retroalimentación multicapa:El concepto es que la ANN de avance tiene más

de una capa ponderada. Como esta red tiene una o más capas entre la entrada y la salida, se
denomina capas ocultas.
B. Red de comentarios:Como sugiere el nombre, una red de retroalimentación tiene rutas de retroalimentación, lo que
significa que la señal puede fluir en ambas direcciones usando bucles. Esto lo convierte en un sistema dinámico no
lineal, que cambia continuamente hasta alcanzar un estado de equilibrio. Puede dividirse en los siguientes tipos:
- Redes recurrentes:Son redes de retroalimentación con bucles cerrados. Los siguientes son los dos tipos de
redes recurrentes.
- Red completamente recurrente:Es la arquitectura de red neuronal más simple porque todos los nodos están
conectados a todos los demás nodos y cada nodo funciona como entrada y salida.
-Red jordana−Es una red de circuito cerrado en la que la salida volverá a la entrada como retroalimentación,
como se muestra en el siguiente diagrama.
2. Ajustes de Pesos o Aprendizaje:El aprendizaje, en una red neuronal artificial, es el método de modificar los pesos
de las conexiones entre las neuronas de una red específica. El aprendizaje en ANN se puede clasificar en tres
categorías, a saber, aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo.
Aprendizaje supervisado:Como su nombre indica, este tipo de aprendizaje se realiza bajo la supervisión de un
profesor. Este proceso de aprendizaje es dependiente. Durante el entrenamiento de ANN bajo aprendizaje
supervisado, el vector de entrada se presenta a la red, lo que dará un vector de salida. Este vector de salida se
compara con el vector de salida deseado. Se genera una señal de error si hay una diferencia entre la salida real y el
vector de salida deseado. Sobre la base de esta señal de error, los pesos se ajustan hasta que la salida real coincida
con la salida deseada.
Aprendizaje sin supervisión:Como su nombre lo indica, este tipo de aprendizaje se realiza sin la supervisión de un maestro.
Este proceso de aprendizaje es independiente. Durante el entrenamiento de ANN bajo aprendizaje no supervisado, los
vectores de entrada de tipo similar se combinan para formar grupos. Cuando se aplica un nuevo patrón de entrada, la red
neuronal da una respuesta de salida que indica la clase a la que pertenece el patrón de entrada. No hay retroalimentación del
entorno sobre cuál debería ser el resultado deseado y si es correcto o incorrecto. Por lo tanto, en este tipo de aprendizaje, la
propia red debe descubrir los patrones y características de los datos de entrada y la relación de los datos de entrada con la
salida.
Aprendizaje reforzado:Como sugiere el nombre, este tipo de aprendizaje se utiliza para reforzar o fortalecer la red sobre
alguna información crítica. Este proceso de aprendizaje es similar al aprendizaje supervisado, sin embargo, es posible que
tengamos muy poca información. Durante el entrenamiento de la red bajo el aprendizaje por refuerzo, la red recibe algunos
comentarios del entorno. Esto lo hace algo similar al aprendizaje supervisado. Sin embargo, la retroalimentación obtenida
aquí es evaluativa no instructiva, lo que significa que no hay un maestro como en el aprendizaje supervisado. Después de
recibir la retroalimentación, la red realiza ajustes de los pesos para obtener una mejor información crítica en el futuro.
3. Funciones de activación:Una función de activación es una ecuación matemática que determina la salida de cada
elemento (perceptrón o neurona) en la red neuronal. Toma la entrada de cada neurona y la transforma en una salida,
generalmente entre uno y cero o entre -1 y uno. Puede definirse como la fuerza o esfuerzo adicional aplicado sobre la
entrada para obtener una salida exacta. En ANN, también podemos aplicar funciones de activación sobre la entrada
para obtener la salida exacta. Las siguientes son algunas funciones de activación de interés:
i) Función de activación lineal: también se denomina función de identidad, ya que no realiza edición de entrada. Se puede definir
como:F(x) =x
ii) Función de activación sigmoidea: es de dos tipos de la siguiente manera:
-Función sigmoidal binaria:Esta función de activación realiza la edición de entrada entre 0 y 1. Es de naturaleza positiva.
Siempre está acotado, lo que significa que su salida no puede ser menor que 0 ni mayor que 1. También es de
naturaleza estrictamente creciente, lo que significa que cuanto mayor sea la entrada mayor será la salida. Se puede
definir como
F(x)=sigm(x)=11+exp(−x)F(x)=sigma(x)=11+exp(−x)
-Función sigmoidal bipolar:Esta función de activación realiza la edición de entrada entre -1 y 1. Puede ser de naturaleza
positiva o negativa. Siempre está acotado, lo que significa que su salida no puede ser menor que -1 ni mayor que 1.
También es de naturaleza estrictamente creciente como la función sigmoidea. Se puede definir como
F(x)=sigma(x)=21+exp(−x)−1=1−exp(x)1+exp(x)
¿QUÉ ES UNA FUNCIÓN DE ACTIVACIÓN DE RED NEURONAL?
En una red neuronal, las entradas, que suelen ser valores reales, se alimentan a las neuronas de la red. Cada neurona tiene
un peso, y las entradas se multiplican por el peso y se introducen en la función de activación. La salida de cada neurona es la
entrada de las neuronas en la siguiente capa de la red, por lo que las entradas se conectan en cascada a través de múltiples
funciones de activación hasta que, finalmente, la capa de salida genera una predicción. Las redes neuronales se basan en
funciones de activación no lineales: la derivada de la función de activación ayuda a la red a aprender a través del proceso de
retropropagación.
ALGUNAS FUNCIONES DE ACTIVACIÓN COMUNES INCLUYEN LAS SIGUIENTES:
1.La función sigmoideatiene un gradiente suave y genera valores entre cero y uno. Para valores muy altos o
bajos de los parámetros de entrada, la red puede ser muy lenta para alcanzar una predicción, llamada
gradiente de desapariciónproblema.
2.La función TanHestá centrado en cero, lo que facilita el modelado de entradas que son fuertemente negativas,
fuertemente positivas o neutras.
3.La función ReLues altamente eficiente computacionalmente pero no puede procesar entradas que se
acerquen a cero o negativas.
4.El ReLu con fugasLa función tiene una pequeña pendiente positiva en su área negativa, lo que le permite procesar valores
cero o negativos.
5.El ReLu paramétricoLa función permite aprender la pendiente negativa, realizando backpropagation
para aprender la pendiente más efectiva para valores de entrada cero y negativos.
6.softmaxes una función de activación especial que se utiliza para las neuronas de salida. Normaliza las salidas para cada clase
entre 0 y 1, y devuelve la probabilidad de que la entrada pertenezca a una clase específica.
7.Silbidoes una nueva función de activación descubierta por los investigadores de Google. Funciona mejor que ReLu
con un nivel similar de eficiencia computacional.
APLICACIONES DE ANN
1. Minería de datos: Descubrimiento de patrones significativos (conocimiento) a partir de grandes volúmenes de datos.
2. Sistemas Expertos: Programa informático para la toma de decisiones que simula el proceso de pensamiento de un
experto humano.
3. Lógica Difusa: Teoría del razonamiento aproximado.
4. Vida artificial: computación evolutiva, inteligencia de enjambre.
5. Sistema Inmunológico Artificial: Programa informático basado en el sistema inmunitario biológico.
6. Medicina: por el momento, la investigación se centra principalmente en el modelado de partes del cuerpo humano y el reconocimiento
de enfermedades a partir de varios escaneos (por ejemplo, cardiogramas, tomografías computarizadas, escaneos ultrasónicos, etc.).
Las redes neuronales son ideales para reconocer enfermedades mediante escaneos, ya que existen No es necesario proporcionar un
algoritmo específico sobre cómo identificar la enfermedad. Las redes neuronales aprenden con el ejemplo, por lo que no se
necesitan los detalles de cómo reconocer la enfermedad. Lo que se necesita es un conjunto de ejemplos que sean representativos de
todas las variaciones de la enfermedad. La cantidad de ejemplos no es tan importante como la 'cantidad'. Los ejemplos deben
seleccionarse con mucho cuidado para que el sistema funcione de manera confiable y eficiente.
7. Informática: los investigadores en busca de inteligencia artificial han creado productos derivados como la
programación dinámica, la programación orientada a objetos, la programación simbólica, los sistemas de gestión de
almacenamiento inteligente y muchas más herramientas similares. El objetivo principal de crear una inteligencia
artificial sigue siendo un sueño lejano, pero la gente se está haciendo una idea del camino final que podría conducir a
él.
8. Aviación: las aerolíneas utilizan sistemas expertos en aviones para monitorear las condiciones atmosféricas y el estado del sistema. El
avión se puede poner en piloto automático una vez que se establece un curso para el destino.
9. Pronóstico del tiempo: las redes neuronales se utilizan para predecir las condiciones climáticas. Los datos anteriores se
alimentan a una red neuronal, que aprende el patrón y usa ese conocimiento para predecir patrones climáticos.
10. Redes neuronales en los negocios: los negocios son un campo desviado con varias áreas generales de
especialización, como la contabilidad o el análisis financiero. Casi cualquier aplicación de red neuronal
cabría en un área comercial o análisis financiero.
11. Existe cierto potencial para el uso de redes neuronales con fines comerciales, incluida la asignación y
programación de recursos.
12. También existe un gran potencial para el uso de redes neuronales para la extracción de bases de datos, es decir, la búsqueda
de patrones implícitos en la información almacenada explícitamente en las bases de datos. La mayor parte del trabajo
financiado en esta área se clasifica como propietario. Por lo tanto, no es posible informar sobre el alcance total del trabajo en
curso. La mayor parte del trabajo consiste en aplicar redes neuronales, como la red Hopfield-Tank para optimización y
programación.
13. Marketing: Hay una aplicación de marketing que se ha integrado con un sistema de red neuronal. Airline
Marketing Tactician (una marca comercial abreviada como AMT) es un sistema informático hecho de varias
tecnologías inteligentes, incluidos los sistemas expertos. Una red neuronal de retroalimentación está integrada
con el AMT y fue entrenada usando retropropagación para ayudar al control de marketing de las asignaciones
de asientos de las aerolíneas. El enfoque neural adaptativo se prestaba a la expresión de reglas. Además, el
entorno de la aplicación cambiaba rápida y constantemente, lo que requería una solución de adaptación
continua.
14. Evaluación crediticia: la empresa HNC, fundada por Robert Hecht-Nielsen, ha desarrollado varias aplicaciones
de redes neuronales. Uno de ellos es el sistema Credit Scoring que aumenta la rentabilidad del modelo
existente hasta en un 27%. Los sistemas neuronales HNC también se aplicaron a la evaluación de hipotecas.
Nestor Company desarrolló un sistema de suscripción de seguro hipotecario automatizado de red neuronal.
Este sistema fue entrenado con 5048 aplicaciones de las cuales 2597 fueron certificadas. Los datos
relacionados con la propiedad y las calificaciones del prestatario. De manera conservadora el sistema acordó
los suscriptores en el 97% de los casos. En el modelo liberal el sistema accedió al 84% de los casos. Este es un
sistema que se ejecuta en un Apollo DN3000 y usó 250K de memoria mientras procesaba un archivo de caso en
aproximadamente 1 segundo.
VENTAJAS DE ANN
1. Aprendizaje adaptativo: la capacidad de aprender a realizar tareas en función de los datos proporcionados para la capacitación o la
experiencia inicial.
2. Autoorganización: una ANN puede crear su propia organización o representación de la información que recibe
durante el tiempo de aprendizaje.
3. Operación en tiempo real: los cálculos de ANN se pueden realizar en paralelo, y se están diseñando y
fabricando dispositivos de hardware especiales que aprovechan esta capacidad.
4. Reconocimiento de patrones: es una técnica poderosa para aprovechar la información de los datos y generalizar sobre ella. Las
redes neuronales aprenden a reconocer los patrones que existen en el conjunto de datos.
5. El sistema se desarrolla a través del aprendizaje en lugar de la programación. Las redes neuronales aprenden por sí mismas los
patrones en los datos, liberando al analista para un trabajo más interesante.
6. Las redes neuronales son flexibles en un entorno cambiante. Aunque las redes neuronales pueden tardar algún tiempo en
aprender un cambio repentino y drástico, son excelentes para adaptarse a la información en constante cambio.
7. Las redes neuronales pueden construir modelos informativos cada vez que fallan los enfoques convencionales. Debido a que las
redes neuronales pueden manejar interacciones muy complejas, pueden modelar fácilmente datos que son demasiado difíciles de
modelar con enfoques tradicionales como la estadística inferencial o la lógica de programación.
8. El rendimiento de las redes neuronales es al menos tan bueno como el modelado estadístico clásico y mejor en la
mayoría de los problemas. Las redes neuronales construyen modelos que reflejan mejor la estructura de los datos en
mucho menos tiempo.
LIMITACIONES DE ANN
En esta era tecnológica todo tiene méritos y algunos deméritos, en otras palabras, hay una limitación con cada
sistema que hace que esta tecnología ANN sea débil en algunos puntos. Las diversas limitaciones de ANN son: -
1) ANN no es un solucionador de problemas de propósito general de la vida diaria.
2) No existe una metodología estructurada disponible en ANN.

3) No existe un paradigma estandarizado único para el desarrollo de ANN.
4) La calidad de salida de una ANN puede ser impredecible.
5) Muchos sistemas ANN no describen cómo resuelven los problemas.
6) Caja negra Naturaleza
7) Mayor carga computacional.
8) Propensión al ajuste excesivo.
9) Naturaleza empírica del desarrollo del modelo.
CONCEPTOS/TERMINOLOGÍA DE REDES NEURONALES ARTIFICIALES
Aquí hay un glosario de términos básicos con los que debe estar familiarizado antes de aprender los detalles de las redes neuronales.
Entradas:Los datos de origen se introducen en la red neuronal, con el objetivo de tomar una decisión o predicción sobre los datos.
Las entradas a una red neuronal suelen ser un conjunto de valores reales; cada valor se alimenta a una de las neuronas en la capa
de entrada.
Conjunto de entrenamiento:Un conjunto de entradas para las que se conocen las salidas correctas, que se utiliza para entrenar la red neuronal.
Salidas :Las redes neuronales generan sus predicciones en forma de un conjunto de valores reales o decisiones
booleanas. Cada valor de salida es generado por una de las neuronas en la capa de salida.
Neurona/perceptrón:La unidad básica de la red neuronal. Acepta una entrada y genera una predicción.
Cada neurona acepta parte de la entrada y la pasa a través de la función de activación. Las funciones de activación
comunes son sigmoides, TanH y ReLu. Las funciones de activación ayudan a generar valores de salida dentro de un
rango aceptable, y su forma no lineal es crucial paraentrenar la red .
Espacio de peso:A cada neurona se le asigna un peso numérico. Los pesos, junto con la función de activación, definen la
salida de cada neurona. Las redes neuronales se entrenan mediante el ajuste fino de los pesos, para descubrir el conjunto
óptimo de pesos que genera la predicción más precisa.
Pase adelantado:El pase hacia adelante toma las entradas, las pasa a través de la red y permite que cada
neurona reaccione a una fracción de la entrada. Las neuronas generan sus salidas y las pasan a la siguiente
capa, hasta que finalmente la red genera una salida.
Función de error:Define qué tan lejos está la salida real del modelo actual de la salida correcta. Al
entrenar el modelo, el objetivo es minimizar la función de error y acercar la salida lo más posible al
valor correcto.
Retropropagación:Para descubrir los pesos óptimos para las neuronas, realizamos un paso hacia atrás,
retrocediendo desde la predicción de la red hasta las neuronas que generaron esa predicción. Esto se llama
retropropagación. La retropropagación rastrea las derivadas de las funciones de activación en cada neurona
sucesiva, para encontrar pesos que lleven la función de pérdida al mínimo, lo que generará la mejor predicción.
Este es un proceso matemático llamadodescenso de gradiente.
Sesgo y varianza:Cuando entrenamos redes neuronales, como en otras técnicas de aprendizaje automático, intentamos equilibrar
el sesgo y la varianza. El sesgo mide qué tan bien se ajusta el modelo al conjunto de entrenamiento, capaz de predecir
correctamente los resultados conocidos de los ejemplos de entrenamiento. La varianza mide qué tan bien funciona el modelo con
entradas desconocidas que no estaban disponibles durante el entrenamiento. Otro significado de sesgo es un “neurona sesgada ”
que se utiliza en cada capa de la red neuronal. La neurona de polarización contiene el número 1 y permite mover la función de
activación hacia arriba, hacia abajo, hacia la izquierda y hacia la derecha en el gráfico numérico.
Hiperparámetros:Un hiperparámetro es una configuración que afecta la estructura o el funcionamiento de la red neuronal.
En proyectos reales de aprendizaje profundo, ajustar los hiperparámetros es la forma principal de construir una red que
proporcione predicciones precisas para un problema determinado. Los hiperparámetros comunes incluyen el número de
capas ocultas, la función de activación y cuántas veces (épocas) se debe repetir el entrenamiento.
METROCMODELO CULLOGH-PITTS
En 1943, dos ingenieros eléctricos, Warren McCullogh y Walter Pitts, publicaron el primer artículo que describía lo
que llamaríamos una red neuronal.
Se puede dividir en 2 partes. La primera parte, g, toma una entrada, realiza una agregación y, en función del valor
agregado, la segunda parte, f, toma una decisión. Supongamos que quiero predecir mi propia decisión, si ver un
partido de fútbol al azar o no en la televisión. Las entradas son todas booleanas, es decir, {0,1} y mi variable de
salida también es booleana {0: Lo miraré, 1: No lo miraré}.
Entonces,X1podría ser 'está en la Premier League india' (me gusta más la Premier League)
X2podría ser 'es un juego eliminatorio (Tiendo a preocuparme menos por los partidos de nivel de liga)
X3podría ser 'no está en casa' (no puedo verlo cuando estoy en la universidad. ¿Puedo?)
X4podría ser 'es mi equipo favorito jugando' y así sucesivamente.
Estas entradas pueden ser excitatorias o inhibitorias. Las entradas inhibitorias son aquellas que tienen el máximo efecto en la toma
de decisiones independientemente de otras entradas, es decir, siX3es 1 (no en casa) entonces mi salida siempre será
0 es decir, la neurona nunca disparará, por lo queX3es una entrada inhibitoria. Las entradas excitatorias NO son las que
harán que la neurona se active por sí solas, pero pueden activarla cuando se combinan. Formalmente, esto es lo que está
pasando:
Podemos ver que g(x) solo está haciendo una suma de las entradas, una agregación simple. Y theta aquí se
llama parámetro de umbral. Por ejemplo, si siempre veo el juego cuando la suma resulta ser 2 o más, el theta
es 2 aquí. Esto se llama la Lógica de Umbral.
El modelo neuronal de McCulloch-Pitts también se conoce como puerta de umbral lineal. Es una neurona de un conjunto de entradas
I1, I2,I3,…Imetroy una salida 'y'. La puerta de umbral lineal simplemente clasifica el conjunto de entradas en dos clases diferentes. Por lo
tanto, la salida y es binaria. Tal función se puede describir matemáticamente usando estas ecuaciones:
Dónde, son valores de peso normalizados en el rango de o y

asociado con cada línea de entrada, Sum es la suma ponderada, y es una constante umbral. La función es un
función de paso lineal en el umbral como se muestra en la figura 2.3. La representación simbólica de la puerta de umbral
lineal se muestra en la figura a continuación.
Función de umbral lineal
Ilustración simbólica de puerta de umbral lineal
FUNCIONES BOOLEANAS QUE UTILIZAN MCNEURONA DE CULLOGH-PITTS
En cualquier función booleana, todas las entradas son booleanas y la salida también es booleana. Básicamente, la neurona solo está
tratando de aprender una función booleana.
Esta representación solo indica que, para las entradas booleanas x_1, x_2 y x_3 si g(x), es decir, sum ≥ theta, la neurona se
disparará; de lo contrario, no lo hará.
Función Y
Una neurona con función AND solo se dispararía cuando TODAS las entradas estén ENCENDIDAS, es decir, g(x) ≥ 3 aquí.
O Función
Para una función OR, la neurona se dispararía si CUALQUIERA de las entradas está ACTIVADA, es decir, g(x) ≥ 1 aquí.
Función NI
Para que se active una neurona NOR, queremos que TODAS las entradas sean 0, por lo que el parámetro de umbral también debe ser 0 y
las tomamos todas como entradas inhibitorias.
No funciona
Para una neurona NOT, 1 genera 0 y 0 genera 1. Por lo tanto, tomamos la entrada como una entrada inhibitoria y
establecemos el parámetro de umbral en 0.
Podemos resumir estas reglas con la regla de salida de McCullough-Pitts como:
El modelo de McCulloch-Pitts de una neurona es simple pero tiene un potencial informático sustancial. También tiene una
definición matemática precisa. Sin embargo, este modelo es tan simple que solo genera una salida binaria y también los
valores de peso y umbral son fijos. El algoritmo de computación neuronal tiene diversas características para diversas
aplicaciones. Por lo tanto, necesitamos obtener el modelo neuronal con características computacionales más flexibles.
¿CUÁLES SON LAS REGLAS DE APRENDIZAJE EN ANN?
La regla de aprendizaje es un método o una lógica matemática. Ayuda a una red neuronal a aprender de las
condiciones existentes y mejorar su rendimiento. Por lo tanto, aprender reglas actualiza los pesos y los niveles de sesgo
de una red cuando una red simula en un entorno de datos específico. La aplicación de la regla de aprendizaje es un
proceso iterativo. Ayuda a una red neuronal a aprender de las condiciones existentes y mejorar su rendimiento.
Las diferentes reglas de aprendizaje en la red neuronal son:
1. Regla de aprendizaje de Hebbian: identifica cómo modificar los pesos de los nodos de una red.
2. Regla de aprendizaje del perceptrón: la red comienza su aprendizaje asignando un valor aleatorio a cada peso.
3. Regla de aprendizaje delta: la modificación en el peso simpátrico de un nodo es igual a la multiplicación del error y
la entrada.
4. Regla de aprendizaje de correlación: la regla de correlación es el aprendizaje supervisado.
5. Regla de aprendizaje Outstar: podemos usarla cuando se supone que los nodos o las neuronas en una red están dispuestos en una capa.
1. Regla de aprendizaje de Hebbian:La regla hebbiana fue la primera regla de aprendizaje. En 1949 Donald Hebb lo desarrolló
como algoritmo de aprendizaje de la red neuronal no supervisada. Podemos usarlo para identificar cómo mejorar los pesos de
los nodos de una red. La regla de aprendizaje de Hebb supone que: si dos neuronas vecinas se activan y desactivan al mismo
tiempo, entonces el peso que conecta estas neuronas debería aumentar. Al principio, los valores de todos los pesos se
establecen en cero. Esta regla de aprendizaje se puede utilizar para funciones de activación blanda y dura. Dado que las
respuestas deseadas de las neuronas no se utilizan en el procedimiento de aprendizaje, esta es la regla de aprendizaje no
supervisado. Los valores absolutos de los pesos suelen ser proporcionales al tiempo de aprendizaje, lo que no es deseable.
Fórmula matemática de la regla de aprendizaje de Hebb.
Notas de clase del Dr. R. Murugesan, AITS-Tirupti para NNFL (15A02604) - R15 - JNTUA Páginadieciséisde24
2. Regla de aprendizaje del perceptrón:Cada conexión en una red neuronal tiene un peso asociado, que cambia en el
curso del aprendizaje. Según él, un ejemplo de aprendizaje supervisado, la red inicia su aprendizaje asignando un
valor aleatorio a cada peso. Calcule el valor de salida sobre la base de un conjunto de registros para los que
podemos conocer el valor de salida esperado. Esta es la muestra de aprendizaje que indica la definición completa.
Como resultado, se llama una muestra de aprendizaje. Luego, la red compara el valor de salida calculado con el
valor esperado. Luego calcula una función de error ∈, que puede ser la suma de los cuadrados de los errores que
ocurren para cada individuo en la muestra de aprendizaje que se puede calcular como:
Fórmula matemática de la regla de aprendizaje del perceptrón
Realice la primera suma en los individuos del conjunto de aprendizaje y realice la segunda suma en las unidades
de salida. miyoy Oyoson los valores esperados y obtenidos de jelunidad para la ielindividual. Luego, la red ajusta los
pesos de las diferentes unidades, comprobando cada vez si la función de error ha aumentado o disminuido.
Como en una regresión convencional, se trata de resolver un problema de mínimos cuadrados. Ya que asignando
los pesos de los nodos según los usuarios, es un ejemplo de aprendizaje supervisado.
3. Regla de aprendizaje Delta:Desarrollada por Widrow y Hoff, la regla delta es una de las reglas de aprendizaje más
comunes. Depende del aprendizaje supervisado. Esta regla establece que la modificación en el peso simpátrico de
un nodo es igual a la multiplicación del error y la entrada. En forma matemática, la regla delta es la siguiente:
Fórmula matemática de la regla de aprendizaje Delta
Para un vector de entrada dado, comparar el vector de salida es la respuesta correcta. Si la diferencia es cero, no se
produce ningún aprendizaje; de lo contrario, ajusta sus pesos para reducir esta diferencia. El cambio de peso de ui a uj
es: dwij = r* ai * ej. donde r es la tasa de aprendizaje, ai representa la activación de ui y ej es la diferencia entre la salida
esperada y la salida real de uj. Si el conjunto de patrones de entrada forma un conjunto independiente, aprenda
asociaciones arbitrarias utilizando la regla delta.
Se ha visto que para redes con funciones de activación lineal y sin unidades ocultas.
El error al cuadrado frente al gráfico de peso es un paraboloide en el espacio n. Como la constante de proporcionalidad
es negativa, la gráfica de tal función es cóncava hacia arriba y tiene el valor mínimo. El vértice de este paraboloide
representa el punto donde reduce el error. El vector de peso correspondiente a este punto es entonces el vector de
peso ideal. Podemos usar la regla de aprendizaje delta tanto con una sola unidad de salida como con varias unidades
de salida. Al aplicar la regla delta, suponga que el error se puede medir directamente. El objetivo de aplicar la regla
delta es reducir la diferencia entre la salida real y la esperada que es el error.
4. Regla de aprendizaje de correlación:La regla de aprendizaje de correlación basada en un principio similar al

Regla de aprendizaje de Hebbian. Asume que los pesos entre las neuronas que responden deben ser más positivos y los pesos
entre las neuronas con reacción opuesta deben ser más negativos. Contrariamente a la regla hebbiana, la regla de correlación
es el aprendizaje supervisado, en lugar de uno real. La respuesta, oj, la respuesta deseada, dj, se usa para el cálculo del
cambio de peso. En forma matemática, la regla de aprendizaje de correlación es la siguiente:
Fórmula matemática de la regla de aprendizaje de correlación
Donde Djes el valor deseado de la señal de salida. Este algoritmo de entrenamiento suele comenzar con la inicialización de los pesos a
cero. Dado que asigna el peso deseado por los usuarios, la regla de aprendizaje de correlación es un ejemplo de aprendizaje
supervisado.
5. Regla de aprendizaje de Out Star:Usamos la regla de aprendizaje Out Star cuando asumimos que los nodos o
neuronas en una red dispuesta en una capa. Aquí, los pesos conectados a un determinado nodo deben ser iguales a las
salidas deseadas para las neuronas conectadas a través de esos pesos. La regla de salida produce la respuesta deseada t para
la capa de n nodos. Aplique este tipo de aprendizaje para todos los nodos en una capa particular. Actualice los pesos para los
nodos como en las redes neuronales de Kohonen. En forma matemática, exprese el aprendizaje de out star de la siguiente
manera:
Fórmula matemática de la regla de aprendizaje de Out Star
Este es un procedimiento de entrenamiento supervisado porque se deben conocer los resultados deseados.
EXPLICA BREVEMENTE EL MODELO ADALINE DE ANN.
ADALINE (neurona lineal adaptativa o elemento lineal adaptativo posterior) es una de las primeras redes
neuronales artificiales de una sola capa y el nombre del dispositivo físico que implementó esta red. La red utiliza
memistores. Fue desarrollado por el profesor Bernard Widrow y su estudiante graduado Ted Hoff en la
Universidad de Stanford en 1960. Se basa en la neurona de McCulloch-Pitts. Consiste en una función de peso, un
sesgo y una sumatoria. La diferencia entre Adaline y el perceptrón estándar (McCulloch-Pitts) es que en la fase de
aprendizaje, los pesos se ajustan de acuerdo con la suma ponderada de las entradas (la red). En el perceptrón
estándar, la red pasa a la función de activación (transferencia) y la salida de la función se usa para ajustar los
pesos. Algunos puntos importantes sobre Adaline son los siguientes:
- Utiliza la función de activación bipolar.
- Utiliza la regla delta para el entrenamiento para minimizar el error cuadrático medio (MSE) entre la salida real
y la salida deseada/objetivo.
- Los pesos y el sesgo son ajustables.
Arquitectura de la red ADALINE:La estructura básica de Adaline es similar al perceptrón que tiene un circuito de
retroalimentación adicional con la ayuda del cual la salida real se compara con la salida deseada/objetivo. Después de la
comparación sobre la base del algoritmo de entrenamiento, se actualizarán los pesos y el sesgo.
Arquitectura de ADALINE:La estructura básica de Adaline es similar al perceptrón que tiene un circuito de retroalimentación
adicional con la ayuda del cual la salida real se compara con la salida deseada/objetivo. Después de la comparación sobre la
base del algoritmo de entrenamiento, se actualizarán los pesos y el sesgo.
Algoritmo de entrenamiento de ADALINE:
Paso 1: inicialice lo siguiente para comenzar el entrenamiento:

- Pesos
- Inclinación
- Tasa de aprendizaje α
Para facilitar el cálculo y la simplicidad, los pesos y el sesgo deben establecerse en 0 y la tasa de aprendizaje debe
establecerse en 1.
Paso 2 − Continúe con los pasos 3-8 cuando la condición de parada no sea verdadera.
Paso 3 − Continúe con los pasos 4-6 para cada par de entrenamiento bipolar s : t.
Paso 4: active cada unidad de entrada de la siguiente manera:
Xi=si(i=1 a n)
Paso 5 - Obtenga la entrada neta con la siguiente relación:
Aquí 'b' es el sesgo y 'n' es el número total de neuronas de entrada.
Paso 6: aplique la siguiente función de activación para obtener el resultado final:
( ){
Paso 7: ajuste el peso y el sesgo de la siguiente manera:
Caso 1 − si y ≠ t entonces,wi(nuevo) = wi(antiguo)+α(t−yen)Xi
b(nuevo) = b(viejo)+α(t−yen)
Caso 2 − si y = t entonces,wi(nuevo) = wi(viejo)
b(nuevo) = b(viejo)
Aquí 'y' es la salida real y 't' es la salida deseada/objetivo. (t−yen) es el error calculado.
Paso 8: pruebe la condición de parada, que ocurrirá cuando no haya cambios en el peso o cuando el mayor
cambio de peso ocurrido durante el entrenamiento sea menor que la tolerancia especificada.
EXPLICAR LAS NEURONAS LINEALES ADAPTATIVAS MÚLTIPLES (MADALINE).
Madaline, que significa Multiple Adaptive Linear Neuron, es una red que consta de muchas Adalines en paralelo.
Contará con una sola unidad de salida. Se han sugerido tres algoritmos de entrenamiento diferentes para las redes
MADALINE llamados Regla I, Regla II y Regla III, que no se pueden aprender usando retropropagación. El primero de
ellos data de 1962 y no puede adaptar los pesos de la conexión de salida oculta.[10] El segundo algoritmo de
entrenamiento mejoró la Regla I y se describió en 1988.[8] La tercera "Regla" aplicada a una red modificada con
activaciones sigmoideas en lugar de signum; Más tarde se descubrió que era equivalente a la retropropagación. El
algoritmo de entrenamiento de la Regla II se basa en un principio llamado "perturbación mínima". Continúa
recorriendo ejemplos de entrenamiento, luego para cada ejemplo:
- encuentra la unidad de capa oculta (clasificador ADALINE) con la confianza más baja en su predicción, invierte
tentativamente el signo de la unidad,
- acepta o rechaza el cambio en función de si se reduce el error de la red, se detiene
- cuando el error es cero.
Algunos puntos importantes sobre Madaline son los siguientes:

- Es como un perceptrón multicapa, donde Adaline actuará como una unidad oculta entre la entrada y la capa
de Madaline.
- Los pesos y el sesgo entre las capas de entrada y Adaline, como vemos en la arquitectura
Adaline, son ajustables.
- Las capas Adaline y Madaline tienen pesos fijos y un sesgo de 1. El
- entrenamiento se puede realizar con la ayuda de la regla Delta.
EXPLICAR BREVEMENTE LA ARQUITECTURA DE MADALINE
MADALINE (Many ADALINE) es una arquitectura de red neuronal artificial de tres capas (entrada, oculta, salida),
totalmente conectada, para clasificación que utiliza unidades ADALINE en sus capas oculta y de salida, es decir,
su función de activación es la función de signo. La red de tres capas utiliza memistores. La arquitectura de
Madaline consta de "n" neuronas de la capa de entrada, "m" neuronas de la capa Adaline y 1 neurona de la capa
Madaline. La capa Adaline se puede considerar como la capa oculta ya que se encuentra entre la capa de entrada
y la capa de salida, es decir, la capa Madaline.
Algoritmo de entrenamiento de MADALINE
Ahora sabemos que solo se deben ajustar los pesos y el sesgo entre la entrada y la capa Adaline, y
que los pesos y el sesgo entre la capa Adaline y Madaline son fijos.
Paso 1: inicialice lo siguiente para comenzar el entrenamiento:

- Pesos
- Inclinación
- Tasa de aprendizaje α
Para facilitar el cálculo y la simplicidad, los pesos y el sesgo deben establecerse en 0 y la tasa de aprendizaje debe
establecerse en 1.
Paso 2 − Continúe con los pasos 3-8 cuando la condición de parada no sea verdadera.
Paso 3 − Continúe con los pasos 4-6 para cada par de entrenamiento bipolar s:t.
Paso 4: active cada unidad de entrada de la siguiente manera:
Xi= si(I = 1 a n)
Paso 5: obtenga la entrada neta en cada capa oculta, es decir, la capa Adaline con la siguiente relación:
∑
Aquí 'b' es el sesgo y 'n' es el número total de neuronas de entrada.
Paso 6: aplique la siguiente función de activación para obtener la salida final en Adaline y Madaline
Capa: (){
Salida en la unidad oculta Adaline Qj=f(Q

inyección) Salida final de la red y = f(yen)
es decir
Paso 7: calcule el error y ajuste los pesos de la siguiente manera:
Caso 1 − si y ≠ t y t = 1 entonces,
wyo(nuevo) = wyo(antiguo)+α(1−Qinyección)Xi
bj(nuevo) = bj(antiguo)+α(1−Qinyección)
En este caso, los pesos se actualizarían en Qj donde la entrada neta es cercana a 0 porque t = 1.
Caso 2 − si y ≠ t y t = -1 entonces,
wyo(nuevo) = wyo(antiguo)+α(−1−Qtinta)Xi
bk(nuevo) = bk(antiguo)+α(−1−Qtinta)
En este caso, los pesos se actualizarían en Qk donde la entrada neta es positiva porque t = -1.
Aquí 'y' es la salida real y 't' es la salida deseada/objetivo.
Caso 3: si y = t, entonces no habría cambios en los pesos.
Paso 8 - Pruebe la condición de parada, que ocurrirá cuando no haya cambios en el peso o en la
el mayor cambio de peso ocurrido durante el entrenamiento es menor que la tolerancia especificada.
¿QUÉ ES UN PERCEPTRÓN?
Un perceptrón es un algoritmo de clasificación binaria modelado según el funcionamiento del cerebro humano: estaba
destinado a emular la neurona. El perceptrón, si bien tiene una estructura simple, tiene la capacidad de aprender un
¿Qué es el perceptrón multicapa?
Un perceptrón multicapa (MLP) es un grupo de perceptrones, organizados en múltiples capas, que pueden responder
preguntas complejas con precisión. Cada perceptrón de la primera capa (a la izquierda) envía señales a todos los
perceptrones de la segunda capa, y así sucesivamente. Un MLP contiene una capa de entrada, al menos una capa oculta y
una capa de salida.
El perceptrón aprende de la siguiente manera:
1. Toma las entradas que se alimentan a los perceptrones en la capa de entrada, las multiplica por
sus pesos y calcula la suma.
2. Suma el número uno, multiplicado por un "peso de sesgo". Este es un paso técnico que hace posible mover la función
de salida de cada perceptrón (la función de activación) hacia arriba, abajo, izquierda y derecha en el gráfico numérico.
3. Alimenta la suma a través de la función de activación: en un sistema de perceptrón simple, la función de

activación es una función de paso.
4. El resultado de la función de paso es la salida.
Un perceptrón multicapa es bastante similar a una red neuronal moderna. Al agregar algunos ingredientes, la arquitectura del
perceptrón se convierte en un sistema de aprendizaje profundo completo:
- Funciones de activación y otrashiperparámetros :una red neuronal completa utiliza una variedad de funciones de
activación que generan valores reales, no valores booleanos como en el perceptrón clásico. Es más flexible en
términos de otros detalles del proceso de aprendizaje, como el número de iteraciones de entrenamiento (iteraciones
y épocas), esquemas de inicialización de pesos, regularización, etc. Todos estos se pueden ajustar como
hiperparámetros.
- retropropagación: una red neuronal completa utiliza el algoritmo de retropropagación para realizar pases hacia
atrás iterativos que intentan encontrar los valores óptimos de los pesos de los perceptrones para generar la
predicción más precisa.
- Arquitecturas avanzadas: las redes neuronales completas pueden tener una variedad de arquitecturas que pueden
ayudar a resolver problemas específicos. Algunos ejemplos son las redes neuronales recurrentes (RNN), las redes
neuronales convolucionales (CNN) y las redes antagónicas generativas (GAN).
¿QUÉ ES LA PROPAGACIÓN HACIA ATRÁS Y POR QUÉ ES IMPORTANTE?
Después de que se define una red neuronal con pesos iniciales y se realiza un paso hacia adelante para generar la predicción
inicial, hay una función de error que define qué tan lejos está el modelo de la predicción verdadera. Hay muchos algoritmos
posibles que pueden minimizar la función de error; por ejemplo, uno podría hacer una búsqueda de fuerza bruta para
encontrar los pesos que generan el error más pequeño. Sin embargo, para redes neuronales grandes, se necesita un
algoritmo de entrenamiento que sea muy eficiente desde el punto de vista computacional. Backpropagation es ese algoritmo:
puede descubrir los pesos óptimos con relativa rapidez, incluso para una red con millones de pesos.
¿CÓMO FUNCIONA LA PROPAGACIÓN HACIA ATRÁS?
1.Pase adelantado—los pesos se inicializan y las entradas del conjunto de entrenamiento se

alimentan a la red. Se realiza el pase hacia adelante y el modelo genera su predicción inicial.
2.Función de error— la función de error se calcula comprobando la distancia entre la predicción y el
valor verdadero conocido.
3.Retropropagación con descenso de gradiente—el algoritmo de retropropagación calcula cuánto se ven
afectados los valores de salida por cada uno de los pesos del modelo. Para ello calcula derivadas parciales,
volviendo desde la función de error a una neurona concreta y su peso. Esto proporciona una trazabilidad
completa desde el total de errores hasta un peso específico que contribuyó a ese error. El resultado de la
retropropagación es un conjunto de ponderaciones que minimizan la función de error.
4.Actualización de peso—los pesos se pueden actualizar después de cada muestra en el conjunto de entrenamiento,
pero esto no suele ser práctico. Por lo general, un lote de muestras se ejecuta en un gran paso hacia adelante y
luego se realiza una retropropagación en el resultado agregado. Eltamaño del lotey número de lotes usados en el
entrenamiento, llamadositeraciones, son importanteshiperparámetros que están ajustados para obtener los
mejores resultados. Ejecutar todo el conjunto de entrenamiento a través del proceso de retropropagación se
denominaépoca.
Algoritmo de entrenamiento de BPNN:
1. Entradas X, llegan por la ruta preconectada

2. La entrada se modela utilizando pesos reales W. Los pesos generalmente se seleccionan al azar.
3. Calcule la salida para cada neurona desde la capa de entrada, a las capas ocultas, a la capa
de salida.
4. Calcular el error en las salidas
ErrorB= Salida real – Salida deseada
5. Viaje de regreso desde la capa de salida a la capa oculta para ajustar los pesos de modo que se
reduzca el error.
Siga repitiendo el proceso hasta lograr el resultado deseado
Arquitectura de la red de retropropagación:
Como se muestra en el diagrama, la arquitectura de BPN tiene tres capas interconectadas que tienen pesos en ellas. Tanto la
capa oculta como la capa de salida también tienen un sesgo, cuyo peso siempre es 1, sobre ellas. Como se desprende
claramente del diagrama, el funcionamiento de BPN consta de dos fases. Una fase envía la señal desde la capa de entrada a
la capa de salida, y la otra fase hacia atrás propaga el error desde la capa de salida a la capa de entrada.
UNIDAD 3
APLICACIONES DE ANN A SISTEMAS ELÉCTRICOS
¿CUÁLES SON LOS PARADIGMAS DE APRENDIZAJE ANN?
El aprendizaje puede referirse tanto a la adquisición como a la mejora del conocimiento. Como dice Herbert
Simon, Machine Learning denota cambios en el sistema que son adaptativos en el sentido de que permiten que el
sistema realice la misma tarea o tareas extraídas de la misma población de manera más eficiente y efectiva la
próxima vez.
Los paradigmas de aprendizaje ANN se pueden clasificar como aprendizaje supervisado, no supervisado y de
refuerzo. Aprendizaje supervisado El modelo asume la disponibilidad de un maestro o supervisor que clasifica los
ejemplos de capacitación en clases y utiliza la información sobre la membresía de clase de cada instancia de
capacitación, mientras que,Aprendizaje sin supervisión El modelo identifica heurísticamente la información de
clase de patrón y el aprendizaje por refuerzo aprende a través de interacciones de prueba y error con su entorno
(asignación de recompensa/penalización).
Aunque estos modelos abordan el aprendizaje de diferentes maneras, el aprendizaje depende del espacio de las
neuronas de interconexión. Es decir, el aprendizaje supervisado aprende ajustando sus combinaciones de peso de
interconexión con la ayuda de señales de error, mientras que el aprendizaje no supervisado usa información
asociada con un grupo de neuronas y el aprendizaje por refuerzo usa la función de refuerzo para modificar los
parámetros de peso locales. Por lo tanto, el aprendizaje se produce en una ANN mediante el ajuste de los
parámetros libres de la red que se adaptan donde se integra la ANN.
EXPLICAR BREVEMENTE EL APRENDIZAJE SUPERVISADO.
El aprendizaje supervisado se basa en entrenar una muestra de datos de una fuente de datos con la
clasificación correcta ya asignada. Estas técnicas se utilizan en modelos de perceptrón multicapa (MLP) o
feedforward. Estos MLP tienen tres características distintivas:
1. Una o más capas de neuronas ocultas que no forman parte de las capas de entrada o salida de la red que
permiten que la red aprenda y resuelva cualquier problema complejo
2. La no linealidad reflejada en la actividad neuronal es diferenciable y,
3. El modelo de interconexión de la red exhibe un alto grado de conectividad Estas características junto con
el aprendizaje a través de la capacitación resuelven problemas difíciles y diversos. Aprendizaje a través del
entrenamiento en un modelo ANN supervisado también llamado algoritmo de retropropagación de errores.
El algoritmo de aprendizaje de corrección de errores entrena la red en función de las muestras de entrada y
salida y encuentra la señal de error, que es la diferencia entre la salida calculada y la salida deseada y ajusta
los pesos sinápticos de las neuronas que es proporcional al producto del error. señal y la instancia de
entrada del peso sináptico. Según este principio, el aprendizaje de la propagación hacia atrás del error se
produce en dos pasos:
Pase adelantado: Aquí, el vector de entrada se presenta a la red. Esta señal de entrada se propaga hacia
adelante, neurona por neurona a través de la red y emerge en el extremo de salida de la red como señal de
salida:
y(n) = φ(v(n)), donde v(n) es el campo local inducido de una neurona definido por v(n) =Σ w(n)y(n). La
salida que se calcula en la capa de salida o(n) se compara con la respuesta deseada d(n) y encuentra el
error e(n) para esa neurona. Los pesos sinápticos de la red durante este paso siguen siendo los
mismos.
Pase hacia atrás: La señal de error que se origina en la neurona de salida de esa capa se propaga
hacia atrás a través de la red. Esto calcula el gradiente local para cada neurona en cada capa y
permite que los pesos sinápticos de la red sufran cambios de acuerdo con la regla delta como:
Δw(n) = η * δ(n) * y(n).

Este cálculo recursivo continúa, con un paso hacia adelante seguido de un paso hacia atrás para cada patrón
de entrada hasta que la red converge. El paradigma de aprendizaje supervisado de una ANN es eficiente y
encuentra soluciones a varios problemas lineales y no lineales, como clasificación, control de planta,
pronóstico, predicción, robótica, etc.
EXPLICAR BREVEMENTE EL APRENDIZAJE NO SUPERVISADO.
Las redes neuronales autoorganizadas aprenden utilizando un algoritmo de aprendizaje no supervisado para identificar
patrones ocultos en datos de entrada no etiquetados. Este no supervisado se refiere a la capacidad de aprender y
organizar la información sin proporcionar una señal de error para evaluar la posible solución. La falta de dirección del
algoritmo de aprendizaje en el aprendizaje no supervisado puede ser ventajosa en algún momento, ya que permite que
el algoritmo busque patrones que no se hayan considerado previamente. Las principales características de Self-
Organizing Maps (SOM) son:
1. Transforma un patrón de señal entrante de dimensión arbitraria en un mapa de una o dos dimensiones y
realiza esta transformación de forma adaptativa.
2. La red representa una estructura de avance con una sola capa computacional que consta de
neuronas dispuestas en filas y columnas.
3. En cada etapa de la representación, cada señal de entrada se mantiene en su contexto adecuado y,
4. Las neuronas que se ocupan de piezas de información estrechamente relacionadas están muy juntas y se
comunican a través de conexiones sinápticas.
La capa computacional también se denomina capa competitiva, ya que las neuronas de la capa compiten
entre sí para activarse. Por lo tanto, este algoritmo de aprendizaje se llama algoritmo competitivo. El
algoritmo no supervisado en SOM funciona en tres fases:
Fase de competición: para cada patrón de entrada x, presentado a la red, se calcula el producto interno con
peso sináptico w y las neuronas en la capa competitiva encuentran una función discriminante que induce
competencia entre las neuronas y el vector de peso sináptico que está cerca del vector de entrada en el La
distancia euclidiana se anuncia como ganadora en la competencia. Esa neurona se llama la mejor neurona
coincidente,
es decir, x = argumento mínimo║x - w║.
Fase cooperativa: la neurona ganadora determina el centro de una vecindad topológica h de neuronas
cooperantes. Esto se realiza mediante la interacción lateral d entre las neuronas cooperativas. Este
vecindario topológico reduce su tamaño durante un período de tiempo.
Fase adaptativa: permite que la neurona ganadora y sus neuronas vecinas aumenten sus valores
individuales de la función discriminante en relación con el patrón de entrada a través de ajustes de peso
sinápticos adecuados, Δw = ηh(x)(x – w). Tras la presentación repetida de los patrones de entrenamiento, los
vectores de peso sináptico tienden a seguir la distribución de los patrones de entrada debido a la
actualización del vecindario y, por lo tanto, ANN aprende sin supervisor.
EXPLIQUE BREVEMENTE EL MODELO DE PERCEPTRON DE CAPAS MÚLTIPLES.
En el perceptrón multicapa, puede haber más de una capa lineal (combinaciones de neuronas). Si tomamos
el ejemplo simple de la red de tres capas, la primera capa será la capa de entrada y la última será la capa de
salida y la capa intermedia se llamará capa oculta. Introducimos nuestros datos de entrada en la capa de
entrada y tomamos la salida de la capa de salida. Podemos aumentar el número de la capa oculta tanto
como queramos, para hacer el modelo más complejo según nuestra tarea.
Feed Forward Network, es el modelo de red neuronal más típico. Su objetivo es aproximar alguna función f ().
Dado, por ejemplo, un clasificador y = f ∗ (x) que asigna una entrada x a una clase de salida y, el MLP encuentra la
mejor aproximación a ese clasificador definiendo una asignación, y = f(x; θ) y aprendiendo el mejores parámetros
θ para ello. Las redes MLP se componen de muchas funciones que están encadenadas entre sí. Una red con tres
funciones o capas formaría f(x) = f (3)(f (2)(f (1)(x))). Cada una de estas capas está compuesta por unidades que
realizan una transformación de una suma lineal de entradas. Cada capa se representa como y = f(WxT + b). Donde
f es la función de activación, W es el conjunto de parámetros o pesos en la capa, x es el vector de entrada, que
también puede ser la salida de la capa anterior, b es el vector de sesgo y T es la función de entrenamiento. Las
capas de un MLP constan de varias capas totalmente conectadas porque cada unidad de una capa está conectada
a todas las unidades de la capa anterior. En una capa totalmente conectada, los parámetros de cada unidad son
independientes del resto de las unidades de la capa, lo que significa que cada unidad posee un conjunto único de
pesos.
Entrenando el Modelo de MLP:Hay básicamente tres pasos en el entrenamiento del modelo.
1. Pase hacia adelante

2. Calcular error o pérdida
3. Pase hacia atrás
1. Paso hacia adelante: en este paso de entrenamiento del modelo, solo pasamos la entrada al modelo y la
multiplicamos con pesos y agregamos sesgo en cada capa y encontramos la salida calculada del modelo.
2. Calcular error/pérdida: cuando pasamos la instancia de datos (o un ejemplo), obtendremos una salida del
modelo que se llama salida prevista (pred_out) y tenemos la etiqueta con los datos que son salida real o salida
esperada ( Expect_out). Basándonos en estos dos, calculamos la pérdida que tenemos que propagar hacia atrás
(usando el algoritmo de Propagación hacia atrás). Hay varias funciones de pérdida que usamos en función de
nuestra salida y requisitos.
3. Paso hacia atrás: después de calcular la pérdida, propagamos hacia atrás la pérdida y actualizamos los pesos del
modelo usando gradiente. Este es el paso principal en el entrenamiento del modelo. En este paso, los pesos se ajustarán
de acuerdo con el flujo de gradiente en esa dirección.
Aplicaciones de MLP:
1. Los MLP son útiles en la investigación por su capacidad para resolver problemas estocásticamente, lo que a menudo
permite soluciones aproximadas para problemas extremadamente complejos como la aproximación de aptitud.
2. Los MLP son aproximadores de funciones universales y se pueden usar para crear modelos matemáticos
mediante análisis de regresión.
3. Los MLP son una solución popular de aprendizaje automático en diversos campos, como el reconocimiento de voz, el
reconocimiento de imágenes y el software de traducción automática.
PRONÓSTICO DE CARGA ELÉCTRICA UTILIZANDO ANN
Las ANN se aplicaron por primera vez a la previsión de carga a finales de la década de 1980. Las ANN tienen un buen rendimiento en la
clasificación de datos y el ajuste de funciones. Algunos ejemplos de uso de ANN en aplicaciones de sistemas de potencia son:
pronóstico de carga, clasificación de fallas, evaluación del sistema de potencia, evaluación de armónicos en tiempo real, corrección del
factor de potencia, programación de carga, diseño de líneas de transmisión y planificación del sistema de potencia. El pronóstico de
carga ha sido un tema de investigación atractivo durante muchas décadas y en muchos países de todo el mundo, especialmente en
países en desarrollo rápido con una tasa de crecimiento de carga más alta. El pronóstico de carga generalmente se puede clasificar en
cuatro categorías según el tiempo de pronóstico, como se detalla en la tabla a continuación.
Pronóstico de carga Período Importancia

A largo plazo un año para - Calcular y asignar la capacidad futura requerida. Planificar nuevas
diez años - centrales para hacer frente a los requerimientos de los clientes. Juega un
- papel esencial para determinar el presupuesto futuro.
Término medio una semana para Asignación de combustible y programas de mantenimiento.
pocos meses
Corto plazo una hora a una -Preciso para la operación del sistema de potencia.
semana -Evaluar despacho económico, coordinación hidrotermal,
compromiso unitario, transacción.
- Para analizar la seguridad del sistema, entre otras funciones obligatorias.
muy corto plazo Un minuto Sistemas de gestión de energía (EMS).
a una hora
Una ANN para el pronóstico de carga se puede entrenar en un conjunto de datos de entrenamiento que consta de datos
de carga retrasados y otros parámetros que no son de carga, como datos meteorológicos, hora del día, día de la
semana, mes y datos de carga reales. Algunas ANN solo se entrenan en días con datos similares al día de pronóstico.
Una vez que la red ha sido entrenada, se prueba presentándola con entradas de datos predictores. Los datos del
predictor pueden ser datos de carga retrasados y datos meteorológicos pronosticados (para las próximas 24 horas). La
salida de carga pronosticada de ANN se compara con la carga real para determinar el error de pronóstico. El error de
pronóstico a veces se presenta en términos del error cuadrático medio (RMSE), pero
más comúnmente en términos del error porcentual absoluto medio (MAPE). Una ANN entrenada en la carga de un
sistema de energía específico y los datos meteorológicos dependerán del sistema. Lo más probable es que la ANN
generada para ese sistema no funcione satisfactoriamente en otro sistema de energía con características
diferentes. Es posible que la misma arquitectura ANN se pueda reutilizar en el nuevo sistema, pero se requerirá
una nueva capacitación.
Entrenamiento y Pruebas con ANN
Todo el conjunto de datos se dividió en dos conjuntos: conjunto de entrenamiento y conjunto de prueba. El conjunto de entrenamiento
consta del 80% de los datos completos y el conjunto de prueba contiene el resto de los datos. El conjunto de entrenamiento se usó para
hacer un modelo que, por lo tanto, predice la carga en el futuro. El modelo está hecho por una aplicación MATLAB Neural Net Fitting. El
conjunto de entrenamiento tiene entradas que son las siguientes:
1. Temperatura (enoC)
2. Humedad (en %)
3. Presión (en mBar)
4. Tiempo (en horas)
5. Global Horizontal (en W/m2)
6. Carga de la misma hora del día anterior (en kW)
7. Semana anterior Mismo día Misma hora Carga (en kW)
Datos recolectados:Todos los siguientes datos se recopilan de la subestación de alimentadores:

Máximo, Mínimo de voltaje, Máximo de voltaje, Mínimo de corriente, Consumo actual de MWH y
Temperatura.
Pasos para la implementación de la previsión de carga utilizando ANN:

• Recopilación y organización de los datos en hoja de cálculo de MS Excel.
• Etiquetado de los datos en grupos.
• Analizar los datos.
• SIMULINK / MATLAB simulación de datos usando ANN.
Procedimiento de prueba de pronóstico de carga usando ANN:
- ANN se creó para el día de pronóstico definido por el usuario.

- Los datos se realizaron en los conjuntos de datos predictores de entrenamiento y pronóstico, el número
de capas ocultas, o neuronas, en la ANN se definió en 30 neuronas.
- La función de entrenamiento de optimización de MATLAB Levenberg - Marquardt incorporada se utilizó para
realizar el entrenamiento de retropropagación de la ANN de avance.
- Este proceso actualizó de forma iterativa los valores internos de ponderación y sesgo de la ANN para obtener un resultado de
error bajo al utilizar el conjunto de datos del predictor de entrenamiento y un conjunto de datos objetivo.
- El conjunto de datos de destino consta de los valores de carga reales para un conjunto de datos predictor determinado.
- Después de la prueba, la gráfica pronosticada de ANN se trazó contra la gráfica de datos del conjunto de prueba y se
calculó MAPE. Los resultados de este pronóstico se almacenaron y todo el proceso de entrenamiento, prueba y
pronóstico de ANN se repitió un número determinado de veces con la intención de reducir el error de pronóstico. El
modelo de Simulink se extrajo de la caja de herramientas de ajuste de red que se muestra a continuación.
Al comparar diferentes modelos, el error de pronóstico porcentual promedio se usa como una medida del
desempeño. Esto se define como:
Resultado:Se trazó un gráfico de la carga pronosticada contra el tiempo (en horas) y se hizo una comparación
contra la carga real (carga de datos de prueba). Una parte de este gráfico se muestra a continuación. El gráfico
muestra una pequeña desviación del gráfico pronosticado de la carga de datos de prueba. El MAPE (error
porcentual absoluto medio) resultó ser 5,1440 %, que es soportable.
EXPLICA EN DETALLE SOBRE LA IDENTIFICACIÓN DEL SISTEMA UTILIZANDO ANN:
Un problema de identificación de sistemas se puede formular como una tarea de optimización donde el objetivo
es encontrar un modelo y un conjunto de parámetros que minimicen el error de predicción entre los datos
medidos y la salida del modelo. El algoritmo adaptativo basado en redes neuronales recurrentes (RNN) ahora se
usa ampliamente en la identificación de sistemas debido a su robustez y simplicidad de cálculo. En función de la
señal de error, los coeficientes del filtro se actualizan y corrigen para adaptarse, de modo que la señal de salida
tenga los mismos valores que la señal de referencia.
La identificación del sistema es el proceso de derivar un modelo matemático de un sistema usando datos
observados. En el modelado de sistemas, se deben considerar tres principios fundamentales, como la separación,
la selección y la parsimonia. La identificación del sistema es un requisito esencial en áreas como control,
comunicación, sistema de potencia e instrumentación para obtener un modelo de un sistema (planta) de interés o
un nuevo sistema a desarrollar. La tarea de identificación es determinar una estimación adecuada de los
parámetros de dimensión finita que caracterizan completamente la planta. La selección de la estimación se basa
en la comparación entre la muestra de salida real y un valor predicho sobre la base de los datos de entrada hasta
ese momento.
Diagrama de flujo básico de la identificación del sistema utilizando el algoritmo adaptativo de la red neuronal
Proceso de identificación del sistema básico
EXPLICA EN DETALLE SOBRE LA APLICACIÓN DE ANN EN SISTEMAS DE CONTROL:
La industria de procesos implementa muchas técnicas con ciertos parámetros en sus operaciones para controlar
el funcionamiento de varios actuadores en el campo. Entre estos actuadores, el motor de CC es una máquina muy
común. La posición angular del motor de CC se puede controlar para impulsar muchos procesos, como el brazo de
un robot. El controlador más famoso y conocido para este tipo de aplicaciones es el controlador PID. Utiliza
funciones proporcionales, integrales y derivadas para controlar la señal de entrada antes de enviarla a la unidad
de planta. Las redes neuronales modelan los sistemas neuronales humanos a través de algoritmos
computarizados. Son capaces de realizar cálculos paralelos y almacenamiento distributivo de información como el
cerebro humano. En los últimos años, han sido ampliamente utilizados para cálculos y procesos óptimos en
controles industriales, comunicaciones, química y petróleo.
Existen varios tipos de mecanismos de control que se pueden aplicar a la velocidad y la posición
angular de un motor de CC, según la precisión requerida.
Circuito eléctrico de un motor DC
Se muestra el circuito eléctrico de un motor de CC que gobierna su rotación para la velocidad o posición deseada. La
dinámica de un motor de CC se puede explicar mediante las siguientes ecuaciones:
Donde, v es el voltaje aplicado a través del inducido, R es la resistencia del inducido, i es la corriente del inducido, L es la inductancia
del inducido y e es la fuerza electromotriz (emf) producida a través de los terminales del inducido al girar. En la segunda ecuación, T
es Torque, K es la constante del motor que representa la constante de torque y la constante de fuerza contraelectromotriz, i es la
corriente de armadura.
El par del motor de CC también se representa mediante la siguiente relación:
Donde T es Torque, J es el momento de inercia del motor y su carga, θ es el desplazamiento angular del eje del motor y b es la
constante de fricción del motor y su carga. Para controlar la velocidad o la posición de un motor de CC, se aplica un par a
través de su armadura con parámetros controlados. Este par está controlado por una señal de voltaje calculada en la entrada.
La aplicación de control más común para los controles de velocidad y posición de los motores de CC con alta precisión es el
control PID (Proporcional-Integral-Derivativo).
Las redes neuronales artificiales son modelos de aprendizaje famosos por su capacidad para hacer frente a las demandas de un
entorno cambiante. Esta red funciona con aprendizaje supervisado donde se presenta un conjunto de datos para entrenar la
red antes de ejecutar la simulación para obtener resultados de salida. El siguiente diagrama de bloques muestra la
implementación del control ANN para Robot Arm (control de posición del motor de CC) a través del modelo disponible en el
análisis de MATLAB.
Para entrenar el bloque del controlador del controlador de la red neuronal artificial, el usuario puede ingresar los
valores deseados según los requisitos operativos antes del inicio del entrenamiento del controlador. En el paso inicial,
los datos se generan para entrenar al controlador. Durante el proceso de generación de datos, la respuesta de la planta
sigue el modelo de referencia que es necesario para que el conjunto de datos de entrenamiento sea válido. Si la
respuesta no es precisa, el conjunto de datos puede regenerarse. Si el conjunto de datos es aceptable, el controlador
puede ser entrenado a través de la opción 'Controlador de entrenamiento'. El entrenamiento del controlador de la red
neuronal artificial luego comienza de acuerdo con los parámetros dados. Sin embargo, se realiza después de la
'Identificación de la planta', es decir, entrenar la unidad de planta del controlador ANN a través del mismo
procedimiento.
Los resultados de la simulación en MATLAB mostraron que la salida de la planta en el control ANN examinado sigue la señal de
referencia de entrada con resultados aceptables en términos de factor de retardo de tiempo y dinámica del sistema. Dado que el
control ANN aprende de la experiencia a medida que se entrena a través de un conjunto de datos en aprendizaje supervisado, el
control ANN responde más que PID a dinámicas desconocidas del sistema, lo que lo hace aún más adecuado para aplicaciones de
control industrial que tienen incertidumbres y dinámicas desconocidas debido al ruido ambiental.
EXPLICAR BREVEMENTE EL RECONOCIMIENTO DE PATRONES UTILIZANDO ANN.
El reconocimiento de patrones es el reconocimiento automatizado de patrones y regularidades en los datos. El reconocimiento de

patrones está estrechamente relacionado con la inteligencia artificial y el aprendizaje automático, junto con aplicaciones como la
minería de datos y el descubrimiento de conocimiento en bases de datos (KDD), y a menudo se usa indistintamente con estos términos.
Sin embargo, estos se distinguen: el aprendizaje automático es un enfoque para el reconocimiento de patrones, mientras que otros
enfoques incluyen reglas o heurísticas hechas a mano (no aprendidas); y el reconocimiento de patrones es un enfoque de la inteligencia
artificial, mientras que otros enfoques incluyen la inteligencia artificial simbólica.
Una definición moderna de reconocimiento de patrones es: El campo del reconocimiento de patrones se ocupa del
descubrimiento automático de regularidades en los datos mediante el uso de algoritmos informáticos y con el uso de estas
regularidades para tomar acciones como clasificar los datos en diferentes categorías.
El reconocimiento de patrones generalmente se clasifica según el tipo de procedimiento de aprendizaje utilizado para generar el valor
de salida. El aprendizaje supervisado supone que se ha proporcionado un conjunto de datos de entrenamiento (el conjunto de
entrenamiento), que consta de un conjunto de instancias que se han etiquetado correctamente a mano con el resultado correcto. El
aprendizaje no supervisado, por otro lado, asume datos de entrenamiento que no han sido etiquetados a mano e intenta encontrar
patrones inherentes en los datos que luego se pueden usar para determinar el valor de salida correcto para nuevas instancias de datos.
Algoritmos para reconocimiento de patrones basados en modelado estadístico de datos. Con el modelo estadístico en la
mano, se aplica la teoría de la probabilidad y la teoría de la decisión para obtener un algoritmo. Esto se opone al uso de
heurística/”sentido común” para diseñar un algoritmo. Los siguientes tipos de aprendizaje están asociados con el
reconocimiento de patrones usando ANN.
1. Aprendizaje supervisado
2. Aprendizaje no supervisado
3. Modelo generativo
4. Modelo discriminatorio.
El reconocimiento de patrones se puede implementar mediante el uso de una red neuronal de avance que se haya
entrenado en consecuencia. Durante el entrenamiento, la red se entrena para asociar salidas con patrones de entrada.
Cuando se utiliza la red, identifica el patrón de entrada e intenta generar el patrón de salida asociado. El poder de las
redes neuronales cobra vida cuando se proporciona como entrada un patrón que no tiene salida asociada. En este caso,
la red da la salida que corresponde a un patrón de entrada enseñado que es menos diferente del patrón dado. Durante
el entrenamiento, la red se entrena para asociar salidas dentro de patrones de colocación. Cuando se utiliza la red,
identifica el patrón de entrada e intenta generar el patrón de salida asociado. El poder de la red neuronal cobra vida
cuando un patrón que no tiene salida asociada, es darle como entrada. En este caso, la red da la salida que corresponde
a un patrón de entrada enseñado que es menos diferente del patrón dado.
Si representamos cuadrados negros con 0 y cuadrados blancos con 1, entonces las tablas de verdad de las 3 neuronas después de la
generalización son;
En este caso, es obvio que la salida debe ser todo negro ya que el patrón de entrada es casi el mismo que el
patrón 'T'. Aquí también, es obvio que la salida debe ser todo blanco ya que el patrón de entrada es casi el mismo
que el patrón 'H'. Muchos algoritmos comunes de reconocimiento de patrones son de naturaleza probabilística, ya
que utilizan la inferencia estadística para encontrar la mejor etiqueta para una instancia determinada. A diferencia
de otros algoritmos, que simplemente generan una etiqueta "mejor", a menudo los algoritmos probabilísticos
también generan una probabilidad de que la instancia sea descrita por la etiqueta dada. Además, muchos
algoritmos probabilísticos generan una lista de las N-mejores etiquetas con probabilidades asociadas, para algún
valor de N, en lugar de simplemente una sola mejor etiqueta. Cuando el número de etiquetas posibles es bastante
pequeño (p. ej.,
Clasificación de algoritmos de reconocimiento de patrones (algoritmos supervisados que predicen etiquetas categóricas)
1. Paramétrico:
- Análisis discriminante lineal
- Análisis discriminante cuadrático
- Clasificador de máxima entropía
2. No paramétrico:
- Árboles de decisión, listas de decisiones
- Estimación de kernel y algoritmos K-vecino más cercano

- Clasificador Naive Bayes
- Redes neuronales (perceptrones multicapa)
- Perceptrones
- Máquinas de vectores de soporte
- Programación de expresiones génicas
3. Algoritmos de agrupamiento (algoritmos no supervisados que predicen etiquetas categóricas)
- Modelos de mezcla categórica
- Agrupación jerárquica (aglomerativa o divisiva)
- Agrupación de medios K
- Agrupación de correlación
- Análisis de componentes principales del kernel (Kernel PCA)
4. Conjunto de algoritmos de aprendizaje (metaalgoritmos supervisados para combinar varios algoritmos de

aprendizaje)
- Impulso (meta-algoritmo) Agregación
- Bootstrap ("empaquetado") Promedio
- de conjuntos
- Mezcla de expertos, mezcla jerárquica de expertos
5. Algoritmos generales para predecir (conjuntos de) etiquetas estructuradas arbitrariamente

- redes bayesianas
- Campos aleatorios de Markov
6. Algoritmos de aprendizaje del subespacio multilineal (predicción de etiquetas de datos multidimensionales utilizando
representaciones de tensor)
Sin supervisión:
-Análisis multilineal de componentes principales (MPCA)
7. Algoritmos de etiquetado de secuencias de valores reales (predicción de secuencias de etiquetas de valores reales)
Supervisado:
- Filtros Kalman
- Filtros de partículas
- Algoritmos de regresión (que predicen etiquetas con valores reales)
8. Análisis de regresión
Supervisado:
- Regresión del proceso gaussiano (kriging) Regresión
- lineal y extensiones Redes neuronales y métodos de
- aprendizaje profundo
Sin supervisión:
- Análisis de componentes independientes (ICA)
- Análisis de componentes principales (PCA)
9. Algoritmos de etiquetado de secuencias (predicción de secuencias de etiquetas categóricas)
Supervisado:
- Campos aleatorios condicionales (CRF) Modelos
- ocultos de Markov (HMM) Modelos de máxima
- entropía de Markov (MEMM) Redes neuronales
- recurrentes (RNN)
Sin supervisión:
- Modelos ocultos de Markov (HMM)
- Deformación dinámica del tiempo (DTW)
UNIDAD 4
LÓGICA DIFUSA
¿QUÉ ES LA LÓGICA DIFUSA?

La lógica difusa es una extensión de la lógica booleana de Lotfi Zadeh en 1965 basada en la teoría matemática de los
conjuntos borrosos, que es una generalización de la teoría clásica de conjuntos. La lógica difusa es una forma de lógica de
muchos valores en la que los valores de verdad de las variables pueden ser cualquier número real entre 0 y 1, ambos
inclusive. Se emplea para manejar el concepto de verdad parcial, donde el valor de verdad puede oscilar entre
completamente verdadero y completamente falso. La lógica difusa se basa en la observación de que las personas toman
decisiones basadas en información imprecisa y no numérica.
Una ventaja de la lógica difusa para formalizar el razonamiento humano es que las reglas se establecen en lenguaje
natural. Por ejemplo, aquí hay algunas reglas de conducta que sigue un conductor, suponiendo que no quiere perder
su licencia de conducir:
Si la luz es roja... si mi velocidad es alta... y si la luz esta cerca... entonces frené fuerte.
Si la luz es roja... si mi velocidad es baja... y si la luz está lejos... entonces mantengo mi velocidad.
Si la luz es naranja... si mi velocidad es media... y si la luz está lejos... luego frené suavemente.
Si la luz es verde... si mi velocidad es baja... y si la luz esta cerca... entonces acelero.
EXPLICAR BREVEMENTE LOS CONJUNTOS CLÁSICOS / CRISP
Un conjunto clásico es una colección de objetos en un rango dado con un límite definido. Un objeto puede pertenecer al conjunto o no
pertenecer al conjunto. Por ejemplo, 5, 10, 7, 6, 9 es un conjunto de números enteros. 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 es el conjunto de números
enteros entre 0 y 10. 's', 'd', 'z', 'a' es un conjunto de caracteres. ”Sitio”, ”de”, ”cero” es un conjunto de palabras. También podemos crear
conjuntos de funciones, supuestos, definiciones, conjuntos de individuos (es decir, una población), etc. e incluso conjuntos de conjuntos. Los
conjuntos a menudo se representan en forma de gráfico, generalmente mediante círculos, como lo ilustra la figura a continuación.
Representación gráfica del conjunto {1, 5, 6, 7, 10}
El concepto de pertenencia es importante en la teoría de conjuntos: se refiere al hecho de que un elemento sea o no parte de
un conjunto. Por ejemplo, el entero 7 pertenece al conjunto 6, 7, 9. Por el contrario, el entero 5 no pertenece al conjunto 6, 7,
9. La pertenencia se simboliza con el carácter de no pertenencia y con el mismo símbolo , pero prohibido posible. Así,
tenemos 7 ∈ {6, 7, 9} y 5 ∈/ {6, 7, 9}. A continuación se muestran algunos ejemplos de operaciones de la teoría de conjuntos.
Unión de dos conjuntos, Intersección de dos conjuntos, Representación de los conjuntos A = {6, 7, 9}
denotado A ∪ B denotado A ∩ B y B = {1, 5, 6, 7, 10}.
Es claro que un elemento o pertenece a un conjunto o no pertenece a ese conjunto en el conjunto clásico y su
operación. Existe un límite definido entre diferentes elementos para diferentes conjuntos y estos no se pueden
mezclar entre sí. Sin embargo, para el conjunto borroso, tiene leyes diferentes.
Notas de clase del Dr. R. Murugesan, AITS-Tirupati para NNFL (15A02604) – R15 – JNTUA Página1de13
¿QUÉ SON LOS CONJUNTOS / MODELOS FUZZY?
Un conjunto borroso es una combinación de los elementos que tienen un grado variable de pertenencia al conjunto. Aquí
“borroso” significa vaguedad, en otras palabras, la transición entre varios grados de pertenencia obedece a que los límites de
los conjuntos borrosos son vagos y ambiguos. Por lo tanto, la pertenencia de los elementos del universo en el conjunto se
mide frente a una función para identificar la incertidumbre y la ambigüedad. Un conjunto borroso se denota con un texto
que tiene una tilde debajo de un tachón. Ahora, un conjunto borroso X contendría todo el resultado posible del intervalo 0 a
1. Supongamos que a, es un elemento en el universo y es miembro del conjunto borroso X, la función da el mapeo por X (a) =
[0, 1 ]. La noción de convención utilizada para conjuntos borrosos cuando el universo de discurso U (conjunto de valores de
entrada para el conjunto borroso X) es discreto y finito, para el conjunto borroso X viene dado por:
La teoría de conjuntos difusos fue propuesta inicialmente por un científico informático Lotfi A. Zadeh en el año de 1965. Después de
eso, se ha realizado una gran cantidad de desarrollo teórico en un campo similar. Previamente, la teoría de los conjuntos nítidos
basada en la lógica dual se usa en la computación y el razonamiento formal que involucra las soluciones en cualquiera de las dos
formas, como "sí o no" y "verdadero o falso".
Lógica difusa:A diferencia de la lógica nítida, en la lógica difusa se agregan capacidades de razonamiento humano
aproximado para aplicarlo a los sistemas basados en el conocimiento. Pero, ¿cuál era la necesidad de desarrollar tal teoría?
La teoría de la lógica difusa proporciona un método matemático para comprender las incertidumbres relacionadas con el
proceso cognitivo humano, por ejemplo, el pensamiento y el razonamiento, y también puede manejar el tema de la
incertidumbre y la imprecisión léxica.
Ejemplo:Tomemos un ejemplo para entender la lógica difusa. Supongamos que necesitamos encontrar si el
color del objeto es azul o no. Pero el objeto puede tener cualquier tono de azul dependiendo de la intensidad del
color primario. Entonces, la respuesta variaría en consecuencia, como azul real, azul marino, azul cielo, azul
turquesa, azul celeste, etc. Estamos asignando el tono más oscuro de azul un valor de 1 y 0 al color blanco en el
extremo más bajo del espectro de valores. Luego los demás tonos variarán de 0 a 1 según intensidades. Por lo
tanto, este tipo de situación en la que cualquiera de los valores puede aceptarse en un rango de 0 a 1 se
denomina borrosa.
EXPLICAR LAS PROPIEDADES DE LOS CONJUNTOS FUZZY
Los conjuntos borrosos tienen una serie de propiedades. Aquí hay definiciones de las propiedades más importantes, pero no
son necesarias para comprender el curso. Si lo desea, puede pasar ahora directamente a la siguiente sección. Sea X un
conjunto y A un subconjunto borroso de X y µA la función de pertenencia que lo caracteriza. µA(x) se llama el grado de
pertenencia de x en A.
Definición 1: Sea X un conjunto. Un subconjunto borroso A de X se caracteriza por una función de pertenencia.
fa : X → [0, 1]. (En teoría, es posible que la salida sea mayor que 1, pero en la práctica
casi nunca se usa).
Nota: Esta función de pertenencia es equivalente a la función identidad de un conjunto clásico.
Definición 2: La altura de A, indicada como h(A), corresponde al límite superior del codominio de su
función de pertenencia: h(A) = sup{µA(x) | x ∈ X}.
Definición 3: Se dice que A está normalizado si y sólo si h(A) = 1. En la práctica, es extremadamente raro trabajar con conjuntos
borrosos no normalizados.
Definición 4: El soporte de A es el conjunto de elementos de X que pertenecen al menos a algún A (es decir, el grado de pertenencia
de x es estrictamente positivo). En otras palabras, el soporte es el conjunto sup(A) = {x ∈ X | µA(x) > 0}.
Definición 5: El núcleo de A es el conjunto de elementos de X pertenecientes íntegramente a A. En otras palabras, el núcleo

noy(A) = {x ∈ X | µA(x) = 1}. Por construcción, noy(A) ⊆ supp(A).
Definición 6: Un corte α de A es el subconjunto clásico de elementos con un grado de pertenencia mayor o

igual aα : corte α(A) = {x ∈ X | µA(x) “ α}.
Definición 7: Sea V una variable (calidad del servicio, monto de la propina, etc.), X el rango de valores de la variable y TV un conjunto
finito o infinito de conjuntos borrosos. Una variable lingüística
corresponde al triplete (V, X, TV).
Otra función de membresía para una propina promedio a través de la cual hemos incluido las propiedades anteriores se
presenta en la Figura
Una función de membresía con propiedades mostradas
Variable lingüística 'calidad de servicio'
COMPARE ENTRE CONJUNTOS CRISP/CLÁSICOS Y FUZZY.
En comparación con un conjunto clásico, un conjunto borroso permite que los miembros tengan un límite suave. En otras
palabras, un conjunto borroso permite que un miembro pertenezca a un conjunto en algún grado parcial. Previamente, la
teoría de los conjuntos nítidos basada en la lógica dual se usa en la computación y el razonamiento formal que involucra las
soluciones en cualquiera de las dos formas, como "sí o no" y "verdadero o falso". Por ejemplo, aún usando la temperatura
como ejemplo, la temperatura se puede dividir en tres categorías: BAJA (0 ~ 30 °F), MEDIA (30 °F ~ 70 °F) y ALTA (70 ~ 120 °F)
de la punto de vista del conjunto clásico, que se muestra en la Figura siguiente.
Representación gráfica de un conjunto convencional y un conjunto borroso
En el conjunto clásico, cualquier temperatura solo se puede categorizar en un subconjunto, BAJA, MEDIA o ALTA, y el
límite es muy claro. Pero en el conjunto borroso como el que se muestra en la Figura (b), estos límites se vuelven vagos
o uniformes. Una temperatura se puede clasificar en dos o incluso tres subconjuntos simultáneamente. Por ejemplo, se
puede considerar que la temperatura de 40 °F pertenece a BAJA hasta cierto grado, digamos 0,5 grados, pero al mismo
tiempo puede pertenecer a MEDIA hasta aproximadamente 0,7 grados. Otra cosa interesante es la temperatura de 50
°F, que se puede considerar que pertenece a BAJA y ALTA a alrededor de 0,2 grados y pertenece a MEDIA a casi 1 grado.
La línea discontinua en la figura b representa el límite del conjunto clásico. Está claro que un conjunto borroso contiene
elementos que tienen diversos grados de pertenencia al conjunto, y esto contrasta con los conjuntos clásicos o nítidos
porque los miembros de un conjunto clásico no pueden ser miembros a menos que su pertenencia sea total o
completa en ese conjunto. Un conjunto borroso permite que un miembro tenga un grado parcial de pertenencia y este
grado parcial de pertenencia se puede mapear en una función o un universo de valores de pertenencia.
Cuadro comparativo
BASE PARA CONJUNTO FUZZY CONJUNTO CRUJIENTE
COMPARACIÓN
Básico Prescrito por propiedades vagas o Definido por características precisas y
ambiguas. determinadas.
Propiedad Los elementos pueden incluirse El elemento es miembro de un
parcialmente en el conjunto. conjunto o no.
Aplicaciones Utilizado en controladores difusos Diseño digital
Lógica de valor infinito bivaluado
EXPLICAR EL SISTEMA DE LÓGICA DIFUSA:
La implementación de la técnica de lógica difusa a una aplicación real, requiere los siguientes tres pasos:
1.Fuzzificación: convierta datos clásicos o datos nítidos en datos borrosos o
Funciones de pertenencia (MF)
2.Proceso de inferencia difusa: combina funciones de pertenencia con las reglas de control
para derivar la salida difusa
3.Defuzzificación: use diferentes métodos para calcular cada salida asociada y ponerlos
en una tabla: la tabla de búsqueda. Recoger la salida de la tabla de búsqueda en
función de la entrada actual durante una aplicación
Como se mencionó anteriormente, todas las máquinas pueden procesar datos nítidos o clásicos, como '0' o
'1'. Para permitir que las máquinas manejen entradas de lenguaje vago como 'De alguna manera satisfecho', la
entrada y salida nítidas deben convertirse en variables lingüísticas con componentes confusos. Por ejemplo,
para controlar un sistema de aire acondicionado, la temperatura de entrada y las variables de control de salida
deben convertirse a las variables lingüísticas asociadas, como 'ALTO', 'MEDIO', 'BAJO' y 'RÁPIDO', 'MEDIO' o
'LENTO'. '. El primero corresponde a la temperatura de entrada y el segundo está asociado a la velocidad de
rotación del motor de operación. Además de esas conversiones, tanto la entrada como la salida también deben
convertirse de datos nítidos a datos borrosos.
En el segundo paso, para comenzar el proceso de inferencia difusa, es necesario combinar las funciones de pertenencia
con las reglas de control para derivar la salida de control y organizar esas salidas en una tabla llamada tabla de búsqueda. La
regla de control es el núcleo del proceso de inferencia borrosa, y esas reglas están directamente relacionadas con la intuición
y el sentimiento de un ser humano. Por ejemplo, aún en el sistema de control del aire acondicionado, si la temperatura es
demasiado alta, se debe apagar el calentador o se debe reducir la velocidad del motor impulsor del calor, que es la intuición
o el sentido común del ser humano. Se utilizan diferentes métodos, como el centro de gravedad (COG) o la media del
máximo (MOM), para calcular la salida de control asociada, y cada salida de control debe organizarse en una tabla llamada
tabla de búsqueda.
Durante una aplicación real, se debe seleccionar una salida de control de la tabla de búsqueda desarrollada
a partir del último paso en función de la entrada actual. Además, esa salida de control debe convertirse de la
variable lingüística nuevamente a la variable nítida y enviarse al operador de control. Este proceso se llama
defuzzificación o paso 3.
En la mayoría de los casos, las variables de entrada son más de una dimensión para aplicaciones reales, y es necesario
realizar una fuzzificación o desarrollar una función de pertenencia para cada variable dimensional por separado. Realice la
misma operación si el sistema tiene múltiples variables de salida.
En resumen, un proceso borroso es un proceso de nítido-borroso-nítido para un sistema real. La entrada original y la
salida terminal deben ser variables nítidas, pero el proceso intermedio es un proceso de inferencia borrosa. La razón por la
que uno necesita cambiar una variable nítida a una difusa es que, desde el punto de vista del control borroso o la intuición de
un ser humano, no existe una variable absolutamente nítida en nuestro mundo real.
Cualquier variable física puede contener algunos otros componentes. Por ejemplo, si alguien dice: la temperatura
aquí es alta. Esta temperatura alta contiene algunos componentes de temperatura media e incluso baja. Desde este
punto de vista, el control difuso utiliza componentes universales o globales, no solo un rango limitado de
componentes como lo hacían las variables clásicas.
Con el rápido desarrollo de las tecnologías difusas, se han desarrollado diferentes estrategias de control difuso basadas
en diferentes métodos de control clásicos, como el control difuso PID, el control difuso de modo deslizante, el control difuso
neuronal, el control difuso de adaptador y el control difuso de mapeo de plan de fase. Se están desarrollando cada vez más
nuevas estrategias de control difuso o técnicas combinadas de control nítido y difuso y se aplicarán a muchas áreas de
nuestra sociedad en el futuro.
Reglas de control difuso:
La regla de control difuso puede considerarse como el conocimiento de un experto en cualquier campo de aplicación relacionado. La
regla difusa está representada por una secuencia de la forma SI-ENTONCES, que conduce a algoritmos que describen qué acción o
salida se debe tomar en términos de la información observada actualmente, que incluye tanto la entrada como la retroalimentación
si se aplica un sistema de control de circuito cerrado. La ley para diseñar o construir un conjunto de reglas difusas se basa en el
conocimiento o experiencia del ser humano, que depende de cada aplicación real diferente.
Una regla difusa SI-ENTONCES asocia una condición descrita usando variables lingüísticas y conjuntos difusos a una
salida o una conclusión. La parte IF se usa principalmente para capturar conocimiento mediante el uso de condiciones
elásticas, y la parte THEN se puede utilizar para dar la conclusión o salida en forma de variable lingüística. Esta regla SI-
ENTONCES es ampliamente utilizada por el sistema de inferencia difuso para calcular el grado en que los datos de entrada
coinciden con la condición de una regla. La siguiente figura ilustra una forma de calcular el grado entre una entrada difusaT(
temperatura) y una condición difusa BAJA. Aquí todavía usamos el sistema de aire acondicionado como ejemplo.
T
1.0
Condición difusa
BAJO
0.4
0 qF
20 30 40
Coincidencia de una entrada difusa con una condición difusa
Este cálculo también se puede representar mediante la función
M(T, BAJO) = Soportemin(PAGT(x), PBAJO(x)) (2.16)
Dos tipos de reglas de control difuso se utilizan ampliamente para la mayoría de las aplicaciones reales. Una de ellas son las reglas de
mapeo difuso y la otra se llama reglas de implicación difusa.
Reglas de mapeo difuso:

Las reglas de mapeo difuso proporcionan un mapeo funcional entre la entrada y la salida utilizando
variables lingüísticas. La base de una regla de mapeo difuso es un gráfico difuso, que describe la relación
entre la entrada difusa y la salida difusa. A veces, en aplicaciones reales, es muy difícil derivar una cierta
relación entre la entrada y la salida, o la relación entre esas entradas y salidas es muy complicada incluso
cuando se desarrolla esa relación. Las reglas de mapeo difuso son una buena solución para esas
situaciones.
Las reglas de mapeo borroso funcionan de manera similar a la intuición o percepción humana, y cada regla de mapeo borroso
solo se aproxima a un número limitado de elementos de la función, por lo que la función completa debe aproximarse mediante un
conjunto de reglas de mapeo borroso. Todavía usando nuestro sistema de aire acondicionado como ejemplo, se puede derivar una
regla de mapeo difuso como
SI la temperatura es BAJA, ENTONCES el motor del calentador debe girarse RÁPIDAMENTE. Para otras
temperaturas de entrada, se deben desarrollar reglas diferentes.
Para la mayoría de las aplicaciones reales, las variables de entrada suelen ser más de una
dimensión. Por ejemplo, en nuestro sistema de aire acondicionado, las entradas incluyen tanto la temperatura actual como la tasa de
cambio de la temperatura. Las reglas de control difuso también deben ampliarse para permitir que se consideren múltiples entradas
para derivar la salida. La siguiente tabla es un ejemplo de reglas de control difuso aplicadas en nuestro sistema de aire
acondicionado.
Un ejemplo de reglas difusas
. T
BAJO MEDIO ALTO
T
BAJO RÁPIDO MEDIO MEDIO
MEDIO RÁPIDO LENTO LENTO
ALTO MEDIO LENTO LENTO
Las filas y columnas representan dos entradas, la entrada de temperatura y la tasa de cambio de la entrada de
temperatura, y esas entradas están relacionadas con las partes IF en las reglas IF-THEN. La conclusión o salida de
control se puede considerar como una variable tridimensional que se ubica en el punto de cruce de cada fila
(temperatura) y cada columna (tasa de cambio de la temperatura), y esa conclusión está asociada con la parte
ENTONCES en SI-ENTONCES normas. Por ejemplo, cuando la temperatura actual es BAJA y la velocidad de cambio
actual de la temperatura también es BAJA, la velocidad del motor del calentador debe ser RÁPIDA para aumentar la
temperatura lo antes posible. Esto se puede representar mediante la regla SI-ENTONCES como
SI la temperatura es BAJA y la velocidad de cambio de la temperatura es BAJA, ENTONCES la conclusión o salida

(velocidad del motor del calentador) debe ser RÁPIDA. Todas las demás reglas siguen una estrategia similar, que es muy
similar a la intuición de un ser humano. En este ejemplo de aire acondicionado, se desarrollan un total de nueve reglas.
Para aquellas aplicaciones que necesitan una alta precisión de control, la entrada y la salida deben dividirse en
segmentos más pequeños y deben aplicarse reglas más difusas.
Reglas de implicación difusa

Una regla de implicación difusa describe una relación de implicación lógica generalizada entre entradas y salidas. La base de
una regla de implicación difusa es el sentido estricto de la lógica difusa. Las reglas de implicación difusa están relacionadas
con la lógica clásica de dos valores y la lógica de valores múltiples. Todavía usando el sistema de aire acondicionado como
ejemplo, la implicación es SI la temperatura es BAJA, ENTONCES el motor del calentador debe ser RÁPIDO. Basado en esta
implicación y un hecho: la temperatura es ALTA. Se puede inferir el resultado de que el motor del calentador debe reducir la
velocidad o LENTO.
Defuzzificación y la tabla de búsqueda

La conclusión o salida de control derivada de la combinación de funciones de pertenencia de entrada, salida y reglas
borrosas sigue siendo un elemento vago o confuso, y este proceso se denomina inferencia borrosa. Para que esa
conclusión o salida difusa esté disponible para aplicaciones reales, se necesita un proceso de defuzzificación. El
proceso de defuzzificación está destinado a convertir la salida difusa de nuevo a la salida nítida o clásica al objetivo de
control. Recuerde, la conclusión o salida difusa sigue siendo una variable lingüística, y esta variable lingüística debe
convertirse en la variable nítida a través del proceso de defuzzificación. Generalmente se utilizan tres técnicas de
desfuzzificación, que son: el método de la media del máximo, el método del centro de gravedad y el método de la
altura.
Método de la media del máximo (MOM)

El método de desfuzzificación Mean of Maximum (MOM) calcula el promedio de las conclusiones o salidas difusas que
tienen los grados más altos. Por ejemplo, la conclusión difusa es: el motor del calentadorXse gira RÁPIDO. Usando el
método MOM, esta defuzzificación se puede expresar como
dóndeTes el conjunto de salidaXque tiene los grados más altos en el conjunto RÁPIDO.
En la figura siguiente se muestra una representación gráfica del método MOM. Una deficiencia del
método MOM es que no considera la forma completa de la función de pertenencia de salida y solo se
ocupa de los puntos que tienen los grados más altos en esa función. Para aquellas funciones de
membresía que tienen diferentes formas pero los mismos grados más altos, este método producirá el
mismo resultado.
(a)Ejemplo de método MOM (b) Ejemplo de método COG
Representación gráfica de técnicas de defuzzificación
Método del centro de gravedad (COG)

El método del centro de gravedad (COG) es la técnica de desfuzzificación más popular y se utiliza ampliamente en
aplicaciones reales. Este método es similar a la fórmula para calcular el centro de gravedad en Física. El promedio
ponderado de la función de pertenencia o el centro de gravedad del área delimitada por la curva de la función de
pertenencia se calcula como el valor más nítido de la cantidad difusa. Por ejemplo, para la conclusión: el motor del
calentadorXse gira RÁPIDO. La salida COG se puede representar como
La tabla de búsqueda
El producto terminal de la defuzzificación es la tabla de búsqueda. La defuzzificación debe realizarse para cada subconjunto
de una función de pertenencia, tanto de entrada como de salida. Por ejemplo, en el sistema de aire acondicionado, es
necesario realizar la desfuzzificación para cada subconjunto de entrada de temperatura, como BAJA, MEDIA y ALTA, en
función de las reglas difusas asociadas. El resultado de defuzzificación para cada subconjunto debe almacenarse
en la ubicación asociada en la tabla de búsqueda de acuerdo con la temperatura actual y la tasa de cambio de
temperatura. A continuación, usamos el sistema de aire acondicionado como ejemplo para ilustrar el proceso
de desfuzzificación y la creación de la tabla de búsqueda.
Para simplificar esta ilustración, hacemos dos suposiciones:

I. suponga que la función de membresía de la tasa de cambio de la temperatura se puede describir como en la Figura a
continuación;
II. sólo cuatro reglas se aplican a este sistema de aire acondicionado, que son
1)SI la temperatura es BAJA y la velocidad de cambio de la temperatura es BAJA, ENTONCES la velocidad del motor del
calentador debe ser RÁPIDA
2)SI la temperatura es MEDIA y la velocidad de cambio de la temperatura es MEDIA, ENTONCES la velocidad del
motor del calentador debe ser LENTA
3)SI la temperatura es BAJA y la tasa de cambio de la temperatura es MEDIA, ENTONCES la velocidad del
motor del calentador debe ser RÁPIDA
4)SI la temperatura es MEDIA y la tasa de cambio de temperatura es BAJA, ENTONCES la velocidad del motor
del calentador debe ser MEDIA
La función de pertenencia de la tasa de cambio de temperatura.
ENTRADA - Tasa de cambio de temperatura
1.0
MEDIO
BAJO ALTO
f/hora
0
0 0.5 1 2 3
Con base en la suposición hecha para la función de membresía y las reglas difusas, podemos ilustrar este proceso
de defuzzificación usando un gráfico. Cuatro reglas difusas se pueden interpretar como diagramas funcionales, como
se muestra en la figura. Como ejemplo, considere que la temperatura de entrada actual es de 35 qF y la tasa de
cambio de la temperatura es de 1 qF por hora. De la Figura, se puede encontrar que los puntos de intersección entre
los valores de temperatura de 35 qF y el gráfico en la primera columna (entrada de temperaturaT) tienen las funciones
de membresía de 0.6, 0.8, 0.5 y 0.8. Asimismo, la segunda columna (tasa de cambio de temperatura 'T) muestra que
una tasa de cambio de temperatura de 1 qF por hora tiene las funciones de membresía de 1.0, 0.4, 0.4 y 1.0. La salida
difusa de las cuatro reglas es la intersección de los valores pareados obtenidos del gráfico, o el resultado AND entre la
entrada de temperatura y la entrada de tasa de cambio de temperatura. De acuerdo con la Ecuación, el resultado de
esta operación debe ser: min (0.6, 1.0), min (0.8, 0.4), min (0.5, 0.4) y min (0.8, 1.0), lo que produce 0.6, 0.4, 0.4 y 0.8,
respectivamente .
S
T BAJO T
BAJO RÁPIDO
0.6
20 30 0 1 600 800 1000
T MEDIO T S
MEDIO LENTO
0.8 0.8
0.4
30 55
0 1 2 100 300 500
T S
BAJO T MEDIO RÁPIDO
0.5 0.5
0.4
0.4
20 30 0 1 2 600 800
T S
T
MEDIO LOW 1.0 MEDIO
0.8
0.8
30 55 80 0 1 300 500
Una ilustración del cálculo de salida difusa
Desfuzzificación fuera de línea y en línea
Como se mencionó, el proceso de defuzzificación consiste en derivar el valor de salida nítido deseado mediante
una técnica de defuzzificación que combina las funciones de pertenencia con las reglas difusas. El proceso de
defuzzificación se puede dividir en dos categorías: defuzzificación fuera de línea y defuzzificación en línea.
La llamada defuzzificación fuera de línea significa que todas las funciones de pertenencia de entrada y salida,
las reglas difusas y la tabla de búsqueda deben desarrollarse en función de las estimaciones de la aplicación
real antes de la implementación de la técnica de lógica difusa en la aplicación real. Esto significa que todas las
funciones de membresía de entrada y salida se desarrollan en función de la experiencia real o los rangos de
parámetros de entrada y salida de una aplicación específica, y la tabla de búsqueda se calcula en términos de
esas definiciones de funciones de membresía de entrada y salida. La ventaja de este método es que la mayoría
de los cálculos relacionados con la inferencia difusa se realizan antes de la implementación real y, por lo tanto,
el proceso difuso consume menos tiempo. La desventaja de esta técnica es que la salida difusa solo se basa en
la estimación de los parámetros de entrada y salida,
El método en línea tiene capacidad de control en tiempo real. Tanto las funciones de membresía de entrada como las de
salida se desarrollan durante el procesamiento en tiempo real de una aplicación real. Además, los elementos de la tabla de
búsqueda se calculan en tiempo real en función de las entradas y salidas reales actuales. En este método, solo se desarrollan
reglas difusas antes de las aplicaciones reales. La ventaja de este método es que se puede obtener una mayor precisión de
control para un proceso y la salida difusa se puede calcular en tiempo real. La desventaja de este método es que se necesita
un tiempo de procesamiento más largo y es un proceso algo lento. Sin embargo, con el desarrollo de nuevas tecnologías
informáticas, hoy en día se dispone de CPU mucho más rápidas y el tiempo de procesamiento ya no es un gran problema
para este método.
Arquitecturas de controles de lógica difusa
Combinando las discusiones que hicimos en las secciones anteriores, aquí se proporciona una estructura o arquitectura del sistema
de control de lógica difusa. Como se muestra en la figura siguiente, que es un sistema de control de bucle cerrado difuso típico, las
entradas son error y tasa de error, que se combinan por bloqueMETROpara ingresar al sistema de inferencia borrosa. La tabla de
búsqueda se deriva en función de la función de pertenencia de las entradas, la salida y las reglas de control difuso. Un factor de
ganancia de controlGRAMOse utiliza para ajustar la salida de la tabla de búsqueda para obtener diferentes valores de salida. El
bloque de interpolación S se usa para suavizar el elemento de salida de la tabla de búsqueda. Se obtiene una señal de
retroalimentación de la salida del sistema.
Para un sistema que necesita una mayor precisión de control, se necesita un sistema de control difuso de múltiples tablas de
búsqueda, que se muestra en la Figura 2.13.
En este sistema de control se desarrollan dos tablas de búsqueda, una tabla gruesa y otra fina. Durante la aplicación, el
cambio entre la mesa gruesa y fina está bajo el control del límite de error de entrada. Este valor límite puede ser definido por
el usuario en función de la aplicación real. En este sistema se utilizan funciones de pertenencia de dos conjuntos y reglas de
control para satisfacer el requisito de una mayor precisión de control. Cuando el sistema necesita respuestas rápidas o
acciones rápidas, se utiliza la tabla gruesa. Cuando el sistema necesita una alta precisión de control o pequeños errores de
control, se selecciona la tabla de búsqueda fina. El sacrificio de este método es que se necesita más memoria para almacenar
tablas gruesas y finas, y se necesita un poco más de tiempo para tomar una decisión al seleccionar la tabla en términos del
valor límite de error de entrada.
EXPLICAR LA ARQUITECTURA DEL CONTROLADOR / DISEÑO DE CONTROL DE LÓGICA DIFUSA.
Un sistema de control es una disposición de componentes físicos diseñados para alterar otro sistema físico de modo que este
sistema exhiba ciertas características deseadas. Las siguientes son algunas razones para usar la lógica difusa en los sistemas de
control:
- Al aplicar el control tradicional, se necesita conocer el modelo y la función objetivo formulada en

términos precisos. Esto hace que sea muy difícil de aplicar en muchos casos.
- Al aplicar la lógica difusa para el control, podemos utilizar la pericia y la experiencia humana para diseñar un
controlador.
- Las reglas de control difuso, básicamente las reglas SI-ENTONCES, se pueden utilizar mejor en el diseño de un controlador.
Supuestos en el diseño de control de lógica difusa (FLC):Durante el diseño del sistema de control difuso, lo siguiente
Se deben hacer seis suposiciones básicas:
- La planta es observable y controlable: se debe suponer que las variables de entrada, salida y estado
están disponibles para fines de observación y control.
- Existencia de un cuerpo de conocimiento: se debe suponer que existe un cuerpo de conocimiento que tiene reglas
lingüísticas y un conjunto de datos de entrada y salida del que se pueden extraer reglas.
- Existencia de solución: se debe suponer que existe una solución.
- Una solución 'suficientemente buena' es suficiente: la ingeniería de control debe buscar una solución 'suficientemente buena' en
lugar de una solución óptima.
- Rango de precisión: el controlador de lógica difusa debe diseñarse dentro de un rango aceptable de
precisión.
- Problemas relacionados con la estabilidad y la optimización: los problemas de estabilidad y optimización deben estar abiertos al
diseñar el controlador de lógica difusa en lugar de abordarse explícitamente.
Arquitectura de Control de Lógica Difusa:
El siguiente diagrama muestra la arquitectura de Fuzzy Logic Control (FLC).
Componentes principales de FLC:Los siguientes son los componentes principales del FLC como se muestra en la figura anterior:
1. Fuzzificador: la función del fuzzificador es convertir los valores de entrada nítidos en valores borrosos.
2. Base de conocimiento difusa: almacena el conocimiento sobre todas las relaciones difusas de entrada-salida.
También tiene la función de membresía que define las variables de entrada a la base de reglas difusas y las
variables de salida a la planta bajo control.
3. Base de reglas difusas − Almacena el conocimiento sobre el funcionamiento del proceso de dominio.
4. Motor de inferencia: actúa como núcleo de cualquier FLC. Básicamente simula decisiones humanas
realizando un razonamiento aproximado.
5. Defusificador: la función del defusificador es convertir los valores borrosos en valores nítidos que se obtienen del motor de
inferencia borroso.
Pasos en el diseño de FLC
Los siguientes son los pasos involucrados en el diseño de FLC:
- Identificación de variables − Aquí se deben identificar las variables de entrada, salida y estado de la planta
que se está considerando.
- Configuración de subconjuntos borrosos: el universo de información se divide en varios subconjuntos borrosos y a cada
subconjunto se le asigna una etiqueta lingüística. Siempre asegúrese de que estos subconjuntos borrosos incluyan todos los
elementos del universo.
- Obtención de la función de pertenencia: ahora obtenga la función de pertenencia para cada subconjunto borroso que
obtengamos en el paso anterior.
- Configuración de la base de reglas difusas: ahora formule la base de reglas difusas asignando una relación
entre la entrada y la salida difusas.
- Fuzzificación: el proceso de fuzzificación se inicia en este paso.
- Combinación de resultados difusos: al aplicar un razonamiento aproximado difuso, ubique el resultado difuso y
combínelos.
- Desfuzzificación: finalmente, inicie el proceso de desfuzzificación para formar una salida nítida.
Indique las ventajas del control de lógica difusa:

- Más económico: el desarrollo de un FLC es comparativamente más económico que el desarrollo de un controlador basado en un modelo o de
otro tipo en términos de rendimiento.
- Robusto: los FLC son más robustos que los controladores PID debido a su capacidad para cubrir una amplia gama de
condiciones de funcionamiento.
- Personalizable: los FLC son personalizables.
- Emular el pensamiento deductivo humano: básicamente, FLC está diseñado para emular el pensamiento deductivo humano, el
proceso que las personas usan para inferir conclusiones a partir de lo que saben.
- Confiabilidad − FLC es más confiable que el sistema de control convencional.
- Eficiencia: la lógica difusa proporciona más eficiencia cuando se aplica en el sistema de control.
Indique las desventajas del control de lógica difusa:
- Requiere muchos datos − FLC necesita muchos datos para ser aplicado.
- Útil en el caso de datos históricos moderados − FLC no es útil para programas mucho más pequeños o más grandes que los
datos históricos.
- Necesita una gran experiencia humana: este es un inconveniente, ya que la precisión del sistema depende del
conocimiento y la experiencia de los seres humanos.
- Necesita actualización regular de las reglas − Las reglas deben actualizarse con el tiempo.
LISTA LAS APLICACIONES DE LA LÓGICA DIFUSA:
Aplicación en el sector aeroespacial: en el sector aeroespacial, la lógica difusa se utiliza en el control de altitud de naves espaciales, control de altitud de
satélites, regulación de flujo y mezcla en vehículos de descongelación de aeronaves.
Aplicaciones en la industria automotriz: en la industria automotriz, la lógica difusa se usa para el control de la velocidad de ralentí, el método de
programación de turnos para la transmisión automática, los sistemas de carreteras inteligentes, el control del tráfico, la mejora de la eficiencia
de las transmisiones automáticas
Aplicaciones en Negocios: En los negocios, la lógica difusa se utiliza en Sistemas de apoyo a la toma de decisiones, Evaluación de
personal en una gran empresa.
Aplicaciones en defensa: En defensa, la lógica difusa se utiliza en el reconocimiento de objetivos submarinos, el reconocimiento automático de objetivos de
imágenes infrarrojas térmicas, las ayudas de apoyo a las decisiones navales, el control de un interceptor de hipervelocidad, el modelado de conjuntos
borrosos de la toma de decisiones de la OTAN.
Aplicaciones en Electrónica: En electrónica, la lógica difusa se usa en Control de exposición automática en cámaras de
video, para mantener la Humedad en un cuarto limpio, Sistemas de aire acondicionado, Temporización de lavadoras,
Hornos de microondas, Aspiradoras.
Aplicaciones en finanzas: en el campo de las finanzas, la lógica difusa se utiliza en el control de transferencia de billetes, gestión de
fondos, predicciones del mercado de valores.
Aplicaciones en el sector industrial: en la industria, la lógica difusa se utiliza en controles de hornos de cemento, control de intercambiadores de
calor, control de procesos de tratamiento de aguas residuales con lodos activados, control de plantas de purificación de agua, análisis de
patrones cuantitativos para el aseguramiento de la calidad industrial, control de problemas de satisfacción de restricciones en diseño
estructural, control de plantas potabilizadoras de agua
Aplicaciones en Manufactura: En la industria manufacturera, la lógica difusa se utiliza en Optimización de producción de

queso, Optimización de producción de leche.
Aplicaciones en Marina: En el campo marino, la lógica difusa se utiliza en piloto automático para barcos, selección de ruta óptima,
control de vehículos submarinos autónomos, gobierno de barcos.
Aplicaciones en el campo médico: en el campo médico, la lógica difusa se utiliza en el sistema de apoyo al diagnóstico
médico, control de la presión arterial durante la anestesia, control multivariable de la anestesia, modelado de hallazgos
neuropatológicos en pacientes con Alzheimer, diagnósticos de radiología, diagnóstico de inferencia difusa de diabetes y
próstata cáncer.
Aplicaciones en el transporte: en el transporte, la lógica difusa se utiliza en la operación automática de trenes subterráneos, el
control de horarios de trenes, la aceleración ferroviaria, el frenado y la parada.
Aplicaciones en reconocimiento y clasificación de patrones: en reconocimiento y clasificación de patrones, la lógica difusa se utiliza en el
reconocimiento de voz basado en lógica difusa, basado en lógica difusa, reconocimiento de escritura a mano; Análisis de características
faciales basado en lógica difusa, análisis de comandos, búsqueda de imágenes difusas, investigación y prevención criminal basadas en
razonamiento de lógica difusa.
UNIDAD 5
APLICACIONES DE LA LÓGICA FUZZY A SISTEMAS ELÉCTRICOS
IMPLEMENTACIÓN DE LÓGICA DIFUSA PARA EL CONTROL DE MOTORES DE INDUCCIÓN
El control vectorial, conocido como control orientado al campo (FOC), es un esquema de control de variador de frecuencia (VFD) en el que las corrientes del estator de un motor eléctrico de CA
trifásico se reconocen como dos componentes ortogonales que se pueden visualizar con un vector. Un componente define el flujo magnético del motor, el complementario es el par. El sistema de
control del variador calcula, a partir de las referencias de flujo y par especificadas por el control de velocidad del variador, las referencias de los componentes de corriente correspondientes. Por lo
general, los controladores integrales proporcionales (PI) se emplean para mantener los componentes de corriente medidos en sus valores de referencia. La modulación de ancho de pulso del
variador de frecuencia describe la conmutación del transistor de acuerdo con las referencias de voltaje del estator que son la salida de los controladores de corriente PI. FOC se utiliza para gestionar
los motores síncronos y de inducción de CA. Originalmente fue desarrollado para aplicaciones de motor de alto rendimiento que se requieren para operar sin problemas en el rango de velocidad de
explosión, generar par completo a velocidad cero y tener un alto rendimiento dinámico que incluye aceleración y desaceleración rápidas. Sin embargo, se está volviendo cada vez más atractivo para
aplicaciones de menor rendimiento también debido al dominio de reducción del tamaño del motor, el costo y el consumo de energía de FOC. Se espera que con el aumento de la potencia
computacional de los microprocesadores, en última instancia, reubique casi universalmente el control escalar de voltios por hercio (V/f) de una sola variable. genera un par completo a velocidad
cero y tiene un alto rendimiento dinámico que incluye aceleración y desaceleración rápidas. Sin embargo, se está volviendo cada vez más atractivo para aplicaciones de menor rendimiento también
debido al dominio de reducción del tamaño del motor, el costo y el consumo de energía de FOC. Se espera que con el aumento de la potencia computacional de los microprocesadores, en última
instancia, reubique casi universalmente el control escalar de voltios por hercio (V/f) de una sola variable. genera un par completo a velocidad cero y tiene un alto rendimiento dinámico que incluye
aceleración y desaceleración rápidas. Sin embargo, se está volviendo cada vez más atractivo para aplicaciones de menor rendimiento también debido al dominio de reducción del tamaño del motor,
el costo y el consumo de energía de FOC. Se espera que con el aumento de la potencia computacional de los microprocesadores, en última instancia, reubique casi universalmente el control escalar
de voltios por hercio (V/f) de una sola variable.
CONTROLADOR DE LÓGICA DIFUSA
La lógica difusa proporciona un marco sólido para lograr soluciones sólidas y simples en medio de diferentes enfoques
de computación inteligente. El modelo borroso es una colección de reglas IF - THEN con predicados indistinguibles que
utilizan un razonamiento borroso como los modelos de Sugeno y Mamdani. Los sistemas de tipo Sugeno se pueden
utilizar para modelar cualquier sistema de inferencia en el que las funciones de pertenencia de salida sean lineales o
constantes, mientras que el tipo Mamdani produce una salida lineal o no lineal. El controlador de lógica difusa consta de
cuatro etapas, fuzzificación de entradas y derivación de reglas, mecanismo de inferencia y defuzzificación. Los sistemas
de lógica difusa son aproximaciones de funciones colectivas. En general, el objetivo del sistema de lógica difusa es
producir un conjunto de salidas para entradas dadas en un sistema no lineal, sin usar ningún modelo matemático pero
sí usando reglas lingüísticas.
MODELO DE SISTEMA
El modelo de bloques del sistema de motor de inducción con el controlador se desarrollará utilizando el sistema de potencia, la
electrónica de potencia, el sistema de control, las cajas de herramientas de procesamiento de señales y las funciones fundamentales
disponibles en la biblioteca Simulink en Matlab / Simulink. En este documento, las gráficas de voltaje, par, velocidad, carga y flujo, etc.
se trazan como funciones de tiempo con el controlador y las formas de onda se observan en los osciloscopios equivalentes después de
ejecutar las simulaciones. Todo el sistema modelado en Simulink es un sistema de control de retroalimentación de bucle cerrado que
consta de plantas, controladores, muestreadores, comparadores, sistemas de retroalimentación, mux, de-mux, sumadores, bloques de
ganancia, multiplicadores, relojes, subsistemas, integradores, estado -modelos espaciales, subsistemas,
los sumideros de salida (ámbitos), las fuentes de entrada, etc. El modelo de Simulink desarrollado para el control de varios
parámetros del SCIM se muestra en la Fig. 2. Se escribe un conjunto de 49 reglas difusas y se las llama en forma de archivo en
el modelo desarrollado de Simulink con el controlador. Mientras se ejecuta la simulación, las 2 entradas difusas se entregan al
controlador (Takagi-Sugeno-fuzzy), donde luego se obtiene la salida. Las curvas de respuesta de flujo, carga, par, tensión
terminal y velocidad y par v/s se observan en el tiempo respectivo. De los resultados de la simulación que se muestran en la
Figura 4 a continuación, se observa que la corriente del estator no presenta sobreimpulsos. undershoots, la respuesta del flujo,
torque, voltaje terminal, velocidad y corrientes del estator, etc. toma menos tiempo para establecerse y alcanzar el valor
deseado en comparación con los resultados utilizando el control de vectores. Esto muestra la efectividad del controlador
desarrollado. También se observa que con el controlador, las curvas de características de respuesta tardan menos en asentarse
y alcanzar el valor de estado estable final en comparación con eso. En la fig. 5, se muestra el gráfico de velocidad Vs tiempo
para control vectorial y controlador de lógica difusa. .
IMPLEMENTACIÓN DE LÓGICA DIFUSA PARA EL CONTROL DE MOTORES DE RELUCTANCIA CONMUTADA
El rendimiento general de los SRM se puede mejorar de dos formas principales. La primera vía, mejorando el diseño mecánico y la
segunda mediante las técnicas de control. Hay diferentes tipos de estrategia de control que se pueden aplicar en SRM, como control
de velocidad/posición, control de corriente y control de par directo/indirecto. Las ondas de par son el principal desafío del SRM en
muchas aplicaciones, particularmente en aplicaciones de vehículos eléctricos, este problema es muy complicado y se ve afectado por
muchos factores y no es fácil de resolver. Se utilizan diferentes estrategias de control para superar este problema, como la estrategia
de control tradicional, la estrategia de distribución de par, el control de linealización, el control inteligente y otros métodos de control.
Por lo tanto, al seleccionar la estrategia de control adecuada para cada aplicación, la ondulación del par puede reducirse de manera
eficiente. Los SRM se pueden ejecutar en modo de control de corriente o voltaje. El control de voltaje de SRM es muy sensible a la
ondulación de voltaje en el lado de la fuente y su control de ancho de banda es menor, por lo que es esencial usar el control de
corriente cuando se desea el rendimiento de SRM para un control de par preciso.
ENFOQUE DE CONTROL DE LÓGICA DIFUSA:
El enfoque de lógica difusa ofrece una solución más simple, rápida y confiable que las técnicas convencionales. La FLC tiene
tres bloques principales. El primero es el bloque Fuzzification, que modifica entradas nítidas (valores de entrada del mundo
real) en variables lingüísticas para permitir que la señal física de entrada use la base de reglas a través de funciones de
membresía. El segundo bloque es la base de reglas, donde se comparan las entradas difusas y el controlador toma la decisión
en función de las funciones de pertenencia de cada entrada. El último es el bloque Defuzzification, que vuelve a convertir las
salidas difusas de la base de reglas en nítidas y selecciona funciones de membresía para las diferentes salidas de control de la
base de reglas.
Algoritmo de control de velocidad FLC:
Paso 1: Se muestrea la señal de velocidad del motor de reluctancia conmutada. Paso

2: Calcule el error de velocidad y cambie el error de velocidad.
Paso 3: Determinar conjuntos borrosos para el error de velocidad. Paso 4: Determinar la
membresía para el error de velocidad. Paso 5: Determinar conjuntos borrosos para el cambio en
el error de velocidad. Paso 6: Determinar la membresía para el cambio en el error de velocidad.
Paso 7: encontrar la acción de control según la regla difusa y calcular el error. Paso 8: Envío del
comando de control al sistema después del cálculo del error.
Las variables de entrada y salida de la función de pertenencia difusa se seleccionan de la siguiente manera,
PB-Positive Big
Medio PM-positivo
PS-Positivo Pequeño
NB-Negativo Grande
Medio negativo NM
NS-Negativo Pequeño
Z-cero
La función de forma triangular se elige como funciones de pertenencia debido al mejor rendimiento de control y
simplicidad.
Fuzzificación:Este se considera el primer paso a programar, el FLC utiliza variables lingüísticas en lugar de variables numéricas.
Por lo tanto, las señales de entrada de error se pueden asignar como Negativo Muy Grande (NVB), Negativo Grande (NB),
Negativo Medio (NM), Negativo Pequeño (NS), Cero (ZE), Positivo Pequeño (PS), Positivo Medio (PM ), Positivo grande (PB),
Positivo muy grande (PVB). La función de pertenencia triangular se utiliza para la fuzzificación, como se muestra en la Figura. El
proceso de fuzzificación convierte una variable numérica (número real) en una variable lingüística (conjunto borroso). El cambio
de error, que se utilizó como segunda entrada para el sistema difuso, también se convirtió de valor numérico a una variable
lingüística de acuerdo con la membresía triangular.
Defusificación:Las reglas de lógica difusa generan la salida demandada en una variable lingüística; estas variables
deben transformarse en una salida nítida (número real). Este paso es la defuzzificación; las funciones de membresía
utilizadas en este estudio para la defuzzificación se muestran en la Fig. 7. La señal de salida se puede asignar como:
Extremadamente baja (EL), Muy baja (VL), Baja (L), Bajo media (UM), Media (M) ), Arriba Medio (AM), Alto (H), Muy Alto
(VH), Extremadamente Alto (EH), que representan el índice de modulación (m), donde (0 ≤ m ≤ 1). Hay tres métodos
diferentes que se pueden usar para la defuzzificación de membresía, Centro de área (COA), Bisectriz o Medio del máximo
(MOM). El área central (COA) se considera el método más popular, por lo que se utiliza para la defuzzificación en este
estudio, que se presenta en la Ecuación,
Al adoptar el FLC, el SRM rastrea la señal de referencia con valores mínimos de ondas de corriente en comparación con
las técnicas tradicionales de control de corriente y, por lo tanto, se reducen las ondas de par durante el período de
conducción de cada fase del motor. El controlador se probó en diferentes condiciones de carga y con diferentes ángulos
de encendido.
EXPLICAR BREVEMENTE EL CONTROL DE EXCITACIÓN BASADO EN FUZZY PARA AVR.
El control de la unidad generadora es un sistema completo de circuito cerrado y en el pasado se ha dedicado mucho esfuerzo
para mejorar el rendimiento de los controladores. El principal problema, por ejemplo, con el control de excitación es que la ley
de control se basa en un modelo de máquina linealizado y los parámetros de control se ajustan a algunas condiciones
operativas nominales. En caso de una gran perturbación, las condiciones del sistema cambiarán de una manera muy no lineal y
los parámetros del controlador dejarán de ser válidos. En este caso, el controlador puede incluso añadir un efecto
desestabilizador a la perturbación, por ejemplo, añadiendo amortiguación negativa. El concepto de lógica difusa incorpora una
forma alternativa que permite diseñar un controlador usando un mayor nivel de abstracción sin conocer el modelo de la planta.
Los enfoques de control y modelado convencionales basados en ecuaciones diferenciales a menudo son insuficientes,
principalmente debido a la falta de conocimiento formal preciso sobre el proceso a controlar. A diferencia del control
convencional, si se desconoce el modelo matemático del proceso, podemos diseñar controladores difusos de manera que
garanticen ciertos criterios clave de rendimiento. El control de lógica difusa (FLC) reduce el tiempo y la complejidad en el análisis
de las ecuaciones diferenciales involucradas en el control convencional y, por lo tanto, en el ciclo general de desarrollo del
diseño, como se muestra a continuación.
Metodología de Diseño Convencional
Comprender el sistema físico y los

requisitos de control
Desarrollar un Modelo Lineal de

Planta, Sensores y Actuadores
Determinar un controlador simplificado a
partir de la teoría de control
Desarrolle un algoritmo para el

controlador.
Simule, depure e implemente

el diseño
Metodología de diseño basado en Fuzzy
Comprender el sistema físico

y los requisitos de control
Diseñar el controlador
usando fuzzy normas
Simular, depurar e implementar

el diseño.
El diseño del controlador de lógica difusa es un proceso de tres etapas. Se compone de etapas de fuzzificación, mecanismo de
inferencia y defuzzificación. Para diseñar el controlador, en primer lugar, se deben especificar funciones de pertenencia para las
variables de entrada (error e integral de error). En segundo lugar, se debe definir el sistema de inferencia borrosa que consiste en una
serie de reglas lingüísticas “Si…..entonces…..”. Luego, finalmente, se deben seleccionar las funciones de membresía para la salida. En la
figura siguiente se muestra una estructura de un controlador de lógica difusa.
Arquitectura de controlador difuso
Base de reglas
Árbitro. señal
Inferencia
Desborrador
fuzzificador Motor
-mi
El controlador de lógica difusa tiene tres componentes principales:
1. El mecanismo de inferencia incorpora la base de reglas que contiene el conocimiento en forma de un conjunto de
reglas sobre cómo controlar mejor el sistema, y evalúa cuáles de las reglas de control son relevantes en el momento
actual y luego decide cuál es la entrada al sistema. la planta debe ser.
2. La interfaz de fuzzificación que simplemente modifica las entradas para que puedan interpretarse y compararse
con las reglas en la base de reglas.
3. La interfaz de defuzzificación que convierte la conclusión alcanzada por el mecanismo de interferencia en las
entradas a la planta.
Para el control AVR de lógica difusa, el error entre el voltaje de referencia Vref y el voltaje terminal Vt, es decir, Ve
y la integral del error V1, que es la diferencia entre los valores de error de voltaje inmediato y anterior, se
consideran como entradas al controlador difuso mientras que la salida es el voltaje de salida especificado del
alternador Vt. En este controlador, se eligen once subconjuntos difusos.
Estos son:
“Negativo muy grande” (NV), “Negativo grande” (NL), “Negativo grande” (NB), “Negativo mediano” (NM), “Negativo
pequeño” (NS), “Cero” (Z), “Positivo Pequeño” (PS), “Medio positivo” (PM), “Grande positivo” (PB), “Grande positivo” (PL), “Muy
grande positivo” (PV), A estas variables de entrada se les asignan valores numéricos como (-1 , -0.8, -0.6, -0.4, - 0.2,0, 0.2, 0.4,
0.6, 0.8 y 1) que significa Negativo muy grande, Negativo grande, Negativo grande, Negativo mediano, Negativo pequeño,
Cero, Positivo pequeño, Positivo Medio, Positivo Grande, Positivo Grande y Positivo Muy grande respectivamente. Para el
control Fuzzy-AVR, la función de membresía triangular es adecuada y, por lo tanto, se utiliza.
Funciones de pertenencia para el error
Con las dos entradas para este FLC, se construye una tabla de decisión (11x11) como se muestra en la Tabla a continuación. Cada entidad en
la tabla representa una regla. El antecedente de cada regla está en conjunción con Ve y V.1valores de conjunto borrosos.
Vmi
NV NL NB NM NS PD PM PB ES fotovoltaica
NV NV NV NV NV NV NV NL NL NV NV NV NV NVNB
NL NM NS
NB NM NB NV NV NV NV NL NB NM NM NV NV NV NS PD
NL NB NM NS PD PM
NS PD PM PB
NS NV NV NL NB NM NS PD PM PB ES
NV NL NB NM NS PD PM PB ES fotovoltaica
-----------------Vmi
PD NL NB NM NS PD PM PB PL fotovoltaica fotovoltaica
PM NB NM NS PD PM PB ES fotovoltaica fotovoltaica fotovoltaica
PB NM NS PD PM PB PL fotovoltaica fotovoltaica fotovoltaica fotovoltaica
PL NS PD PM PB ES fotovoltaica fotovoltaica fotovoltaica fotovoltaica fotovoltaica
PD PM PB PL
fotovoltaica fotovoltaica fotovoltaica fotovoltaica fotovoltaica fotovoltaica fotovoltaica
La defuzzificación opera sobre los conjuntos borrosos implícitos producidos por el mecanismo de inferencia y combina sus
efectos para proporcionar la salida del controlador más segura, que es la salida de la planta. Ampliamente, el método del centro
de área (centroide) se utiliza para la defuzzificación de acuerdo con la función de pertenencia de la salida. La disposición de la
estructura da como resultado un algoritmo de control computacionalmente menos intensivo. Otra ventaja significativa de la
lógica difusa es que puede acomodar fácilmente señales de entrada adicionales. Fuzzy Logic Control proporciona un medio
conveniente para desarrollar el controlador que puede adaptarse a la naturaleza no lineal del sistema excitador-generador. La
lógica difusa, por otro lado, no está libre de contratiempos, el contratiempo se observa en el error de estado estable que se
puede eliminar ajustando las ganancias.
EXPLICA EN DETALLE, EL DISEÑO DEL CONTROLADOR DE LÓGICA FUZZY PARA UN SISTEMA DE BARRAS 18 /
INFINITAS:
Es posible que, debido a las limitaciones de los requisitos operativos, el sistema de barras colectoras infinitas de una sola
máquina esté sujeto con frecuencia a cargas repentinas de potencia real y reactiva y también como resultado de la inclusión o
exclusión repentina de fuentes y cargas conectadas a la red, puede exhibir baja Oscilaciones de potencia de frecuencia. Aunque
el controlador integral proporcional (PI) tradicional puede manejar este problema, la falta de linealidad asociada y la falta de
modelos matemáticos precisos de los subsistemas justifica que se necesiten algunas técnicas de control inteligente para que el
sistema ofrezca un funcionamiento estable y continuo. El sistema de inferencia Fuzzy adaptativo es una alternativa efectiva, ya
que puede manejar problemas asociados con sistemas para los cuales no se dispone del modelo matemático exacto o el que se
encuentra disponible es aproximado o demasiado complejo.
Arquitectura de control UPFC para un sistema de bus 18/infinito
El FLC al ser una técnica de control para tratar datos aproximados para llegar a un resultado conforme se puede
poner en servicio donde exista una expectativa con un cierto rango o grado de aceptabilidad. En la gestión de
UPFC, el FLC puede ofrecer una operación estable rastreando los puntos de ajuste y manteniendo los valores
reales muy cerca de los puntos de ajuste deseados. El sistema de lógica difusa en su forma básica tiene los
siguientes pasos.
- fuzzyficación,
- Inferencia y toma de decisiones utilizando la base de reglas
- Defuzzification.
De estos tres pasos básicos del FLC, el proceso de fuzzificación y el proceso de inferencia y toma de decisiones dependen en gran medida de la percepción y experiencia del
diseñador. Así, el rendimiento del FLC está en función de la experiencia del operador y, por lo tanto, todo el sistema de control está a disposición del diseñador. Es posible mejorar
aún más el rendimiento integrando el FLC con un sistema de red neuronal artificial (ANN) para formar un sistema de inferencia difuso neuro adaptativo (ANFIS). En ANFIS, una red
neuronal está enmarcada para hacer el trabajo de aprender y adquirir experiencia. Una vez que finaliza el proceso de aprendizaje, la red neuronal se puede configurar para decidir
los rangos de varias variables lingüísticas y su superposición. En el sistema ANFIS, la ANN se utiliza para acuñar las reglas en función de los datos experimentales suministrados a la
ANN. Por lo tanto, si la capacidad de una ANN se incorpora con el FLC, se alivian los inconvenientes del FLC convencional de depender del diseñador. A. Recopilación de datos de
capacitación En el diseño actual, primero se diseñaron cuatro FLC y el sistema se puso en servicio. Había un conjunto de cuatro salidas de tasa de error-error. Los conjuntos de datos
individuales de estos cuatro conjuntos de datos se usaron individualmente para entrenar una unidad ANFIS y, por lo tanto, se desarrollaron cuatro unidades de ANFIS. Las capturas
de pantalla relacionadas, tal como aparecen paso a paso en el entorno MATLAB SIMULINK, se muestran en las figuras a continuación. Los conjuntos de datos individuales de estos
cuatro conjuntos de datos se usaron individualmente para entrenar una unidad ANFIS y, por lo tanto, se desarrollaron cuatro unidades de ANFIS. Las capturas de pantalla
relacionadas, tal como aparecen paso a paso en el entorno MATLAB SIMULINK, se muestran en las figuras a continuación. Los conjuntos de datos individuales de estos cuatro
conjuntos de datos se usaron individualmente para entrenar una unidad ANFIS y, por lo tanto, se desarrollaron cuatro unidades de ANFIS. Las capturas de pantalla relacionadas, tal
como aparecen paso a paso en el entorno MATLAB SIMULINK, se muestran en las figuras a continuación.
Estructura ANFIS
Algoritmo para ANFIS:

Paso 1: Definir las variables y términos lingüísticos (inicialización)
Paso 2: Construir las funciones de pertenencia (inicialización) Paso 3:
Construir la base de reglas (inicialización)
Paso 4: Convierta datos de entrada nítidos en valores borrosos usando las funciones de membresía (fuzzificación)
Paso 5: Evaluar las reglas en la base de reglas (inferencia)
Paso 6: Combinar los resultados de cada regla (inferencia)
Paso 7: Convierta los datos de salida en valores no borrosos (desfuzzificación)
Variables lingüísticas
- Variables de cuantificación (Todas, Muchas, Ninguna) Variables
- de usabilidad (A veces, Frecuentemente, Siempre) Variables de
- probabilidad (Posible, Probable, Cierto)
Los dos conceptos más importantes dentro de Fuzzy Logic (FL) son la variable lingüística y la regla difusa si-entonces. La
regla difusa si-entonces ampliamente utilizada es:
1. SI (la carga es más que demasiado alta) ENTONCES el comando es defectuoso.
2. SI (la carga es demasiado alta), ENTONCES el comando es Reducir la carga.
3. SI (la carga es normal) ENTONCES el comando no cambia.
Dado que al usar el método FL podemos detectar exactamente la ubicación de la falla, ahorra tiempo al operador y la falla se puede
rectificar rápidamente y la energía se puede suministrar al área afectada inmediatamente desde el área donde hay un exceso de
energía disponible por medio de compartir recursos. Como la lógica difusa es simple y rápida en la detección de fallas de energía en el
sistema de energía, se usa ampliamente. Normalmente todas y cada una de las subestaciones de la red eléctrica están conectadas con
el Centro de Control de Carga. El Centro de Control de Cargas estará monitoreando las de las Subestaciones cada segundo. Si ocurre
una falla en una subestación que será obtenida por el centro de control de carga a través de SCADA (control de supervisión y
adquisición de datos) e informada a las subestaciones saludables que están conectadas con la subestación defectuosa, solo se
compartirá la energía con la subestación defectuosa. En el que el tráfico de datos es un gran inconveniente porque, al mismo tiempo,
muchas subestaciones pueden fallar cuando se produzcan retrasos en la comunicación y, por lo tanto, la recuperación de recursos y el
equilibrio de carga se retrasarán, las personas se verán afectadas sin energía y la pérdida de costos. El ANFIS superará el estado actual
del método de distribución de energía y diagnóstico de fallas del sistema de energía que elimina la necesidad del Centro de control de
carga.

Notas de Clase Sobre Redes Neuronales Y Lógica Difusa (15A02604) Introducción A La Inteligencia Artificial ¿Qué Es La Inteligencia Artificial?

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Notas de Clase Sobre Redes Neuronales Y Lógica Difusa (15A02604) Introducción A La Inteligencia Artificial ¿Qué Es La Inteligencia Artificial?

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

NOTAS DE CLASE SOBRE REDES NEURONALES Y LÓGICA DIFUSA (15A02604)

¿QUÉ ES LA INTELIGENCIA ARTIFICIAL?

EXPLICA BREVEMENTE LA INTELIGENCIA ARTIFICIAL.

DEFINE INTELIGENCIA ARTIFICIAL.

Comúnmente, el término "inteligencia artificial" se usa a menudo para describir máquinas (o

Los problemas tradicionales (u objetivos) de la investigación de la IA incluyen el razonamiento, la

¿CUÁLES SON LAS VENTAJAS DE LA IA?

¿CUÁLES SON LAS DESVENTAJAS DE LA IA?

La IA a menudo gira en torno al uso de algoritmos. Un algoritmo es un conjunto de instrucciones

EXPLICAR BREVEMENTE EL SISTEMA DE RAZONAMIENTO SIMBÓLICO.

Figura : Razonamiento sobre el árbol genealógico

¿QUÉ SON LOS SISTEMAS EXPERTOS?

Las características de los sistemas expertos incluyen:

Beneficios de los Sistemas Expertos

1. Disponibilidad: están fácilmente disponibles debido a la producción masiva de software.

agente = arquitectura + programa

Memoria de trabajo (pizarra):si se utiliza el encadenamiento directo, describe el problema actual y

Subsistema de Explicación (Justificador):Rastrea la responsabilidad y explica el comportamiento de ES respondiendo

Shell = motor de inferencia + interfaz de usuario

Usuario:Las posibles Clases de Usuarios pueden ser,

¿QUÉ ES LA PERCEPCIÓN EN IA?

¿QUÉ ES LA RED NEURONAL ARTIFICIAL?

información de otras neuronas.

El procesamiento de ANN depende de los siguientes tres componentes básicos:

- Red de retroalimentación multicapa:El concepto es que la ANN de avance tiene más

ii) Función de activación sigmoidea: es de dos tipos de la siguiente manera:

¿QUÉ ES UNA FUNCIÓN DE ACTIVACIÓN DE RED NEURONAL?

1) ANN no es un solucionador de problemas de propósito general de la vida diaria.

2) No existe una metodología estructurada disponible en ANN.

CONCEPTOS/TERMINOLOGÍA DE REDES NEURONALES ARTIFICIALES

Dónde, son valores de peso normalizados en el rango de o y

Función de umbral lineal

Ilustración simbólica de puerta de umbral lineal

Podemos resumir estas reglas con la regla de salida de McCullough-Pitts como:

¿CUÁLES SON LAS REGLAS DE APRENDIZAJE EN ANN?

Las diferentes reglas de aprendizaje en la red neuronal son:

Fórmula matemática de la regla de aprendizaje de Hebb.

Fórmula matemática de la regla de aprendizaje del perceptrón

Fórmula matemática de la regla de aprendizaje Delta

4. Regla de aprendizaje de correlación:La regla de aprendizaje de correlación basada en un principio similar al

Fórmula matemática de la regla de aprendizaje de correlación

Fórmula matemática de la regla de aprendizaje de Out Star

EXPLICA BREVEMENTE EL MODELO ADALINE DE ANN.

Paso 1: inicialice lo siguiente para comenzar el entrenamiento:

Paso 4: active cada unidad de entrada de la siguiente manera:

Aquí 'b' es el sesgo y 'n' es el número total de neuronas de entrada.

Paso 6: aplique la siguiente función de activación para obtener el resultado final:

Paso 7: ajuste el peso y el sesgo de la siguiente manera:

Caso 1 − si y ≠ t entonces,wi(nuevo) = wi(antiguo)+α(t−yen)Xi

Caso 2 − si y = t entonces,wi(nuevo) = wi(viejo)

Algunos puntos importantes sobre Madaline son los siguientes:

EXPLICAR BREVEMENTE LA ARQUITECTURA DE MADALINE

Paso 1: inicialice lo siguiente para comenzar el entrenamiento:

Salida en la unidad oculta Adaline Qj=f(Q

Paso 7: calcule el error y ajuste los pesos de la siguiente manera:

Caso 3: si y = t, entonces no habría cambios en los pesos.

¿Qué es el perceptrón multicapa?

El perceptrón aprende de la siguiente manera:

3. Alimenta la suma a través de la función de activación: en un sistema de perceptrón simple, la función de

¿QUÉ ES LA PROPAGACIÓN HACIA ATRÁS Y POR QUÉ ES IMPORTANTE?

¿CÓMO FUNCIONA LA PROPAGACIÓN HACIA ATRÁS?