EE892 - Tópicos Avançados em Engenharia Elétrica
Turma: FF -
Período: 1/2026 -
Tipo Período: 1o. semestre -
Disciplina:
Eletiva 4 créditos.
-
Idioma: Português
Acompanha Pós:
IA368
- Tópicos em Engenharia de Computação V
Tema: Aprendizado por Reforço
Ementa: Resolução de Problemas Usando Técnicas de Busca. Introdução ao Aprendizado por Reforço. Processos de decisão de Markov. Programação Dinâmica. Métodos de Monte Carlo. Aprendizado por Diferença Temporal. Métodos tabulares de planejamento e aprendizagem. Controle com política própria e aproximação. Traços de elegibilidade. Métodos do gradiente de política. Deep Reinforcement Learning: Deep Q-Learning e Gradiente de Política Avançado. Heurísticas e Metaheurísticas. Neuroevolução.
Conteúdo Programático: Parte 1) Introdução à disciplina. Resolução de Problemas Usando Técnicas de Busca: i) Busca informada, ii)Busca com incertezas. Parte 2) i) Introdução ao Aprendizado por Reforço, ii) O problema do bandido de vários braços, iii) Processos de decisão de Markov, iv) Programação Dinâmica, v) Métodos de Monte Carlo, vi) Aprendizado por Diferença Temporal, vii) Atualização em n passos (bootstrapping), viii) Métodos tabulares de planejamento e aprendizagem, ix) Predição com aproximação sob a política própria (on-policy), x) Controle com política própria e aproximação, xi) Traços de elegibilidade e xii) Métodos do gradiente de política. Parte 3) Revisão de Redes Neurais Artificiais: i) Redes totalmente conectadas, ii) Redes convolucionais; Deep Reinforcement Learning: iii) Deep Q-Learning, iv) Gradiente de Política Avançado; v) Heurísticas e Metaheurísticas, vi) Neuroevolução. Syllabus: Part 1) Introduction to the discipline. Problem Solving Using Search Techniques: i) Informed Search, ii) Search with Uncertainty. Part 2) i) Introduction to Reinforcement Learning, ii) The Multi-Armed Bandit Problem, iii) Markov Decision Processes, iv) Dynamic Programming, v) Monte Carlo Methods, vi) Temporal Difference Learning, vii) Bootstrapping, viii) Tabular Planning and Learning Methods, ix) Prediction with On-Policy Approximation, x) Control with On-Policy and Approximation, xi) Eligibility Traces, and xii) Policy Gradient Methods. Part 3) Review of Artificial Neural Networks: i) Fully Connected Networks, ii) Convolutional Networks; Deep Reinforcement Learning; iii) Deep Q-Learning; iv) Advanced Policy Gradient; v) Heuristics and Metaheuristics, vi) Neuroevolution. Descripción de la asignatura: Parte 1) Introducción a la disciplina. Resolución de problemas mediante técnicas de búsqueda: i) Búsqueda informada, ii) Búsqueda con incertidumbre. Parte 2) i) Introducción al aprendizaje por refuerzo, ii) El problema de la máquina tragamonedas, iii) Procesos de decisión de Markov, iv) Programación dinámica, v) Métodos de Monte Carlo, vi) Aprendizaje de diferencias temporales, vii) Bootstrapping, viii) Métodos de planificación y aprendizaje tabular, ix) Predicción con aproximación según la política, x) Control con aproximación según la política, xi) Rastros de elegibilidad, y xii) Métodos de gradiente de políticas. Parte 3) Revisión de redes neuronales artificiales: i) Redes totalmente conectadas, ii) Redes convolucionales; Aprendizaje por refuerzo profundo; iii) Aprendizaje Q profundo; iv) Gradiente de políticas avanzado; v) Heurísticas y metaheurísticas, vi) Neuroevolución.
Plano de Desenvolvimento: n/a
Conforme IN CCG nº 02/2025 - Cláusula de Honestidade e Lisura Acadêmica
Todas as atividades relacionadas às disciplinas devem ser realizadas em conformidade com as orientações fornecidas pelos docentes e com o devido rigor ético.
Caso o(a) docente responsável, no exercício de sua liberdade de cátedra, forme convicção acerca da ausência de lisura ou de condições adequadas para a realização da atividade avaliativa, poderá atribuir nota zero, seja para a atividade única ou, conforme o caso, para o conjunto de atividades do semestre. A ocorrência deverá ser fundamentada e comunicada à Coordenação de Curso de Graduação, podendo o(a) estudante estar sujeito a processo administrativo.
Bibliografia: . SUTTON, R. S.; BARTO, A. G. Reinforcement learning: an introduction. 2ª edição. Cambridge, USA: MIT Press, 2020. 2. RUSSELL, S.; NORVIG, P. Artificial intelligence: a modern approach. 3ª edição. New Jersey, USA: Prentice Hall : Pearson Education, 2010. 3. GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A.; Deep Learning. MIT Press, 2016. 4. BISHOP, C. M. Pattern Recognition and Machine Learning. Springer, 2006.
Critério de Avaliação: Listas de exercícios, avaliação e elaboração de trabalhos em grupo em Python com apresentação final.
Bibliografia complementar: n/a