Péndulo Invertido mediante Deep Q-Learning

Control Inteligente — Primavera 2026 · IBERO Ciudad de México

“La inteligencia es la habilidad de adaptarse al cambio.” — Stephen Hawking

El Proyecto

Este sitio documenta el diseño, construcción y control de un péndulo invertido físico utilizando Deep Q-Learning (DQN) como algoritmo de control inteligente. El reto central fue lograr la transferencia de una política entrenada íntegramente en simulación al hardware real (Sim-to-Real transfer), manteniendo el péndulo en equilibrio en la posición vertical superior.

A diferencia del control clásico (PID o lineal), el agente aprende su política de control exclusivamente a través de la interacción con el entorno, guiado por una función de recompensa que penaliza el error angular, la velocidad angular y el esfuerzo de control:

\[r_t = -(w_1\theta^2 + w_2\dot{\theta}^2 + w_3 u^2)\]

Resultados Destacados

Métrica	Valor
Episodios de entrenamiento	4,000
Tasa de éxito (últimos 50 ep.)	90 %
Tiempo en equilibrio (promedio)	9.02 s / máx. 10.60 s
Reward total prueba greedy	71,157.5
Reward medio (últimos 50 ep.)	42,877.5

Presentaciones

🏫 Día de las Ingenierías IBERO — 5 de mayo de 2026
🎓 Congreso ITESO Guadalajara 2026 — 26 al 28 de mayo de 2026

Equipo

Integrante	Rol
Andrick Millán	Hardware & Electrónica
Jesús Velázquez	Simulación & Entrenamiento DQN
Elías Santiago Jiménez Hernández	Implementación embebida & Sim-to-Real

Profesores: Dr. Alexandro López · Mtro. Julio Caballero

Videos

Equilibrio durante el entrenamiento

Episodios fallidos — etapa inicial

Timelapse — 4,000 episodios de entrenamiento

Timelapse — ensamblado del prototipo

Navegación Rápida

Hardware Simulación & Entrenamiento Implementación Física Resultados