Péndulo Invertido mediante Deep Q-Learning
Control Inteligente — Primavera 2026 · IBERO Ciudad de México
“La inteligencia es la habilidad de adaptarse al cambio.” — Stephen Hawking
El Proyecto
Este sitio documenta el diseño, construcción y control de un péndulo invertido físico utilizando Deep Q-Learning (DQN) como algoritmo de control inteligente. El reto central fue lograr la transferencia de una política entrenada íntegramente en simulación al hardware real (Sim-to-Real transfer), manteniendo el péndulo en equilibrio en la posición vertical superior.
A diferencia del control clásico (PID o lineal), el agente aprende su política de control exclusivamente a través de la interacción con el entorno, guiado por una función de recompensa que penaliza el error angular, la velocidad angular y el esfuerzo de control:
\[r_t = -(w_1\theta^2 + w_2\dot{\theta}^2 + w_3 u^2)\]Resultados Destacados
| Métrica | Valor |
|---|---|
| Episodios de entrenamiento | 4,000 |
| Tasa de éxito (últimos 50 ep.) | 90 % |
| Tiempo en equilibrio (promedio) | 9.02 s / máx. 10.60 s |
| Reward total prueba greedy | 71,157.5 |
| Reward medio (últimos 50 ep.) | 42,877.5 |
Presentaciones
- 🏫 Día de las Ingenierías IBERO — 5 de mayo de 2026
- 🎓 Congreso ITESO Guadalajara 2026 — 26 al 28 de mayo de 2026
Equipo
| Integrante | Rol |
|---|---|
| Andrick Millán | Hardware & Electrónica |
| Jesús Velázquez | Simulación & Entrenamiento DQN |
| Elías Santiago Jiménez Hernández | Implementación embebida & Sim-to-Real |
Profesores: Dr. Alexandro López · Mtro. Julio Caballero
Videos
Equilibrio durante el entrenamiento
Episodios fallidos — etapa inicial
Timelapse — 4,000 episodios de entrenamiento
Timelapse — ensamblado del prototipo
Navegación Rápida
Hardware Simulación & Entrenamiento Implementación Física Resultados