Resultados
Comparacion de 12 modelos — conjunto de prueba 2024-2025
1.65°C
RMSE Ensemble
0.931
R² Ensemble
0.87
TSS Ensemble
35%
Mejora vs estadisticos
Metricas completas — todos los modelos (ordenados por RMSE)
| Rk | Modelo | Categoria | RMSE (°C) | MAE (°C) | R² | Precision | Recall | F1 | TSS |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Ensemble MEJOR | Hybrid | 1.65 | 1.12 | 0.931 | 0.91 | 0.89 | 0.90 | 0.87 |
| 2 | XGBoost | Ml | 1.78 | 1.19 | 0.918 | 0.89 | 0.86 | 0.87 | 0.81 |
| 3 | Random Forest | Ml | 1.83 | 1.24 | 0.912 | 0.88 | 0.85 | 0.86 | 0.79 |
| 4 | LSTM | Dl | 1.89 | 1.31 | 0.905 | 0.87 | 0.88 | 0.87 | 0.80 |
| 5 | CNN-1D | Dl | 1.96 | 1.38 | 0.897 | 0.86 | 0.83 | 0.84 | 0.77 |
| 6 | SVM | Ml | 2.15 | 1.58 | 0.871 | 0.83 | 0.78 | 0.80 | 0.71 |
| 7 | SARIMA+ANN | Hybrid | 2.21 | 1.65 | 0.862 | 0.84 | 0.79 | 0.81 | 0.73 |
| 8 | MLP | Dl | 2.28 | 1.71 | 0.848 | 0.82 | 0.76 | 0.79 | 0.70 |
| 9 | Prophet | Statistical | 2.31 | 1.76 | 0.842 | 0.81 | 0.75 | 0.78 | 0.69 |
| 10 | STL+ARIMA | Statistical | 2.38 | 1.82 | 0.836 | 0.80 | 0.74 | 0.77 | 0.67 |
| 11 | SARIMAX | Statistical | 2.52 | 1.89 | 0.821 | 0.79 | 0.72 | 0.75 | 0.65 |
| 12 | Holt-Winters | Statistical | 3.14 | 2.41 | 0.758 | 0.71 | 0.68 | 0.69 | 0.58 |
RMSE por modelo — todos los modelos
Radar multimetrica — top 3 modelos
Precision vs Recall — todos los modelos
Hallazgos principales
Ensemble es el mejor en todas las metricas
RMSE = 1.65°C, R² = 0.931, TSS = 0.87. Combina XGBoost + LSTM + Random Forest mediante promedio ponderado.
ML/DL supera sistematicamente a metodos estadisticos
XGBoost (RMSE 1.78), RF (1.83) y LSTM (1.89) mejoran entre 26% y 35% sobre Holt-Winters (3.14).
LSTM destaca en Recall
Recall = 0.88 para LSTM vs 0.86 XGBoost. La memoria secuencial captura mejor los episodios de heladas consecutivas.
Incertidumbre cuantificada
Intervalo de confianza del Ensemble: ±0.80°C (bootstrap 95%). Competitivo con Talsma et al. 2023 (1.53°C, climas templados).