1.65°C
RMSE Ensemble
0.931
R² Ensemble
0.87
TSS Ensemble
35%
Mejora vs estadisticos
Metricas completas — todos los modelos (ordenados por RMSE)
Rk Modelo Categoria RMSE (°C) MAE (°C) Precision Recall F1 TSS
1 Ensemble MEJOR Hybrid 1.65 1.12 0.931 0.91 0.89 0.90 0.87
2 XGBoost Ml 1.78 1.19 0.918 0.89 0.86 0.87 0.81
3 Random Forest Ml 1.83 1.24 0.912 0.88 0.85 0.86 0.79
4 LSTM Dl 1.89 1.31 0.905 0.87 0.88 0.87 0.80
5 CNN-1D Dl 1.96 1.38 0.897 0.86 0.83 0.84 0.77
6 SVM Ml 2.15 1.58 0.871 0.83 0.78 0.80 0.71
7 SARIMA+ANN Hybrid 2.21 1.65 0.862 0.84 0.79 0.81 0.73
8 MLP Dl 2.28 1.71 0.848 0.82 0.76 0.79 0.70
9 Prophet Statistical 2.31 1.76 0.842 0.81 0.75 0.78 0.69
10 STL+ARIMA Statistical 2.38 1.82 0.836 0.80 0.74 0.77 0.67
11 SARIMAX Statistical 2.52 1.89 0.821 0.79 0.72 0.75 0.65
12 Holt-Winters Statistical 3.14 2.41 0.758 0.71 0.68 0.69 0.58
RMSE por modelo — todos los modelos
Radar multimetrica — top 3 modelos
Precision vs Recall — todos los modelos
Hallazgos principales
Ensemble es el mejor en todas las metricas
RMSE = 1.65°C, R² = 0.931, TSS = 0.87. Combina XGBoost + LSTM + Random Forest mediante promedio ponderado.

ML/DL supera sistematicamente a metodos estadisticos
XGBoost (RMSE 1.78), RF (1.83) y LSTM (1.89) mejoran entre 26% y 35% sobre Holt-Winters (3.14).

LSTM destaca en Recall
Recall = 0.88 para LSTM vs 0.86 XGBoost. La memoria secuencial captura mejor los episodios de heladas consecutivas.

Incertidumbre cuantificada
Intervalo de confianza del Ensemble: ±0.80°C (bootstrap 95%). Competitivo con Talsma et al. 2023 (1.53°C, climas templados).