Metodologia
Pipeline de datos, ingenieria de variables, modelos y protocolo de validacion
Pipeline de analisis
Flujo desde datos brutos hasta evaluacion final
1
Descarga
NASA POWER API
13 estaciones
2000–2025
13 estaciones
2000–2025
2
Preprocesamiento
Limpieza, restricciones fisicas, combinacion de estaciones
3
Ingenieria
102 variables: rezagos, medias moviles, interacciones
4
Modelado
Entrenamiento de 12 modelos en division temporal
5
Evaluacion
RMSE, MAE, R², Precision, Recall, F1, TSS
Importancia de variables — XGBoost (top 10)
Protocolo de validacion temporal
Entrenamiento
2000–2021 (104,468 obs.)
Validacion
2022–2023 (9,490 obs.)
Prueba
2024–Sep 2025 (8,190 obs.)
Fuga de datos
Prevenida con shift(1)
Normalizacion
Por estacion (espacial)
Helada (umbral)
T_min ≤ 0°C
Variables de entrada (NASA POWER)
| Variable | Descripcion | Unidad |
|---|---|---|
| T2M_MIN | Temperatura minima diaria a 2m | °C |
| T2M_MAX | Temperatura maxima diaria a 2m | °C |
| T2M | Temperatura media diaria a 2m | °C |
| RH2M | Humedad relativa a 2m | % |
| WS2M | Velocidad del viento a 2m | m/s |
| PS | Presion superficial | kPa |
| PRECTOTCORR | Precipitacion corregida | mm/dia |
Ingenieria de caracteristicas (102 variables)
Temporales
month, doy, week, season × 4, sin/cos ciclico
Rezagos
tmin/tmax/tmean/rh/pressure/wind lag(1,2,3,7)
Medias moviles
MA y SD a ventanas 3, 7, 14, 30 dias
Interacciones
HR×T, Presion×T, Viento×T
Estaciones
One-hot encoding (13 variables)
Modelos comparados — justificacion de seleccion
| Categoria | Modelo | Justificacion para el Altiplano |
|---|---|---|
| Estadistico | SARIMAX | Captura ciclos anuales de heladas y regresores externos |
| Holt-Winters | Triple suavizamiento para patrones estacionales complejos en gran altitud | |
| Prophet | Robusto ante datos faltantes, multiples estacionalidades | |
| STL+ARIMA | Separa tendencias de calentamiento del riesgo persistente de heladas | |
| Machine Learning | Random Forest | Interacciones altitud-radiacion-humedad via bootstrap |
| SVM (RBF) | Relaciones no lineales temperatura-topografia-viento | |
| XGBoost | Gradient boosting optimizado para interacciones meteorologicas complejas | |
| Deep Learning | MLP | Aproximacion universal para patrones de radiacion-conveccion-enfriamiento |
| LSTM | Memoria de episodios de heladas de multiples dias | |
| CNN-1D | Deteccion de patrones locales de enfriamiento radiativo rapido | |
| Hibrido | SARIMA+ANN | Patrones lineales + residuos no lineales |
| Ensemble | Promedio ponderado XGBoost+LSTM+RF, reduce varianza entre microclimas |