Documentos de Académico
Documentos de Profesional
Documentos de Cultura
7673 16628 1 SM PDF
7673 16628 1 SM PDF
79 - 102 79
RESUMEN
1
Por cuanto en el DRAE no están registradas Taití ni Tahiti, preferimos, la primera
opción al tiempo que coincidimos con Paul Gauguin cuando en su segunda permanencia en
la isla en 1897, pintó el cuadro que tituló “Nevermore o Taití”
ABSTRACT
The correlation between two time series, both in simultaneous time and outdated over
time is known as crossed correlation and it is commonly accepted as cross-correlation.
This paper discusses the proper use of the technique of cross-correlation in
Climatology, emphasizing its interpretation in a particular case, and the requirement
of stationarity of the series, as a preliminary and required mandatory condition for
calculating the cross-correlation, unless series are co-integrated. It has been recognized
that many works that include the correlation crossed correlation and regression
techniques, in different specialties, lack of validity by the problem carelessness or
ignorance of spurious regression, hence insist on this problem is another objective
of this contribution. Granger and Newbold (1974) suggest that “when regressions are
modeled with time series, if the value is greater than the Durbin-Watson statistic, it
must be suspected the existence of a spurious relationships”
PRESENTACIÓN
Cuando se desea cuantificar la relación o asociación entre dos series del tiempo o
del clima, o entre una de ellas y otra variable de naturaleza no climática, usualmente
se recurre a métodos paramétricos como el coeficiente de correlación lineal, como
el de Pearson o a no paramétricos de Spearman o el de Mann-Kendall. En muchas
situaciones no hay indicios de correlación entre los eventos expresados por estos
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
coeficientes, puesto que ellos solo expresan la asociación en tiempo simultáneo, pero
cuando se les aplica a las series la técnica estadística de la correlación cruzada, es
posible que resalten asociaciones muy claras entre las series. Esa correlación cruzada
es, entonces, la correlación entre una serie Xt en un tiempo dado, t, con otra serie en
un tiempo posterior, Yt+k.
La correlación cruzada entre dos series estacionarias2, para lag (retardo) positivo
r xy (k) y para lag negativo r yx (-k), se obtiene por las fórmulas (1) y (2) y se ejemplifica en
el cuadro 1. El coeficiente de croscorrelación en el lag cero, tiene el mismo valor que
el coeficiente de correlación lineal de Pearson puesto que las series ocurren simultá-
neamente, no hay lag (retardo o desfase) entre los datos. En la expresión (1) se lee que
la suma de los productos de las desviaciones de la variable Xt por las desviaciones de
la variable Yt, desfasada en 1, 2,...(N-1) lags, se divide entre (N Sx Sy) y es lo mismo que
decir que la correlación cruzada r xy(k), entre dos series estacionarias para un retardo
dado es la media de los productos de las series Xt y Yt normalizadas, desfasadas en 1,
2,...(N-1) lags.
2 Se dice que una serie temporal es estacionaria cuando su media y su varianza no varíen
estadísticamente con el tiempo y la autocovarianza dependa del retardo entre los datos y
no del tiempo mismo. La estacionariedad asegura la independencia de los datos, postulado
esencial en estadística. Si las series son “no estacionarias” o “integradas”, pueden originar
correlaciones cruzadas y regresiones espurias. Se exceptúa el caso de series no estacionarias,
pero que son “cointegradas”, es decir, que entre ellas exista una combinación lineal que sea
estacionaria, Orion, Julius (2009); Smith, J.O.(2007); Podobnik Boris y H. Eugene Stanley
(2007); Nau (2005); Asteriou (2002).
82 Revista Terra nueva etapa. Volumen XXX, N° 47
Donde:
• Xt, Xt+k, valor de un dato en el tiempo, t, y el dato en el tiempo k, en la serie
independiente y estacionaria.
• Yt, Yt+k, valor de un dato en el tiempo, t y el dato en el tiempo k en la serie
dependiente y estacionaria
• SX y SY, desviación estándar poblacional de las series Xt y Yt, respectivamente
• N, número de pares de datos de las series Xt y Yt.
• μx y μy, medias de las series Xt y Yt, respectivamente
• k, retardo (lag) entre una observación en tiempo t y otra en tiempo posterior o
anterior, k: 0, ±1, ± 2,... ±.N-1
• N, SX, SY, μx y μy corresponden a la serie de lag cero y se mantienen constantes
en los demás lags
El cuadro 1 resume la fórmula a utilizar según que el retardo sea positivo, sin
retardo o con retardo negativo. Los datos que se desplazan en la variable Xt o Yt
determinan el signo positivo o negativo del retardo de los coeficientes. La correlación
José Manuel Guevara Díaz
Cuadro 1.
Fórmulas de los coeficientes de correlación cruzada,
según el signo del retardo, en series con datos mensuales
Fórmula para
Retardos positivos (+)
Xt Yt+k
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
E E
F F Lag 1
(Los datos del mes en Xt
M M
se asocian con los de Yt
A A de 1 mes después)
M M
J J
E E Lag 0
Fórmula para
Retardos negativos (-)
Xt+k Yt
E E
Lag -1
F F (Los datos del mes en Yt
M M se asocian con los de Xt
A A de 1 mes después)
M M
J J
Obs: Es los mismo calcular r yx(-k) = r xy(-k) por: Xt+k con Yt; Yt con Xt+k o Xt con Yt-k
84 Revista Terra nueva etapa. Volumen XXX, N° 47
técnicamente no es necesario que lo sean, pero los residuales sí, Arnaus (2001), Mata,
H (s/f). Ahora, si además de estacionaria, los residuales fuesen normales, las series
serían estrictamente estacionarias.
Enfatizando: cuando las variables no cumplan con la condición de
estacionariedad, pueden ser utilizadas en correlación, croscorrelación y regresión,
solamente si están “cointegradas”, es decir, que siendo variables no estacionarias,
entre ellas existe una combinación lineal que sí es estacionaria, y esa combinación
lineal entre ellas es la serie de los residuales de la regresión, tal como lo estableció
Granger en 1981 y lo ampliaron Engle y Granger (1987) en lo que se conoce como
la teoría de la cointegración. Esta teoría es la base de la metodología que evita que la
regresión, la correlación y la croscorrelación sean espurias, al calcularlos, solo si los
residuales de la regresión entre las series originales o entre las series transformadas,
sean estacionarios.
Con el autocorrelograma se identifica preliminarmente si alguna de las series,
Xt o Yt, es no estacionaria, y se detecta porque los coeficientes de autocorrelación
son altos y significativos en muchos lags y van disminuyendo muy lentamente hasta
alcanzar cero. En cambio, si es estacionaria, los coeficientes van decreciendo de
manera exponencial y rápidamente alcanzan el valor cero.
Identificada la condición de no estacionariedad en una o ambas series, en
la mayoría de los casos, si la serie presenta tendencia determinística, se logra
su estacionariedad mediante regresión. Si posee tendencia estocástica, por la
Enero - Junio 2014 85
trasformación de las primeras diferencias, para obtener una nueva serie de diferencias
de valores sucesivos, DXt o DYt, y cada nuevo dato expresado por (5), bien para la serie
X o para la serie Y:
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
anterior, (retardada un lag o unidad temporal empleada).
será considerado estacionario si las medias de los sub periodos son aproximadamente
iguales (o que entre dichas medias y la media de la serie completa, no hubiese
diferencias significativas, lo cual se puede decidir mediante la prueba t de Student
para muestras correlacionadas).
Se dijo que la varianza de los residuales debe ser constante con el tiempo, y
ello también se aprecia en el gráfico de los residuales de la regresión. Si existiese
heteroscedasticidad (cambios en la varianza con el tiempo) es recomendable una
transformación logarítmica de la serie original, o bien aplicarle la transformación de
Box-Cox.
Datos. Los datos empleados de la presión atmosférica al nivel del mar en hectopascales,
provienen de CRU (Climate Research Unit, 2009).
Pasos a seguir:
• Se construye el cuadro 2 con el orden que deben llevar las columnas de las series
originales Xt=T y Yt=D; las columnas de los desvíos de las series mensuales, (dXt
y dYt), y los productos de esos desvíos, para obtener la correlación cruzada según
las fórmulas (1) y (2), para los lags +1 y -1.
• Se considera a la serie Taití como la serie independiente, Xt, precursora, líder,
indicativa, en la primera columna del cuadro 2, (a la derecha de las columnas
de años y meses) de allí que también se le denomine serie 1, dada su ubicación
cercana a la alta presión atmosférica generadora de los vientos alisios. La serie
Darwin será considerada la serie dependiente, Yt, y se coloca en la segunda
columna, por ello también es denominada serie 2.
Enero - Junio 2014 87
Cuadro 2.
Cálculo de la correlación cruzada entre las presiones atmosféricas
reducidas al nivel del mar (hPa) en Taíti y Darwin
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
1998 6 1014.6 1012.2 0.86 2.59 2.47 5.06
1998 7 1015.7 1012.5 1.96 2.89 6.24 6.52
1998 8 1016 1012.8 2.26 3.19 4.71 6.87
1998 9 1015.9 1011.7 2.16 2.09 0.19 1.37
1998 10 1014.4 1009.7 0.66 0.09 -1.45 -0.14
1998 11 1012.2 1007.4 -1.54 -2.21 5.73 4.08
1998 12 1011.9 1005.9 -1.84 -3.71 8.69 4.25
1999 1 1012.6 1004.9 -1.14 -4.71 3.90 7.28
1999 2 1012.2 1006.2 -1.54 -3.41 4.96 6.29
1999 3 1011.9 1006.4 -1.84 -3.21 1.68 1.75
1999 4 1013.2 1008.7 -0.54 -0.91 -1.35 -0.14
1999 5 1013.9 1012.1 0.16 2.49 0.53 1.38
1999 6 1014.3 1013 0.56 3.39 1.99 3.92
1999 7 1014.9 1013.2 1.16 3.59 4.96 7.74
1999 8 1015.9 1013.9 2.16 4.29 6.01 4.10
1999 9 1014.7 1012.4 0.96 2.79 0.66 2.94
1999 10 1014.8 1010.3 1.06 0.69 -1.70 -0.51
1999 11 1013 1008 -0.74 -1.61 2.24 1.68
1999 12 1012.7 1006.6 -1.04 -3.01 3.04 4.35
2000 1 1012.3 1006.7 -1.44 -2.91 4.49 -0.16
2000 2 1013.8 1006.5 0.06 -3.11 -0.12 2.00
2000 3 1013.1 1007.4 -0.64 -2.21 0.65 2.09
2000 4 1012.8 1008.6 -0.94 -1.01 -1.97 0.15
2000 5 1013.6 1011.7 -0.14 2.09
Suma 55.14 74.47
Media 1013.74 1009.61 Coef. CC 0.614 0.829
S 1.29 2.79 rxy(k=1) rxy(k=-1)
Figura 1a.
Secuencia de las series originales de la presión atmosférica en Taití y Darwin.
Indicando inicio de la serie en el mes 5 del año 1998 y finalizando en el mes 5
de 2000
Enero - Junio 2014 89
Las secuencias de las series indican curvas cuasi paralelas con fluctuaciones,
aunque más acentuadas en Darwin. El diagrama de dispersión (figura 1b) indica
linealidad entre las series de Taití y Darwin, requisito esencial en regresión y
correlación.
Figura 1b.
El diagrama de dispersión de las series de la presión en Taití y Darwin
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
Los autocorrelogramas de las series de Taiti (figura 2a) y Darwin (figura
2b) muestran la estacionalidad, más acentuada en Darwin, indicativas de la no
estacionariedad de ambas series. En los autocorrelogramas (Figura 2a y 2b) los
coeficientes de correlación serial son significativos en lags: 1, 2, 4, 5, 6, 7, 8, 10,11, 12
y 13, los cuales sobrepasan los umbrales de significación estadística, representados
por las líneas punteadas. La decisión definitiva sobre la estacionariedad o no de las
series se realiza mediante dos de las pruebas clásicas de mayor uso: la de Dickey
Fuller Aumentada, (ADF), y la prueba de Phillips-Perron (PP), con el programa
econométrico Eviews. La prueba ADF acepta que una serie es estacionaria si el valor
absoluto de ADF es mayor que el valor absoluto crítico de MacKinnon al 5%, (u
otro valor) y la de la prueba PP, muy similar, pero con diferentes valores críticos de
comparación.
90 Revista Terra nueva etapa. Volumen XXX, N° 47
Figura2a.
Autocorrelograma de la serie de presión atmosférica en Taití indicando
estacionalidad
José Manuel Guevara Díaz
Cuadro 3.
T, autocorrelaciones
Figura 2b.
Autocorrelograma de la serie de presión atmosférica en Darwin indicando
estacionalidad
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
Cuadro 4.
D, Autocorrelación.
Lag Corr. Err. Box-Ljung Prob.
Prueba ADF, modelo con constante: -2,58, y valor crítico al 5% -2,99, con 1
variable dependiente retardada, clasifica a Taití como no estacionaria.
92 Revista Terra nueva etapa. Volumen XXX, N° 47
Prueba ADF, modelo con constante: -4,29, valor crítico al 5% -3,00 con 2
variables dependientes retardadas, clasifica a Darwin como estacionaria.
Sin embargo, dado que por la prueba de estacionariedad de Phillips-Perron (PP),
en el mismo Eviews no se cumple con la condición de estacionariedad en ninguna
de las localidades, se aceptó la decisión de no estacionariedad por esta prueba que,
además, concuerda con los autocorrelogramas.
Aceptar la no estacionariedad de ambas series significa que no podrían utilizarse
para obtener la correlación cruzada ni tampoco establecer regresión entre ellas, sin
el peligro de obtener resultados espurios, es decir, resultados altos, pero sin sentido
por no tener significación estadística válida. ¿Qué hacer, entonces? Dos opciones
posibles: a) Aunque las series son no estacionarias (integradas), demostrar que entre
ellas existe una relación lineal que sí es estacionaria, o sea, demostrar que son series
cointegradas. Esto se logra al establecer una regresión con las series originales de
Taití y Darwin, y si los residuales de la regresión (que es la combinación lineal entre las
series) son estacionarios, se aceptará la cointegración de las dos series y se aceptará su
empleo en la correlación cruzada. b) La segunda opción es aplicar una trasformación
José Manuel Guevara Díaz
matemática a las series, y si estas series trasformadas son estacionarias, podrán ser
empleadas en la croscorrelación.
Figura 3.
Autocorrelograma de los residuales indicando su estacionariedad
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
Cuadro 5.
AC de residuales
Lag Ac. SErr. Box-Ljung Prob.
Decisión: Como el valor absoluto de ADF |-2,71|; y el valor absoluto de PP |-3,13| son
mayores que el valor absoluto del valor crítico,|-1,95|, se acepta que los residuales
de la regresión son estacionarios, lo que significa que las series están cointegradas
y poseen una relación estable en el largo plazo; en consecuencia, aunque las series
mensuales de presión atmosférica en Taití y en Darwin utilizadas, resultaron no
estacionarias pero cointegradas, pueden ser utilizadas para calcular la correlación
cruzada entre ellas, sin necesidad de remover la estacionalidad anual que causa la no
estacionariedad en ambas series.
José Manuel Guevara Díaz
Aplicando las fórmulas (1) y (2) y siguiendo el procedimiento indicado en el
cuadro 2, se calculan los coeficientes de correlación cruzada con retardos desde el
lag -7 hasta el lag +7 (cuadro 6 y el croscorrelograma respectivo, figura 4), según el
programa SPSS. Estos resultados coinciden con los obtenidos directamente online
por el calculador de Wessa (2009).
Figura 4. Cuadro 6.
Croscorrelograma de las series Croscorrelaciones
de Taití y Darwin.
Lag Corr. Er E
-7 -0,582 0,236
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
-6 -0.574 0.229
-5 -0.412 0.224
-4 -0.113 0.218
-3 0.252 0.213
-2 0.611 0.209
-1 0.829 0.204
0 0.840 0.200
1 0.614 0.204
2 0.229 0.209
3 -0.177 0.213
4 -0.562 0.218
5 -0.763 0.224
6 -0.773 0.229
7 -0.522 0.236
antes que los datos de la variable independiente, Xt. Por ejemplo, si la presión
atmosférica en Xt es en enero, la de Yt+1 será en diciembre, un mes antes en relación
con la de Xt. (Antes, adelantada, retardada negativamente).
La variable independiente, Xt, es la presión atmosférica reducida al nivel del mar,
en la localidad de Taití, océano Pacífico. La variable dependiente, Yt, es la presión
atmosférica reducida al nivel del mar, en la localidad de Darwin, Australia.
Las series utilizadas corresponden a un periodo de 25 meses durante el cual
estuvo presente la Niña, o fase fría del fenómeno El Niño-Oscilación del Sur (ENSO)
y el número de coeficientes calculados fue de siete aunque, usualmente, para obtener
el croscorrelograma se calcula ¼ del número de datos. En el croscorrelograma de
96 Revista Terra nueva etapa. Volumen XXX, N° 47
ahora existe una relación inversa: al aumentar o disminuir la presión en Taití, a los 4,
5, 6 y 7 meses después, respectivamente, la presión atmosférica disminuye o aumenta
en Darwin. Ese comportamiento inverso en desfase de 6 meses, por ejemplo, es
expresado por la correlación cruzada alta y negativa de -0,773 (cuadro 6) y por la
figura 5.
Figura 5.
Comportamiento de la presión atmosférica en Taití y Darwin durante La Niña y
con desfase de 6 meses
Enero - Junio 2014 97
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
presión aumenta o disminuye, 6 y 7 meses después, disminuye o aumenta en Taití.
Las correlaciones cruzadas en estos desfases son -0,57 y -0,58, respectivamente.
En el cálculo del coeficiente en lag -1, permanece fija la variable Yt, y la variable
independiente, Xt, es la que se desplaza o desfasa. El dato de enero de Yt = Y1 se
combina con el dato de febrero de la variable Xt,=X 2. El de febrero de Y2 con el de
marzo de X3, hasta que el penúltimo de Yt se combine con el último de Xt. El proceso
continua hasta los lag positivos y negativos 2, 3, 4, etc, hasta calcular los coeficientes
necesarios, generalmente, hasta N/4 coeficientes.
En el cuadro 2, se identifican las columnas de las series originales y sus desvíos.
El desvío de la serie Xt, (dxt) se multiplica por el desvío de la serie Yt (dy t) para formar
el primer dato de la columna de los productos de los desvíos. Estos productos se
suman y esta suma se divide entre el producto: (N Sx Sy). Remplazando en las fórmulas
(1 y 2) con los datos requeridos, se obtiene el coeficiente de correlación cruzada del
primer lag positivo (+0,614) y del primer lag negativo (+0,829) entre las series Xt y la
serie Yt, valores que coinciden con los del cuadro 6 obtenido por Wessa (2009) y el
SPSS, con indicaciones de sus significaciones estadísticas.
José Manuel Guevara Díaz
CONCLUSIONES Y RECOMENDACIONES
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
croscorrelación, aunque sean no estacionarias. Mediante el autocorrelograma
y por las pruebas de estacionariedad de Dickey Fuller Aumentada (ADF) y la de
Phillips-Perron (PP), se conoce la estacionariedad de los residuales y de las series
originales. Makridakis et al. (1983) exigen que la serie independiente sea “ruido
blanco”, aleatoria, para lo cual emplean la transformación del “preblanqueo”.
Pero, si se sigue el criterio de H. Mata (s/f) de que ruido blanco es igual a
estacionario, habría coincidencia con Makridakis et al (1983).
• Se debe tener seguridad en la escogencia de las variables: la variable líder
o precursora, se identifica en el croscorrelograma por el signo del lag que es
positivo y significa que ella lidera o conduce a la serie Yt. Si el signo del lag es
negativo, la variable líder o precursora, es la serie Yt, y significa que ella lidera
o conduce a la serie Xt.
• Es conveniente que los programas estadísticos se empleen después de entendido
el proceso de la correlación cruzada de manera manual. Para el cálculo en la
primera columna debe colocarse la serie Xt (1, independiente, precursora, causal
o la que se sospeche que lo sea) y a la derecha, la serie de la variable dependiente,
Yt o 2.
• En muchos casos solo es posible la correlación cruzada Xt y Yt. Por ejemplo,
si El Niño y la malaria en un área es +0,60 en lag de 6 meses, significa que “la
malaria ocurrió 6 meses después de iniciado el fenómeno El Niño” o “la malaria
sigue a El Niño ocurrido 6 meses antes”. Si la correlación fuese 0,60 en lag -6,
el coeficiente se calculó con la malaria como variable independiente, sin serlo, y
sería un contrasentido decir que “El Niño se inició 6 meses después que ocurrió
la malaria”. O que ¡la malaria lidera El Niño!
• Un gran número de trabajos que emplean correlación cruzada no cumplen
con las condiciones exigidas y entre las cuales se enumeran las siguientes: no
emplean series estacionarias o si lo son, no explican el procedimiento empleado
de estacionarización; no titulan adecuadamente el croscorrelograma; las
variables que se utilizan no se especifican claramente, no se sabe si son series
cronológicas originales o transformadas; los croscorrelogramas carecen de
líneas de significación; la interpretación del croscorrelograma generalmente
100 Revista Terra nueva etapa. Volumen XXX, N° 47
REFERENCIAS BIBLIOGRAFÍCAS
BOX, GEP AND JENKINS, GM. (1979). Time series analysis: forecasting and control.
San Francisco. Holden-Day, 1976.
CLIMATE RESEARCH UNIT (CRU) (2009). Data: Southern Oscillation Index (SOI),
Documento en Línea. UK. http://www.cru.uea.ac.uk/ftpdata/soi.dat [Consultado:
10-5-2009].
GRANGER, C.W.J. (1981). Some Properties of Time Series Data and Their Use in
Econometric Model Specification. Journal of Econometrics. Vol. 16, N° 1. pp
121-130.
Uso correcto de la correlación cruzada en Climatología: el caso de la presión atmosférica entre Taití y Darwin
GRANGER, CLIVER W. J (2004). Análisis de series temporales, cointegración y
aplicaciones. Revista Asturiana de Economía - RAE. Nº 30.
NAU, ROBERT. (2005b). Fitting time series regression models. Decisión 411.
Documento en Línea. Disponible en: http://www.duke.edu/~rnau/timereg.html.
[Consultado: 1-4-2009].
SMITH, J.O. (2007). Mathematics of the Discrete Fourier Transform (DFT) with
Audio Applications. Documento en Línea. Second Edition. Disponible en Línea:
http://ccrma.stanford.edu/~jos/mdft/. Cross_Correlation.html [Consultado:
10-1-2008].
WESSA, P. (2009). Free Statistics Software. Documento en Línea. Office for Research
Development and Education. Versión 1.1.23-r3. Disponible en Línea: http://
www.wessa.net/ . [Consultado: 15-5-2009].
José Manuel Guevara Díaz
Correo Electrónico: