Analisi Exploratorio de Datos
Analisi Exploratorio de Datos
PRÁCTICA 8
CURSO 2008-2009
Profesorado:
CONTENIDO
Pág.
4.1. INTRODUCCIÓN
------------------------------------------------------------------------------ 3
2
Análisis Exploratorio
4.1. INTRODUCCIÓN
c) Indicar que se necesitan preparar y transformar los datos que van a ser
analizados.
2
Análisis Exploratorio
Para explorar los datos hay que elegir en los menús las opciones:
- Seleccionar una variable de identificación para etiquetar los casos con sus
valores. Por defecto los casos se identifican mediante su número secuencial
dentro del archivo de datos. La variable de etiquetas de caso se utiliza para
etiquetar valores atípicos en los diagramas de caja y puede ser de cadena
numérica.
3
Análisis Exploratorio
Botón Estadísticos
Muestra sólo los estadísticos y elimina los gráficos. Por defecto, se muestran
los estadísticos descriptivos básicos para cada variable.
Botón Gráficos
Muestra sólo los gráficos y suprime todos los estadísticos. Por defecto, se
muestran los diagramas de caja y los gráficos de tallo y hojas, para cada
variable.
Botón Ambos
Muestra tanto los gráficos como los estadísticos. Por defecto, se muestran
para cada variable los diagramas de caja, los gráficos de tallo y hojas y los
estadísticos descriptivos básicos.
Además, podemos:
4
Análisis Exploratorio
1. Descriptivos
- Media,
- Mediana y
- Media recortada al 5%: media aritmética calculada omitiendo el 5%
de las observaciones con frecuencias más bajas y el 5% de las
observaciones con frecuencias más altas.
Estadísticos de dispersión:
- Errores Típicos,
- Varianza,
- Desviación típica,
- Máximo,
- Mínimo,
- Rango y
- Amplitud intercuartil: Es la distancia entre el primer cuartil y el tercer
cuartil. No le afecta la presencia de casos extremos.
Estadísticos de forma:
- Asimetría y
- Curtosis
5
Análisis Exploratorio
1
Es la probabilidad de que el intervalo de confianza incluya la media poblacional.
2
Por definición, un estimador es robusto para un determinado parámetro si continúa siendo
razonablemente bueno como estimador cuando el modelo experimenta una pequeña modificación.
6
Análisis Exploratorio
Estimador-M de Huber
7
Análisis Exploratorio
3. Valores atípicos
4. Percentiles
Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95.
Calcula también las bisagras de Tukey, que define los cuartiles de la
distribución según una transformación realizada por Tukey.
8
Análisis Exploratorio
Con esta opción podemos explorar los datos mediante tres gráficos
exploratorios:
- Histograma,
- Gráfico de tallo y hojas (Stem-and-Leaf), sobre el cual no vamos
a realizar un análisis exhaustivo y
- Diagramas de caja (Box-plot).
3
En la Figura 7se ha cambiado el orden de visualización de los datos. Para ello se editó la tabla y
se seleccionaron las opciones Paneles de Pivotado primero y Transformar filas y columnas
después, en el menú Pivotar de la ventana de resultados.
9
Análisis Exploratorio
Diagramas de caja
Está formada por una caja, patillas que salen de ella y límites. La caja
representa la amplitud intercuartil que contiene el 50% de los valores
centrales. Las “patillas o bigotes” (whiskers) son las líneas que se
extienden desde la caja hasta los valores más altos y más bajos (los
valores extremos), excluyendo los valores atípicos (en inglés se denominan
outliers). Una línea que atraviesa la caja indica la situación de la mediana.
10
Análisis Exploratorio
11
Análisis Exploratorio
12
Análisis Exploratorio
13
Análisis Exploratorio
- Gráfico Q-Q normal: Crea un gráfico con los cuantiles reales y teóricos
de una distribución normal. Si la variable se distribuye normalmente, los
puntos se concentran en torno a una línea recta diagonal. Cuanto más
se aproximen los puntos a la recta mejor será el ajuste y al revés,
cuanto más se alejen éstos de la misma.
- Gráfico Q-Q normal sin tendencia: En este gráfico se recogen las
diferencias (desviaciones) entre los valores observados y los
esperados. Si la muestra procede de una distribución normal, los
puntos deben concentrarse en una banda horizontal alrededor del cero
y sin seguir ningún patrón. En caso contrario deben alejarse de la
normalidad.
-
14
Análisis Exploratorio
Excluir casos según lista: Los casos con valores perdidos para cualquier
variable de factor o variable dependiente se excluyen de todos los análisis.
Éste es el valor por defecto.
Excluir casos según pareja: Los casos que no tengan valores perdidos
para las variables de un grupo se incluyen en el análisis de ese grupo. El
caso puede tener valores perdidos para las variables utilizadas en otros
grupos.
Mostrar los valores: Los valores perdidos para las variables de factor se
tratan como una categoría diferente. Se generan todos los resultados para
esta categoría adicional. Las tablas de frecuencias incluyen categorías
para los valores perdidos. Los valores perdidos para una variable de factor
se incluyen pero se etiquetan como perdidos.
Nota: Pulse con el botón derecho del ratón en cualquier elemento del cuadro de
diálogo para ver su descripción.
4.3. EJERCICIOS
15
Análisis Exploratorio
EJERCICIO 3
16
Análisis Exploratorio
4.4. BIBLIOGRAFÍA
17