Estadística Descriptiva
Estadística Descriptiva
Estadística Descriptiva
Estadística Unidimensional
Conceptos básicos. Individuo, población, muestra.
Ejemplo 1. Para estudiar la evolución del cáncer de mama en la población
femenina de un país, se puede considerar que individuo es cada una de las
mujeres residentes en el mismo, población es el conjunto de todas ellas
y una muestra se obtiene al observar el 1% del censo.
Con mucha frecuencia se consideran como población y muestra, no los conjuntos
de individuos, sino las medidas de la característica asociadas a esos individuos.
600 1
Series cronológicas
Se Llaman series cronológicas a unas tablas estadísticas que recogen
observaciones hechas a lo largo del tiempo, normalmente a intervalos iguales. Es por
tanto una serie estadística en que la variable independiente es el tiempo.
Gráficos acumulativos:
Ejercicio 6. En la siguiente tabla se presenta la distribución por edades del número
de muertes registradas en España (datos hasta el 30-9-94) a causa del SIDA.
Edad en años <3 3-9 10- 13- 15- 20-24 25-29 30-34 35-39 40-49 50- 60-
12 14 19 59 69
Nº de muertes 411 171 35 31 247 2888 8576 7640 3292 2552 909 544
Figura 4
Si se trabaja con datos agrupados para la fórmula an-terior, [1], se toma xi igual a las marcas de
clase.
MODA[3] Mo
Es el valor de la variable de mayor frecuencia.
La distribución puede tener varias modas
Para el caso continuo se habla del intervalo modal (el de mayor frecuencia ni).
Cálculo de la moda8
Para calcular la moda, para datos agrupados, se puede usar la fórmula
[2] (c es la ampitud de la clase modal)
·
ni
c
ni+1
ni-1
MEDIANA ME Li Mo
Es el valor que ocupa el lugar central
Cálculo de la mediana
Si la distribución tiene un nº impar de datos siempre existe una única mediana y es
precisamente el valor central en la relación ordenada de menor a mayor. Si el nº de
datos es par se toma como mediana la media de los valores centrales
Para hallar la mediana, cuando los datos estén agrupados, se puede usar el polígono de frecuencias
acumuladas (Figura 1)y buscar la abscisa que corresponde a y = N/2 (por interpolación lineal).
Figura 2
N/2
Li Me
La fórmula anterior [3], nos da dicho valor. En ella:
Ni-1 es la frecuencia absoluta acumulada hasta llegar a la clase mediana, n i la frecuencia absoluta de
la clase mediana, Li el límite inferior de la clase mediana y c la amplitud de dicha clase.
CUANTILES
Se llama cuantil de orden a de una distribución al valor de la variable que deja por debajo de él
al a % de los elementos de la población.
Los que más se usan son los cuartiles y los centiles o percentiles.
La mediana coincide con el cuartil segundo Q2.
Los cuartiles y centiles se calculan de forma análoga a la me diana (usando el polígono de
frecuencias acumulativo, y por interpolación lineal, que nos da la fórmula)
RANGO
También llamado recorrido, es la diferencia entre el mayor y el menor de los datos.
Cálculo del rango.
Para el caso continuo, se toma la diferencia máxima posible entre los límites de intervalos
DESVIACIÓN MEDIA
Es la media de las desvia-ciones respecto de la media.
Cálculo de la desviación media9
Como la suma de las desviaciones respecto de la media da cero lo que se toma son las diferencias en valor
absoluto.
La fómula es:
VARIANZA
Se define como la media de las desviaciones cuadráticas respecto de la media.
DESVIACIÓN TÍPICA
Se define como la ráiz cua-drada de la varianza:
.
Propiedades
1. Si se suma una constante a todos los valores de la variable la desviación típica no varía.
2. Si se multiplican todos los valores de la variable por el mismo número, la desviación típica queda
multiplicada por el mismo número
3. Se verifica que
fórmula que simplifica su cálculo.
COEFICIENTE DE VARIACIÓN DE PEARSON
Es la razón entre la desviación típica y la media.
No debe usarse para valores muy próximos a cero de la media.
Se utiliza para eliminar la influencia de las unidades en el valor de la dispersión y mide
la dispersión relativa de la muestra..
Por definición se calcula mediante la fórmula:
TIPIFICACIÓN
Para comparar dos series datos estadísticos se normaliza (o tipifica) la variable
Si X es una variable estadística la variable normalizada es:
,
Se dice que se ha tipificado la variable.
COEFICIENTES DE ASIMETRÍA Y CURTOSIS
Sirven para medir la “simetría” y el “apuntamiento” de las series estadídticas
Si el coeficiente de asimetría es:>0 la curva es sesgada a la derecha, y sí es<0, sesgada a la iizquierda
Cálculo de los coeficientes de asimetría y apuntamiento.
El coeficiente directo de asimetría se define así:
:
El de apuntamiento :
Observación. Cuando se trabaja con datos agrupados se toma xi igual a
la marca de clase.
Ejemplo 17. Construir la tabla 1 con los datos del ejemplo 11
xi ni ni ni
Ejemplo 18. Construir la tabla 2 con los datos del ejemplo 13.
Marcas de frecuencia
clases ni
clase xi ni
45 -55 50 3 150 2500 7500
55 -65 60 8 480 3600 28800
65 -75 70 11 770 4900 53900
75 -85 80 5 400 6400 32000
85 -95 90 2 180 8100 16200
95 -105 100 1 100 10000 10000
Valores de la variable 3 5 4 2 0 8 7
frecuencias 1 3 4 1 3 1 2
b) Representar gráficamente los datos en un diagrama de barras.
0 3 0 0 0
2 1 2 4 4
3 1 3 9 9
4 4 16 16 64
5 3 15 25 75
7 2 14 49 98
8 1 8 64 64
15 58 314
X(edad) [0, 10) [10, 20) [20,30) [30, 40) [40, 50) [50,60)
N 7 10 30 18 12 3
(frecuencia)
Se pide:
a) El histograma de frecuencias.
b) La media, desviación típica, mediana y moda.
c) Porcentaje de pacientes menores de 40 años que acuden a la consulta.
Ejemplo 20. a) Completar los datos que faltan en la siguiente tabla estadística,
donde f, F y fr representan, respectivamente, la frecuencia absoluta, acumulada y
relativa:
x f F fr
1 4 0,08
2 4
3 16 0,16
4 7 0,14
5 5 28
6 38
7 7 45
8
1 4 4 0,08
2 4 8 0,08
3 8 16 0,16
4 7 23 0,14
5 5 28 0,10
6 10 38 0,20
7 7 45 0,14
8 5 50 0,10
20 40 60 80 100
Calcula:
a) Tabla de distribución de frecuencias acumuladas.
b) la media.
Solución
a)
xi ni Ni
20 3 3
40 6 9
60 5 14
80 0 14
100 6 20
b) .
[0,15) 17 17
[45,60) 30 357
[60,75) 10 367
[75,90) 5 372
Por interpolación lineal se llega a: 186-147= , de donde: me =33,25. Comprobar
aplicando la fórmula [2]
Ejemplo 23. De dos muestras la primera con media 30 y desviación típica 4 y
la segunda de media 50 y desviación típica 5, ¿cuál es la que aparece más dispersa?
Solución
Calculamos el coeficiente de variación de Pearson [4], Cp = de ambas:
4/30 = 0,13 y 5/50 = 0,1, luego es más dispersa la primera.
*En la ordenación que se hizo para la mediana se llaman cuartiles primero, segundo
y tercero a los que superan exactamente al 25%, 50% y 75% de los valores.
El segundo cuartil es la mediana. Para su obtención se usan los diagramas de cajas
Ejemplo 24. Representa mediante un diagrama de cajas las siguientes
calificaciones de 20 alumnos.
0, 2, 3, ,3, 3, 4, 4, 4, 5, 5, 5,, 5, 5, 5, 7, 7, 7, 8, 8 9
Como es múltiplo de 4, 20:4 = 5, Q1. Me y Q3. , serán los valores que hay entre
el 5º y 6º , 10º y 11º, 15º y 16º, es decir:
Q1= 3,5, Me =5 y Q3 =7
Ejercicio 10. Los pesos de un grupo de alumnos de 2º Bach son:
63, 58, 70, 57, 56, 76, 80, 59, 80, 70, 63, 77, 84, 77, 78, 90, 72, 88, 67, 58, 87, 94,
80, 74, 55, 80, 75,
59, 81, 67, 84, 73, 65, 71, 58, 71, 66, 87, 76, 56, 77, 82, 73, 67, 56, 46, 78, 67, 65,
65, 69, 80, 58, 76, 54, 76,
78, 49, 87, 69, 80, 64, 65, 56, 69, 68, 69, 64.
Representa la distribución mediante un diagrama de caja.
*Ejemplo 25. En el estudio de un cierto fenómeno se obtiene la siguiente tabla:
xi 7 10 12 16 19 20 21
ni 6 7 16 17 22 19 17
Calcula los cuartiles Q1 y Q3 correspondiente..Haz un diagrama de caja.
Solución
xi ni Ni
7 6 6
10 7 13
12 16 29
16 17 46
19 22 68
20 19 87
21 17 104
[1]
Aunque la variable es discreta conviene agruparlos en clases ya que hay un número muy grande de datos.
[2]
Cuando se trabaja con clases de amplitudes diferentes es más adecuado el histograma de frecuencias
relativas por unidad de amplitud: En abscisas se marcan los extremos de las sucesivas clases y con base
en cada una de ellas se dibuja un rectángulo de área proporcional a la frecuencia relativa.
[3]
Veremos en los ejercicios resueltos cómo se asigna un valor.
[4]
Mide la dispersión relativa,