ejercicios de estadística

Anuncio
EJERCICIOS
DE ESTADÍSTICA
MATEMÁTICAS APLICADAS CC. SS.
Juan Fernández Maese
Angeles Juárez Martín
Antonio López García
ESTADÍSTICA
1
ESTADÍSTICA
2
ÍNDICE TEMÁTICO
CAPÍTULO 1: TABLAS Y GRÁFICOS ....................................................................................................5
1.1.- INTRODUCCIÓN A LA ESTADÍSTICA ............................................................................ 5
1.2.- TABLAS ESTADÍSTICAS. FRECUENCIAS ...................................................................... 8
1.3.- REPRESENTACIONES GRÁFICAS ................................................................................. 11
1.4.- COMPARACIÓN DE DIAGRAMAS................................................................................. 17
1.5.- EJERCICIOS FINALES ...................................................................................................... 20
CAPÍTULO 2: DISTRIBUCIONES UNIDIMENSIONALES .................................................................23
2.1.- MEDIDAS DE CENTRALIZACIÓN ................................................................................. 23
2.2.- MEDIDAS DE POSICIÓN.................................................................................................. 32
2.3.- REPRESENTACIÓN BOX-WHISKER.............................................................................. 38
2.4.- MEDIDAS DE DISPERSIÓN ............................................................................................. 40
2.5.- COMPARACIÓN DE DISTRIBUCIONES ........................................................................ 46
2.6.- SIMETRÍA........................................................................................................................... 55
2.7.- EJERCICIOS FINALES ...................................................................................................... 59
CAPÍTULO 3: DISTRIBUCIONES BIDIMENSIONALES ....................................................................63
3.1.- VARIABLES ESTADÍSTICAS BIDIMENSIONALES ..................................................... 63
3.2.- TABLAS BIDIMENSIONALES DE FRECUENCIAS ...................................................... 64
3.3.- REPRESENTACIONES GRÁFICAS ................................................................................. 67
3.4.- CALCULO DE PARÁMETROS ESTADÍSTICOS ............................................................ 72
3.5.- EJERCICIOS FINALES ...................................................................................................... 77
CAPÍTULO 4: CORRELACIÓN Y REGRESIÓN...................................................................................79
4.1.- CORRELACIÓN ................................................................................................................. 79
4.2.- DEPENDENCIA Y COEFICIENTE DE CORRELACIÓN................................................ 82
4.3.- REGRESIÓN ....................................................................................................................... 88
4.4.- EJERCICIOS FINALES ...................................................................................................... 93
ESTADÍSTICA
3
CAPÍTULO 1:
TABLAS Y GRÁFICOS
1.1.- INTRODUCCIÓN A LA ESTADÍSTICA
1.- Objeto de la estadística
La Estadística es el conjunto de métodos necesarios para recoger, clasificar, representar y
resumir datos así como para inferir (extraer consecuencias) a partir de ellos.
Se divide en dos ramas principales:
•
Estadística descriptiva. Su objetivo es examinar a todos los individuos de un conjunto.
Trata del recuento, ordenación y clasificación de datos obtenidos mediante observaciones.
Se organizan los datos en tablas, se realizan gráficos y se obtienen parámetros estadísticos
que caracterizan la distribución de población estudiada.
•
Estadística inferencial. Establece previsiones y conclusiones generales sobre una población
a partir de los resultados obtenidos de una muestra de la misma.
2.- Población y muestra
•
Población es el conjunto formado por todos los elementos que tienen una determinada
característica que vamos a estudiar.
•
Individuos son cada uno de los elementos de una población.
•
Muestra es el subconjunto extraído de una población, con objeto de reducir el campo de
experiencias.
•
Tamaño de la muestra es el número de elementos de la muestra.
•
Muestreo es el proceso mediante el cual se extrae una muestra de la población.
3.- Caracteres
Carácter
Carácter o atributo estadístico es la propiedad que estudiamos en los individuos de una
población.
Variable
Variable es el conjunto de los valores que puede tomar un carácter o atributo. Son variables la
edad y la talla de las personas y también el color de sus ojos o su profesión.
Atendiendo al tipo de valores de que toman pueden ser:
• Cualitativas: no numéricas.
• Cuantitativas: numéricas.
Las variables numéricas pueden ser:
• Discretas: Las toman valores que podemos ordenar. Entre cada dos valores no hay valores
intermedios.
ESTADÍSTICA
5
•
Continuas: Las que pueden tomar todos los valores posibles dentro de un intervalo de la
recta real.
Las variables cualitativas pueden ser:
• Ordinales: Las que tienen un orden implícito.
• Nominales (cardinales): Las que no tienen un orden implícito.
• Dicotómicas: Las que sólo presentan dos modalidades.
EJEMPLOS
1.- Deseamos conocer la estatura de todos los soldados que forman el
ejército. Enuncia la población, los individuos y la muestra.
Resolución:
• La población está formada por todos los soldados.
• Los individuos son cada uno de los soldados.
• La muestra es el subconjunto de los soldados que se tallan.
2.- En una fabrica de bombillas se efectúa un control de calidad sobre 100
unidades para averiguar cuántas son defectuosas. Enuncia la población,
los individuos y la muestra.
Resolución:
• La población está formada por las bombillas fabricadas.
• Los individuos son cada una de bombillas fabricadas.
• La muestra son las100 bombillas examinadas.
3.- Enuncia dos caracteres cuantitativos.
Resolución:
• La talla de un individuo de una determinada población.
• El diámetro de una pieza de precisión de un lote fabricado.
4.- Enuncia dos caracteres cualitativos.
Resolución:
• La profesión de las personas mayores de 20 años de Ceuta.
• El estado civil de los habitantes de Ceuta.
5.- Enuncia dos modalidades de una variable estadística cualitativa.
Resolución:
Si consideramos la variable cualitativa profesión son modalidades:
• economista.
• sociólogo.
6.- Enuncia dos variables estadísticas discretas.
Resolución:
Son variables estadística discretas:
• Números de empleados de una fábrica de la PYME.
• Número de hijos de 20 familias.
ESTADÍSTICA
6
7.- Enuncia dos variables estadísticas continuas.
Resolución:
Son variables estadística continuas:
• Peso de las personas.
• Temperaturas de una ciudad.
8.- Enuncia dos variables estadísticas nominales.
Resolución:
Son variables estadísticas nominales.
• Color de los ojos.
• Sabor de un helado.
EJERCICIOS PROPUESTOS
1.- Enuncia la población, los individuos y la muestra del experimento estadístico consistente en
hallar el peso de todos los alumnos de un instituto si se pesan solamente a los delegados/as y
subdelegados/as.
2.- Enuncia la población, los individuos y la muestra del experimento estadístico consistente en
hallar la anchura de los tornillos de una caja si sólo se miden 10 tornillos.
3.- Considera los siguientes caracteres: el peso de un individuo, el sexo de un individuo, la
longitud de un tornillo, el color de los ojos de una persona, el número de gajos de una naranja, la
profesión de un individuo.
¿Cuáles de los anteriores caracteres son cuantitativos?
4.- Considera los siguientes caracteres: el peso de un individuo, el sexo de un individuo, la
longitud de un tornillo, el color de los ojos de una persona, el número de gajos de una naranja, la
profesión de un individuo.
¿Cuáles de los anteriores caracteres son cualitativos?
5.- Considera las siguientes modalidades: cincuenta kilos, mujer, doce centímetros, azules, 13
gajos, profesor.
¿Cuáles pertenecen a una variable cuantitativa?
6.- Considera las siguientes modalidades: cincuenta kilos, mujer, doce centímetros, azules, 13
gajos, profesor.
¿Cuáles pertenecen a una variable cualitativa?
7.- Considera las siguientes variables: alumnos de un instituto, talla de un conjunto de personas,
hijos de una familia, peso de los alumnos de un instituto, espectadores de un partido de fútbol,
temperaturas de una ciudad.
¿Cuáles de las anteriores son continuas?
¿Cuáles de las anteriores son discretas?
8.- Considera las siguientes variables: opinión sobre un partido político, color del pelo, trato
recibido en un hotel, sabor de una comida, calificación de un examen, olor de una habitación.
¿Cuáles de las anteriores son ordinales?
¿Cuáles de las anteriores son cardinales?
9.- Considera las siguientes variables: opinión sobre el sabor de una comida, opinión sobre si
está salada una comida, estar en posesión de una tarjeta de crédito, calificación de un examen,
olor de una habitación.
¿Cuáles de las anteriores son dicotómicas?
ESTADÍSTICA
7
1.2.- TABLAS ESTADÍSTICAS. FRECUENCIAS
1.- Tablas estadísticas
Las tablas estadísticas son una forma de presentar la información acerca de una variable
estadística. En la primera columna se colocan los valores (xi), marcas de clase o modalidades de
la variable y en las siguientes las frecuencias respectivas.
Para tabular los datos procederemos de la siguiente manera:
• Recogida de datos
• Ordenación de los datos de menor a mayor, si son numéricos, o en el orden natural, si se
trata de una variable cualitativa nominal.
• Recuento de frecuencias o veces que se repite cada dato.
• Agrupación de los datos. Se agrupan cuando la variable es continua o discreta pero con un
número muy grande de datos. Existen varios criterios para establecer el número de clases,
pero éstas no deben ser menos de 5 ni más de 20. Se debe procurar que todas las clase
tengan el mismo tamaño a no ser que haya datos muy dispersos.
Marcas de clase: es el punto medio de los extremos de cada clase. Los valores extremos son
los límites de clase: Li, y superior, Li+1,
Las clases no deben solaparse ni tener huecos, es decir, el límite inferior de una clase, ha de
ser igual al límite superior de la anterior pero cada extremo sólo pertenece a una clase, para
ello se toman intervalos cerrados por la izquierda y abiertos por la derecha.
• Construcción de la tabla estadística: En la tabla aparecerán diversas columnas, siendo
habitual colocar de izquierda a derecha el valor de la variable, la marca de clase (para datos
agrupados) y las frecuencias absolutas y relativas.
2.- Frecuencia absoluta
•
•
Frecuencia absoluta del valor xi de una variable estadística y lo representamos por ni es el
número de veces que se repite dicho valor.
Frecuencia absoluta acumulada del valor xi, y la representamos por Ni, a la suma de las
frecuencias absolutas de todos los valores anteriores a xi más la frecuencia absoluta de xi:
Ni = n1 + n2 + ... + ni =
n
∑ ni
i =1
3.- Frecuencia relativa
•
Frecuencia relativa de un valor xi, y la representamos por fi, es el cociente entre la
n
frecuencia absoluta de xi, y el número total de datos de la distribución: fi = i . Se trata de
N
n
un tanto por uno ∑ f i = 1. A veces se utilizan los tantos por ciento y tantos por mil.
i =1
•
Frecuencia relativa acumulada del valor xi, y la representamos por Fi, es el cociente entre
la frecuencia absoluta acumulada de xi y el número total de datos que intervienen en la
distribución:
Fi = f1 + f2 + ... + fi =
1
N
n
∑n
i =1
i
=
Ni
N
4.- Observaciones
•
•
•
•
•
Las tablas deben llevar un enunciado que las explique sin tener un texto que las acompañe.
Deben incluir los totales de cada columna.
Deben indicarse las unidades de medida.
Siempre hay que utilizar el mismo número de decimales ya que nos informa de la precisión
del dato.
Suele haber redundancias para facilitar la lectura.
ESTADÍSTICA
8
EJEMPLOS
1.- Las notas de los 25 alumnos de una clase de Matemáticas de 1º de
Bachillerato son las siguientes:
5 3 4 1 2 8 9 836 5 4 1
7 2 1 9 5 10 1 8 3 8 3 2
Efectúa la tabla adecuada a dichos datos con frecuencias absolutas,
relativas y acumuladas.
Resolución:
xi
1
2
3
4
5
6
7
8
9
10
ni
4
3
4
2
3
1
1
4
2
1
25
Ni
4
7
11
13
16
17
18
22
24
25
fi
0,16
0,12
0,16
0,08
0,12
0,04
0,04
0,16
0,08
0,04
1
Fi
0,16
0,28
0,44
0,52
0,64
0,68
0,72
0,88
0,96
1,00
2.- Las edades de un grupo de personas son:
3 2 11 13 4 3
27 15 4 21 12 4
2
5
4 5 6 7 3 4 22 4 5 3 2 5 6
3 6 29 13 6 17 6 13 6 5 12 26 12
construye la tabla estadística de datos agrupados
Resolución:
Clase
[0-5)
[5-10)
[10-15)
[15-20)
[20-25)
[25-30)
Marca de clase
2,5
7,5
12,5
17,5
22,5
27,5
ni
14
12
7
2
2
3
40
Ni
14
26
33
35
37
40
fi
0,350
0,300
0,175
0,050
0,050
0,075
1
Fi
0,350
0,650
0,825
0,875
0,925
1
3.- Completa los datos que faltan en la siguiente tabla estadística, donde
n, N y f representan las frecuencias absoluta, acumulada y relativa,
respectivamente.
xi
1
2
3
4
5
6
7
8
ESTADÍSTICA
ni
4
6
Ni
fi
0,12
15
6
0,12
31
9
4
0,18
9
Resolución:
Para completar la tabla sabemos que la columna de frecuencias absolutas
acumuladas Ni es la suma de los valores acumulados de la frecuencia absoluta
ni que la frecuencia relativa fi = ni/N siendo N =
n
n
i =1
i =1
∑ n i y ∑ f i = 1.
xi
ni
Ni
fi
1
4
4
0,08
2
6
10
0,12
3
5
15
0,10
4
6
21
0,12
5
10
31
0,20
6
9
40
0,18
7
4
44
0,08
8
6
50
0,12
50
1,00
EJERCICIOS PROPUESTOS
1.- Las notas de los 30 alumnos de una clase de Filosofía de 1º de Bachillerato son las siguientes:
6 3 5 1 2 8 9 8 3 76 4 5 2 1
9 5 10 2 10 3 8 3 9 10 7 2 1 7 8
Efectúa la tabla adecuada a dichos datos con frecuencias absolutas y relativas.
2.- Las edades de un grupo de personas son:
3 2 11 13 4 3 2 4 5 6 4 5 3 2 5
3 6 29 13 6 17 6 13 6 5 6 27 15 4 21
construye la tabla estadística de datos agrupados
3.- Completa la siguiente tabla
xi
2
1
3
4
2
ni
5
1,5
7
Ni
fi
0,1
0,5
4.- Sea X una variable estadística que indica el tiempo de permanencia de quince empleados
en una empresa. Construye 4 intervalos de igual amplitud siendo el primero [10, 15).
X
20
15
16
20
22
24
20
29
24
15
12
21
12
16
13
5.- Completa la siguiente tabla:
Clases
[25-30)
Marcas
17,5
27,5
ni
2
13
Ni
2
fi
0,05
ESTADÍSTICA
[40-45)
[45-50)
32,5
5
31
39
0,20
10
1.3.- REPRESENTACIONES GRÁFICAS
Las tablas estadísticas contienen la información, pero a veces se expresa mediante un gráfico,
para hacerla más clara y evidente, su finalidad es entrar por los ojos, han de ser muy fáciles de
interpretar. No estudiamos pirámides de población, series temporales y gráficos espirales.
1- Diagrama de barras
Son útiles para datos cualitativos o datos
cuantitativos de tipo discreto.
Para trazarlos se representa en el eje de
abscisas los valores de la variable, y en el de
ordenadas las frecuencias absolutas o
relativas. Por los puntos marcados en
abscisas, se levantan trazos gruesos o barras
de altura igual a la frecuencia y de la misma
anchura.
•
•
•
En algunos casos interesa que las barras
representen las frecuencias acumuladas con lo cual se tendrán diagrama de barras
acumuladas.
Si los datos son ordinales hay que colocarlos en el eje de abscisas en el orden lógico.
Las alturas pueden ser proporcionales a las frecuencias, no estrictamente iguales a ella (en es
caso debe advertirse)
2.- Polígono de frecuencias
Son útiles para datos cualitativos ordinales o
cuantitativos de tipo discreto.
Para trazarlos se representa en el eje de
abscisas los valores de la variable, y en el de
ordenadas las frecuencias absolutas o
relativas. A cada punto de la variable se le
asigna un punto del plano de abscisa el valor
de la variable y de ordenada su frecuencia.
Los puntos se unen mediante segmentos.
•
•
En algunos casos nos interesa que el polígono una los extremos de las frecuencias
acumuladas y no de las frecuencias.
Se utilizan sobre todo, cuando se quiere ver la evolución de las frecuencias al ir tomando
valores la variable (si la variable X no está ordenada no interesa).
3.- Histogramas
Se utilizan para representar distribuciones
cuantitativas de variable continua.
Para construirlo se representa sobre el eje de
abscisas los límites de la clase. Sobre el
mismo eje se construyen unos rectángulos
que tienen por base la amplitud de la clase y
por altura la necesaria para que las áreas de
estos rectángulos sean proporcionales a las
frecuencias respectivas.
ESTADÍSTICA
11
•
•
•
En algunos casos nos interesa que los histogramas representen las frecuencias acumuladas y
no las frecuencias absolutas.
Si alguna de las clases extremas es abierta se dibujan con la misma amplitud que los demás.
Es el gráfico más utilizado en la investigación científica.
4.- Diagrama de sectores
Se utilizan para distribuciones de variable cualitativa o cuantitativo de tipo discreto.
Para dibujarlo debemos tener en cuenta que
cada sector representa los distintos valores
de la variable. El ángulo central de cada
sector ha de ser proporcional a la frecuencia
absoluta o relativa correspondiente. Es decir:
α = 360°.h
En ocasiones sólo se utiliza un semicírculo,
en ese caso el ángulo será α = 180°.h
5.- Pictogramas
Son dibujos alusivos a una distribución
estadística y ofrecen una descripción, de ésta
mediante su forma o tamaño.
Para construirlo se representa en el eje de
abscisas los valores de la variable y en el eje
de ordenadas un dibujo cuyo tamaño es
proporcional a la frecuencia de las clases.
Para lograrlo se puede hacer por repetición (de la figura base) o por amplificación (complicado
de lograr la proporcionalidad del tamaño).
6.- Cartograma
Son gráficos que se realizan sobre un mapa,
señalando sobre determinadas zonas con
distintos colores o tramas la información se
trata de poner de manifiesto.
Estos tipos de diagramas se utilizan para
representar datos relacionados con un área
geográfica. Por ejemplo el cartograma de
información del tiempo.
7.- Diagramas lineales
Son muy utilizados para mostrar las
fluctuaciones de un determinado carácter
estadístico con el paso del tiempo.
Se suele aprovechar para representar sobre la
misma escala varios diagramas lineales. Por
ejemplo, nacimientos y defunciones,
ingresos y gastos.
ESTADÍSTICA
12
8.- Observaciones
En las gráficas:
•
Se debe indicar claramente las escalas y
unidades de medida.
•
Deben explicarse por si solas, por lo
tanto, el título ha de ser totalmente
explicativo.
•
Deben servir para clarificar (no pueden
ser de difícil interpretación tal como la
figura adjunta)
50
45
40
35
30
25
20
15
10
5
0
1
2
TVE-1
Antena 3
3
4
La 2
Tele5
5
6
7
Autonómicas
Canal +
EJEMPLOS
1. Con las notas de 30 alumnos dadas en la tabla adjunta.
xi
0
1
2
3
4
5
6
7
8
9
ni
2
3
1
1
1
3
2
5
7
5
a) Construye los diagramas de barras absolutas y acumuladas.
b) Construye el polígono de frecuencias absolutas y acumuladas
Resolución:
a) Son los diagramas de las figuras adjuntas
b) Son los polígonos de las figuras adjuntas
2. Construye el polígono de frecuencias absolutas y acumuladas de las
notas de 30 alumnos dadas en la siguiente tabla.
Edades [0,5) [5,10)
ni
13
11
[10,15) [15,20)
6
2
[20,25)
[25,30)
1
3
Resolución:
ESTADÍSTICA
13
3.- La tasa anual de crecimiento del PIB durante el período 1985-92, en la
UE fue la indicada en la tabla. Construye el cartograma correspondiente.
Países
Reino Unido
Dinamarca
Suecia
Finlandia
Grecia
Francia
Holanda
Bélgica
Alemania
Austria
Italia
España
Portugal
Irlanda
%
1
1
1
1
1
2
2
2
2
2
2
3
5
5
Resolución: Es la de la figura adjunta
4.- Construye el pictograma correspondiente a la tabla que muestra la
deuda externa de los países de América Latina en 1987:
Países
Brasil
México
Venezuela
Chile
Bolivia
Millones $
101.750
100.000
35.880
20.690
3.340
Resolución: Figura de la derecha.
6.- Representa mediante un diagrama lineal los parados existentes y
parados que no reciben ninguna ayuda durante los años 1982-85.
Año
Parados
1982
1.872
Parados
sin ayuda
1.243
1983
2.207
1.627
1984
2.475
1.822
1985
2.623
1.759
Resolución: Es la de la figura adjunta.
ESTADÍSTICA
14
4.- Construye el diagrama de sectores correspondiente a la tabla que
muestra la inversión publicitaria (en millones de dólares) en la Unión
Europea (datos de 1986):
Países
Alemania
Gran Bretaña
Francia
España
Holanda
Italia
Dinamarca
Bélgica
Grecia
Irlanda
Inversión
8.234
6.915
4.663
3.000
2.970
2.846
1.084
464
164
127
Resolución: Figura de la derecha.
EJERCICIOS PROPUESTOS
1.- Se ha tabulado el peso de los recién nacidos durante una semana en una maternidad,
obteniéndose los siguientes resultados:
Peso en kg.
[2.5, 2.8)
[2.8, 3.1)
[3.1, 3.4)
[3.4, 3.7)
[3.7, 4.3)
Nº de niños
2
2
4
10
16
Teniendo en cuenta que todos los intervalos no tiene igual amplitud, representa gráficamente
estos datos mediante el procedimiento más adecuado.
2.- Los valores de los datos una distribución viene dados en la siguiente tabla. A partir de los
resultados obtenidos representa el diagrama de barras y de barras acumuladas de la distribución.
x
1
2
3
4
5
6
7
8
n
4
5
8
7
5
10
7
4
3. La siguiente tabla recoge el tiempo de retraso que sufren en la incorporación a clase los
alumnos de un instituto:
Retraso en minutos
nº de alumnos
[0,4)
[4,8)
[8,12)
[12,16)
[16,20)
5
15
18
10
4
a) Representa los datos mediante un histograma.
b) A continuación representa los datos mediante un sector circular.
c) ¿Es adecuado el uso de este diagrama para la distribución?
4.- El diagrama de la figura estudia la evolución de la inflación medida según el IPC en España
en loa años que median desde 1962 a 1997. Con estos datos representa un diagrama de barras.
Anuario el País 98
ESTADÍSTICA
15
5.- En la figura adjunta se muestra la venta
de ordenadores de diferentes marcas en
España durante los años 1993 y 1994.
SNI
Digital
Apple
a) ¿Qué empresas han aumentado ventas y
cuáles han disminuido ventas?.
b) Si se mantuvieran la misma tasa de
aumento de ventas ¿cuánto se vendería de
cada marca en el año 1995?.
c) Dibuja un diagrama lineal en que
aparezcan los mismos datos de este gráfico.
Inves
Compaq
Fujitsu
HP
IBM
0
20.000
40.000
60.000
80.000 100.000
6.- Las ventas (en millones de pta.) de una empresa en el año 1997 fueron las dadas en la figura.
a) Halla la tabla y a partir de ésta un diagrama de sectores
b) ¿Cuál es el más útil?
7.- El gráfico siguiente muestra la distribución de la población ocupada en España en 1996.
Teniendo en cuenta que la población ocupada en España es de 12,5 millones halla la tabla
correspondiente a dicho gráfico.
¿Es posible hallar la media de tal distribución?.
8.- Interpreta analíticamente el siguiente diagrama que muestra la evolución de la cotización
peseta - dólar en los años 1991-97.
¿Cuál ha sido la media de la cotización?. ¿Cuál ha sido el valor máximo?, ¿cuál ha sido el
mínimo?. Si tenemos un millón de pesetas, ¿en que año tenemos más y menos dólares?.
ESTADÍSTICA
16
1.4.- COMPARACIÓN DE DIAGRAMAS
•
Para comparar dos o más distribuciones se dibujan todas ellas en una misma gráfica.
•
Se pueden dibujar diagramas de barras agrupados o, si queremos analizar la evolución de las
frecuencias se representan los polígonos de frecuencias en la misma gráfica.
•
En ambos casos las frecuencias deben ser relativas para que las gráficas sean comparables.
EJEMPLOS
1.- Los siguientes diagramas de sectores corresponden a la composición
de la Cámara del Parlamento de Andalucía (número de escaños obtenidos
por cada partido) en las elecciones celebradas en 1994 y 1996:
Representa estos resultados mediante otro procedimiento gráfico.
Resolución:
Recogemos los datos de las elecciones celebradas en 1994 y 1996 en la
siguiente tabla estadística:
PSOE
PP
IU
PA
TOTAL
94
45
41
20
3
109
96
52
40
13
4
109
dando lugar al diagrama de barras de la figura:
ESTADÍSTICA
17
2.- Se ha medido la altura (en cm) de un grupo de 100 alumnos de COU y
posteriormente se han agrupado los datos en intervalos (abiertos por la
derecha). Los resultados se representan en el histograma siguiente.
a) Halla la correspondiente tabla de frecuencias (absolutas y relativas).
b) Representa el polígono de frecuencias acumuladas.
Resolución:
En un histograma la frecuencia (relativa o absoluta) de cada clase es
proporcional a las áreas de los rectángulos que aparecen.
Sea:
- ai = amplitud de cada clase.
- hi = altura de cada rectángulo.
- ni = frecuencia absoluta de cada clase.
- hi = frecuencia relativa de cada clase.
Podemos formar la siguiente tabla:
Clases
Marcas: xi
ai
hi
ni=hi.n
fi=hi.ai
Fi
(150-165]
157,5
15
0,004
6
0,06
6
(165-170]
167,5
5
0,02
10
0,1
16
(170-175]
172,5
5
0,04
20
0,2
36
(175-180]
177,5
5
0,08
40
0,4
76
(180-190]
185
10
0,016
16
0,16
92
(190-210]
200
20
0,004
8
0,08
100
0,164
100
1
b) El polígono de frecuencias acumuladas es el de la figura siguiente, donde
para dibujarla hemos utilizado los datos hallados en la tabla anterior.
ESTADÍSTICA
18
EJERCICIOS PROPUESTOS
1.- El diagrama de la figura compara
la inflación en un cuatrimestre en
España y en la Unión Europea.
Halla la tabla correspondiente a
dichos datos.
A partir de la tabla creada con estos
datos representa un diagrama de
barras donde se comparen ambas
distribuciones.
3
2,5
2
1,5
1
0,5
0
Enero
Febrero
Marzo
España
Abril
Mayo
Unión Europea
2.- Los diagramas de la figura presentan la distribución del comercio minorista en España en los
años 1976 y 1979.
a) Haz una tabla que resuma los datos de los diagramas.
b) Representa estos resultados mediante otro procedimiento gráfico.
3.- En la siguiente gráfica se presenta la
evolución anual de la flota pesquera
española en los años 1977-1986 en
porcentaje respecto al existente en 1977
a) Representa un diagrama de barras
donde
se
comparen
ambas
distribuciones.
b) ¿En que año disminuye más el
porcentaje de tripulantes ?
c) ¿En que año disminuye más el
porcentaje
de
tonelaje
de
embarcaciones?
d) ¿Crees que existe una relación entre el
número de tripulantes y el número de
embarcaciones?
ESTADÍSTICA
105
100
100
98
95
95
97
94
96
93
95
92
93
92
90
90
88
86
85
85 85
82
80
80
78
75
77 78 79 80 81 82 83 84 85 86
Tripulantes
Tonelaje
19
1.5.- EJERCICIOS FINALES
1.- Se ha tabulado el peso de los recién nacidos durante una semana en una maternidad,
obteniéndose los siguientes resultados:
Peso en kg.
Nº de niños
[2.5, 2.8)
2
[2.8, 3.1)
2
[3.1, 3.4)
4
[3.4, 3.7)
10
[3.7, 4.3)
16
Teniendo en cuenta que todos los intervalos no tiene igual amplitud, representa gráficamente
estos datos mediante el procedimiento más adecuado.
2. Completa los datos que faltan en la siguiente tabla estadística, donde n, N y f representan
las frecuencias absoluta, acumulada y relativa, respectivamente:
x
n
1
4
2
4
N
f
0,08
3
16
4
7
5
5
0,16
0,14
28
6
38
7
7
45
0,14
8
A partir de los resultados obtenidos representa el diagrama de barras y de barras acumuladas
de la distribución.
3. La siguiente tabla recoge el tiempo de retraso que sufren en la incorporación al trabajo los
empleados de una empresa:
Retraso en minutos
nº de empleados
[0,4)
5
[4,8)
15
[8,12)
18
[12,16)
10
[16,20)
4
Representa los datos mediante un histograma. A continuación representa los datos mediante
un sector circular. ¿Es adecuado el uso de este diagrama para la distribución?
4.- La población en algunos países de la Unión Europea durante 1993 es la dada en la tabla
adjunta. Haz una representación tipo pictograma de dicha distribución.
Países
Población (miles)
R. F. Alemana
80.614
Gran Bretaña
57.959
Francia
57.530
Italia
56.933
España
39.114
Holanda
15.239
Bélgica
10.068
5.- Interpreta analíticamente el siguiente diagrama que muestra la evolución de la cotización
peseta- dólar en los últimos años.
ESTADÍSTICA
20
¿Cuál ha el valor máximo de la cotización?. ¿Cuál ha el valor mínimo de la cotización?. Si
tuviéramos un millón de pesetas, ¿en que año hubiéramos tenido más dólares?, ¿y menos?.
6.- En el siguiente gráfico se muestra la evolución del PIB en España en los últimos 27 años:
a) ¿En qué años ha crecido dicho PIB por encima del 4%?
b) ¿En qué años ha crecido dicho PIB por debajo del 0%?
c) ¿Cuál ha sido la media de crecimiento en dichos años?
d) Si en el año 1994 el PIB era de 60 billones de pesetas, ¿cuánto vale en 1997?
7.- Las puntuaciones obtenidas por 20 personas en una prueba quedan reflejadas en el
siguiente histograma.
a) Construye la tabla adecuada a los siguientes datos.
b) Efectúa aun diagrama de sectores a partir de dicha tabla.
c) ¿Es adecuado dicho diagrama?
8.- Un jugador de baloncesto anota, cada domingo, el número de puntos que encesta en el partido
de liga. Las anotaciones de los diez últimos encuentros son las siguientes:
Anotaciones 10 18 17
8
10
9
19 10
7
10
Representa en un diagrama de barras la distribución utilizando las frecuencias absolutas
acumuladas.
ESTADÍSTICA
21
9.- Los siguientes datos indican el tiempo, en años, de permanencia de 15 empleados en una
empresa:
Permanencia 10 15 16 20 22 24 5
12 21 2
6
13
a) Construye 6 intervalos de clase de igual amplitud siendo el primero (0, 5].
b) Representa el histograma de frecuencias absolutas.
10.- El diagrama de barras muestra las calificaciones
obtenidas por un grupo de 50 alumnos. Calcula la
calificación media, teniendo en cuenta el siguiente
cuadro de equivalencias:
Notas
Intervalo
Suspenso
[0,5)
Aprobado
[5,7)
Notable
[7,9)
Sobresaliente
[9,10)
11.- El gráfico muestra la distribución de la población activa en España.
Teniendo en cuenta que la población activa en España es de 15,2 millones halla la tabla
correspondiente a dicho gráfico.
12.- Los siguientes datos corresponden a la altura en centímetros de los alumnos de una
determinada clase:
151, 153, 156, 157, 157, 160, 161, 162, 163, 164, 165
167, 168, 169, 170, 171, 172, 177, 178, 182, 183
Realiza una representación gráfica.
13.- Los pesos de los 100 alumnos de una clase vienen dados por la siguiente tabla:
Peso
[40-48]
[48-56]
[56-64]
[64-72]
[72-80]
12
23
25
18
22
Frecuencia
Efectúa una representación tipo histograma de dicha distribución.
14.- En un estudio sobre la edad de 100 personas se han obtenido los siguientes datos:
Edad
Frecuencia
[15-25]
[25-35]
8
17
[35-45]
35
[45-55]
20
[55-65]
18
[65-75]
2
Representa gráficamente los datos.
ESTADÍSTICA
22
CAPÍTULO 2:
DISTRIBUCIONES UNIDIMENSIONALES
2.1.- MEDIDAS DE CENTRALIZACIÓN
Las medidas de centralización de una distribución estadística son las que indican como se
encuentran el resto de valores de la variable con respecto a él.
Las medidas de centralización más importantes son media aritmética, moda, mediana. Existen
otras que no estudiaremos, como media geométrica o media armónica.
1.- Media aritmética
La media aritmética de una variable estadística es el cociente entre la suma de todos los valores
de dicha variable y el número de valores. Se representa por x .
La fórmula para su cálculo es:
1 n
x n + x n + ... + x n n n
x = 1 1 2 2
= ∑ xi ni
N i =1
n1 + n 2 + ... + n n
Siendo: x
xi
ni
N
media aritmética
valores de la variable
frecuencia absoluta asociada a los valores anteriores
número total de datos de la distribución
Consideraciones:
• Es la medida de centralización más empleada en la Estadística.
•
En el caso de distribuciones continuas el cálculo de la media se efectúa con la misma
fórmula pero tomando como valor de la variable la marca de clase de cada intervalo.
•
La media viene dada en las mismas unidades que la variable
•
Si la distribución posee valores extremos raros y poco significativos se produce una
distorsión de la media. Por ejemplo si queremos hallar la talla media de los alumnos de una
clase y un alumno mide 1,45 m dicho valor alterará la talla media de la clase. A veces se
eliminan los valores extremos para hallar la media de forma significativa.
•
No es posible calcular la media:
- Si los datos de la distribución son cualitativos.
- Cuando la distribución es continua con alguna clase abierta. Se puede calcular la media
tomando extremos ficticios de la clase abierta que haga todas las clases del mismo tamaño.
•
Si a todos los valores de una distribución se les suma un mismo valor la media aumenta en
1 n
1 n
dicho valor.
∑ ( x i + C) n i = ∑ x i n i + C
N i =1
N i =1
•
Si todos los valores de una distribución se multiplican por un mismo valor la media se
⎡1 n
⎤
1 n
multiplica por dicho valor
∑ ( xi .C) ni = ⎢ ∑ xi ni ⎥.C
N i =1
⎣ N i =1
⎦
•
La suma de las desviaciones de los valores de la variable respecto de la media aritmética es
n
siempre nula. ∑ ( x i − x ) n i
i =1
ESTADÍSTICA
23
2.- Moda
Moda de una variable estadística es el valor de dicha variable que presenta la mayor frecuencia
absoluta. La moda se representa por Mo
La moda no tiene por qué ser única, puede haber varios
valores de la variable (2, 3, etc..) con la mayor frecuencia.
En este caso se dice que es bimodal, trimodal, etc..
A veces se considera moda al valor que es mayor que los
próximos aunque no sea el de mayor frecuencia.
10
8
6
4
2
0
M0
M1
Cálculo:
• Datos simples:
Mo será el valor xi de mayor frecuencia ni. Si todos los datos de una distribución tienen la
misma frecuencia, esa distribución no tiene moda.
•
Datos agrupados:
El intervalo modal será el intervalo de mayor frecuencia ni, la moda Mo será el valor:
M0 = Li + C D1
D1 + D 2
donde:
Li
límite inferior de la clase modal.
c
amplitud de los intervalos.
D1
frecuencia absoluta de la clase modal menos la de la clase anterior (ni - ni-1)
D2
frecuencia absoluta de la clase modal menos la de la clase siguiente (ni - ni+1)
Consideraciones:
• La moda es menos representativa que la media aritmética, pero es se puede hallar cuando se
trata de distribuciones de datos cualitativos.
•
En la moda no intervienen todos los datos de una distribución.
•
Aunque es una medida de centralización, es frecuente encontrarla en los extremos de la
distribución, en cuyo caso no es demasiado representativa de los valores centrales.
Cálculo gráfico
Para distribuciones continuas se puede
obtener la moda con cierta aproximación de
forma gráfica.
Para ello se representa el histograma de
frecuencias absolutas y a continuación se
unen cada extremo de la clase modal con el
extremo correspondiente de las contiguas,
tal como se ve en la figura. La moda Mo
viene dada por la abscisa del punto de corte.
3.- Mediana
Mediana de una variable estadística un valor de la variable, tal que el número de observaciones
menores que él es igual al número de observaciones mayores que él. La mediana de una variable
se representa por Me.
La mediana siempre es un valor único, al contrario que la moda. En caso de existir un número
par de datos se toma la media de los dos valores centrales como mediana.
ESTADÍSTICA
24
Cálculo:
• Datos simples: Se ordenan los datos de menor a mayor, la mediana será.
− Si el valor central de la variable es único, el término central.
− Si hay dos valores centrales, se toma como mediana la semisuma de esos dos valores
centrales.
•
Datos agrupados: La mediana viene dada por el primer valor de la variable cuya frecuencia
absoluta acumulada (Fi) excede a la mitad del número de datos. Para ello se construye la
columna de frecuencias acumuladas y se calcula donde está el valor medio.
Si la mitad del número de datos coincide con la frecuencia absoluta acumulada (Fi) de un
valor, Me es la semisuma entre ese valor y el siguiente de la tabla.
Si la variable es continua: Calculamos la clase mediana de forma similar al caso discreto.
Para obtener un valor aproximado de la mediana seleccionamos primero la clase mediana y
luego aplicamos la fórmula:
⎛N⎞
⎜ ⎟ - Ni-1
2
Me = Li + c ⎝ ⎠
ni
donde:
Li límite inferior de la clase mediana
c amplitud del intervalo
N nº de datos
Ni-1 frecuencia absoluta acumulada de la clase anterior a la clase mediana
ni frecuencia absoluta de la clase mediana.
Consideraciones
• La mediana es muy útil cuando:
- existe algún valor raro que afecta a la media.
- los datos están agrupados en clases, siendo alguna de ellas abierta.
•
La mediana es un parámetro que depende del orden en que estén situados los datos y no
de su valor.
•
Para distribuciones continuas o agrupadas que se puedan representar mediante un
histograma, la mediana es el valor de la variable que divide al histograma en dos partes
de igual área.
Cálculo gráfico
Para hallar gráficamente la mediana se
representa el polígono de frecuencias
relativas acumuladas (Fi).
Situamos en el eje de abscisas la variable y
en el eje de ordenadas los porcentajes
correspondientes.
Se traza una paralela al eje X por el punto
correspondiente al 50 %. La abscisa del
punto de corte de esa paralela con la gráfica
nos da la mediana.
EJEMPLOS
1.- Un jugador de baloncesto anota, cada domingo, el número de puntos
que encesta en el partido de liga. Las anotaciones de los últimos diez
encuentros, jugados por su equipo, se muestran en el siguiente cuadro
ESTADÍSTICA
25
Encuentro
1º
2º
3º
4º
5º
6º
7º
8º
9º
10º
Anotaciones
10
18
17
8
10
9
19
10
7
10
Halla la media de las anotaciones.
Resolución:
Para hallar la media utilizamos la siguiente tabla
xi
ni
xi ni
7
1
7
8
9
10
17
18
19
1
1
4
1
1
1
10
8
9
40
17
18
19
118
Siendo su valor:
118
1 n
x = ∑ xi ni =
= 11,8 puntos
N i =1
10
2.- Dada la distribución estadística
Ii
(0, 5]
(5, 10]
(10, l5]
(15,20]
(20,25]
(25, 30]
ni
4
6
7
10
2
1
Calcula la media.
Resolución:
Construimos la siguiente tabla auxiliar.
Clases
Marcas: xi
ni
xini
(0-5]
2,5
4
10
(5-10]
7,5
6
45
(10-15]
12,5
7
87,5
(15-20]
17,5
10
175
(20-25]
22,5
2
45
(25-30]
27,5
1
27,5
30
390
De ella obtenemos:
x =
390
1 n
= 13
∑ xi ni =
N i =1
30
3.- Halla la media de siguiente distribución estadística
Color de ojos
azul
verde
negro
castaño
ni
4
6
5
10
ESTADÍSTICA
26
Resolución:
No es posible calcular la media ya que son datos de tipo cualitativo
4.- Dada la distribución estadística. Calcula la media.
edad
menor de 18
18 a 40
40 a 60
mayor que 60
nº
250
1254
756
243
Resolución:
No es posible calcular la media ya que hay dos clase (menores de 18 años y
mayores de 60) que son abiertas, además las clases intermedias no tiene el
mismo tamaño y el número de clases es muy reducido para la cantidad de
datos que hay. El valor de la media así obtenida no tendría ningún interés.
5.- Considera los datos 1, 2, 3, 4 y 5.
a) Calcula su media.
b) Si sumas 10 a cada uno de los datos anteriores, ¿cuánto vale la media?
c) Si multiplicas por 5 cada uno de los datos anteriores, ¿cuánto vale la
media?
Resolución:
a) Su media es: x =
15
1 n
=5
∑ xi ni =
N i =1
5
b) Si a los valores de la distribución se les suma una constante la media
aumenta en dicho valor: x n = x + 10 = 5+10 = 15.
c) Si todos los valores de una distribución se multiplican por una constante la
media se multiplica por dicho valor: x n = 5. x = 5.5 = 25.
6.- Un jugador de baloncesto anota, cada domingo, el número de puntos
que encesta en el partido de liga.
Las anotaciones de los últimos diez encuentros, jugados por su equipo,
se muestran en el siguiente cuadro
Encuentro
1º
2º
3º
4º
5º
6º
7º
8º
9º
10º
Anotaciones
10
18
17
8
10
9
19
10
7
10
Halla la moda de las anotaciones.
Resolución:
Para hallar la moda utilizamos la siguiente tabla
xi
7
8
9
10
17
18
19
ni
1
1
1
4
1
1
1
La moda es el valor más frecuente, por lo tanto Mo = 10 puntos.
7. Dada la siguiente distribución: Calcula su moda.
xi
1
2
3
4
5
6
ni
6
7
14
10
14
9
Resolución:
Las modas son Mo= 3 y Mo'= 5. La distribución es por lo tanto bimodal.
ESTADÍSTICA
27
8.- Dada la distribución estadística
Ii
(0, 5]
(5, 10]
(10, l5]
(15,20]
(20,25]
(25, 30]
ni
4
6
7
10
2
1
Calcula la moda.
Resolución:
El Intervalo modal es el de mayor frecuencia absoluta (15-20].
Para hallar el valor de la moda aplicamos la fórmula de interpolación:
10 - 7
D1
= 15 + 5
= 16,36
M0 = Li + C
(10 - 7) + (10 - 2)
D1 + D 2
9.- La superficie sembrada (en miles de Ha) de lenteja en España durante
los años de 1970 a 1974 fue:
Año
Superficie
1970
68
1971
75
1972
87
1973
99
1974
105
1975
115
calcula la superficie modal.
Resolución:
No existe moda ya que no hay ningún valor cuya frecuencia se repita.
10.- La superficie sembrada (en miles de Ha) de lenteja en España durante
los años de 1970 a 1974 fue:
Año
Superficie
1970
68
1971
75
1972
87
1973
99
1974
105
calcula la superficie mediana.
Resolución:
Se colocan los valores de la superficie ordenados. La mediana se obtiene
buscando el valor que deja la mitad de la distribución a la izquierda; como
N/2= 2,5 el primer valor de la variable cuya frecuencia absoluta acumulada
excede a 2,5 es Me = 87.
11.- La superficie sembrada (en miles de Ha) de lenteja en España durante
los años de 1970 a 1974 fue:
Año
Superficie
1970
68
1971
75
1972
87
1973
99
1974
105
1975
115
calcula la superficie mediana.
Resolución:
Calculamos N/2 = 3 (valor par), el valor de la mediana es:
87 + 99
= 93
Me =
2
12.- Dada la distribución de frecuencias de la tabla adjunta, se pide:
xi
1
2
3
4
5
ni
1
2
4
2
1
Calcula el valor de la mediana.
ESTADÍSTICA
28
Resolución:
Para calcular la mediana utilizamos la tabla adjunta:
xi
1
2
3
4
5
Ni
1
3
7
9
10
La mediana, Me, se promediando los valores intermedios ya que el resultado es
par, N/2 = 5.
Observamos en la columna de frecuencias absolutas agrupadas los valores
3+3
=3
que ocupan los lugares 5º y 6º: Me =
2
13.- Dada la distribución estadística
Ii
(0, 5]
(5, 10]
(10, l5]
(15,20]
(20,25]
(25, 30]
ni
4
6
7
10
2
1
Calcula la mediana.
Resolución:
Utilizamos la tabla auxiliar:
Ii
(0, 5]
(5, 10]
(10, l5]
(15,20]
(20,25]
(25, 30]
Ni
4
10
17
27
29
30
La clase mediana es (10, 15], pues la frecuencia absoluta acumulada es 17,
mayor que 30/2, por lo tanto tenemos:
⎛N⎞
30
⎜ ⎟ - Fi-1
- 10
2
Me = Li + c . ⎝ ⎠
= 10 + 5. 2
= 13,57
7
ni
14.- Dada la distribución estadística
Ii
(38, 44] (44, 50] (50,56]
ni
7
8
15
(56,62]
25
(62,68] (68, 74] (74, 80]
18
9
6
Calcula la mediana gráficamente.
Resolución:
Utilizamos la tabla adjunta, siendo la mediana la del segmento de la figura .
Ii
Ni
(38-44]
7
(44-50]
15
(50-56]
30
(56-62]
55
(62-68]
73
(68-74]
82
(74-80]
90
ESTADÍSTICA
29
EJERCICIOS PROPUESTOS
1.- El número de goles anotados por un equipo de fútbol en los partidos de liga, se muestran en el
siguiente cuadro
Encuentro
1º
2º
3º
4º
5º
6º
7º
8º
9º
10º
Anotaciones
1
2
1
4
1
3
2
0
1
3
Halla la media, mediana y moda de las anotaciones.
Solución: x = 1,8; Me = 1,5; M0 = 1.
2.- Dada la distribución estadística
xi
(0, 6]
(6, 12]
(12, 18]
(18,24]
(24,30]
ni
2
6
7
10
5
Calcula la media, mediana y moda.
Solución: x =17; Me = 18; M0 = 20,25.
3.- Halla la media de la siguiente distribución estadística
Color del cabello
rubio
pelirrojo
negro
castaño
ni
4
6
5
10
Solución: No se puede hallar.
4.- Dada la distribución estadística
edad
menor de 15
15 a 30
30 a 50
mayor que 50
450
1254
656
143
nº
Calcula la media.
Solución: No se puede hallar.
5.- Considera los datos 2, 4, 6, 8 y 10.
a) Calcula su media.
b) Si sumas 5 a cada uno de los datos anteriores, ¿cuánto vale la media?
c) Si multiplicas por 10 cada uno de los datos anteriores, ¿cuánto vale la media?
Solución: a) x = 6, b) x +5 = 11, c)10 x = 60.
6. Dada la siguiente distribución:
xi
1
2
3
4
5
6
ni
6
5
4
10
4
1
Calcula su moda y mediana.
Solución: Me = 3,5; M0 = 4.
7. Dada la siguiente distribución:
xi
1
2
3
4
5
ni
6
5
4
10
4
Calcula su moda y mediana.
Solución: Me = 3, M0 = 4.
8.- Dada la distribución estadística
ESTADÍSTICA
30
Ii
(0, 10]
(10,20]
(20, 30]
(30,40]
(40,50]
ni
1
6
7
4
2
Calcula la moda y mediana.
Solución: Me = 24,3; M0 = 22,5.
9.- Dada la distribución estadística
Ii
(30, 40]
(40, 50]
(50,60]
(60,70]
(70,80]
ni
7
8
15
25
20
Calcula la moda gráficamente.
Solución: M0 = 66,7.
10.- Dada la distribución estadística
Ii
(30, 40]
(40, 50]
(50,60]
(60,70]
(70,80]
ni
7
8
15
25
20
Calcula la mediana gráficamente.
Solución: Me = 63.
11.- Completa los datos que faltan en la siguiente tabla de distribución de frecuencias, donde ni,
Ni y fi representan, respectivamente, la frecuencia absoluta, la frecuencia absoluta acumulada y
la frecuencia relativa de la variable X .
X
1
2
ni
4
4
3
Ni
fi
4
5
7
5
6
8
7
23
0,08
7
38
45
0,16
Calcula la media y moda de la distribución anterior.
Solución: x = 4,76; M0 = 6; Me = 5.
12. Completa la siguiente tabla de distribución de frecuencias, sabiendo que la media de la
variable de X es 3, (ni representan las frecuencias absolutas y Ni las frecuencias absolutas
acumuladas).
X
1
2
ni
Ni
3
4
16
5
8
9
52
Calcula la moda y mediana de la distribución anterior.
Solución: Me = 3; M0 = 3.
13.- Se considera la tabla estadística siguiente:
X
2
4
a
3
5
Y
1
2
1
1
3
donde a es una incógnita. Calcula el valor de a sabiendo que la media de X es 3.
Solución: a = 1.
ESTADÍSTICA
31
2.2.- MEDIDAS DE POSICIÓN
1.- Definición
Las medidas de posición se llaman cuantiles o percentiles y sirven para indicar la posición de
algunos puntos importantes de la distribución. Dividen a la muestra ordenada en partes iguales.
Los percentiles son los 99 valores que dividen la distribución en 100 partes iguales. Se denotan
por P1, P2 ,....P99 y se designan por percentil primero, segundo, etc...
Algunos percentiles concretos son la mediana y los cuartiles, quintiles y deciles.
• Mediana: Es una medida de posición que deja por debajo de ella el 50% de los valores de
la distribución. Si la variable no es cuantitativa o cualitativa ordinal no se puede calcular.
Corresponde al percentil Me = P50.
•
Cuartiles: Se llaman cuartiles a los tres valores que dividen a la serie de datos en cuatro
partes iguales. Se representan por Q1 , Q2 , Q3 y se designan cuartil primero, segundo y
tercero respectivamente.
Corresponden a los percentiles Q1= P25, Q2 = P50, Q3= P75.
•
Quintiles: Se llaman quintiles a los cuatro valores que dividen a la serie de datos en cinco
partes iguales. Se representan por K1 , K2 , K3 , K4 y se designan quintil primero, segundo,
tercero y cuarto, respectivamente.
Corresponden a los percentiles K1= P20, K2 = P40, K3= P60, K4= P80,
•
Deciles: Se llaman deciles a los nueve valores que dividen a la distribución en 10 partes
iguales. Se representan por D1, D2,..., D9 y de designan decil primero, segundo, etc...
Corresponden a los percentiles D1= P10, ..., D9 = P90,
2.- Cálculo
Todos los cuantiles se expresan a partir de un percentil, es suficiente aprender a calcular estos.
•
Datos simples: Un percentil Pi viene dado por el primer valor de la variable cuya frecuencia
⎛ N ⎞
absoluta acumulada (Ni) excede a i.⎜
⎟ . Para ello se construye la columna de frecuencias
⎝ 100 ⎠
absolutas acumuladas y se calcula donde está dicho valor. Si coincide con la frecuencia
absoluta acumulada de un valor, Pi es la semisuma entre ese valor y el siguiente.
•
Datos agrupados: Calculamos la clase del percentil de forma similar al caso discreto. Para
obtener el valor concreto del percentil aplicamos la fórmula:
⎛ N ⎞
i.⎜
⎟ - Ni -1
100 ⎠
Pi = L i + c ⎝
ni
Donde:
Li = límite inferior de la clase a la que pertenece el percentil
c
= amplitud del intervalo
N = nº de datos
Ni-1 = frecuencia absoluta acumulada de la clase anterior a la que pertenece el percentil
ni = frecuencia absoluta de la clase a la que pertenece el percentil
3.- Observaciones
•
Aunque a veces se incluyen los cuantiles dentro de los parámetros de centralización por ser
la mediana un parámetro de posición situado en el centro, pueden estar situados en los
extremos de la distribución, por ejemplo P90, de ahí que no los consideremos como tales y
los llamemos parámetros de posición.
ESTADÍSTICA
32
•
Son parámetros estadísticos muy usados, sobre todo en las Ciencias Sociales y Biosanitarias.
•
Se les suele llamar parámetros de posición porque sitúan la distribución respecto de ellos.
4.- Cálculo gráfico
Se representa el polígono de frecuencias
relativas acumuladas (Fi ) en %, situando en
el eje de las X la variable (si es discreta) o
los intervalos, y en el eje Y los porcentajes
correspondientes.
Se traza una paralela al eje X por el punto
correspondiente al cuantil deseado, esta
recta corta al polígono de frecuencias en un
punto; por éste se traza una paralela al eje Y.
El punto del eje X donde corta esta última
paralela es el cuantil buscado
EJEMPLOS
1.- Dada la distribución de frecuencias de la tabla adjunta, se pide:
xi
1
2
3
4
5
ni
1
2
4
2
1
el valor de la expresión E = Q3-Mo+Q1-Me, donde Q3 y Q1 son
respectivamente el tercer y primer cuartil, MO es la moda y Me la mediana.
Resolución:
Para hallar los valores pedidos utilizamos la tabla adjunta:
xi
ni
Ni
1
2
3
4
5
1
2
4
2
1
1
3
7
9
10
10
•
Q3 es el tercer cuartil, para hallarlo buscamos el valor que deja las tres
cuartas parte de la distribución a la izquierda; como 3N/4 =7,5 el primer
valor de la variable cuya frecuencia absoluta acumulada excede a 7,5 es 4.
•
Q1 es el primer cuartil, para hallarlo buscamos el valor que deja la cuarta
parte de la distribución a la izquierda; como N/4 = 2,5 el primer valor de la
variable cuya frecuencia absoluta acumulada excede a 2,5 es 2.
•
Me, mediana, es el valor central. El primer valor de la frecuencia absoluta
N
acumulada que supera
= 5 es 3
2
•
Mo, moda, es el valor más frecuente, por lo tanto Mo = 3.
El valor de la expresión pedida es:
Q3-Mo+Q1-Me = 4 - 3 + 2 - 3 = 0
ESTADÍSTICA
33
2.- Dada la distribución de frecuencias de la tabla adjunta, se pide:
xi
1
2
3
4
5
6
7
8
ni
4
6
5
6
10
9
4
6
el segundo decil y los percentiles P40 y P70.
Resolución:
Para calcular los parámetros pedidos utilizamos la tabla siguiente.
xi
ni
Ni
1
4
4
2
6
10
3
5
15
4
6
21
5
10
31
6
9
40
7
4
44
8
6
50
50
•
•
•
El segundo decil D2 deja el 20% de la distribución a la izquierda; como
2.N/10 = 10 coincide con la frecuencia absoluta acumulada del valor 2, D2
2+3
será la semisuma entre ese valor y el siguiente: D2 =
= 2,5.
2
N
50
P40 deja a la izquierda el 40% de los datos: 40
= 40
= 20.
100
100
Por lo tanto P40 = 4
P70 deja a la izquierda el 70% de los datos: 70
N
50
= 70
= 35.
100
100
Por lo tanto P70 = 6
3.- Se ha aplicado un test sobre satisfacción en el trabajo a 90 empleados
de una fábrica, obteniéndose los siguientes resultados:
Puntuaciones
(38-44] (44-50] (50-56] (56-62] (62-68] (68-74] (74-80]
4
Nº trabajadores
12
10
30
20
8
6
Calcula el primer y tercer cuartil.
Resolución:
Utilizamos la tabla auxiliar:
Clases
ni
Ni
(38-44]
(44-50]
(50-56]
(56-62]
(62-68]
(68-74]
(74-80]
4
12
10
30
20
8
6
4
16
26
56
76
84
90
90
ESTADÍSTICA
34
El intervalo correspondiente al primer cuartil es (50,56]. La fórmula para
calcularlo es:
⎛N⎞
90
⎜ ⎟ - Fi-1
- 16
4
Q1 = L i + c . ⎝ ⎠
= 50 + 6. 4
= 53,9
10
ni
y el correspondiente al tercer cuartil es (62,68]. La fórmula para calcularlo es:
⎛ 90 ⎞
⎛N⎞
3⎜ ⎟ - 56
3 ⎜ ⎟ - Fi-1
4
4
= 62 + 6. ⎝ ⎠
= 65,45
Q3 = L i + c . ⎝ ⎠
20
ni
Siendo en ambos casos:
Li = límite inferior de la clase del cuartil correspondiente
Fi-1 = frecuencia absoluta acumulada de la clase anterior a la del cuartil
correspondiente
ni = frecuencia absoluta de la clase del cuartil correspondiente
4.- Un test aplicado a 50 alumnos de 1º de Bachillerato ha dado los
siguientes resultados:
Puntuaciones
Nº de alumnos
[20,25) [25,30) [30.35) [35,40) [40,45) [45,50)
8
13
18
5
4
2
a) Calcula la puntuación mediana.
b) Calcula a partir de que puntuación se encontrará el 25 % de la clase
con puntuación más baja.
Resolución:
Para hallar los valores pedidos en este ejercicio utilizamos la siguiente tabla:
Clases
[20,25)
[25-30)
[30,35)
[35-40)
[40,45)
[45-50)
ni
8
13
18
5
4
2
Ni
8
21
39
44
48
50
50
a) La mediana deja a ambos lados el 50% de la distribución. El intervalo
correspondiente a la mediana se busca mediante N/2 = 25 y resulta ser el
intervalo [30,35).
La fórmula para hallar la mediana es:
50
N
- 21
- Ni -1
2
= 30 + 5. 2
= 31,11
Me = Li + c .
18
ni
siendo:
Li = límite inferior de la clase mediana.
Ni-1 = frecuencia absoluta acumulada de la clase anterior a la de la
mediana.
ni = frecuencia absoluta de la clase mediana.
ESTADÍSTICA
35
b) El valor pedido es el percentil 25 o primer cuartil. El intervalo
correspondiente al primer cuartil se busca mediante N/4 = 12,5 que pertenece
al intervalo [25, 30). La fórmula para hallarlo es:
50
N
- Ni -1
-8
= 25 + 5. 4
= 26,73
Q1 = L i + c . 4
13
ni
5.- Dada la distribución estadística
Ii
(38, 44] (44, 50] (50,56]
ni
7
8
(56,62]
15
(62,68] (68, 74] (74, 80]
25
18
9
6
Calcula gráficamente el primer y tercer cuartil.
Resolución:
Utilizamos la tabla auxiliar:
Ii
ni
Ni
Ni
(38, 44]
7
7
7
(44, 50]
8
15
15
(50,56]
15
30
30
(56,62]
25
55
55
(62,68]
18
73
73
(68, 74]
9
82
82
(74, 80]
6
88
88
Los cuartiles son los dados por los segmentos rayados en la figura adjunta.
EJERCICIOS PROPUESTOS
1.- La superficie sembrada (miles de Ha) de lentejas en España en los años de 1970 a 1974 fue:
Año
Superficie
1970
68
1971
75
1972
87
1973
99
1974
105
Calcula la producción mediana y el percentil 60 de la superficie.
Solución: Me = 87, P60 = 93.
2.- Dada la distribución estadística
Ii
(0, 5]
(5, 10]
(10, l5]
(15,20]
(20,25]
(25, 30]
ni
4
6
7
10
2
1
Calcula el primer y tercer cuartil.
Solución: Q1 = 7,9; Q3 = 17,75.
3.- La tabla siguiente representa la distribución de las calificaciones obtenidas por 150
estudiantes de un curso
Calificaciones
(0,2]
(2-4]
(4-6]
(6-8]
(8-10]
Nº de estudiantes
10
50
55
25
10
Calcula la mediana y el primer cuartil.
Solución: Me = 4,54; Q1 = 3,1.
ESTADÍSTICA
36
4.- Se ha medido la altura (en cm) de un
grupo de 100 alumnos y posteriormente se
han agrupado los datos en intervalos
(abiertos por la derecha). Los resultados se
representan en el histograma siguiente.
a) Halla la mediana y el tercer cuartil.
b) Encuentra un intervalo que abarque el
60% de la población.
Solución: a) Me =176,12 cm, Q3=178,69 cm,
b) Un posible intervalo es (150,178].
5.- Se ha preguntado a un grupo de deportistas las horas que dedican a entrenamiento durante el
fin de semana. Los resultados aparecen en la siguiente distribución de frecuencias
Horas
[0,0.5)
[0.5,1.5)
[1.5,2.5)
[2.5,4)
[4,8]
Personas
10
10
18
12
12
Calcula el tercer cuartil.
Solución: La clase del cuartil es [2.5,4). Q3 = 3,56 horas.
6.- Sea X una variable estadística que indica el tiempo, en años, de permanencia de quince
empleados en una empresa
X
10 15 16 20 22 24 30 29 24 5
12 21 2
6
13
a) Construye 6 intervalos de clase de igual amplitud siendo el primero (0,5].
b) Calcula la mediana.
Solución: Me = 16 años. Si se calcula con clase obtenemos el valor aproximado 16,25 años.
7.- Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16 comercios,
elegidos al azar en un barrio de la ciudad, y se han encontrado los siguientes precios:
95
108 97 112 99 106 105 100
99 98 104 110 107
111 103 110
a) Construye 4 intervalos de clase de igual amplitud siendo el primero [95, 100)
b) Calcula la mediana y el percentil 40.
Solución: Me = 105; P40 = 102,3.
8.- Se ha aplicado un test sobre satisfacción en los estudios a 100 estudiantes, obteniéndose los
siguientes resultados. Calcula el primer y tercer cuartil gráficamente.
Puntuaciones
(38-44] (44-50] (50-56] (56-62] (62-68] (68-74] (74-80]
Estudiantes
10
12
16
30
20
8
6
Solución: Q1 = 51,7; Q3 = 64,7.
9.- Un test aplicado a 100 alumnos de 2º de Bachillerato ha dado los siguientes resultados:
Puntuaciones
[20,25)
[25,30)
[30.35)
[35,40)
[40,45)
[45,50)
Nº de alumnos
18
23
28
15
9
7
a) Calcula la puntuación mediana.
b) Calcula a partir de que puntuación se encontrará el 40 % de la clase con menor puntuación.
Solución:
10.- Dada la distribución estadística de la superficie de las fincas de un pueblo
Superficie
(0, 5]
(5, 10]
(10, l5]
(15,20]
(20,25]
nº de fincas
2
10
3
4
1
Calcula y explica el significado de los cuartiles.
Solución: Q1 = 6; Q2 = 8,2; Q3 = 15.
ESTADÍSTICA
37
2.3.- REPRESENTACIÓN BOX-WHISKER
1.- Definición
La traducción del termino Box-Whisker es
la de caja con bigotes., en ocasiones se dice
simplemente gráfico de caja. Realiza una
síntesis gráfica de cinco parámetros de una
distribución: la mediana, los cuartiles
primero y tercero y los valores máximo y
mínimo.
2.- Cálculo
Para construir una caja con bigotes se llevan a una escala graduada los siguientes datos: Q1,
Me, Q3, y los valores máximo y mínimo de la variable x.
Se efectúan los pasos siguientes
•
Se dibuja una caja estrecha que una los cuartiles 1º y 3º de la distribución.
•
Se dibuja una barra vertical que atraviese la caja en la posición de la mediana.
•
Se dibujan dos segmentos horizontales que unan los extremos de la caja con los valores
mínimo y máximo de la distribución.
3.- Observaciones
•
Un gráfico Box-Whisker da una aproximación rápida a ciertas características de la
distribución: localización, dispersión y simetría.
•
La barra de la mediana muestra la localización o centro de los datos.
•
La longitud de la caja muestra la dispersión de la mitad central de los datos, los segmentos
muestran la dispersión de la mitad extrema de los datos.
•
Si el gráfico es simétrico respecto de la barra central, los datos serán aproximadamente
simétricos respecto de la mediana. Si la distancia entre la barra y el extremo derecho es
mayor que con el lado izquierdo la distribución presenta asimetría hacia la derecha y
viceversa.
•
Los gráficos de caja con bigote son especialmente efectivos para comparar dos o más
conjuntos de datos.
EJEMPLOS
1.- Obtén las representaciones Box-Whisker que comparan las
distribuciones de las calificaciones de los alumnos y alumnas en una
prueba de idioma.
Alumnos:
Alumnas:
68, 65, 65, 70, 72, 73, 74, 79, 79,
79, 80, 81, 82, 84, 85, 88, 89, 90,
91, 91, 92, 96
65, 73, 78, 78, 82, 83, 87, 88, 89,
89, 90, 91, 91, 92, 93, 94, 95, 95,
96, 97, 98.
Resolución:
La representación Box-Whisker es la de la figura adjunta:
ESTADÍSTICA
38
EJERCICIOS PROPUESTOS
1.- Obtén las representaciones Box-Whisker que comparan las distribuciones de las
calificaciones de chicos y chicas en una prueba de inteligencia.
Chicos:
Chicas:
68, 65, 65, 74, 73, 72, 70, 79, 65, 73, 78, 78, 83, 87, 88, 89,
79, 80, 81, 82, 84, 85, 88, 89, 89, 90, 91, 91, 92, 93, 94, 95,
90, 91, 92, 96.
95, 96, 97, 98.
En de las dos distribución dadas estudia a) localización, b) dispersión, c) simetría.
2. Dada la distribución estadística:
Ii
[0, 5)
[5, 10)
[10, 15)
[15, 20)
[20,25)
25 o más
ni
3
5
7
8
2
5
realiza una representación Box-Whisker e interprétela.
3. Las puntuaciones obtenidas por 20 personas en una prueba quedan reflejadas en el
siguiente histograma.
Haz una interpretación Box-Whisker e interprétela.
4.- De una muestra de 10 alumnos se han obtenido los siguientes datos sobre la puntuación en un
examen en puntos:
Puntos
85 95 90 88 114 97 98 88 89
Realiza un diagrama Box-Whisker de estos datos e interprétalo.
5.- Los siguientes datos corresponden a al altura en centímetros de los alumnos de una
determinada clase:
151, 153, 156, 157, 157, 160, 161, 162, 163, 164, 165
167, 168, 169, 170, 171, 172, 177, 178, 182, 183
Realiza un diagrama Box-Whisker de estos datos e interprétalo.
ESTADÍSTICA
39
2.4.- MEDIDAS DE DISPERSIÓN
Para que la investigación acerca de una distribución quede completa es imprescindible saber si
los datos numéricos están agrupados o no alrededor de los valores centrales. A los parámetros
que miden estas desviaciones respecto a la media se les llama medidas o parámetros de
dispersión.
1.- Rango
Se llama rango o recorrido de una distribución, y se denota R, a la diferencia entre los valores
extremos de la variable. Además existen otros rangos:
• Rango intercuartílico: diferencia entre el primer y tercer cuartil. Ri = Q3. -Q1
•
Rango intercuartílico superior: diferencia entre el mayor valor de la variable y el tercer
cuartil.
•
Rango intercuartílico inferior: diferencia entre el primer cuartil y el menor valor de la
variable.
•
Rango entre percentiles: diferencia entre dos percentiles determinados, por ejemplo P = P90
–P10.
Observaciones:
•
Cuanto menor es el recorrido de una distribución mayor es el grado de representatividad de
los valores centrales.
•
Es sencillo de calcular.
•
Viene dado en las mismas unidades que la variable.
•
Presenta el inconveniente de que sólo depende de los valores extremos; de forma que basta
que uno de ellos se separe mucho, para que el rango se vea afectado, es por lo que se han
definido los otros rangos.
2.- Desviación media
Se llama desviación media de una variable a la media aritmética de las desviaciones absolutas
respecto de la media. Se representa por dm.
Cálculo: Se obtiene mediante la fórmula:
1 n
dm =
∑ ni xi - x
N i =1
Siendo:
x media aritmética
xi valores de la variable
ni frecuencia absoluta asociada a los valores anteriores
N número total de datos de la distribución
Observaciones:
•
La desviación media depende de todos los valores de la distribución.
•
Si no es posible hallar la media no es posible hallar la desviación media.
•
Viene expresada en las mismas unidades que los datos.
ESTADÍSTICA
40
3.- Varianza
Se llama varianza de una variable a la media aritmética de los cuadrados de las desviaciones
respecto a la media. Se representa por S2 y a veces se llama desviación cuadrática media.
Cálculo:
Se obtiene mediante la fórmula:
1 n
2
S2 =
∑ n i (x i - x )
N i =1
Es una fórmula incómoda, sobre todo si los cálculos son manuales, ya que al ser la media un
número con decimales los cálculos suelen ser laboriosos, por lo que se usa esta otra expresión:
S2 =
1
N
n
∑n x -x
2
i
i
2
i =1
Observaciones:
•
La varianza depende de todos los valores de la distribución y de la media.
•
Si no es posible hallar la media no es posible hallar la varianza.
•
La varianza viene expresada en distintas unidades que los datos. Por lo tanto es más
interesante la desviación típica que la varianza.
•
Por la propia definición de varianza esta es siempre positiva.
4.- Desviación típica
Se llama desviación típica de una variable a la raíz cuadrada positiva de la varianza de dicha
variable. Se representa por S.
Cálculo:
Se obtiene mediante la fórmula:
S=
1 n
2
∑ n i (x i - x )
N i =1
Al igual que en la varianza es más rápido usar la fórmula:
S =
1
N
n
∑n x -x
i
2
i
2
i =1
Observaciones:
•
La desviación típica dependen de todos los valores de la distribución.
•
Si no es posible hallar la media no es posible hallar la desviación típica.
•
Viene expresada en las mismas unidades que los datos.
•
Conviene dar la varianza con un decimal menos que la desviación típica.
•
Si a los valores de una distribución se les suma un número la desviación típica no varía.
•
Si todos los valores de una distribución se multiplican por un mismo valor la desviación
típica queda multiplicada por dicho valor
ESTADÍSTICA
41
EJEMPLOS
1.- Dada la distribución de frecuencias de la tabla adjunta, se pide:
xi
1
2
3
4
5
6
7
8
ni
4
6
5
6
10
9
4
6
Calcula los diversos rangos.
Resolución:
Para calcular los parámetros pedidos necesitamos hallar los cuartiles primero
y tercero y para ello utilizamos la tabla siguiente:
•
xi
1
2
3
4
5
6
7
8
ni
4
6
5
6
10
9
4
6
Ni
4
10
15
21
31
40
44
50
Q1 deja a la izquierda el 25% de los datos: 25
N
50
= 25
= 12,5.
100
100
Por lo tanto Q1 = 3
•
Q3 deja a la izquierda el 75% de los datos: 75
N
50
= 75
= 37,5.
100
100
Por lo tanto Q3 = 6
•
Los rangos pedidos son:
− Rango = 8-1 = 7
− Rango intercuartílico = 6 - 3 = 3
− Rango intercuartílico superior = 8- 6 = 2
− Rango intercuartílico inferior = 3-1 = 2
2.- Se ha aplicado un test sobre satisfacción en el trabajo a 90 empleados
de una fábrica, obteniéndose los siguientes resultados:
Puntuaciones
Nº trabajadores
(38-44] (44-50] (50-56] (56-62] (62-68] (68-74] (74-80]
4
12
10
30
20
8
6
Calcula los diversos rangos.
Resolución:
Utilizamos la tabla auxiliar:
Clases
ni
Ni
(38-44]
(44-50]
(50-56]
(56-62]
(62-68]
(68-74]
(74-80]
4
12
10
30
20
8
6
4
16
26
56
76
84
90
90
El intervalo correspondiente al primer cuartil es (50,56].
La fórmula para calcularlo es:
ESTADÍSTICA
42
⎛N⎞
90
⎜ ⎟ - Fi-1
- 16
4
Q1 = L i + c . ⎝ ⎠
= 50 + 6. 4
= 53,9
10
ni
y el correspondiente al tercer cuartil es (62,68].
La fórmula para calcularlo es:
⎛ 90 ⎞
⎛N⎞
3⎜ ⎟ - 56
3 ⎜ ⎟ - Fi-1
4
4⎠
⎝
= 62 + 6. ⎝ ⎠
= 65,45
Q3 = L i + c .
20
ni
Los diversos rangos son:
•
Rango = 80-38 = 42
•
Rango intercuartílico = 65,45 - 53,90 = 11,55
•
Rango intercuartílico superior = 80- 65,45 = 14,55
•
Rango intercuartílico inferior = 53,9-38 = 15,9
3.- Dada la distribución de frecuencias de la tabla adjunta, se pide:
xi
1
2
3
4
5
6
7
8
ni
4
6
5
6
10
9
4
6
Calcula la media, varianza y desviación típica.
Resolución:
Para calcular los parámetros pedidos utilizamos la tabla siguiente.
xi
ni
Ni
xi ni
xi2ni
1
4
4
4
4
2
6
10
12
24
3
5
15
15
45
4
6
21
24
96
5
10
31
50
250
6
9
40
54
324
7
4
44
28
196
8
6
50
48
384
235
1323
50
Siendo:
• La media es:
235
1 n
x =
∑ xi n i = 50 = 4,70
N i =1
•
La varianza:
1
S =
N
2
•
n
∑n x -x
2
i
i
2
=
i =1
1323
- (4,7) 2 = 4,4
50
La desviación típica:
S=
1
N
ESTADÍSTICA
n
∑n x -x
i
i =1
2
i
2
=
1323
- (4,7) 2 = 2,09
50
43
4.- Dada la distribución estadística
Ii
(0, 5]
(5, 10]
(10, l5]
(15,20]
(20,25]
(25, 30]
ni
4
6
7
10
2
1
Calcula la media, rango, varianza y desviación típica.
Resolución:
Para calcular los parámetros pedidos utilizamos la tabla siguiente.
Clases
Marcas
(0-5]
(5-10]
(10-15]
(15-20]
(20-25]
(25-30]
•
La media es:
1 n
x =
∑ xi n i = 13
N i =1
•
El rango es
R = 30-0 = 30
•
La varianza:
S2 =
•
∑n x -x
i
2
i
2
xini
4
6
7
10
2
1
10
45
87,5
175
45
27,5
30
390
2,5
7,5
12,5
17,5
22,5
27,5
n
1
N
ni
=
i =1
xi2ni
25
337,5
1093,75
3062,5
1012,5
756,25
6287,5
6288
- 132 = 40,6
30
Desviación típica:
n
∑ xi2 ni
i =1
S=
N
- x2 =
6288
- 132 = 6,37
30
EJERCICIOS PROPUESTOS
1.- Halla los recorridos intercuartílicos de la distribución que representa la superficie sembrada
(en miles de Ha) de lenteja en España durante los años de 1970 a 1974 fue:
Año
Superficie
1970
68
1971
75
1972
87
1973
99
1974
105
Solución: Ri = 24; Risup = 6; Riinf = 7.
2.- Dada la distribución estadística
Ii
(0, 5]
(5, 10]
(10, l5]
(15,20]
(20,25]
(25, 30]
ni
4
6
7
10
2
1
a) Calcula para esta distribución, el rango (recorrido).
b) Calcula para esta distribución, el rango intercuartílico.
Solución: a) R = 30-0 = 30, b) Ri = 17,75-7,90 = 9,85.
ESTADÍSTICA
44
3.- La tabla siguiente representa la distribución de las calificaciones obtenidas por 150
estudiantes de un curso
Calificaciones
(0,2]
(2-4]
(4-6]
(6-8]
(8-10]
Nº de estudiantes
10
50
55
25
10
Calcula los diversos rangos.
Solución: R = 10; Ri = 2,81; Risup = 4,09; Riinf = 3.
4.- Se ha medido la altura (en cm) de un
grupo de 100 alumnos y posteriormente se
han agrupado los datos en intervalos
(abiertos por la derecha). Los resultados se
representan en el histograma siguiente.
Halla la media, varianza y desviación típica.
Solución: x = 17,7 cm; S2 = 88,5 cm2 ;
S=9,40 cm .
5.- Se ha preguntado a un grupo de deportistas las horas que dedican a entrenamiento durante el
fin de semana. Los resultados aparecen en la siguiente distribución de frecuencias
Horas
[0,0.5)
[0.5,1.5)
[1.5,2.5)
[2.5,4)
[4,8]
Personas
10
10
18
12
12
Calcula el rango, la media, varianza y desviación típica.
Solución: R = 8; x = 2,57 h; S2 = 3,74 h2 ; S = 1,93 h .
6.- Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16 comercios,
elegidos al azar en un barrio de la ciudad, y se han encontrado los siguientes precios:
95
108
97
112
99
106 105 100
99
98
104 110 107 111 103 110
Construye 4 intervalos de clase de igual amplitud siendo el primero [95, 100) y calcula la media
y la desviación típica.
Solución: x = 104,69; S =5,85.
7.- La suma de unos datos es de 25 unidades y la de sus cuadrados 250 unidades cuadradas. si la
media y desviación típica coinciden, ¿cuánto valen?
Solución: s = x = 5.
8.- Sea la distribución formada por 1, 3, 5, 7 y 9.
a) Calcula la media, varianza y desviación típica.
b) Calcula la media, varianza y desviación típica si añadimos 12 a cada uno de los datos
anteriores.
c) Calcula la media, varianza y desviación típica si multiplicamos por 7 cada uno de los datos
anteriores.
Solución: a) s = x = 2,82; b) x = 17, s = 2,82.
9.- Una distribución posee varianza S2. Prueba que:
a) S2 disminuye si se añaden valores iguales a la media.
b) S2 no varía si se añaden valores iguales a x + S.
c) S2 no varía si se añaden valores iguales a x - S.
10.- Los valores a y –a son las modas de una distribución bimodal simétrica
a) Halla su media y su mediana.
b) Decide si su varianza es nula o no.
Solución:
ESTADÍSTICA
45
2.5.- COMPARACIÓN DE DISTRIBUCIONES
1.- Coeficiente de variación
Definición
•
El coeficiente de variación de Pearson es la desviación típica por unidad de media
multiplicada por 100.
•
Mide la dispersión relativa de la muestra.
Cálculo
El coeficiente de variación de Pearson, CV, viene dado por:
CV = vp =
sx
.100
x
Observaciones
•
El coeficiente de variación no depende de la unidad utilizada puesto que es el cociente entre
la media y la desviación típica y viene dadas en las mismas unidades.
•
Un coeficiente de variación del 30% indica que la media es poco representativa como
medida del promedio, debiéndose optar por la mediana o la moda.
•
Dadas dos variables aleatorias aquella que tenga un coeficiente de variación mayor es más
heterogénea y el que la tenga menor más homogénea, siendo su media más representativa de
la variable en este caso.
•
El coeficiente de variación no debe usarse cuando la media esté próxima a cero, pues el
denominador pequeño distorsiona el cociente.
2.- Puntuaciones típicas.
De modo similar a como usamos el coeficiente de variación de Pearson usamos los datos de
media y desviación típica para hallar los valores normalizados o puntuaciones típicas de la
variable:
-x
xin = x i
S
Estas puntuaciones típicas sirven para comparar los valores de dos distribuciones diferentes.
3.- Observaciones
En una distribución simétrica o ligeramente asimétrica se cumple:
•
en el intervalo ( x -S, x +S) se encuentran el 68 % de los datos de la distribución,
•
en el intervalo ( x -2S, x +2S) se encuentran el 95 % de los datos de la distribución
•
en el intervalo ( x -3S, x +3S) se encuentran el 99 % de los datos de la distribución.
ESTADÍSTICA
46
EJEMPLOS
1.- Compara las puntuaciones obtenidas por un alumno en Matemáticas e
Historia sabiendo que en ambas ha obtenido un 7, estando caracterizadas
las puntuaciones en ambas asignaturas por los parámetros:
x
s
Matemáticas
4
4
Historia
5
4
Resolución:
La nota normalizada en Matemáticas es
7-4
= 0,75 y en Historia es
4
7-5
= 0,5, luego comparativamente es mayor la nota en Matemáticas.
4
2.- Tenemos seis distribuciones cuya representación viene dada en las
siguientes figuras.
(a)
(b)
(c)
(d)
(e)
(f)
a) Ordena de mayor a menor distribución típica las distribuciones.
b) Sabiendo que los parámetros de esas distribuciones son:
1) x = 58, s =12
2) x = 46, s =5,5
3) x = 41, s =16
4) x = 16, s =5
5) x = 33, s =13
6) x = 25, s =8
asocia los parámetros a la gráfica correspondiente.
Resolución:
a) Observando la dispersión de las distribuciones la ordenación es:
(a), (b), (c), (f), (d), (e).
b)
•
•
•
•
•
•
Asociando cada gráfica con su distribución tenemos:
La gráfica (a) corresponde a la distribución 3.
La gráfica (b) corresponde a la distribución 1.
La gráfica (c) corresponde a la distribución 4.
La gráfica (d) corresponde a la distribución 5.
La gráfica (e) corresponde a la distribución 2.
La gráfica (f) corresponde a la distribución 6.
ESTADÍSTICA
47
3.- En un Instituto de Bachillerato hay dos grupos de Matemáticas. Las
calificaciones de la primera evaluación en cada grupo fueron las
siguientes:
Grupo A
1
1
1
3
5
5
6
8
8
9
Grupo B
2
2
4
4
4
5
5
6
6
8
Utilizando la medida adecuada, di qué grupo es más homogéneo.
Resolución:
Para determinar qué grupo es más homogéneo, utilizamos el coeficiente de
variación que mide la desviación típica respecto a la media de una variable, es
decir, su homogeneidad. Para hallarla utilizamos las tablas adjuntas:
•
1
N
xi2ni
yi
ni
yi ni
yi2ni
1
3
3
3
2
2
4
8
3
1
3
9
4
3
12
48
5
2
10
50
5
2
10
50
6
1
6
36
6
2
12
72
8
2
16
128
8
1
8
64
9
1
9
81
10
46
242
10
47
307
n
∑x n
i i
=
i =1
47
= 4,7
10
1
N
n
∑x n - x
2
i i
2
=
i =1
307
- (4,7 )2 = 2,93
10
Media de y:
y =
•
xini
Desviación típica de x:
Sx =
•
ni
Media de x:
x =
•
Xi
1
N
n
∑y n
i i
i =1
=
46
= 4,6
10
Desviación típica de y:
Sy =
242
1 n 2
2
- (4,6 )2 = 1,74
∑ y ni - y =
10
N i =1 i
Como la medida más adecuada para comparar las dos distribuciones es el
s
coeficiente de variación de Pearson, de fórmula vp = x .100, con valores:
x
2,93
.100 = 62,3, para el primer grupo
vp =
4,7
1,74
vp =
.100 = 37,8, para el segundo grupo
4,6
Luego el segundo grupo es más homogéneo, ya que su coeficiente de
variación es menor.
ESTADÍSTICA
48
4.- Dos fabricantes de baterías de automóviles ofrecen sus productos a
una fábrica de automóviles, al mismo precio. Ésta, para elegir la más
duradera, hace una prueba con 50 baterías de cada marca, obteniendo los
siguientes resultados:
Vida de la batería
(en meses)
20
22
24
26
28
30
Marca A
(frec. absoluta)
5
8
12
15
7
3
Marca B
(frec. absoluta)
1
7
18
19
5
0
Realiza los cálculos que consideres necesarios para justificar la elección
efectuada por la fábrica.
Resolución:
Llamemos X a la variable que mide la vida media de la batería A e Y a la
variable que mide la vida media de la batería B. Tenemos las tablas:
xi
ni
xini
xi2ni
yi
ni
20
5
100
2.000
20
1
20
400
22
8
176
3.872
22
7
154
3.388
24
12
288
6.912
24
18
432
10.368
26
15
390
10.140
26
19
494
12.844
28
7
196
5.488
28
5
140
3.920
30
3
90
2.700
Suma
50
1240
30920
Suma
50
1240
31112
yi ni
yi2ni
A partir de ella hallaremos los valores.
• Media de x:
1240
1 n
x =
= 24,8
∑ xi f i =
N i=1
50
•
Media de y:
1 n
1240
y = ∑ yi f i =
= 24,8
50
N i=1
•
Desviación típica de x:
sx =
•
31112
1 n 2
2
- (24,8 )2 = 2,68
∑ xi f i - x =
50
N i=1
Desviación típica de x:
sy =
30920
1 n 2
2
- (24,8 )2 = 1,83
∑ yi f i - y =
N i=1
50
Ambas marcas tienen una vida media igual a 24,8 meses de duración, luego
este parámetro no es válido para tomar decisiones; sin embargo, la desviación
típica de la primera es de 2,68 y la de la segunda es 1,83, luego si queremos
tener mayor probabilidad de que una batería, elegida al azar, tenga una
duración similar a la media, debemos elegir la marca B, pues tiene una
dispersión menor respecto de la media.
ESTADÍSTICA
49
5.- Los siguientes datos corresponden a los salarios mensuales, en miles
de pesetas, de un grupo de trabajadores de un hospital:
110
110
120
150
90
80
115
100
125
600
a) Calcula el porcentaje de salarios de esta muestra que están en el
intervalo ( x -S, x +S) donde x es la media y S la desviación típica.
b) Razona si se deben utilizar estos datos con el propósito de estimar la
media salarial de todos los trabajadores españoles.
Resolución:
Para calcular el porcentaje de salarios de la muestra que están en el intervalo
( x -S, x +S) debemos construir la siguiente tabla:
xi2ni
xi
ni
80
1
80
6.400
90
1
90
8.100
100
1
100
10.000
110
2
220
24.200
115
1
115
13.225
120
1
120
14.400
125
1
125
15.625
150
1
150
22.500
600
1
600
360.000
10
1.600
474.450
Suma
xini
Obteniendo los valores:
• Media:
1 n
1600
x =
= 160
∑ xi ni =
N i=1
10
•
Desviación típica
S =
•
1 n 2
47445
2
- (160 )2 = 147,8
∑ xi ni - x =
10
N i =1
El intervalo pedido es
( x -S, x +S) = (160-147,8; 160+1478) = (12,2; 307,8)
como en este intervalo se encuentran nueve valores (todos menos el 600)
el porcentaje de valores es del 90%.
6.- Se ha realizado un estudio estadístico de los pesos de los alumnos de
tres aulas, siendo sus resultados redondeados los siguientes
A
B
C
x
65
64,3
67,1
S
6,5
3,2
4,5
Identifica qué gráfica corresponde a cada clase. Justifica la respuesta.
ESTADÍSTICA
50
Gráfico 1
Gráfico 2
Resolución:
El gráfico 1 es el de la clase B
El gráfico 2 es el de la clase C
El gráfico 3 es el de la clase A
Gráfico 3
(tiene la menor desviación típica de las tres
y su media es algo menor que 65)
(tiene la desviación típica intermedia de las
tres y su media es algo mayor que 65)
(tiene la mayor desviación típica de las tres
y su media es 65)
•
La menor desviación típica corresponde al primer gráfico, pues los datos
están agrupados, sin dispersión.
•
La mayor desviación típica corresponde al tercer gráfico, pues los datos
están muy dispersos, más o menos todos con la misma frecuencia, tanto
los próximos a la media como los alejados de ella.
7.- Un jugador de baloncesto anota, cada domingo, el número de puntos
que encesta en el partido de liga. Las anotaciones de los últimos diez
encuentros, jugados por su equipo, se muestran en la siguiente tabla:
Encuentro
1º
2º
3º
4º
5º
6º
7º
8º
9º
10º
Anotaciones
10
18
17
8
10
9
19
10
7
10
Calcula el coeficiente de variación.
Resolución:
Para hallar la media y desviación típica utilizamos la siguiente tabla
xi
ni
xi ni
x2i
xi2ni
7
1
7
49
49
8
1
8
64
64
9
1
9
81
81
10
4
40
100
400
17
1
17
289
289
18
1
18
324
324
1
19
361
10
118
19
361
1568
La media es:
x=
1
N
n
∑x n
i i
= 11,8 puntos
i =1
La desviación típica es:
1 n
2
S=
∑ n i xi2- x = 4,19
N i=1
ESTADÍSTICA
51
El coeficiente de variación de Pearson es
4,19
s
vp = x .100 =
.100 = 35,5 %
11,8
x
8.- Dada la distribución estadística
Ii
(0, 5]
(5, 10]
(10, l5]
(15,20]
(20,25]
(25, 30]
ni
4
6
7
10
2
1
Calcula, para esta distribución, el coeficiente de variación .
Resolución:
Utilizamos la siguiente tabla auxiliar:
Clases
•
xini
xi2ni
(0-5]
2,5
4
10
25
(5-10]
7,5
6
45
337,5
(10-15]
12,5
7
87,5
1093,75
(15-20]
17,5
10
175
3062,5
(20-25]
22,5
2
45
1012,5
(25-30]
27,5
1
27,5
756,25
30
390
6287,5
1
N
n
∑x n
i i
= 13
i =1
La desviación típica es:
S=
•
ni
La media es:
x=
•
Marcas
1
N
n
∑x n - x
2
i i
i =1
2
=
6288
- 132 = 6,37
30
El coeficiente de variación de Pearson es:
6,37
s
vp = x .100 =
.100 = 49
13
x
EJERCICIOS PROPUESTOS
1.- Las ganancias de dos tiendas (en miles de euros) durante los años 1970 a 1975 fueron
Año
1970
1971
1972
1973
1974
1975
Tienda A
5,9
2,5
7,4
8,1
4,8
3,7
Tienda B
4,5
3,8
5,7
3,5
5,5
4,6
a) ¿Qué tienda da más beneficios?
b) ¿Cuál tiene mayor estabilidad en dichos beneficios?
Solución: a) mayores beneficios la A, ya que x A = 5,4 y x B = 4,6;
b) más estable la B ya que SA = 1,97 y SB = 0,80:
ESTADÍSTICA
52
2.- Las anchuras de las aceras de cuatro barrios de una ciudad vienen dadas en la siguiente
tabla y en las gráficas adjuntas.
A
B
C
D
x
1985,5
198,1
193
193,4
S
9,7
3,9
4,6
8,1
(1)
(2)
(3)
(4)
Asocia a cada gráfica los parámetros correspondientes:
Solución: A-(4), B – (1), C –(3), D-(2).
3.- Las siguientes distribuciones tiene aproximadamente la misma media (5) y 1, 2, 3 y 4
como desviaciones típicas. Asigna a cada gráfica su desviación típica.
(a)
(b)
(c)
(d)
Solución: (a) –2, (b) –3, (c) –1, (d) –4.
ESTADÍSTICA
53
4.- Dada la distribución de frecuencias de la tabla adjunta, se pide el coeficiente de variación
Solución: vp =
xi
1
2
3
4
5
ni
1
2
4
2
1
1,10
.100 = 36,51%
3
5.- Dada la distribución de frecuencias de la tabla adjunta, se pide:
xi
1
2
3
4
5
6
7
8
ni
4
6
5
6
10
9
4
6
el coeficiente de variación.
2,09
Solución: vp =
.100 = 44,47%
4,7
6.- La superficie sembrada (en miles de Ha) de lenteja en España durante los años 1970 a 1974
fue:
Año
1970
1971
1972
1973
1974
68
75
87
99
105
Superficie
Halla el coeficiente de variación de la superficie.
13,95
Solución: vp =
.100 = 16,07%
86,8
7.- El número de horas semanales que ven la televisión un grupo de niños y adolescentes
españoles durante el año 1995 fue
Niños
18
18
19
21
22
22
Adolescentes
15
18
18
22
22
22
¿Cuál de las distribuciones es más dispersa?
Solución: La de adolescentes, ya que va = 13,80% y vn = 8,66%
8.- Una muestra de 100 alumnos tiene una talla media de 170 cm y una desviación típica de 8
cm. Otra muestra de 100 alumnas tiene una talla media de 168 cm y una desviación típica de 7
cm. ¿Cuál de las dos muestras es más dispersa?
Solución: La de alumnos, ya que valumnas = 4,17% y valumnos = 4,71%
9.- a) Una alumna de la distribución anterior tiene una talla de 169 cm, ¿se puede considerar alta,
normal o baja comparada con el resto de sus compañeras? ¿Y si consideramos el total de los 200
alumnos?
b) Un alumno de la distribución anterior tiene una talla de 169 cm, ¿se puede considerar alto,
normal o bajo comparado con el resto de sus compañeros? ¿Y si consideramos el total de los 200
alumnos?
Solución: a)La alumna es alta y normal considerada con el total.
b)El alumno es bajo y normal considerado con el total.
10.- Consideramos la siguiente distribución de frecuencias:
Ii
(0, 5]
(5, 10]
(10, l5]
(15,20]
(20,25]
(25, 30]
ni
4
6
7
10
2
1
Halla cuántos valores hay en el intervalo ( x -S, x +S) donde x es la media y S la desviación
típica.
Solución: Intervalo (13-6,37; 13+6,37). Hay 21 valores.
ESTADÍSTICA
54
2.6.- SIMETRÍA
1.- Definición
La simetría de una distribución indica si esta se reparte uniformemente a ambos lados de la
media o está sesgada hacia uno de los lados, en cuyo caso hablamos de asimetría a la izquierda o
a la derecha.
•
Para hallar la simetría o asimetría de una
distribución compararemos la media y la
mediana.
•
También se puede usar una caja con los
valores extremos de la distribución y la
mediana.
Cuando la distribución es simétrica las tres medidas de centralización coinciden x = Me
En tal caso (o si es ligeramente asimétrica) se cumple: Me - MO = 3( x - Me)
2.- Asimétrica a la derecha
•
Cuando la distribución es asimétrica a
la derecha se cumple que la mediana
está a la derecha de la media: x < Me
•
Se representa sobre una escala graduada
un rectángulo limitado por los valores
extremos y marcamos en su interior la
mediana.
Si el 50% de la izquierda está más
concentrado y a la derecha más
disperso, se dice que la distribución es
asimétrica a la derecha .
3.- Asimétrica a la izquierda
•
Cuando la distribución es asimétrica a
la izquierda se cumple que la mediana
está a la izquierda de la media: x > Me
•
Se representa sobre una escala graduada
un rectángulo limitado por los valores
extremos y marcamos en su interior la
mediana.
Si el 50% de la izquierda está más
disperso y a la derecha más
concentrado, se dice que la distribución
es asimétrica a la izquierda.
4.- Momentos centrales
Momento central de orden k es el parámetro estadístico:
1 n
k
μk =
∑ n i (x i - x )
N i =1
ESTADÍSTICA
55
Observaciones:
•
El momento central de orden 1 es siempre nulo, μ1 = 0.
•
El momento central de orden 2 es la varianza, μ2 = S2.
•
Al ir aumentando el orden de los momentos, influye mucho más en le valor los valores más
alejados de la media.
5.- Coeficiente de asimetría
Se define el coeficiente de asimetría como la expresión:
μ
α3 = 33
S
Como la potencia (x i - x )3 puede ser positiva, negativa o nula el coeficiente de asimetría puede
ser a su vez positivo o negativo.
Observaciones
•
Si α3 > 0 los valores a la derecha de la
media influyen más que los valores que
están a la izquierda.
La curva está sesgada a la derecha.
•
Si α3 < 0 los valores a la izquierda de la
media influyen más que los valores que
están a la derecha.
La curva está sesgada a la izquierda.
•
Si α3 = 0 la curva es simétrica.
La curva no está sesgada ni a izquierda ni a
derecha.
6.- Coeficiente de apuntamiento
Se define el coeficiente de apuntamiento (curtosis) como la expresión α4 =
•
•
μ4
S4
4
Como la potencia (x i - x ) sólo puede ser positiva el coeficiente es siempre positivo.
Existe un valor crítico, considerado normal, el valor 3.
Observaciones:
•
•
•
Si α4 > 3. La curva está más apuntada de lo normal (leptocúrtica).
Si α4 < 3. La curva está más achatada de lo normal (platicúrtica).
Si α4 = 3. La curva es normal (mesocúrtica).
α4 > 3
ESTADÍSTICA
α4 = 3
α4 < 3
56
EJEMPLOS
1.- Halla la simetría de la distribución dada por la siguiente tabla:
xi
1
2
3
4
5
ni
1
2
4
2
1
Resolución:
Utilizamos la tabla auxiliar:
xi
1
2
3
4
5
Ni
1
2
4
2
1
10
Xini
1
4
12
8
5
30
Ni
1
3<5
7>5
9
10
Los valores centrales son:
30
• Media: x =
=3
10
• Mediana: Me = 3
• Moda: Mo = 3
Como x = Me es simétrica.
2.- Halla la simetría de la distribución dada por la siguiente tabla:
xi
3
6
7
8
9
ni
15
20
15
10
10
Resolución:
Utilizamos la tabla auxiliar:
xi
3
6
7
8
9
ni
15
20
15
10
10
70
xini
45
120
105
80
90
440
Ni
15
35
50<50
90>50
100
Los valores centrales son:
440
• Media: x =
= 6,8.
70
6+7
• Mediana: Me =
= 65.
2
• Moda: Mo = 6
Como x < Me es asimétrica a la derecha.
3.- Halla la simetría de la distribución estadística de la siguiente tabla:
Ii
ni
Resolución:
ESTADÍSTICA
(0, 5]
4
(5, 10]
6
(10, l5]
7
(15,20]
10
(20,25]
2
(25, 30]
1
57
Utilizamos la siguiente tabla auxiliar:
Clases
xi
ni
Ni
xini
(0-5]
2,5
4
4
10
(5-10]
(10-15]
(15-20]
(20-25]
(25-30]
7,5
12,5
17,5
22,5
27,5
6
7
10
2
1
10
17
27
29
30
45
87,5
175
45
27,5
30
•
Media: x =
1
N
390
n
∑x n
i i
= 13
i =1
•
Moda: El Intervalo modal es el de mayor frecuencia absoluta (15-20].
Para hallar el valor de la moda aplicamos la fórmula de interpolación:
10 - 7
D1
= 15 + 5
= 16,36
M0 = Li + C
(10
7)
+ (10 - 2)
+
D
D1
2
•
Mediana: La clase mediana es (10, 15], pues la frecuencia absoluta
acumulada es 17, mayor que 30/2, por lo tanto tenemos:
⎛N⎞
30
⎜ ⎟ - Fi-1
- 10
2⎠
⎝
Me = Li + c .
= 10 + 5. 2
= 13,57
7
ni
Como x < Me es asimétrica a la derecha.
EJERCICIOS PROPUESTOS
1.- Halla la simetría de la distribución dada por la siguiente tabla:
xi
ni
2
1
4
2
6
5
8
1
10
1
Solución: x = 5,8; Me = 6. Como x < Me es asimétrica a la derecha.
2.- Halla la simetría de la distribución dada por la siguiente tabla:
xi
4
6
8
10
ni
3
5
1
1
Solución: x = 6; Me = 6. Como x = Me es simétrica.
3.- Halla la simetría de la distribución dada por la siguiente tabla. ¿Cómo podrías conseguir que
fuera más simétrica?
xi
1
3
5
7
9
ni
1
2
5
1
1
Solución: x = 4,8; Me = 5. Sumar 2 a cualquier valor.
4.- ¿Cuál de las siguientes distribuciones es más simétrica?
a) 1, 1, 2, 2, 2, 3, 3, 3, 3, 4
b) 1, 2, 2, 2, 2, 3, 3, 3, 4, 4
c) 1, 2, 2, 2, 2, 3, 3, 3, 3, 4
Solución: a) x = 2,4; Me = 2,5. b) x = 2,7; Me = 3. c) x = 2,5; Me = 2,5.
ESTADÍSTICA
58
2.7.- EJERCICIOS FINALES
1. Completa los datos que faltan en la siguiente tabla estadística, donde n, N y f representan las
frecuencias absoluta, acumulada y relativa, respectivamente:
X
1
2
3
4
5
6
7
8
n
4
4
7
5
N
f
0,08
16
0,16
0,14
28
38
45
7
0,14
A partir de los resultados obtenidos representa el diagrama de barras y de barras acumuladas de
la distribución. Calcula la media, mediana y moda de la distribución.
Solución:
2. La siguiente tabla recoge el tiempo de retraso que sufren en la incorporación al trabajo los
empleados de una empresa:
Retraso en minutos
[0,4)
[4,8)
[8,12)
[12,16)
[16,20)
nº de empleados
5
15
18
10
4
a) Representa los datos mediante un histograma. A continuación representa los datos mediante
un sector circular. ¿Es adecuado el uso de este diagrama para la distribución?
b) Calcula el retraso medio y la desviación típica.
c) Calcula la mediana y el tercer cuartil. Explica qué miden estos parámetros.
Solución:
3. Dada la distribución estadística:
Ii
[0, 5)
[5, 10)
[10, 15)
[15, 20)
[20,25)
25 o más
ni
3
5
7
8
2
5
Calcula la media, mediana y moda.
Solución:
4. Las puntuaciones obtenidas por 20
personas en una prueba quedan reflejadas en
el siguiente histograma.
a) Halla la moda.
b) Halla la media.
c) Halla la mediana.
Solución:
5.- Un jugador de baloncesto anota, cada
domingo, el número de puntos que encesta en el partido de liga. Las anotaciones de los diez
últimos encuentros son las siguientes:
Anotaciones 10 18 17
8
10
9
19 10
7
10
a) Halla la media y la moda de las anotaciones.
b) Representa en un diagrama de barras la distribución utilizando las frecuencias absolutas
acumuladas.
6.- Sea X una variable estadística cuya media vale 2. Definimos otra variable Z que cumple que
zi = 3 xi. Demuestra, usando la fórmula, que la media de Z es 6.
Solución:
ESTADÍSTICA
59
7.- Se eligen al azar tres números entre el 0 y el 9 y con ellos se forma un número de tres cifras.
Se sabe que la media de las tres cifras es 5 y que la moda existe y es 7.¿Cuál es el mayor número
que se pudo formar de esta manera?
Solución:
8.- El diagrama de barras muestra las
calificaciones obtenidas por un grupo de 50
alumnos. Calcula la calificación media,
teniendo en cuenta el siguiente cuadro de
equivalencias:
Notas
Intervalo
Suspenso
[0,5)
Aprobado
[5,7)
Notable
[7,9)
Sobresaliente
[9,10)
Solución:
9.- Calcula la media, mediana, moda, el percentil 32, el segundo cuartil y la desviación típica
correspondiente a la estatura de 40 chicos de un curso:
Intervalo
148,5-153,5 153,5-158,5 158,5-163,5 163,5-168,5 168,5-173,5 173,5-178,5
Alumnos
2
4
11
14
5
4
Solución:
10.- De una muestra de 11 bombillas se han obtenido los siguientes datos sobre la duración:
Duración 85 95 90 88 91 114 97 98 88 89
Realiza un diagrama Box-Whisker de estos datos e interprétalo.
11.- Los siguientes datos corresponden a al altura en centímetros de los alumnos de una
determinada clase:
151, 153, 156, 157, 157, 160, 161, 162, 163, 164, 165
167, 168, 169, 170, 171, 172, 177, 178, 182, 183
Calcula la mediana, cuartiles, rangos y moda de la variable y realice una representación gráfica.
Solución:
12.- Se ha aplicado un test sobre la satisfacción en el trabajo a los 88 empleados de una fábrica
obteniéndose los siguientes resultados:
Trabajadores
[38-44)
[44-50)
[50-56)
[56-62)
[62-68)
[68-74)
[74-80)
7
8
15
25
18
9
6
% Satisfacción
a) Representar la distribución mediante algún diagrama
b) Calcular: Media, Mediana, Moda, Recorrido, Desviación típica
c) Comenta la simetría de la distribución
Solución:
13.- Los pesos de los 100 alumnos de una clase vienen dados por la siguiente tabla:
Peso
Frecuencia
[40-48]
[48-56]
[56-64]
[64-72]
[72-80]
12
23
25
18
22
a) Calcula la media, desviación típica, mediana, moda y el intervalo intercuartílico explicando
que significa cada uno de éstos conceptos.
ESTADÍSTICA
60
b) Efectúa una representación tipo histograma y otra tipo caja con bigotes de dicha distribución,
y a partir de ellas explica si es o no simétrica dicha distribución.
Solución:
14.- Se ha aplicado un test sobre satisfacción en los estudios a 100 estudiantes, obteniéndose los
siguientes resultados:
Puntuaciones
(38-44] (44-50] (50-56] (56-62] (62-68] (68-74] (74-80]
Nº trabajadores 10
12
16
30
20
8
6
Calcula el recorrido intercuartílico, la media y la desviación típica.
Solución:
15.- En un instituto hay tres grupos de 2º de Bachillerato. El grupo A de 30 alumnos, tiene una
nota media de 5.25; la nota media del grupo B de 36 alumnos es de 4.75; la nota media del grupo
C de 10 alumnos es de 5.8. Calcula la nota media del conjunto de alumnos de 2º de ese centro.
Solución:
16.- En un estudio sobre la edad de 100 personas se han obtenido los siguientes datos:
Edad
Frecuencia
[15-25]
8
[25-35]
17
[35-45]
35
[45-55]
20
[55-65]
18
[65-75]
2
a) Represente gráficamente los datos.
b) Tomando los puntos centrales de cada intervalo, calcule la media y la varianza.
c) ¿Qué mide cada uno de estos parámetros?. ¿Considera que son apropiados?.
Solución:
17.- Se eligen al azar tres números entre el 0 y el 9 y con ellos se forma un número de tres cifras.
Se sabe que la media de las tres cifras es 5 y que la moda existe y es 7.¿Cuál es el mayor número
que se pudo formar de esta manera?
Solución: 771
18.- Las desviaciones típicas de las distribuciones de las figuras son 3,2; 4,3; 5,2 y 6,8. Asigna a
cada gráfica su desviación típica y calcula la media correspondiente a todas ellas.
(a)
(b)
(c)
(d)
Solución: (a) –4,3; (b) –5,2; (c) –3,2; (d) –6,8.
19.- En un test de habilidad manual se han obtenido las siguientes puntuaciones:
ESTADÍSTICA
61
50, 23, 45, 36, 56, 34, 56, 67, 45, 34, 23, 45, 23, 37,
67, 54, 21, 34, 43, 12, 78, 36, 49, 53, 27, 66, 31, 64,
45, 22, 33, 44, 48, 53, 57, 77, 31, 23, 47, 52, 33, 21
a) Comprueba si en el intervalo ( x -s, x +s) se encuentran el 68 % de los datos de la distribución,
b) Comprueba si en el intervalo ( x -2s, x +2s) se encuentran el 95 % de los datos de la
distribución
c) Comprueba si en el intervalo ( x -3s, x +3s) se encuentran el 99 % de los datos de la
distribución.
Solución:
20.- En un grupo de 25 personas la media de edad es de 17,5 años, si al grupo se incorporan dos
personas de 20 y 15 años. ¿Cuál es la media de edad del nuevo grupo?
Solución: 17,5 años.
21.- Se nos informa que los datos correspondientes a los gráficos siguientes son,
aproximadamente, x1 = 5,4; S1 = 3,3; x 2 = 5,6; S2 = 2,5. Averigua el gráfico correspondiente a
cada par ( x , S) explicando el razonamiento seguido.
Gráfico 1
Gráfico 2
Solución: (a) Gráfico 2, (b) Gráfico 1.
22.- Los arbustos de 4 viveros tiene los siguientes parámetros y gráficas, pero están
desordenados. ¿Cuál de los parámetros y gráficas se corresponden entre si?
x
s
A
B
C
211
187
202
189
37
52
39
43
(1)
(3)
Asocia a cada gráfica los parámetros correspondientes:
Solución: A-(4), B-(3), C-(2)
ESTADÍSTICA
D
(2)
(4)
62
CAPÍTULO 3:
DISTRIBUCIONES BIDIMENSIONALES
3.1.- VARIABLES ESTADÍSTICAS BIDIMENSIONALES
•
Las variables obtenidas en fenómenos en los que para cada observación se obtenía una
medida así como a sus distribuciones, se les llama unidimensionales. A las variables
estadísticas resultantes de la observación de un fenómeno respecto a dos modalidades se les
llama variables estadísticas bidimensionales.
•
Las variable estadística bidimensional se representan por un par (x, y), donde x es una
variable unidimensional que toma valores x1, x2 ,...., xn , e y es otra variable unidimensional
que toma valores y1 ,y2 ,... yn. Por tanto la variable estadística bidimensional (x, y) toma
pares de valores: (x1,y1), (x2,y2),.....,(xn, yn).
EJEMPLOS
1.- Enuncia dos fenómenos que den lugar a variables estadísticas
bidimensionales.
Resolución:
• Extensión en Km2 y nº de habitantes de los países de la UE..
• Ingresos y gastos de las familias de un grupo de alumnos.
2.- Enuncia si son variables estadísticas bidimensionales o no las
siguientes
a) Densidad de población y nº de habitantes de las comunidades
autónomas españolas.
b) Peso de los alumnos varones y talla de las mujeres de un grupo.
Resolución:
• Son variables estadísticas bidimensionales las descritas en a) ya que
resultan de la observación de dos modalidades de una misma población
(población española)
•
No son variables estadísticas bidimensionales las descritas en b) ya que
resultan de la observación de dos modalidades de distinta población
(alumnos varones y alumnas respectivamente)
EJERCICIOS PROPUESTOS
1.- Enuncia dos fenómenos que den lugar a variables estadísticas bidimensionales.
Solución:
Puntuaciones de un grupo de alumnos en Matemáticas y Lengua española.
Peso y talla de los alumnos varones de un grupo.
2.- Enuncia si son variables estadísticas bidimensionales o no las siguientes
a) Propina recibida por un alumno y gasto de su acompañante.
b) Horas de sol y temperatura en las capitales españolas.
c) Horas de sol y nubladas en las capitales españolas.
Solución: No son variables estadísticas bidimensionales la (a)
Son variables estadísticas bidimensionales la (b) y (c).
ESTADÍSTICA
63
3.2.- TABLAS BIDIMENSIONALES DE FRECUENCIAS
1.- Tablas simples
Las tablas simples reflejan el comportamiento de una variable estadística bidimensional a partir
de las variables estadísticas unidimensionales x e y. Se utilizan cuando el número de pares de
observaciones es pequeño. Si alguno de los pares aparece dos veces, se repite. Si aparece más de
dos veces se pone su frecuencia absoluta en otra columna.
La enumeración se efectúa de manera ordenada en las dos variables. Es decir se ordenan las
apariciones de la variable x y dentro de ésta, las apariciones de la variable y.
2.- Tablas compuestas
Cuando se tienen muchos datos, o bien los valores se encuentran agrupados en clases se utiliza la
tabla de doble entrada. En ésta se colocan en su primera fila los valores de la variable x y en la
primera columna los valores de la variable y. Las tablas de doble entrada también se pueden
expresar como una tabla simple, pero pueden dar lugar a una tabla demasiado grande.
Para crear una tabla de doble entrada se ponen en la primera fila todas las posibles apariciones
ordenadas de la variable X y en la primera columna los posibles valores ordenados de la variable
Y. A continuación se expresa la frecuencia de aparición de cada par en la casilla donde coinciden
el valor de la fila y columna expresadas.
EJEMPLOS
1.- La precipitación anual y las horas de sol durante el periodo septiembre
- agosto del curso 1996-97 en las ciudades Santiago, Madrid, Barcelona,
Valencia, Sevilla y Las Palmas viene dado por los pares de valores (1591,
1890), (513, 2949), (714, 2565), (462, 2736), (627, 3016) y (124, 2951)
respectivamente. Construye la tabla simple de la distribución:
Resolución:
Ciudades
Santiago
Madrid
Barcelona
Valencia
Sevilla
Las Palmas
Precipitación
1591
513
714
462
627
124
horas de sol
1890
2949
2565
2736
3016
2951
2.- Clasificamos 20 niños según la edad (X) y número de talla de zapatos
(Y) que tienen, obteniéndose la tabla de doble entrada adjunta, ponla
como una tabla simple.
Y
[5-7)
[7-9)
[9-11)
[11-13)
[25-30)
\ X
1
2
-
-
3
[30-35)
2
4
2
-
8
[35-40)
1
1
1
2
5
[40-45)
-
-
-
4
4
3
6
20
4
Resolución:
ESTADÍSTICA
64
Para pasarla a tabla simple en la primera columna ponemos las apariciones
ordenadas de la fila X, en la segunda columna las apariciones ordenadas de la
fila Y, en la tercera columna los valores de frecuencia correspondientes.
x
Y
ni
[5-7)
[5-7)
[5-7)
[7-9)
[7-9)
[7-9)
[9-11)
[9-11)
[11-13)
[11-13)
[25-30)
[30-35)
[35-40)
[25-30)
[30-35)
[35-40)
[30-35)
[35-40)
[35-40)
[40-45)
1
2
1
2
4
1
2
1
2
4
3.- Clasificamos 40 familias según su número de hijos (X) e hijas (Y)
obteniéndose la tabla simple adjunta, ponla como tabla de doble entrada.
x
0
0
1
1
2
2
2
3
3
3
4
4
y
0
1
2
3
0
1
4
0
2
5
3
4
ni
2
3
6
4
4
5
2
3
4
1
5
1
Resolución:
Ponemos en la primera fila todas las apariciones ordenadas de la variable x.
En la primera columna los valores ordenados de la variable y. A continuación
en cada casilla la frecuencia del par correspondiente:
Y \X
0
1
0
2
3
-
-
-
-
5
1
-
-
6
4
-
-
10
2
4
5
-
-
2
-
11
3
3
-
4
-
-
1
8
4
2
3
4
5
-
-
-
5
1
-
6
9
8
10
9
3
1
40
EJERCICIOS PROPUESTOS
1.- La renta “per cápita” (en dólares USA) y la mortalidad infantil (en tantos por mil) de los
países Alemania, Bélgica, Bolivia, Brasil, Dinamarca, España y Ghana durante el año 1980 viene
dadas por los pares de valores:
(11.00, 11), (8.400, 11), (470, 117), (1.600, 67), (11.200, 11), (4.360, 10) y (390, 94)
respectivamente. Construye la tabla simple correspondiente a la distribución.
ESTADÍSTICA
65
2.- Las calificaciones de 20 alumnos en Lengua Española y Matemáticas han sido las dadas en
los siguientes pares de números.
(3,2), (3,2), (3,2), (4,5), (4,5), (4,5), (4,5), (5,6), (5,6), (5,6), (5,6),
(6,7), (6,7), (6,7), (6,7), (6,7), (9,9), (9,9), (10,10), (10,10)
Construye la tabla simple correspondiente a la distribución.
3. La tabla simple correspondiente a una distribución de notas de 30 alumnos de Física y
Química son los siguientes:
xi
3
4
5
6
9
10
yi
2
5
6
7
9
10
ni
3
4
4
5
2
2
Construye los pares de números de números correspondientes.
4.- Clasificamos 50 familias según el número de hijos (X) e hijas (Y) que tienen, obteniéndose la
tabla de doble entrada adjunta, ponla como una tabla simple.
Y \X
0
1
2
3
4
5
0
2
3
-
-
-
-
5
1
-
5
6
4
-
-
15
2
8
5
-
-
2
-
15
3
3
-
4
-
-
2
9
4
-
-
-
5
1
-
6
13
13
10
9
3
2
50
5.- Clasificamos por la edad y número de zapatos a un grupo de 20 niños según la tabla de doble
entrada adjunta.
Y
\ X
[5-7)
[7-9)
[9-11)
[11-13)
[25-30)
1
2
-
-
3
[30-35)
2
4
2
-
8
[35-40)
1
1
1
2
5
[40-45)
-
-
-
4
4
3
6
20
4
ponla como una tabla simple.
6.- Clasificamos 25 niños según edad (X) y número de de zapatos (Y) que tienen, obteniéndose
la tabla simple adjunta
x
y
ni
[5-7)
[5-7)
[5-7)
[7-9)
[7-9)
[7-9)
[9-11)
[9-11)
[11-13)
[11-13)
[25-30)
[30-35)
[35-40)
[25-30)
[30-35)
[35-40)
[30-35)
[35-40)
[35-40)
[40-45)
1
2
3
2
6
2
2
1
2
4
ponla como una tabla de doble entrada.
ESTADÍSTICA
66
3.3.- REPRESENTACIONES GRÁFICAS
La representación gráfica de las distribuciones bidimensionales se efectúa mediante diagrama de
puntos, esteréograma (diagrama piramidal), diagrama de barras y diagrama de dispersión.
1.- Diagrama de puntos
Para obtener un diagrama de puntos se
representan las dos variables en unos ejes de
coordenadas y se hacen corresponder a los
pares de variables los puntos de aparición.
Cada punto tiene un tamaño acorde a su
frecuencia absoluta.
Es aconsejable su uso en el caso de variables
aleatorias discretas.
2.- Estéreograma
Se obtiene un esteréograma representando
las dos variables mediante un diagrama
tridimensional en unos ejes de coordenadas
y haciendo corresponder a los pares de
variables una columna que ocupa toda la
base y de altura proporcional a la frecuencia
de cada casilla.
Es aconsejable en el caso de variables
aleatorias continuas.
3.- Diagrama de barras
Se obtiene un diagrama de barras
representando las dos variables mediante un
diagrama tridimensional en unos ejes de
coordenadas y haciendo corresponder a los
pares de variables una barra de altura
proporcional a la frecuencia de cada casilla.
Es aconsejable su uso en el caso de variables
aleatorias discretas.
4- Diagrama de dispersión
45
Se obtiene un diagrama de dispersión
representando los pares de valores en un
sistema de ejes cartesianos y a cada par de
valores le hacemos corresponder tantos
puntos como sea su frecuencia. Con ello
obtenemos un conjunto de puntos sobre el
plano, que se denomina diagrama de
dispersión o nube de puntos.
40
35
30
25
20
15
10
5
El número de puntos de cada para de valores
indica la frecuencia de la distribución.
ESTADÍSTICA
0
0
1
2
3
4
5
6
7
8
67
EJEMPLOS
1.- Representa en un diagrama de puntos las calificaciones de 34
alumnos en Matemáticas y Lengua Española que viene dadas en la
siguiente tabla.
Lengua (xi )
3
4
5
5
6
7
8
9
10
MATEMÁTICAS (yi)
2
5
5
6
7
6
7
9
10
Nº alumnos (ni)
4
6
6
4
5
4
2
1
2
Resolución:
Es la gráfica siguiente.
2.- Representa en un esteréograma la edad y número de zapatos que
tienen 20 niños según la tabla de doble entrada adjunta.
Y
\ X
[5-7)
[7-9)
[9-11)
[11-13)
[25-30)
1
2
-
-
3
[30-35)
2
4
2
-
8
[35-40)
1
1
1
2
5
[40-45)
-
-
-
4
4
3
6
20
4
Resolución:
Es la gráfica siguiente.
ESTADÍSTICA
68
3.- Representa en un diagrama de barras las calificaciones de 34 alumnos
en Matemáticas y Lengua Española que viene dadas en la siguiente tabla.
x
0
0
1
1
2
2
2
3
3
3
4
4
y
0
1
2
3
0
1
4
0
2
5
3
4
ni
2
3
6
4
4
5
2
3
4
1
5
1
Resolución:
Es la gráfica siguiente.
4.- Representa en un diagrama de dispersión la cantidad de precipitación
anual y las horas de sol durante el periodo septiembre - agosto del curso
1996-97 obtenidas en las ciudades españolas que viene dadas en la
siguiente tabla:
Ciudades
Precipitación
Santiago
horas de sol
1591
1890
Madrid
513
2949
Barcelona
714
2565
Valencia
462
2736
Sevilla
627
3016
Las Palmas
124
2951
Resolución:
Es la gráfica adjunta.
3500
3000
2500
2000
1500
1000
500
0
0
ESTADÍSTICA
500
1000
1500
2000
69
5. Las calificaciones de 34 alumnos en Lengua y Matemáticas han sido
las dadas en la tabla siguiente. Dibuja el diagrama de dispersión
correspondiente.
Lengua (xi )
3
4
5
5
6
7
8
9
10
MATEMÁTICAS (yi)
2
5
5
6
7
6
7
9
10
Nº alumnos (ni)
4
6
6
4
5
4
2
1
2
Resolución:
Es la gráfica siguiente.
EJERCICIOS PROPUESTOS
1.- Representa en un diagrama de puntos las calificaciones de 30 alumnos en Dibujo y Filosofía
que viene dadas en la siguiente tabla.
DIBUJO
3
4
5
5
6
7
8
9
10
FILOSOFÍA
2
5
5
6
7
6
8
9
10
Nº alumnos (ni)
2
4
6
4
5
4
2
1
2
2.- Representa en un esteréograma la edad y peso que tienen 25 niños según la tabla de doble
entrada adjunta.
Y
ESTADÍSTICA
\ X
[5-7)
[7-9)
[9-11)
[11-13)
[20-25)
1
1
-
-
2
[25-30)
1
1
-
-
2
[30-35)
2
3
2
-
8
[35-40)
1
1
1
2
5
[40-45)
-
-
-
4
4
[45-50)
-
-
1
4
4
5
6
4
10
25
70
3.- Representa en un diagrama de barras las calificaciones de 34 alumnos en Matemáticas y
Lengua Española que viene dadas en la siguiente tabla.
Dibujo
FILOSOFÍA
Nº alumnos
3
2
2
4
5
4
5
5
6
5
6
4
6
7
5
7
6
4
8
8
2
9
9
1
10
10
2
4.- Representa en un diagrama de dispersión las tasas de paro e inflación durante el año 1997
obtenidas en los países de la Unión Europea que viene dadas en la siguiente tabla:
Países
T. Paro
INFLACIÓN
ALEMANIA
11
2
AUSTRIA
6
1
BÉLGICA
13
2
DINAMARCA
8
2
ESPAÑA
21
2
FINLANDIA
13
1
FRANCIA
12
1
GRECIA
10
5
5. Las calificaciones de 30 alumnos en Dibujo y Filosofía han sido las dadas en la tabla
siguiente.
Dibujo
FILOSOFÍA
Nº alumnos
3
2
2
4
5
4
5
5
6
5
6
4
6
7
5
7
6
4
8
8
2
9
9
1
10
10
2
Dibuja el diagrama de dispersión correspondiente.
ESTADÍSTICA
71
3.4.- CALCULO DE PARÁMETROS ESTADÍSTICOS
En los parámetros estadísticos de las distribuciones bidimensionales, aparte de los valores de las
variables de la distribución considerada como un conjunto, existen parámetros de las
distribuciones unidimensionales que las componen.
Dada una tabla de doble entrada, si consideramos la primera y última fila tenemos una
distribución unidimensional respecto de la variable X. De igual forma si consideramos la primera
y última columna tenemos una distribución unidimensional respecto de la variable Y. A ambas
distribuciones se les conoce como distribuciones marginales.
A cada una de las distribuciones X obtenidas supuesto un valor yi de la variable Y la conocemos
como distribuciones condicionadas por yi. A cada una de las distribuciones X obtenidas
supuesto un valor xi de la variable Y la conocemos como distribuciones condicionadas por xi.
1.- Media
•
•
•
1 n
∑ xi ni
N i=1
1 n
Media de la variable y: y = ∑ yi ni
N i=1
Media de la variable x: x =
Se conoce como centro de gravedad de la distribución .al punto ( x , y ) de una distribución
1 n
⎛1 n
⎞
bidimensional, es decir: ( x , y ) = ⎜ ∑ xi ni, ∑ yi ni ⎟
N i =1
⎝ N i=1
⎠
2.- Varianza
•
•
Varianza de la variable x: sx2 =
Varianza de la variable y: sy2 =
1
N
1
N
n
∑x n - x
2
i i
2
i =1
n
∑y n - y
2
i i
2
i =1
3.- Desviaciones Típicas
•
Desviación típica de la variable x: sx =
1 n 2
2
∑ xi ni - x
N i=1
•
Desviación típica de la variable y: sy =
1 n 2
2
∑ y ni - y
N i=1 i
4.- Covarianza
Se llama covarianza (o también varianza conjunta) de una variable bidimensional (x,y) a la
media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus
medias respectivas.
La covarianza se representa por sxy y su expresión es:
sxy =
1
N
n
∑
n i ( x i - x )( yi - y) =
i =1
ESTADÍSTICA
1
N
n
∑x
i
yi n i - x y
i =1
72
EJEMPLOS
1.- La siguiente tabla recoge el número de horas dedicadas a preparar la
tercera evaluación de Matemáticas y la calificación obtenida en el examen
por los alumnos de una muestra:
Horas de estudio
20
16
34
23
27
32
Calificación del examen
64
61
84
70
88
92
Halla los parámetros de la distribución.
Resolución:
Para cuantificar los parámetros de la distribución utilizamos la siguiente tabla y
efectuamos los cálculo correspondientes.
xi
yi
xi2
yi2
xiyi
20
16
34
23
27
32
64
61
84
70
88
92
400
256
1.156
529
729
1.024
4.096
3.721
7.056
4.900
7.744
8.464
1.280
976
2.856
1.610
2.376
2.944
4094
35981
12042
Suma
A partir de ella hallaremos los valores.
•
Media de x: x =
1 n
152
= 25,33
∑ xi ni =
N i=1
6
•
Media de y: y =
1 n
459
= 76,50
∑ yi ni =
N i=1
6
•
Desviación típica de x: sx =
1 n 2
4094
2
- (25,33 )2 = 6,37
∑ xi ni - x =
6
N i=1
•
Desviación típica de y: sy =
1 n 2
2
∑ yi n i - y =
N i=1
35981
- (76,50 )2 = 12,02
6
n
•
∑ xi yi ni
Covarianza: sxy =
i =1
N
- xy =
12042
- 25,33 . 76,50 = 69,00
6
2.- La información estadística obtenida de una muestra de tamaño 12
sobre la relación existente entre la inversión realizada y el rendimiento
obtenido, en miles de pesetas, para explotaciones ganaderas, se muestra
en la tabla
Inversión
10 14 18 17 18 19 21 22 14 22 21 20
Rendimiento
8
8
7
8
7
9
9
10
7
10
8
8
Halla los parámetros de la distribución.
Resolución:
Para cuantificar los parámetros de la distribución utilizamos la siguiente tabla y
efectuamos los cálculo correspondientes.
ESTADÍSTICA
73
yi
ni
xini
xi2ni
yini
yi2ni
xiyini
10
8
14
7
14
8
17
8
18
7
19
9
20
8
21
8
21
9
22
10
Suma
1
1
1
1
2
1
1
1
1
2
12
10
14
100
196
196
289
648
361
400
441
441
968
4040
8
7
8
8
14
9
8
8
9
20
99
64
49
64
64
98
81
64
64
81
200
829
80
98
112
136
252
171
160
168
189
440
1806
xi
14
17
36
19
20
21
21
44
216
A partir de ella hallaremos los valores.
216
1 n
• Media de x: x =
= 18
∑ xi ni =
N i=1
12
99
1 n
= 8,25
∑ yi ni =
N i=1
12
•
Media de y: y =
•
Varianza de x: sx2 =
•
•
Varianza de y: sy2 =
1
N
1
N
n
∑x n - x
2
i
i
2
i =1
n
∑y n -y
2
i
i
i =1
2
=
4040
- 182 = 12,67
12
=
829
- (8,25) 2 = 1,02
12
Covarianza:
sxy =
1
N
n
∑x y n -x y = i
i
i
i =1
1806
− 18.8,25 = 2
12
3.- En una muestra de 64 familias se han estudiado las variables
estadísticas X, número de miembros en edad laboral, e Y, número de ellos
que se encuentran en activo.
Los resultados obtenidos se recogen en la tabla:
Y
X
1
2
3
1
6
0
0
2
10
2
0
3
12
5
1
4
16
8
4
a) Obtén las distribuciones marginales de X e Y.
b) Calcula la mediana y moda de X.
c) Calcula los parámetros de la distribución.
Resolución:
a) Las distribuciones marginales se obtienen sumando en la tabla los valores
correspondientes a X e Y tal como se indica en la tabla adjunta:
ESTADÍSTICA
74
Y
X
1
2
3
Marginal
de X
1
6
0
0
6
2
10
2
0
12
3
12
5
1
18
4
16
8
4
28
44
15
5
64
Marginal de Y
b) Mediana y moda:
• La mediana de X será el valor donde se alcanzan la mitad de los datos, es
decir 64/2=32. Se alcanza para el valor x=3, pues su frecuencia absoluta
acumulada es 36, superior a 32. Su valor es Me = 4.
• La moda es el valor con mayor frecuencia absoluta, es decir, el , mayor, ya
que su frecuencia es la mayor, 28. Su valor es Mo = 4
c) Para el cálculo de este apartado y el siguiente debemos utilizar la tabla
anterior, convertida en tabla simple y efectuar los cálculos correspondientes:
xi
yi
ni
1
2
2
3
3
3
4
4
4
1
1
2
1
2
3
1
2
3
6
10
2
12
5
1
16
8
4
Suma
xini
64
xi2ni
yini
yi2ni
xiyini
6
20
4
36
15
3
64
32
16
6
40
8
108
45
9
256
128
64
6
10
4
12
10
3
16
16
12
6
10
8
12
20
9
16
32
36
6
20
8
36
30
9
64
64
48
196
664
89
149
285
A partir de ella hallamos los valores.
•
•
•
•
•
Media de y: y =
n
1
N
Media de x: x =
1
N
∑x n
i
i
i =1
n
∑y n
i
=
i
i =1
Desviación típica de x: sx =
Desviación típica de y: sy =
Covarianza: sxy =
=
1
N
196
= 3,06
64
89
= 1,39
64
1
N
1
N
n
n
∑x
=
664
- (3,06 ) 2 = 1,00
64
y =
149
- (1,39 )2 = 0,63
64
2
2
i ni - x
i =1
n
∑y
2
i ni -
i =1
2
∑ x y n - x y = 64 - 3,06 .1,39 = 0,20
i
285
i
i
i =1
EJERCICIOS PROPUESTOS
1.- Calcula los parámetros estadísticos de la distribución bidimensional de temperaturas medias
anuales y latitudes de diversas capitales europeas:
ESTADÍSTICA
75
Capitales
Amsterdam
Atenas
Bruselas
Madrid
París
Roma
Tº
13
24
13
19
15
22
Latitud(1)
54
37
53
40
49
42
Solución: x = 17,6, y = 45,83, sx = 4,57, sy = 6,54, sxy=-23,61.
2. Calcula los parámetros estadísticos de las calificaciones de 34 alumnos en Filosofía y en
Matemáticas que vienen dadas en la siguiente tabla:
x
0
0
1
1
2
2
2
3
3
3
4
4
y
0
1
2
3
0
1
4
0
2
5
3
4
ni
2
3
6
4
4
5
2
3
4
1
5
1
Solución: x = 2, y = 1,8, sx = 1,24, sy = 1,34, sxy = 0,53.
3.- Calcula los parámetros estadísticos de la distribución dada por la tabla adjunta que representa
la edad y la talla de zapatos de un grupo de 20 niños.
Y \ X
[25-30)
[30-35)
[35-40)
[40-45)
[5-7)
1
2
1
4
[7-9)
2
4
1
-
[9-11)
2
1
3
[11-13)
2
4
6
3
8
5
4
20
Solución: x = 9,1, y = 35, sx = 2,23, sy = 4,87, sxy=7,75
4.- Calcula los parámetros estadísticos de la distribución obtenida para siete ciudades españolas
entre las cenizas sulfurosas contenidas en el aire, en μg/m3, y el número, por cada 100.000
habitantes, de personas hospitalizadas más de siete días por problemas respiratorios.
μg/m3
nº personas
Madrid
Bilbao
Barcelona
Valencia
Sevilla
Córdoba
15
20
14
8
12
7
Huelva
6
20
22
17
10
15
8
4
Solución: x = 11,71, y = 13,71, sx = 4,68, sy = 6,11, sxy=27,74
5.- Sabiendo que el centro de gravedad, G = ( x , y ), de la nube de puntos correspondiente a la
tabla estadística
X
-5
-3
a
1
3
Y
-7
-4
b
2
5
es el punto (-1,-1), calcula los valores de a y b.
Solución: a = -1, b = -1.
6.- La información estadística de una muestra de tamaño 7 sobre la relación existente entre la
inversión realizada y el rendimiento obtenido en miles de pesetas se muestra en el cuadro:
Inversión
14
16
15
16
18
20
21
Rendimiento
8
8
7
8
7
9
9
Calcula los parámetros estadísticos de la distribución.
Solución: x = 17,14, y = 8, sx = 2,42, sy = 0,76, sxy= 1,17.
ESTADÍSTICA
76
3.5.- EJERCICIOS FINALES
1.- La tabla siguiente contiene los valores de dos variables X e Y. Calcula los parámetros
estadísticos de la distribución. Halla una representación tipo diagrama de puntos.
X
1
3
4
6
8
9
11
14
Y
1
2
4
4
5
7
8
9
Solución:
2.- La tabla siguiente contiene los valores de dos variables X e Y. Calculad los parámetros
estadísticos de la distribución. Halla una representación tipo esteréograma.
X
2
4
6
8
10
Y
10
7
5
3
0
Solución:
3.- El precio Y, en miles de pesetas, y la antigüedad en años, X, de siete coches de un cierto
modelo, se recogen en la siguiente tabla:
X
2
3
4
5
6
7
8
Y
69
60
52
45
39
34
30
a) Haz una representación gráfica adecuada.
b) Calcula los parámetros estadísticos de la distribución.
Solución:
4.- Las puntuaciones obtenidas por un grupo de escolares en los que se mide razonamiento
lógico, X, y compresión verbal, Y, son las siguientes:
R.L. \ C. V.
(10,20)
(20,30)
(30,40)
(40,50)
(15,25)
5
3
-
-
(25,35)
2
6
1
-
(35,45)
-
1
4
2
(45,55)
-
-
3
3
(55,65)
-
-
1
2
a) Haz una representación gráfica adecuada.
b) Calcula los parámetros estadísticos de la distribución.
Solución
5.- El precio, Y, expresado en miles de pesetas, y la cilindrada, X, expresada en centímetros
cúbicos, de seis vehículos se recoge en la siguiente tabla:
X
1200
900
1300
1200
1600
1400
Y
1300
770
1400
1350
2000
1500
a) Realiza una representación tipo "scattegram".
b) Calcula los parámetros estadísticos de la distribución.
Solución:
6.- Dada la distribución bidimensional:
X
1
2
3
4
5
Y
9
7
5
4
2
a) Haz una representación gráfica tipo diagrama de barras.
b) Calcula los parámetros estadísticos de la distribución.
Solución:
ESTADÍSTICA
77
7.- Dada la distribución bidimensional:
X
2
3
4
5
6
Y
1
5
8
14
17
a) Haz una representación gráfica tipo diagrama de dispersión.
b) Calcula los parámetros estadísticos de la distribución.
Solución:
8.- Las notas de 10 alumnos en Matemáticas y Biología son:
Matemáticas
8
5
2
7
8
3
4
10
0
7
Biología
6
7
4
6
10
4
3
9
1
8
a) Halla una representación gráfica tipo diagrama de barras.
b) Los parámetros estadísticos de la distribución.
Solución:
9.- La siguiente tabla recoge los PESOS (kilos) y las ALTURAS de un conjunto de personas.
Peso
81
68
71
55
67
79
90
80
101
79
Altura (cms.)
178
171
168
164
165
170
190
183
195
171
a) Realiza una representación gráfica de los mismos.
b) Halla los parámetros estadísticos de la distribución.
Solución:
10.- Completa esta tabla sabiendo que la media de Y es igual a 1.
Y \ X
0
1
2
1
1
2
10
Solución:
n
11.- La tabla representa un muestra. Se saben que
∑ x y =42; covarianza = 2. Calcula p y q.
i i
i =1
Solución: p =-
X
3
4
5
Y
p
3
q
21
15
,q= .
2
2
12.- Calcula a y b sabiendo que la media de X es 3, la varianza de X es
X
a
b
1
2
Y
5
1
1
1
3
y b>1
2
Solución:
13.- Se considera la tabla estadística siguiente:
X
2
4
a
3
5
Y
1
2
1
1
3
Donde a es una incógnita. Calcula el valor de a sabiendo que la media de X es 3.
Solución:
ESTADÍSTICA
78
CAPÍTULO 4:
CORRELACIÓN Y REGRESIÓN
4.1.- CORRELACIÓN
1.- Concepto de correlación
Llamamos correlación a la teoría que trata de estudiar la relación o dependencia que existe
entre las dos variables que intervienen en una distribución bidimensional.
Existen varios tipos según el tipo de línea, la relación entre ambas variables y su ajuste o no
a una función.
Tipo de línea
Según el tipo de línea que formen los puntos puede ser:
• Lineal cuando el diagrama de puntos se extiende en torno a una línea recta.
• Curvilínea cuando el diagrama de puntos se extiende en torno a una línea curva.
2. Relación entre variables.
Según como crezcan ambas variables la correlación puedes ser positiva, negativa o nula:
• Positiva (directa) cuando a medida que crece una variable la otra también crece.
• Negativa (inversa) cuando a medida que crece una variable la otra decrece.
• Nula cuando no existe ninguna relación entre las variables. Los puntos del diagrama están
esparcidos al azar y las variables no están correladas.
3.- Dependencia entre variables
Según la relación entre variables puede ser:
• Funcional cuando los valores de las variables se ajustan a una función.
• Aleatoria cuando los valores de las variables no se ajustan a una función .
ESTADÍSTICA
79
2.- Coeficiente de correlación lineal
Para cuantificar la correlación lineal entre las variables utilizamos el coeficiente de correlación
de Pearson. Que se define como
sxy
r=
sx sy
donde:
− Desviación típica de x:
1 n 2
2
sx =
∑ x ni - x
N i=1 i
−
Desviación típica de y:
sy =
1 n 2
2
∑ yi ni - y
N i=1
−
Covarianza:
1 n
sxy =
∑ xi yi ni - x y
N i =1
•
El signo de r viene dado por
siempre positivas; por tanto
correlación:
- Covarianza positiva
- Covarianza negativa
- Covarianza nula
•
el signo de la covarianza, ya que las desviaciones típicas son
el signo de la covarianza decide el comportamiento de la
la correlación es directa
la correlación es inversa
no existe correlación
El coeficiente de correlación lineal toma valores entre 1 y –1
EJEMPLOS
1.- Asigna los valores 0,95; 0,4 -0,7 y -1 a los coeficientes de correlación
de las distribuciones bidimensionales de las figuras adjuntas
(a)
(b)
(c)
(d)
Resolución:
ESTADÍSTICA
80
Evidentemente la gráfica (a) tiene de correlación -1 ya que sigue una línea. Por
lo tanto la otra negativa ha de ser la (d) cuyo valor es -0,7. De las dos positivas
la mayor es la (d) que es la que más se ajusta a una recta por lo tanto vale
0,95. Queda pues la (c) que vale 0,4.
EJERCICIOS PROPUESTOS
1.- Asigna los valores 0,34; 0,72 0,97 y 1 a los coeficientes de correlación de las distribuciones
bidimensionales de las figuras adjuntas
(a)
(b)
(c)
(d)
Solución
2.- Los números 0,34; 0,72 0,97 y 1 corresponden en valor absoluto a los coeficientes de
correlación de las distribuciones bidimensionales de las figuras adjuntas. Asigna a cada una la
suya cambiando el signo cuando convenga.
(a)
(b)
(c)
(d)
Solución
ESTADÍSTICA
81
4.2.- DEPENDENCIA Y COEFICIENTE DE CORRELACIÓN.
Se demuestra que -1 < r < 1. A partir de ahí se analiza la dependencia entre las variables X e Y
de la distribución bidimensional. Los casos posibles son:
r = -1
Dependencia funcional.
Los valores de las variables (X, Y)
se encuentran situados sobre una
recta, por tanto satisfacen dicha
ecuación.
-1 < r <0
Dependencia aleatoria.
La correlación es negativa y será
más fuerte a medida que r se
aproxima más a -1 y más débil a
medida que se aproxima a 0.
r=0
Aleatoriamente independientes.
No existe ningún tipo de relación
entre las dos variables. Se dice que
las variables son
0< r < 1
Dependencia aleatoria.
La correlación es positiva y será
tanto más fuerte a medida que r se
aproxime más a 1 y más débil a
medida que se aproxime a 0.
r=1
Dependencia funcional.
Todos los valores de las variables
(X, Y) se encuentran sobre la recta;
satisfacen la ecuación de una recta.
Se dice que entre las variables existe
una
EJEMPLOS
1.- La siguiente tabla recoge el número de horas dedicadas a preparar la
tercera evaluación de Matemáticas y la calificación obtenida:
Horas de estudio
20
16
34
23
27
32
Calificación del examen
64
61
84
70
88
92
a) Estudia si existe algún tipo de correlación entre ambas variables.
b) Analiza el tipo de dependencia que existe entre ellas.
ESTADÍSTICA
82
Resolución:
En el apartado de cálculos de parámetros estadísticos obtuvimos que:
sx = 6,37, sy = 12,02 y sxy = 69,00
El coeficiente de correlación lineal de Pearson es:
69,00
s xy
=
= -0,67
r=
6,37.12,02
s x .s y
a) Al ser r positivo la correlación es inversa; a más horas de estudio mayor
calificación. Por ser cercano a 1 la correlación es bastante fuerte.
b) La dependencia que existe entre las variables es de tipo aleatorio fuerte,
esto quiere decir que, si se conoce un valor de horas de estudio es posible dar
con bastante exactitud la calificación de examen.
2.- La información estadística obtenida de una muestra de tamaño 12
sobre la relación existente entre la inversión realizada y el rendimiento
obtenido, en miles de pesetas, para explotaciones ganaderas, se muestra
en la tabla
Inversión
10 14 18 17 18 19 21 22 14 22 21 20
Rendimiento 8
8
7
8
7
9
9
10
7
10
8
8
a) Estudia si existe algún tipo de correlación entre ambas variables.
b) Analiza el tipo de dependencia que existe entre ellas.
Resolución:
En el apartado de cálculos de parámetros estadísticos obtuvimos que:
sx2 = 12,67, sy2 =1,02, sxy = 2
a) El coeficiente de correlación lineal de Pearson es:
r=
s xy
2
=
= 0,56
12,67 1,02
sx sy
b) Como el coeficiente es muy lejano a 1 la previsión es muy poco fiable.
3.- En una muestra de 64 familias se han estudiado las variables
estadísticas X, número de miembros en edad laboral, e Y, número de ellos
que se encuentran en activo. Los resultados se recogen en la tabla:
Y
X
1
2
3
1
6
0
0
2
10
2
0
3
12
5
1
4
16
8
4
a) Estudia si existe algún tipo de correlación entre ambas variables.
b) Analiza el tipo de dependencia que existe entre ellas.
Resolución:
a) En el apartado de cálculos de parámetros estadísticos obtuvimos que:
sx = 1,00, sy = 0,63, sxy = 0,20
ESTADÍSTICA
83
El coeficiente de correlación lineal de Pearson es:
s xy
0,20
=
= 0,32
r=
s x s y 1,00.0,63
b) Como el coeficiente es muy lejano a 1 la previsión es muy poco fiable.
4.- Dada la siguiente distribución estadística bidimensional
x
0
0
2
k
y
0
2
0
2
a) Calcula el valor de k para que el coeficiente de correlación sea nulo.
b) A la vista de la distribución y sin desarrollos algebraicos, justifica si
puede existir algún valor de k que haga que el coeficiente de correlación
lineal sea igual a uno.
Resolución:
Para calcular el valor de k utilizamos la tabla:
xi
yi
ni
xini
xi2ni
yini
yi2ni
xiyini
0
0
2
k
0
2
0
2
1
1
1
1
4
0
0
2
K
2+k
0
0
4
K2
4+ K2
0
2
0
2
4
0
4
0
4
8
0
0
0
2k
2k
Suma
Los valores de los parámetros estadísticos son:
•
•
•
1 n
2+k
∑ xi ni =
N i=1
4
n
1
4
Media de y: y = ∑ yi ni = = 1
N i=1
4
Media de x: x =
Covarianza: sxy =
1
N
n
∑x
i
yi n i - x y =
i =1
k 2+k
k- 2
.1 =
4
2
4
a) Para que se anule r ha de ocurrir que
el cociente:
k- 2
sxy
k- 2
= 4 =0⇒
=0⇒k=2
r=
4
sx sy sx . sy
b) Para ningún valor de k podría ser
r=1, pues tendría que haber entre x e y
una relación funcional lineal y ya con los
tres puntos del diagrama de dispersión
dibujado se aprecia que no hay ninguna
recta que pase por los tres.
5.- Los siguientes diagramas de sectores corresponden a la composición
de la Cámara del Parlamento de Andalucía (número de escaños obtenidos
por cada partido) en las elecciones celebradas en 1994 y 1996:
ESTADÍSTICA
84
a) Dibuja la nube de puntos que se obtiene al representar, por cada
partido, en abscisas el número de años obtenidos en 1994 y en
ordenadas el número de escaños obtenidos en 1996.
b) Cuantifica la intensidad de la interrelación lineal existente entre ambas
variables.
Resolución:
Recogemos los datos de ambas elecciones en la siguiente tabla estadística:
PSOE
PP
IU
PA
94
45
41
20
3
96
52
40
13
4
dando lugar a la nube de puntos
de la gráfica adjunta. La
intensidad de la interrelación
lineal existente entre ambas
variables es alta ya que como
se observa todos los puntos de
ésta se ajustan bastante bien a
una recta.
60
50
40
30
20
10
Para cuantificar el coeficiente
de correlación lineal calculamos
el coeficiente de correlación
entre ambas variables X e Y
utilizando la siguiente tabla:
0
0
20
30
40
50
60
xi2ni
yi2ni
xiyini
52
2.025
2.704
2.340
41
40
1.681
1.600
1.640
1
20
13
400
169
260
1
3
4
9
16
12
109
109
4115
4489
4252
xi
yi
ni
45
52
1
45
41
40
1
20
3
13
4
Suma
10
4
xini
yini
A partir de ella hallaremos los valores.
1 n
109
• Media de x: x =
= 27,25
∑ xi ni =
N i=1
4
1 n
109
• Media de y: y =
= 27,25
∑ yi ni =
N i=1
4
•
Desv. típica de x: sx =
4115
1 n 2
2
- (27,25 )2 = 16,719
∑ x ni - x =
4
N i=1 i
•
Desv. típica de y: sy =
4489
1 n 2
2
- (27,25 )2 = 19,486
∑ y ni - y =
4
N i=1 i
ESTADÍSTICA
85
n
•
∑ xi yi ni
Covarianza: sxy =
i =1
N
- xy =
El coeficiente de correlación es: r =
4252
- 27,25 . 27,25 = 320,438
4
s xy
sx sy
=
320,438
= 0,97
16,917.19,486
Como r está cercano a 0,97 1, las variables X e Y tienen una correlación
positiva y muy fuerte.
EJERCICIOS PROPUESTOS
1.- Calcula la correlación existente entre las variables de la distribución bidimensional de
temperaturas medias anuales y latitudes de diversas capitales europeas:
Capitales
Tº
Latitud(1)
Amsterdam
13
54
Atenas
24
37
Bruselas
13
53
Madrid
19
40
París
15
49
Roma
22
42
Solución: r =- 0,91.
2. Calcula la correlación existente entre las variables de la distribución de calificaciones de 34
alumnos en Filosofía y en Matemáticas que vienen dadas en la siguiente tabla:
Filosofía
0
0
1
1
2
2
2
3
3
3
4
4
Matemáticas
0
1
2
3
0
1
4
0
2
5
3
4
ni
2
3
6
4
4
5
2
3
4
1
5
1
Solución: r = 0,31.
4.- Calcula los parámetros estadísticos de la distribución obtenida para siete ciudades españolas
entre las cenizas sulfurosas contenidas en el aire, en μg/m3, y el número, por cada 100.000
habitantes, de personas hospitalizadas más de siete días por problemas respiratorios.
3
μg/m
nº personas
Madrid
Bilbao
Barcelona
Valencia
Sevilla
Córdoba
Huelva
15
20
14
8
12
7
6
20
22
17
10
15
8
4
Solución: r= 0,97.
3.- Calcula la correlación existente entre las variables de la distribución dada por la tabla adjunta
que representa la edad y la talla de zapatos de un grupo de 20 niños.
ESTADÍSTICA
86
Y
\ X
[5-7)
[7-9)
[9-11)
[11-13)
[25-30)
1
2
-
-
3
[30-35)
2
4
2
-
8
[35-40)
1
1
1
2
5
[40-45)
-
-
-
4
4
3
6
20
4
Solución: r= 0,71.
5.- Calcula la correlación existente entre la inversión realizada y el rendimiento obtenido en
miles de pesetas para 7 explotaciones ganaderas, que se muestra en el siguiente cuadro
Inversión
14
16
15
16
18
20
21
Rendimiento
8
8
7
8
7
9
9
Calcula los parámetros estadísticos de la distribución.
Solución: r= 0,64.
6.- Los siguientes datos representan las puntuaciones en un test de capacidad memorística y en
un test de cociente intelectual, obtenida de 6 individuos:
Capacidad memorística
17
23
25
36
38
40
Cociente intelectual
37
58
14
43
27
60
Obtén el coeficiente de correlación lineal e interprétalo.
Solución: r= 0,19. Muy débil.
7.- Se considera la distribución que da la altura y edad de cuatro niños
Edad
1
2
3
6
Altura
65
80
100
115
a) Calcula el coeficiente de correlación lineal e interprételo.
b) Dibuja la nube de puntos asociada a la muestra y, a partir de ella, justifique la conclusión
obtenida en el apartado anterior.
Solución: r= 0,90. Fuerte.
8.- Dada la tabla bidimensional
X
-2
-1
0
1
2
3
Y
-7
-4
-1
2
5
8
correspondiente a una muestra de una cierta población,
a) Calcula el coeficiente de correlación lineal e interprételo.
b) Dibuja la nube de puntos asociada a la muestra y, a partir de ella, justifique la conclusión
obtenida en el apartado anterior.
Solución: r= 1. Dependencia funcional.
9.- La siguiente tabla indica la distribución obtenida al considerar el número de horas estudiadas
y la calificación rendimiento obtenido en miles de pesetas para 7 alumnos que se presentan a un
mismo examen.
Inversión
14
16
15
16
18
20
21
Rendimiento
8
8
7
8
7
9
9
a) Dibuja la nube de puntos asociada.
b) Indica como es la correlación.
Solución: b) r= 0,88. Positiva y fuerte
ESTADÍSTICA
87
4.3.- REGRESIÓN
1.- Concepto
Supongamos el diagrama de dispersión de la figura. Tratamos de construir una recta que se
aproxime lo mejor posible a la nube de puntos del diagrama. Esta línea sería la recta de
regresión.
Podemos hallarla mediante dos métodos:
- Método gráfico (trazar a ojo la línea que
más se ajusta al aspecto que tiene la
nube de puntos), es poco riguroso.
-
Método analítico. Utilizamos el método
de ajuste lineal por mínimos
cuadráticos.
2.- Estudio analítico de la regresión lineal
Supongamos una distribución bidimensional en la que las variables tienen una correlación fuerte
y que la nube de puntos se puede ajustar mediante una recta. Nuestro problema consiste en
encontrar la ecuación de una recta de la forma y = ax+b que mejor se ajuste a la nube de puntos.
Existen varios métodos, siendo el más utilizado el de mínimos cuadrados. En este se trata que la
suma de los cuadrados de las distancias de los puntos a la recta de regresión sean mínimos.
De la aplicación del método anteriormente citado, se obtiene que la ecuación de la recta pasa por
el punto ( x , y ) (conocido como centro de gravedad de la distribución) y su ecuación es:
y - y = m (x - x )
siendo m el coeficiente de regresión cuyo valor es igual a: m =
s xy
s 2x
luego la ecuación de la recta de regresión de y sobre x es: y - y =
S xy
S2x
(x - x )
Análogamente la ecuación de la recta de regresión de x sobre y: x - x =
S xy
S2y
(y - y)
A partir de estas rectas podemos calcular con cierta aproximación (mayor cuanto mas cercano a
1 sea el coeficiente de correlación) los valores de Y conocida la variable X y viceversa. La
fiabilidad del cálculo será tanto mayor, cuanto mayor sea r en valor absoluto.
- Si r es muy pequeño, no tiene sentido realizar ningún tipo de estimaciones.
- Si r es próximo a 1 o a -1, los valores reales serán próximos a nuestras estimaciones.
- Si r =-1 o r =1, las estimaciones realizadas coincidirán con los valores reales.
Pero incluso cuando r sea próximo a 1 no es conveniente extrapolar resultados (es decir obtener
resultados fuera del rango de variación de las variables) ya que los resultados pueden ser
altamente erróneos.
EJEMPLOS
1.- La siguiente tabla recoge el número de horas dedicadas a preparar la
tercera evaluación de Matemáticas y la calificación obtenida en el examen
por los alumnos de una muestra:
ESTADÍSTICA
88
Horas de estudio
20
16
34
23
27
32
Calificación del examen
64
61
84
70
88
92
Analiza la fiabilidad de las posibles predicciones.
Resolución:
• Las posibles predicciones sobre X conocida Y o sobre Y conocida X son
fiables por estar r próximo a 1.
• La variable x deberá variar entre 1,6 y 3,2, que son los valores de los que
tenemos información y la variable y entre 61 y 92, por la misma razón.
• Cuanto más se aproximen x e y a su media (25 y 76,5 respectivamente),
más fiables serán las predicciones.
2.- La información estadística obtenida de una muestra de tamaño 12
sobre la relación existente entre la inversión realizada y el rendimiento
obtenido, en miles de pesetas, para explotaciones ganaderas, es:
Inversión
10 14 18 17 18 19 21 22 14 22 21 20
Rendimiento 8
8
7
8
7
9
9
10
7
10
8
8
a) La recta de regresión del rendimiento respecto de la inversión.
b) La previsión de inversión necesaria para obtener un rendimiento de
12.500 Pta.
Resolución:
a) La recta de regresión lineal del rendimiento (y) sobre la inversión (x) tiene
s xy
por ecuación: y - y = 2 (x- x ) . Para calcularla utilizamos los valores
sx
2
anteriormente obtenidos: y - 8,25 =
(x - 18) ⇒ y = 0,16x+5,37
12,67
b) Para obtener una previsión de inversión, conocido el rendimiento, debemos
calcular la recta de regresión lineal de la inversión (x) sobre el rendimiento (y),
s xy
de ecuación: x - x = 2 (y- y) . Sustituyendo valores en la ecuación con los
sy
datos obtenidos anteriormente: x - 18 =
2
(x - 8,25) ⇒ x = 1,96x+1,83
1,02
Previsión de inversión necesaria para obtener un rendimiento de 12.500 pta.:
x = 1,96.12,5+1,83 = 26,33que al estar expresada en miles da 26330 pta.
3.- En una muestra de 64 familias se han estudiado las variables
estadísticas X, número de miembros en edad laboral, e Y, número de ellos
que se encuentran en activo. Los resultados se recogen en la tabla:
Y
X
1
2
3
1
6
0
0
2
10
2
0
3
12
5
1
4
16
8
4
Obtén la recta de regresión de Y sobre X.
ESTADÍSTICA
89
Resolución:
La recta pedida es la recta de regresión de y sobre x, de ecuación:
sxy
0,20
y- y = 2 .(x- x ) ⇒ y-1,39 =
.(x- 3,06)
1
sx
operando queda: y = 0,20x + 0,79
4.- ¿Es posible que las dos rectas de regresión lineal Y/X y X/Y tengan
pendientes negativas? Calcula dichas rectas para la nube de puntos:
X
1
2
3
4
5
Y
-1
-2
-3
-4
-5
Resolución:
Calculamos los valores en la tabla adjunta:
xi
yi
ni
xini
xi2ni
yini
yi2ni
xiyini
1
2
3
4
5
-1
-2
-3
-4
-5
Suma
1
1
1
1
1
5
1
2
3
4
5
15
1
4
9
16
25
55
-1
-2
-3
-4
-5
-15
1
4
9
16
25
55
-1
-4
-9
-16
-25
-55
A partir de ella hallaremos los valores.
• Media de x :
1 n
15
x =
=3
∑ x i ni =
N i=1
5
•
Media de y:
1 n
15
y = ∑ yi ni = - = -3
N i=1
5
•
Varianza de x:
1 n 2
55 2
2
sx2 =
-3 = 2
∑ xi ni - x =
5
N i=1
•
Varianza de y:
1 n
55 2
2
sy2 = ∑ yi2 ni - y =
-3 = 2
N i =1
5
•
Covarianza:
1 n
55
sxy =
+ 9 =- 2
∑ xi yi ni - x y =5
N i =1
•
La recta de regresión lineal de y sobre x es: y - y =
(x- x ) .
s 2x
La calculamos utilizando los valores anteriormente obtenidos:
-2
(x- 3) ⇒ y+3 =-x+3 ⇒ x+y = 0
y+3 =
2
•
La recta de regresión lineal de y sobre x es: x - x =
ESTADÍSTICA
s xy
s xy
s 2y
(y- y) .
90
Sustituyendo valores con los datos obtenidos anteriormente:
-2
x-3 =
(y+ 3) ⇒ x-3 =-y-3 ⇒ x+y = 0
2
EJERCICIOS PROPUESTOS
1. - Las temperaturas medias anuales y latitudes de diversas capitales europeas son:
Capitales
Tº
Latitud(1)
Amsterdam
13
54
Atenas
24
37
Bruselas
13
53
Madrid
19
40
París
15
49
Roma
22
42
a ) Obtén la recta de regresión de la temperatura media (X) respecto a la latitud (Y).
b) ¿Cuál será la temperatura esperada para una ciudad que se encuentra situada a 47° de latitud ?
Solución: a) Como r = 0,67, no merece la pena hallarla. b) No se puede hallar.
2. La distribución de calificaciones de 34 alumnos en Filosofía y en Matemáticas vienen dadas
en la siguiente tabla:
Filosofía
0
0
1
1
2
2
2
3
3
3
4
10
MATEMÁTICAS
0
1
2
3
0
1
4
0
2
5
3
4
Nº alumnos
2
3
6
4
4
5
2
3
4
1
5
1
a) Recta de regresión de las calificaciones de Matemáticas (Y) respecto de Filosofía (X).
b) Cuál será la nota esperada en Matemáticas para un alumno que obtuvo un 4,5 en Filosofía?.
c) Cuál será la nota esperada en Matemáticas para un alumno que obtuvo un 0 en Filosofía?.
Solución: a) y = 0,98x + 0,54, b) y = 4,95.
c) No se puede saber ya que está fuera del rango de variación de la variable.
3.- La tabla adjunta representa la edad y la talla de zapatos de un grupo de 20 niños.
Y
\ X
[5-7)
[7-9)
[9-11)
[11-13)
[25-30)
1
2
-
-
3
[30-35)
2
4
2
-
8
[35-40)
1
1
1
2
5
[40-45)
-
-
-
4
4
3
6
20
4
a ) Obtén la recta de regresión de la edad (X) respecto a la talla (Y).
b) Cuál será la talla esperada para una edad de 32 años?
Solución: a) Como r = 0,71, no merece la pena hallarla. b) No se puede hallar.
4.- Para siete ciudades españolas se quiere encontrar una relación entre las cenizas sulfurosas
contenidas en el aire, en μg/m3, y el número, por cada 100.000 habitantes, de personas
hospitalizadas más de siete días por problemas respiratorios. Los dato obtenidos fueron:
3
μg/m
nº personas
ESTADÍSTICA
Madrid
Bilbao
Barcelona
Valencia
Sevilla
Córdoba
Huelva
15
20
14
8
12
7
6
20
22
17
10
15
8
4
91
a) Calcula 1a recta de regresión del número de μg/m3 de cenizas en función del número de
personas hospitalizadas por cada 100.000 habitantes
b) ¿Cuántas personas por cada 100.000 habitantes se prevé que se hospitalizaran en una ciudad
en la que se han medido 20 μg/m3 de cenizas sulfurosas?
Solución: a) x= 0,74y + 1,53, b) y = 1,27x - 1,10, 24,3 personas por cada 100.000 habitantes.
5.-Sabiendo que el centro de gravedad, G = ( x , y ), de la nube de puntos correspondiente a la
tabla estadística es el punto (-1,-1), se pide:
X
-5
-3
a
1
3
Y
-7
-4
b
2
5
a) Calcula los valores de a y b.
b) Predice el valor que se obtiene para Y, sabiendo que X=2. Explica la fiabilidad del resultado a
partir del cuadrado del coeficiente de correlación.
Solución: a) a = -1, b = -1. b) y = 1,47.2+0,27 = 3,5. Como r = 0,99, previsión muy fiable.
6.- Los siguientes datos representan las puntuaciones en un test de capacidad memorística y en
un test de cociente intelectual, obtenida de 6 individuos:
Capacidad memorística
17
23
25
36
38
40
Cociente intelectual
37
58
14
43
27
60
Halla la ecuación de recta de regresión de la capacidad memorística sobre el cociente intelectual.
Solución: a) x = 0,1y+25,86
7.- Se considera la distribución que da la altura y edad de cuatro niños
Edad
1
2
3
6
Altura
65
80
100
115
a) Halla la ecuación de recta de regresión de la altura conocida la edad.
b) Predice el valor que se obtiene para una edad de 4 años. Explica la fiabilidad del resultado a
partir del cuadrado del coeficiente de correlación.
Solución:.
8.- Dada la tabla bidimensional correspondiente a una muestra de una cierta población,
X
-2
-1
0
1
2
3
Y
-7
-4
-1
2
5
8
a) Halla la ecuación de recta de regresión de X sobre Y.
b) Predice el valor que se obtiene para Y = 0. Explica la fiabilidad del resultado a partir del
coeficiente de correlación.
Solución:
9.- La siguiente tabla indica la distribución obtenida al considerar la inversión (en millones) y el
rendimiento obtenido (en millones) para 7 negocios existentes en una misma calle de una ciudad.
Inversión
14
16
15
16
18
20
21
Rendimiento
8
8
7
8
7
9
9
a) Halla la ecuación de recta de regresión de la inversión sobre el rendimiento.
b) Predice el valor que se obtiene para un rendimiento 8,5. Explica la fiabilidad del resultado a
partir del coeficiente de correlación.
c) Indica el rendimiento correspondiente a una inversión de 10.
Solución:
ESTADÍSTICA
92
4.4.- EJERCICIOS FINALES
1.- La tabla siguiente contiene los valores de dos variables X e Y. Calcula el coeficiente de
correlación lineal entre las variables. Halla la recta de regresión de Y sobre X. ¿Cuál es el valor
estimado por dicha recta para Y cuando X=100?.
X
Y
1
1
3
2
4
4
6
4
8
5
9
7
11
8
14
9
Solución:
2.- Calcula la ecuación de la recta de regresión mínimo cuadrática de X sobre Y en la
distribución siguiente, realizando todos los cálculos intermedios. Represente los puntos y la recta
en un diagrama cartesiano. ¿Cuál sería el valor que correspondería según dicha recta a Y = 8?.
X
Y
2
10
4
7
6
5
8
3
10
0
Solución:
3.- Asigna los valores 0,46; -0,94; 1; 0; 0,9 y -0,63 a los coeficientes de correlación de las
distribuciones bidimensionales de las figuras adjuntas
(a)
(b)
(c)
(d)
(e)
(f)
Solución:
4.- El precio Y, en miles de pesetas, y la antigüedad en años, X, de siete coches de un cierto
modelo, se recogen en la siguiente tabla:
ESTADÍSTICA
X
2
3
4
5
6
7
8
Y
69
60
52
45
39
34
30
93
a) Haz una representación gráfica adecuada.
b) Calcula la ecuación de la recta de regresión de Y sobre X.
c) ¿Qué precio cabe esperar par aun coche de se modelo en 10 años?.
Solución:
5.- Las puntuaciones obtenidas por un grupo de escolares en los que se mide razonamiento
lógico, X, y compresión verbal, Y, son las siguientes:
R.L. \ C. V.
(10,20)
(20,30)
(30,40)
(40,50)
(15,25)
5
3
-
-
(25,35)
2
6
1
-
(35,45)
-
1
4
2
(45,55)
-
-
3
3
(55,65)
-
-
1
2
a) Halla la correlación existente entre ambas variables:
b) El coeficiente de regresión lineal:
c) La recta de regresión de Y sobre X:
d) La recta de regresión de X sobre Y:
e) Si el valor de razonamiento lógico es de 23 ¿cuál es el valor en comprensión verbal?
Solución:
6.- El precio, Y, expresado en miles de pesetas, y la cilindrada, X, expresada en centímetros
cúbicos, de seis vehículos se recoge en la siguiente tabla:
X
1200
900
1300
1200
1600
1400
Y
1300
770
1400
1350
2000
1500
Calcula la recta de regresión mínimo cuadrática de Y sobre X. ¿Qué precio cabe esperar para un
coche de 1500 centímetros cúbicos de cilindrada?.
Solución:
7.- Dada la distribución bidimensional:
X
1
2
3
4
5
Y
9
7
5
4
2
Obtenga la recta de regresión de Y sobre X, realizando todos los cálculos intermedios.
Represente gráficamente los puntos y la recta de regresión obtenida.
Solución:
8.- La siguiente tabla recoge los PESOS (en kilos) y las ALTURAS (en centímetros) de un
conjunto de personas.
Peso
81
68
71
55
67
79
90
80
101
79
Altura
178
171
168
164
165
170
190
183
195
171
a) Realiza una representación gráfica de los mismos.
b) Calcula la recta de regresión para calcular el peso conocida la altura. ¿Cuál sería según dicha
recta la altura correspondiente a una persona de 95 kilogramos?.
c) Calcula la recta de regresión para calcular el peso conocida la altura. )Cuál sería según dichas
rectas el peso correspondiente a aun persona con una altura de 165 cm.?
Solución:
10.- Dada la tabla bidimensional
ESTADÍSTICA
X
-2
-1
0
1
2
3
Y
-7
-4
-1
2
5
8
94
correspondiente a una muestra de una cierta población,
a) Calcula el coeficiente de correlación lineal e interprételo.
b) Dibuja la nube de puntos asociada a la muestra y, a partir de ella, justifique la conclusión
obtenida en el apartado anterior.
Solución: r= 0,90. Fuerte.
11.- Las notas de 10 alumnos en Matemáticas y Biología son:
Matemáticas
8
5
2
7
8
3
4
10
0
7
Biología
6
7
4
6
10
4
3
9
1
8
Halla, calculando explícitamente todos los pasos intermedios:
a) La recta de regresión de Y sobre X
b) La recta de regresión de X sobre Y
c) La nota que cabe esperar en Biología de un alumno que tiene un 7.5 en Matemáticas
d) La nota que cabe esperar en Matemáticas de un alumno que tiene un 5 en Biología.
Solución:
12.- Diez alumnos de COU han realizado en el primer trimestre dos exámenes de Filosofía. Las
calificaciones viene dadas en la tablas adjunta.
Primer examen(x)
4
7
6
9
4
7
9
4
8
10
Segundo examen (y)
4
6
5
9
3
6
8
4
7
10
a) Calcula el coeficiente de correlación lineal entre X e Y e interprétalo.
b) Halla la recta de regresión que ajusta las calificaciones del segundo examen en función del
primero.
c) Predice la calificación que se espera que alcance en el segundo examen un alumno que en el
primero hubiese obtenido un 5 ¿Es buena esa predicción?
Solución: a) r = 0,97. Muy buena predicción. b) y = x - 0,57, c) y = 5 - 0,57 = 4,43
13.- Las notas de Matemáticas y Física de un grupo de alumnos son las siguientes:
Matemáticas
2
3
1
7
7
6
8
9
Física
2
4
2
8
9
6
8
9
a) Representa la nube de puntos y, sobre ella, razona si hay correlación lineal significativa, y de
que signo, entre las calificaciones de matemáticas y las de Física.
b) Halla las medias y desviaciones típicas de la distribución
Solución: a) Sí hay correlación lineal significativa y positiva.
b) x = 5,38, y = 6,00, sx = 2,781sy = 2,784
14.- Con los datos de la distribución anterior.
a) Halla el coeficiente de correlación lineal de la distribución.
b) Averigua la nota de Matemáticas correspondiente a un 3 en Física. ¿es buena la predicción?,
¿Qué nota correspondería a un 1 en Física?
Solución: a) r = 0,97. b) x = 0,65.3 +1,47 =3,42. No una buena previsión.
15.- La tabla siguiente muestra, las calificaciones, en Matemáticas de ocho alumnos en la primer
evaluación (x) y en la segunda (y):
1ª evaluación (x)
3
4
5
6
6
7
7
8
2ª evaluación (y)
2
5
5
6
7
6
7
9
a) Representa gráficamente los datos anteriores y razona si los datos muestran correlación
positiva o negativa (es decir, directa o inversa)
b) Calcula el coeficiente de correlación lineal e interpreta éste.
Solución: a) Correlación directa. b) r = 0,92. Correlación positiva y muy fuerte.
16.- La edad (x), en años, y el peso (y), en kilogramos, de 5 años vienen dados en la tabla:
ESTADÍSTICA
95
x edad
y peso
6
30
7
33
8
37
9
41
10
49
Se pretende expresar el peso en función de la edad utilizando una regresión lineal.
a) En base al coeficiente de correlación razona si ese procedimiento es fiable.
b) Halla la edad de una persona con peso de 40 kilos ¿Será razonable la edad predicha?
c) ¿Sería razonable, con ese modelo, predecir el peso de una persona de 30 años?
Solución: a) r = 0,98. Muy buenas. b) x = 8,45 años. Previsión fiable. c) No sería razonable.
17.- La producción (en miles de Tm) y la superficie sembrada (en miles de Ha) de lenteja en
España durante los años de 1970 a 1974 fue:
Año
Superficie
Producción
1970
68
339
1971
75
389
1972
87
435
1973
99
437
1974
105
416
a) Halla la recta de regresión de la producción de lentejas en función de la superficie plantada.
b) Si en un determinado año sabemos que la producción ha sido de 420.00 Tm., halla la
superficie que previsiblemente se plantó es año.
c) Calcula la fiabilidad de la previsión.
Solución: a) y = 2,08x - 108,79. b) x = 0,31.420 - 43,4 = 86,8 miles de Ha.
c) No sería razonable.
18.- Cinco niñas de 2,3,5,7 y 8 años pesan, respectivamente 14, 20, 32, 42 y 44 kilogramos
a) Dibuja un diagrama que represente la distribución.
b) Halla el peso aproximado de una niña de 6 años ¿Será razonable el peso predicho?
Solución: a) Diagrama de dispersión. b) y = 5,15.6 - 4,65 = 35,55 kg. Muy buenas.
19.- Sea (X , Y) una variable estadística bidimensional. Sus rectas de regresión son:
4
1
⎧
⎪ y= 5x+ 3
⎪
⎨
⎪ x=5 y
⎪⎩
6
a) Calcula la media de X y de Y.
b) ¿Existe relación entre las variables?
Solución:
20.- Cierto vendedor de helados ha observado el precio de distintas variedades (X en ptas) y la
cantidad vendida (Y en número), obteniendo los siguientes datos:
X
60
80
100
120
130
150
200
Y
50
40
30
25
15
10
5
a) El número medio de helados vendidos.
b) ¿Cómo es la relación entre las variables?
c) Estima cuántos helados se venderán de una variedad que costase 90 ptas.
d) ¿Es fiable la predicción anterior?
Solución:
21.- Una empresa dispone de los datos de la tabla.
Número de vendedores
3
4
5
8
10
Número de pedidos
90
110
140
190
235
a) ¿Cómo es la relación entre las variables?
b) Estima el número de pedidos que obtendrían 9 vendedores.
c) Estimar el número de vendedores de los que debería disponer la empresa para que el número
de pedidos fuera 200.
Solución:
ESTADÍSTICA
96
Descargar