Subido por Cristian David Chiquillo Montoya

dlscrib.com-pdf-montero-j-m-2007conceptos-generales-estadistica-descriptivadocx-dl db5113ba916b711aa78346db945f192e

Anuncio
Conceptos Generales










1.1. Introducción
1.1.1 Población y muestra
1.1.2 Variables y atributos
1.1.3 Escalas de medida
1.2. Distribuciones unidimensionales de frecuencias
1.2.1 Tipos de frecuencias
1.2.2 Distribuciones unidimensionales de frecuencias
1.3. Representaciones gráficas
1.3.1 Caracteres cualitativos
1.3.2 Caracteres cuantitativos
Página 2 | Inicio del artículo
1.1. Introducción
Para
la mejor previo
comprensión
de este
es necesario
tener un
conocimiento
sobre una
seriemanual
de conceptos
estadísticos
que son
utilizados muy frecuentemente. Éstos son:
1. Población y muestra.
2. Variables y atributos.
3. Escalas de medida.
1.1.1. POBLACIÓN Y MUESTRA
Se llama población, universo o colectivo al conjunto de elementos que
poseen una determinada característica. Cada uno de los elementos que
forman parte de la población se denomina individuo o unidad estadística.
No siempre es posible estudiar todos y cada uno de los individuos de una
población (por razones económicas, de tiempo, etc.) sino solamente una
parte de ella, lo que se conoce como muestra. Una muestra es cualquier
subconjunto de la población elegido en términos de representatividad. El
tamaño de una muestra viene determinado por el número de individuos que
contiene.
1.1.2. VARIABLES Y ATRIBUTOS
Un carácter o fenómeno estadístico permite clasificar los individuos de una
población. Los fenómenos estadísticos pueden ser de dos tipos:
cuantitativos y cualitativos. Los primeros son aquellos que se pueden medir
o contar, como por ejemplo la edad de los trabajadores afiliados al sistema
de la Seguridad Social, las pensiones de jubilación, los salarios de los
trabajadores, el tamaño de una empresa, etc. Los segundos, por el
contrario, no se pueden medir o contar; por ejemplo, el nivel de estudios de
los trabajadores de una empresa, el tipo de accidentes de trabajo, los tipos
de pensiones no contributivas de la Seguridad Social, etc.
Se denomina variable a cualquier carácter o fenómeno estadístico que
pueda expresarse en valores numéricos. Los resultados derivados de la
observación de una variable son los valores o datos. Por ejemplo, la
variable salarios puede tomar los valores 800 €, 950 €, 1.400 €, etc.
Generalmente las variables se suelen representar con las últimas letras
mayúsculas del alfabeto (…, X, Y, Z), y los valores con letras minúsculas
[(x1, x2, x3, …, xn), (y1, y2, y3, …, yn), (z1, z2, z3, …, zn)].
Página 3 | Inicio del artículo
Las variables pueden ser, a su vez, clasificadas como discretas o continuas.
En aras de una fácil comprensión, se dice que una variable es discreta
cuando presenta un número finito de valores: por ejemplo, el número de
asalariados en una empresa puede ser de 10, 11, 12, 13, etc. Una variable
es continua cuando puede tomar infinitos valores dentro del intervalo finito o
infinito en el que está definida; la altura de los trabajadores de una empresa
es una variable continua puesto que, utilizando un instrumento de medida
de gran precisión, entre dos alturas cualesquiera se podrían encontrar
infinitos valores de la misma. No obstante, aun en la actualidad, los
instrumentos de medida cuentan con una precisión limitada, lo que lleva a
tratar muchas variables continuas como si fuesen discretas. Tal es el caso
de la altura de los trabajadores de una empresa.
Se denomina variable cualitativa, atributo o factor a cualquier carácter o
fenómeno estadístico que no pueda presentarse en valores numéricos. Los
resultados derivados de la observación de un atributo son las modalidades,
categorías o niveles. Por ejemplo, el atributo tipo de accidentes de trabajo
puede tener dos modalidades: con baja y sin baja.
Normalmente, los atributos se suelen denotar con las primeras letras
mayúsculas del alfabeto (A, B, C, …) y las modalidades con letras
minúsculas [(a1, a2, a3, …, an), (b1, b2, b3, …, bn), (c1, c2, c3, …, cn)].
Los atributos gozan de gran importancia en el campo de las relaciones
laborales. Como ejemplos se pueden citar los siguientes: el tipo de salario
(en dinero o especie); la raza, sexo, edad, estado civil, condición social,
ideas políticas o religiosas del trabajador; las circunstancias de la ausencia
laboral remunerada (licencia por matrimonio, enfermedad, traslado de
domicilio habitual, etc.); los motivos de suspensión del contrato laboral (por
mutuo
acuerdo
partes,
por causas
consignadas
contrato
laboral,entre
salvolas
que
las mismas
constituyan
abuso válidamente
de derecho en el
manifiesto por parte del empresario, por incapacidad temporal del
trabajador, por maternidad de la mujer trabajadora, por adopción o
recogimiento de menores de 5 años, etc.); las causas de extinción del
contrato laboral (por expiración del tiempo convenido o realización de la
obra o servicio objeto del contrato, por la dimisión del trabajador, por
muerte, gran invalidez o invalidez permanente total o absoluta del
trabajador, por mutuo acuerdo entre las partes, por jubilación del trabajador,
etc.); las infracciones del empresario (leves, graves y muy graves); las
causas de accidentes laborales (sobreesfuerzo, caídas de personas, golpes,
atropellos, etc.); el nivel de riesgo laboral (bajo, medio y alto); las
prestaciones
del Régimen
General de la
Seguridadincapacidad
Social (asistencia
sanitaria, prestaciones
farmacéuticas,
maternidad,
temporal,
incapacidad permanente, jubilación, etc.); las prestaciones por desempleo
(de nivel contributivo, de nivel asistencial), etc.
Página 4 | Inicio del artículo
1.1.3. ESCALAS DE MEDIDA
Las observaciones de un carácter o fenómeno pueden presentarse en tres
tipos de escalas:
Las observaciones
de un carácter
vienen
expresadas
A.
nominal.cuando
en Escala
escala nominal
se pueden clasificar
en varias
categorías,
excluyentes entre sí, entre las cuales no existe ninguna relación de orden y,
por tanto, no se puede establecer un origen de referencia, como tampoco es
posible operar matemáticamente. Vienen dados en este tipo de escala los
caracteres cualitativos, es decir, los atributos, como por ejemplo: el estado
civil, el sexo, los sectores de actividad económica, las prestaciones del
Régimen de la Seguridad Social, las causas de extinción del contrato
laboral, etc.
B. Escala ordinal. Se diferencia de la escala anterior en que, en este caso,
se pueden establecer relaciones de orden entre las diferentes categorías,
existiendo, por tanto, un origen de referencia. Estas categorías se pueden
ordenar según el grado en que posean cierta característica, lo que permite
decir que una categoría es preferible o mejor que otra, pero no se puede
determinar cuánto más se prefiere o es mejor. Los atributos también vienen
expresados en este tipo de escala, pero solamente aquéllos en los cuales
se pueda establecer un orden entre sus categorías: por ejemplo, el nivel de
estudios (bajo, medio, alto), las infracciones laborales del empresario (leves,
graves, muy graves), el nivel de riesgo laboral (bajo, medio, alto), etc.
C. Escala cuantitativa. A diferencia de las dos anteriores, la escala
cuantitativa posee una unidad de medida, con lo cual se puede operar
matemáticamente y obtener una serie de medidas que van a caracterizar el
fenómeno que se está analizando. Las observaciones derivadas de los
caracteres cuantitativos vienen dadas en este tipo de escala.
1.2. Distribuciones unidimensionales de
frecuencias
Toda la información obtenida acerca de los diferentes valores o
modalidades que pueda tomar una variable o atributo se puede ordenar y
presentar en las denominadas tablas1
tablas1 o distribuciones de frecuencias.
Antes de proceder al estudio de estas tablas, es necesario conocer los
diferentes tipos de frecuencias que existen. Para ello se hará referencia a
las variables, siendo extensible el comentario para los atributos.
Página 5 | Inicio del artículo
1.2.1. TIPOS DE FRECUENCIAS
Supóngase que de un colectivo determinado se quiere analizar la
variable X, que toma los valores (x1, x2, x3, …, xn), donde cada uno de ellos
puede repetirse una o varias veces.
Se define la frecuencia total (N) como el número total de observaciones,
valores o datos que se tienen de la variable X.
El número de veces que se repite el valor xi se denomina frecuencia
absoluta(ni) o, simplemente, frecuencia. Si la variable X presenta n valores
distintos, cada uno de los cuales se repite una o varias veces, la suma de
las respectivas frecuencias de cada valor será igual a la frecuencia total:
La frecuencia absoluta indica el número de veces que se repite un
determinado valor, pero no aporta nada acerca de la importancia relativa de
dicho valor. Por ejemplo, si en una empresa con 50 empleados 10 de ellos
tienen un salario mensual de 1.100 €, la frecuencia absoluta del valor 1.100
es 10, y, si en otra empresa con 20 empleados, 10 tienen también un salario
mensual de 1.100 €, la frecuencia absoluta del valor 1.100 es, igualmente,
10.primera
Sin embargo,
ambas
frecuencias
nodel
significan
mismo, puesto
que en
la
empresa
10 equivale
al 20%
total deloempleados
y en la
segunda al 50%.
Para conocer la importancia relativa que tiene cada valor dentro del
conjunto total de valores observados se utiliza la frecuencia relativa, que se
define como el cociente entre la frecuencia absoluta del valor considerado y
la frecuencia total:
La expresión anterior multiplicada por 100, refleja la frecuencia absoluta en
porcentaje respecto del número total de datos.
La suma de frecuencias relativas es igual a la unidad (o a 100 si se trabaja
con porcentajes):
Muchas veces interesa considerar cada valor, no de forma aislada, sino
puesto en relación con los demás. Por ejemplo, si en una empresa de 30
trabajadores hay 5 que ganan mensualmente 720 €, 7 que ganan 800 €, 8
que ganan 1.300 €Página
€Página 6 | Inicio del artículoy 10 que ganan 1.000 €,
cabría preguntarse: ¿cuántos trabajadores ganan menos de 1.000 €? Para
ello se deberían considerar todos los trabajadores que ganan 720, 800 y
1.000 €, es decir, habría que acumular sus respectivas frecuencias
absolutas: 5 + 7 + 10 = 22.
La frecuencia absoluta acumulada hasta el valor xi (Ni) indica el número de
frecuencias que hay hasta el valor xi, incluido éste y supuestos los valores
ordenados de menor a mayor:
La última frecuencia asboluta acumulada es igual a la frecuencia total N:
En consonancia con la frecuencia relativa, se define la frecuencia relativa
acumulada (Fi) como el cociente entre la frecuencia absoluta acumulada y la
frecuencia total,
expresión que multiplicada por 100 es equivalente a la frecuencia
acumulada en porcentaje respecto del total.
La última frecuencia relativa acumulada es igual a la unidad (o a 100 si se
trabaja con porcentajes):
Todo lo expuesto anteriormente queda reflejado en la siguiente tabla, tabla
de frecuencias, en la cual la primera columna representa los valores de la
variable analizada (xi), la segunda las frecuencias absolutas (ni), la tercera
las frecuencias relativas (fi), la cuarta las frecuencias absolutas acumuladas
(Ni) y la quinta las frecuencias relativas acumuladas (Fi).
Página 7 | Inicio del artículo
Recuadro: Ocultar
EJEMPLO 1.1
En una empresa con 20 empleados, 5 perciben un salario mensual de 1.500
€, 3 de 2.000 €, 7 de 2.500 €, 4 de 3.000 € y 1 de 3.500 €.
La tabla de frecuencias correspondiente sería:
donde:
n2 = 3 indica que hay 3 trabajadores cuyo sueldo es x2 = 2.000 €.
f3 = 0,35 significa que, del total de trabajadores, el 35 por 100 tiene un
sueldo de x3 = 2.500 €.
Página 8 | Inicio del artículo
N4 = 19 quiere decir que existen 19 trabajadores con un sueldo igual o
inferior a x4 = 3.000 €.
F2 = 0,4 refleja que el 40 por 100 de los trabajadores percibe un sueldo igual
o inferior a x2 = 2.000 €.
Recuadro: Ocultar
EJEMPLO 1.2
Según el Departamento de Treball i Industria de la Generalitat de Catalunya,
en 2004 los accidentes laborales con baja, según su gravedad, fueron:
Leves: 172.671 Graves: 2.076 Mortales: 215
En este caso, la tabla de frececuencias sería:
Recuadro: Ocultar
EJEMPLO 1.3
La tabla de frecuencias siguiente hace referencia al paro registrado por
sectores económicos, en España, en noviembre de 2005.
Nótese que, en este caso, no tiene demasiado sentido calcular las
frecuencias acumuladas ya que no se puede establecer ningún orden de
preferencia entre los diferentes sectores económicos.
Página 9 | Inicio del artículo
1.2.2. DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIAS
El término «unidimensional» hace referencia a la observación exclusiva de
una variable o atributo. La distribución de frecuencias de dicha variable o
atributo está formada por los diferentes valores o modalidades que puede
tomar y sus respectivas frecuencias. Como las frecuencias absolutas (ni)
son las que se conocen habitualmente, la distribución de frecuencias se
denota genéricamente por los pares de valores (Xi; ni).
Cuando el número de valores que toma la variable no es demasiado grande
(queda a juicio del investigador establecer si es grande o pequeño), toda la
información disponible aparece recogida en la tabla, donde cada uno de los
valores se encuentra asociado con su correspondiente frecuencia. En este
caso, se dice que la distribución se encuentra no agrupada en intervalos,
como la utilizada en el ejemplo 1. Si todas las frecuencias absolutas son
iguales a 1, la distribución se denomina de frecuencias unitarias.
Sin embargo, a veces sucede que la variable objeto de análisis presenta un
elevado número de valores, por lo que es aconsejable agrupar dichos
valores en intervalos con el fin de facilitar su presentación y de que, a la
hora de realiar ciertos cálculos, éstos sean relativamente fáciles de
determinar. Cuando se presenta o se da esta situación, la distribución de
frecuencias obtenida se denomina agrupada en intervalos, siendo la
frecuencia de cada intervalo igual a la suma de las frecuencias de todos los
valores
incluidos
La agrupación
hace manejable la
distribución
pero, en
sinél.
embargo,
con ellaenseintervalos
pierde información.
Una distribución agrupada en intervalos se representa por ( Li-1 – Li; ni),
donde Li-1 es el extremo inferior del intervalo y Li el extremo superior. La
diferencia entre ambos extremos es la amplitud del intervalo, que se denota
por ci. Normalmente se establece que los intervalos son abiertos por la
izquierda y cerrados por la derecha (Li-1 — Li], con lo cual incluyen los
valores comprendidos entre Li-1 y Li, incluido Li y excluido Li-1. En el caso
particular
del primer
intervalo
ambos extremos
secuando
consideran
cerrados.
distribuciones
agrupadas
en intervalos
son útiles
se trabaja
con Las
variables continuas.
Se denomina recorrido o rango de una variable a la diferencia entre el
máximo y el mínimo valor de la variable:
Finalmente, cuando se trabaja con distribuciones agrupadas en intervalos,
no es posible asignar a cada valor del intervalo su frecuencia (ya que ésta
corresponde
a un conjuntopara
de valores
y nociertos
a uno solo),
ni tampoco
seAnte
puede
operar matemáticamente
determinar
cálculos
de interés.
esta situación, se eligePágina 10 | Inicio del artículocomo valor
representativo del intervalo la marca de clase, x'i, que se define como el
punto medio del mismo:
Esta manera de proceder lleva implícita la suposición de que los valores se
encuentran uniformemente distribuidos a lo largo del intervalo.
Recuadro: Ocultar
EJEMPLO 1.4
Las pensiones por invalidez de 50 individuos, agrupadas por intervalos, son
las que se recogen en la siguiente tabla de frecuencias:
1.3. Representaciones gráficas
A la hora de describir el comportamiento de un carácter estadístico, a
menudo resulta complicado manejar toda la información recogida en la tabla
de frecuencias. Sin embargo, dicha información puede ser resumida en
unas cuantas cifras, como se verá en el Capiítulo 2, o bien puede
representarse en un gráfico que refleje, de manera más simple y rápida, el
comportamiento global de dicho carácter.
1.3.1. CARACTERES CUALITATIVOS
Comenzando por los caracteres cualitativos o atributos, se pueden destacar
en primer lugar los diagramas de sectores (Gráfico 1.1), que reflejan las
frecuencias absolutas o relativas de las diferentes modalidades de un
carácter cualitativo mediante sectores circulares.
El ángulo central de cada sector es proporcional a la frecuencia de la
modalidad que representa y, consecuentemente, también lo será su área.
Página 11 | Inicio del artículo
G rá
ráfico
fico 1.1. Paro
registrado en España (noviembre, 2005). Diagrama de sectores. Fuente: Distribución
del Ejemplo 1.3.
Los diagramas de barras (Gráfico 1.2) expresan mediante rectángulos
verticales las frecuencias absolutas o relativas de las distintas modalidades
observadas. En este caso, los rectángulos tienen la misma base y la altura
es proporcional a la frecuencia.
Gráfico
1.2. Paro registrado en España (noviembre, 2005). Diagrama de barras (frecuencias
absolutas). Fuente: Distribución del Ejempio 1.3.
El diagrama de Pareto combina un diagrama de barras con un polígono
acumulativo de frecuencias. Se puede observar en el Gráfico 1.2
(diagramas de barras) que, de las cinco modalidades existentes, los
sectores servicios e industria son los que cuentan con mayor número de
parados. En el diagrama de Pareto (Gráfico 1.3) estas modalidades se
encuentran ordenadas por orden decreciente de frecuencias, lo que indica,
por ejemplo, que más del 60% de los parados proviene de los sectores
terciario e industrial.
Página 12 | Inicio del artículo
G rá
ráfico
fico 1.3. Paro registrado en España (noviembre, 2005). Diagrama de
Pareto. Fuente: Distribución del Ejemplo 1.3.
Otras representaciones muy utilizadas son los
denominados cartogramas y pictogramas. Un cartograma (Gráfico 1.4) es
un
gráfico se
realizado
un mapa, enzonas
el cual
el diferentes
carácter cualitativo
analizado
señala sobre
en determinadas
con
colores o
rayados, y un pictograma es un dibujo alusivo al carácter representado.
Gráfico
1.4. Fondo de garantía salarial: Empresas afectadas según causa de la
prestación. Fuente: Anuario de Estadísticas
Estadísticas Laborales y de Asuntos Sociales
2004.Ministerio de Trabajo y Asuntos Sociales.
Página 13 | Inicio del artículo
1.3.2. CARACTERES CUANTITATIVOS
Cuando los caracteres son cuantitativos, es decir, cuando se analizan
variables, es necesario distinguir si la distribución de frecuencias está
agrupada en intervalos o no.
1.3.2.1. Distribuciones no agrupadas en intervalos
Los diagramas de puntos (Gráfico 1.5) consisten en superponer tantos
puntos como frecuencias (absolutas o relativas) se observen en cada valor
de la distribución.
Gráfico
1.5. Diagrama de puntos. Fuente: Distribución del Ejemplo 1.1.
Los diagramas de barras (Gráfico 1.6) surgen cuando se traza para la base
correspondiente a cada valor de la variable una perpendicular al eje de
abscisas de
Gráfico
1.6. Diagrama de barras. Fuente: Distribución del Ejemplo 1.1.
Página 14 | Inicio del artículo
altura igual a su frecuencia (absoluta o relativa). Uniendo los extremos
superiores de las barras se tienen los llamados polígonos de
frecuencias(Gráfico 1.7). Si se trabaja con frecuencias acumuladas
(absolutas o relativas), los gráficos resultantes son los polígonos
acumulativos de frecuencias (Gráfico 1.8).
Gráfico
1.7. Polígono de frecuencias. Fuente: Distribución del Ejemplo 1.1.
Gráfico
1.8. Polígono acumulativo de frecuencias. Fuente:Distribución del Ejemplo 1.1.
Una forma muy peculiar de presentar los caracteres cuantitativos es
mediante el diagrama de tallo y hojas (Gráfico 1.9), en el cual los datos
aparecen recogidos en una tabla con dos columnas: en la derecha (hoja) se
encuentran las unidades de los valores y en la izquierda (tallo), de derecha
a izquierda, las decenas, centenas, etc. de los mismos.
Gráfico
1.9. Diagrama de tallo y hojas.
Página 15 | Inicio del artículo
1.3.2.2. Distribuciones agrupadas en intervalos
Si la distribución de frecuencias está agrupada en intervalos, los gráficos
más utilizados son los histogramas (Gráfico 1.10). Éstos se construyen
levantando sobre cada intervalo un rectángulo cuya área sea proporcional a
la frecuencia absoluta (o relativa) del correspondiente intervalo. Si los
intervalos tienen la misma amplitud la altura de los rectángulos es la
frecuencia absoluta (o relativa), y si la amplitud es distinta la altura es igual
a la densidad de frecuencia(di), definida como el cociente entre la frecuencia
absoluta (o relativa) y la amplitud.
Gráfico
1.10. Histograma de frecuencias. Fuente: Distribución del Ejemplo 1.4.
Otros gráficos utilizados en las distribuciones agrupadas en intervalos son
los polígonos acumulativos de frecuencias (Gráfico 1.11), que resultan de la
unión de los puntos (Li; Ni) (Li; Fi).
Página 16 | Inicio del artículo
Gráfico
1.11. Polígono acumulativo de frecuencias. Fuente:Distribución del Ejemplo 1.4.
1 Cuando se trabaja con dos variables o atributos la tabla es de doble
entrada: tabla de correlación (variables) y tabla de contingencia (atributos).
Cita de fuente
(MLA 8th Edition)
Montero Lorenzo, Jóse Maria. "Conceptos Generales." Estadística descriptiva,
Paraninfo, 2007, pp. 1-16. Gale Virtual Reference
Library, go.galegroup.com/ps/i.do?p=GVRL&sw=w&u=unad&v=2.1&id=GALE%7CCX
4052100007&it=r&asid=0a7332df0d4700de0bd272caa41e1718. Accessed 25 Aug.
2017.
Descargar