medidas de resumen - Departamento de Matemática Aplicada y

Anuncio
Estadística descriptiva
Imagen popular de la estadística:
"Existen medias mentiras, mentiras y
estadísticas".
Dos significados:
(1) Colección de datos numéricos
(Una estadística).
(2) Ciencia: obtener regularidades de
fenómenos de masas
(La estadística).
"Más del 75% de los americanos blancos son propietarios de su casa
y menos del 50% de los hispanos y afroamericanos no son
propietarios de su casa. Aquí hay un abismo, el abismo de la
propiedad de la casa".
George W. Bush, Cleveland, 1 de julio de 2002
1
www.bushisms.com
La estadística surgió como una
necesidad del estado: el censo y
su descripción política, geográfica
y económica.
En el siglo XVII y XVIII nace la probabilidad aplicada
a los juegos de azar que ejerce una fuerte influencia
sobre la estadística.
En el XIX empieza a aplicarse a cuestiones sociales.
Y actualmente se aplica a la historia, psicología,
pedagogía, ingeniería, biología, economía, periodismo,
2
política, medicina...
El mundo en miniatura
Toby Ng Kwong To http://www.toby-ng.com/graphic-design/the-world-of-100/
Imagina que pudiéramos reducir la población de la Tierra, manteniendo
proporcionalmente sus características, a tan solo 100 habitantes. Ese mundo en
miniatura sería algo así...
Nota: Los datos escritos bajo
los logotipos son los
actualizados a 2010.
En algunos casos no coinciden,
por este motivo, con los
que aparecen en las imágenes.
“El Mundo en Miniatura” (The
Miniature Earth)
http://www.youtube.com/watch?v=CW5TnEc
WN3Q&feature=related
“If the world were a village of 100
people” (Si el mundo fuera una
aldea de 100 personas) en la web
animada de los coreanos Hye-Bin
Park y Jhoo-Young Cha
(http://binsworld.com/100/).
61 Asiáticos, 13 Africanos, 12
Europeos, 8 Norteamericanos,
5 Sudamericanos y Caribeños, 1
de Oceanía.
50 son hombres y 50 son mujeres.
47 viven en la ciudad.
12 son discapacitados.
33 son cristianos, 21 musulmanes, 14 no
son religiosos, 13 hinduistas, 6 budistas y
13 practican otras religiones.
43 viven sin sanidad básica.
18 viven sin una fuente de agua
potable.
20 personas poseen el 75% de las
riquezas de todo el mundo.
14 están hambrientos o desnutridos.
12 no saben leer.
Sólo 1 tiene educación universitaria.
Sólo 12 tienen un ordenador, y de
ellos, sólo 8 tienen conexión a
Internet.
20 personas viven con miedo de morir por
bombardeos, ataques armados, minas terrestres,
violación o secuestro por grupos armados.
A pesar de las desigualdades y la pobreza, nuestros gobernantes
dedican más de 875.000.000.000 de euros en gastos militares.
Si tienes comida en un
frigorífico, ropa en un armario,
una cama donde dormir y un
techo sobre tu cabeza, eres
más rico que el 75% de la
población mundial.
Donella Meadows hizo público en
1990 su primer “Informe sobre el
Estado de la Aldea”, que se ha
actualizado varias veces desde
entonces. “El Mundo en Miniatura”
(The Miniature Earth) es su versión
gráfica. Página oficial del Proyecto
“The Miniature Earth” es:
http://www.miniature-earth.com/
Aprecia lo que tienes y haz
todo lo que puedas para hacer
de este mundo un lugar mejor.
Datos estadísticos:
http://www.miniature-earth.com/docs/ME_2010_text.pdf
http://www.odt.org/pop.htm
Definición de Estadística
La Estadística es la ciencia de la
• Sistematización, recogida, ordenación y
presentación de los datos referentes a un fenómeno
que presenta variabilidad o incertidumbre para su
estudio metódico, con objeto de
• Deducir las leyes que rigen esos fenómenos
• y poder hacer previsiones sobre los mismos, tomar
decisiones u obtener conclusiones.
10
Pasos en un estudio estadístico
• Plantear hipótesis sobre una población:
• Los fumadores tienen “más bajas” laborales que los
no fumadores.
• ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?
• Decidir qué datos recoger (diseño de
experimentos)
– Qué individuos pertenecerán al estudio (muestras).
• Fumadores y no fumadores en edad laboral.
• Criterios de exclusión: ¿Cómo se eligen?
¿Descartamos los que padecen enfermedades crónicas?
– Qué datos recoger de los mismos (variables).
• Número de bajas.
• Tiempo de duración de cada baja.
• ¿Sexo? ¿Sector laboral? ¿Otros factores?
11
Pasos en un estudio estadístico (y 2)
• Recoger los datos (muestreo):
– ¿Estratificado? ¿Sistemáticamente? ¿Con remplazo o sin remplazo?
• Describir (resumir) los datos obtenidos:
• Tiempo medio de baja en fumadores y no fumadores (estadísticos)
• % de bajas por fumadores y sexo (frecuencias), gráficos,...
• Realizar una inferencia sobre la población:
• Los fumadores están de baja al menos 10 días/año más de media
que los no fumadores.
• Cuantificar la confianza en la inferencia:
– Nivel de confianza del 95%
– Significación del contraste: p = 2%
12
¿Qué es una familia? (Definiciones claras)
¿De qué estamos hablando?
(Definiciones claras)
«Què vol dir família? És tothom qui viu en una
mateixa casa? O també s’inclouen avis i àvies,
oncles i ties, cosins i cosines, etc.
Si és la segona opció, que inclou molta més
gent, tampoc és tant sorprenent
l’afirmació...» Pere Grima
¿Los que fuman tienen algún trastorno mental?
(Definiciones claras)
«Què vol dir trastorns mentals?
Si la dependènciade drogues es considera un trastorn mental, gairebé
tothom que té l’hàbit de fumar pateix
un trastorn mental!» Pere Grima
El País, 28 noviembre 2000
Jóvenes.... (Definiciones claras)
!
http://www.ajemadrid.es/
“Estadísticas...” (Definiciones claras)
• Salud mental
• Popularidad
• Inteligencia
• Pobreza
...
http://es.wikipedia.org/wiki/Pobreza
Precisión exagerada
«Segurament, el mateix dia quevan
editar el fulletó va deixar de ser cert.
En tot cas, haurien d’haver dit la data
en que la xifra d’habitants era
aquesta. Però no cal, sabent que és una
mica més d’un milió n’hi ha prou».
Pere Grima.
Esto es hilar fino...
«Com saben amb tanta exactitud quan es va començar a fer servir la soja? D’on han tret la
dada? Segurament és més fàcil endevinar en quin dia de la setmana es va començar a fer
servir. La probabilitat d’encertar és 1 entre 7!» Pere Grima.
Precisión ridícula
Inferencia
¿Puedes indicar si son ciertos los siguientes razonamientos sobre estadísticas? En este caso es Martin
Gardner en su libro “¡Aja! Paradojas que hacen pensar” el que nos ha otorgado el regalito:
1) Las estadísticas muestran que casi todos los accidentes de circulación se producen a velocidad
moderada. Muy pocos ocurren a más de 150 km por hora. ¿Significa esto que resulta más seguro
conducir a gran velocidad?
2) Si las estadísticas mostrasen que la mortalidad por tuberculosis es mayor en Segovia que en las
demás provincias, ¿significaría esto que el clima segoviano favorece el contagio por tuberculosis?
3) Un estudio psicopedagógico ha mostrado que los niños de pie grande saben leer mejor que los de pie
pequeño. ¿Permitirá el tamaño del pie medir la capacidad de lectura de los niños?
4) Suele decirse que casi todos los accidentes de automóvil ocurren cerca de casa. ¿Significa esto que
viajar por carretera, a muchos kilómetros de nuestra ciudad, es menos peligroso que callejear por
nuestro barrio?
6) Un estudio hizo ver que en cierta población europea se produjo simultáneamente un fuerte
crecimiento de la población y un notable incremento del número de nidos de cigüeñas. ¿No es esto
demostración de que son las cigüeñas quienes traen a los niños al mundo?
7). Otro trabajo estadístico mostró que casi todos los grandes matemáticos fueron primeros hijos.
¿Significa esto que los niños nacidos los primeros reciben una dote de sensibilidad matemática mayor
que sus hermanos posteriores?
Población y muestra
• Población (‘population’ ) es el conjunto
sobre el que estamos interesados en
obtener conclusiones (hacer inferencia).
– Normalmente es demasiado grande
para poder abarcarlo.
• Muestra (‘sample’ ) es un subconjunto de
la población al que tenemos acceso y
sobre el que realmente hacemos las
observaciones (mediciones)
– Debería ser “representativo”
– Esta formado por miembros
“seleccionados” de la población
(individuos, unidades experimentales).
21
Variables
• Una variable es una característica observable que varía
entre los diferentes individuos de una población. La
información que disponemos de cada individuo es resumida
en variables.
• En los individuos de la población española,
de uno a otro es variable:
– El grupo sanguíneo
• {A, B, AB, O}  Var. Cualitativa
– Su nivel de felicidad “declarado”
• {Deprimido, Ni fu ni fa, Muy Feliz}  Var.
ordinal
– El número de hijos
• {0,1,2,3,...}  Var. Numérica discreta
– La altura
• {1,62 ; 1,74; ...}  Var. Numérica continua
22
• Es buena idea codificar las variables
como números para poder procesarlas
con facilidad en un ordenador.
• Es conveniente asignar “etiquetas” a
los valores de las variables para
recordar qué significan los códigos
numéricos.
– Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre
• 2 = Mujer
– Raza (Cualit: Códigos arbitrarios)
• 1 = Blanca
• 2 = Negra,...
– Felicidad Ordinal: Respetar un orden al
codificar.
• 1 = Muy feliz
• 2 = Bastante feliz
• 3 = No demasiado feliz
• Se pueden asignar códigos a respuestas
especiales como
• 0 = No sabe
• 99 = No contesta...
• Estas situaciones deberán ser tenidas en
cuentas en el análisis. Datos perdidos
(‘missing data’)
23
• Los posibles valores de una variable suelen denominarse
modalidades. Las modalidades pueden agruparse en clases
(intervalos)
– Edades:
• Menos de 20 años, de 20 a 50 años, más de 50 años
– Hijos:
• Menos de 3 hijos, De 3 a 5, 6 o más hijos
• Las modalidades/clases deben formar un sistema exhaustivo y
excluyente
– Exhaustivo: No podemos olvidar ningún posible valor de la
variable
– Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?
– Bien: ¿Cuál es su grupo sanguíneo?
– Excluyente: Nadie puede presentar dos valores
simultáneos de la variable
• Estudio sobre el ocio
– Mal: De los siguientes, qué le gusta: (deporte, cine)
– Bien: Le gusta el deporte: (Sí, No)
– Bien: Le gusta el cine: (Sí, No)
24
Ejemplo:
En un programa para la detección de hipertensión en una muestra
de 30 hombres en edades entre 30 y 40 años, la distribución de la
presión diastólica (mínima) en mm Hg fue la siguiente:
70
85
85
75
65
90
110
95
90
60
75
80
120 85
95
90
70
100 65
80
90
95
90
110 100
85
80
95
La variable en estudio es
:
Presión diastólica (medida en mm de Hg)
una variable numérica continua.
70
75
Tablas de frecuencia
• Exponen la información recogida en la muestra de
manera inteligente:
– Frecuencias absolutas: Contabilizan el número de individuos
de cada modalidad.
– Frecuencias relativas (porcentajes unitarios): Ídem, pero
dividido por el total, normalizadas.
– Frecuencias acumuladas absolutas y relativas: Acumulan las
frecuencias absolutas y relativas. Son especialmente útiles
para calcular cuantiles (como veremos más adelante).
26
Ordenamos los datos en forma creciente:
60 65
65
70
70 70
75 75 75
80
80 80
85
85
85 85
90 90 90
90
90 95
95
95
95 100 100 110 110 120
La amplitud total A = 120 – 60 = 60
Número de clases: K = √30 = 5.48 Aprox. 6 clases
Extensión del intervalo : H = A/ K = 60/6 = 10
En este caso , entonces, la tabla de frecuencias tendrá
aproximadamente 6 clases de amplitud 10 unidades en
cada clase.
Variable
Frecuencia
Frecuencia
Frecuencia
normalizada absoluta
Frecuencia
absoluta norm.
f
fr
F
Fr
60 - 70
3
0.1
3
0.1
70 - 80
6
0.2
9
0.3
80 - 90
7
0.23
16
0.53
90 - 100
9
0.3
25
0.83
100 - 110
2
0.07
27
0.90
110 - 120
2
0.07
29
0.97
120 - 130
1
0.03
30
1.00
30
1.0
x
total
28
Histograma de la distribución de presión diastólica en
mm de Hg según las frecuencias absolutas:
10
f
8
6
4
2
0
60
70
80
90
100
110
120
130
mm de Hg
29
FLORENCE NIGHTINGALE
(1820-1910) La dama de la lámpara
Enfermera, escritora y estadística.
Considerada pionera de la enfermería
moderna, sentó las bases de su
profesionalización.
Destacó en matemáticas, y aplicó sus
conocimientos de estadística a la
epidemiología y a la estadística sanitaria,
siendo la primera mujer admitida en la
Royal Statistical Society británica, y
miembro honorario de la American
Statistical Association.
LA GUERRA DE CRIMEA (1854-1856)
1854 Inglaterra, Francia y Turquía declaran la Guerra a Rusia
En 1854 estalla la guerra de Crimea. Por primera vez la prensa cubrió una guerra. La
organización de los hospitales británicos durante la guerra era deficiente. La preocupación por
el bienestar de los soldados se manifestó como una oleada en la opinión pública lo que
permitió al Secretario de Estado para la Guerra, Sidney Herbert, designar a Florence para
dirigir a un grupo de enfermeras. Ninguna mujer había ocupado un puesto oficial en el ejército.
Alcanzó fama mundial en la asistencia a los heridos
durante la Guerra de Crimea ( 1854 – 1856 ),
siendo conocida como «La Dama del Candil», por
su costumbre de realizar rondas nocturnas con un
candil para atender a sus pacientes.
Petición por parte de Sidney Herbert de hacerse cargo de la atención a heridos.. El 21 de
octubre de 1854, ella y un equipo de 38 enfermeras voluntarias, se encontraron con que los
soldados heridos recibían tratamientos inadecuados por parte del sobrecargado equipo
médico, mientras que la oficialidad era indiferente. Los suministros médicos escaseaban, la
higiene era pésima, las infecciones comunes y fatales, y no se contaba con equipamiento
apropiado para procesar los alimentos de los pacientes.
Alto índice de mortalidad:
Poca salubridad, Mala alimentación, Poco
personal sanitario mal cualificado.
Enfermedades: Tifus, Cólera y Disentería.
Al instalar una lavandería en el hospital, y en tan sólo un mes consiguió mejoras en el
mantenimiento de las salas, obtuvo ropa de cama y prendas nuevas para los soldados, y
mejoró las comidas del hospital... Durante su primer verano en Scutari, 4.077 soldados
perdieron la vida allí. Fallecieron 10 veces más soldados de enfermedades como tifus, fiebre
tifoidea, cólera y disentería que de heridas en el campo de batalla. Las condiciones en el
hospital de las barracas eran tan nocivas para los pacientes debido al hacinamiento, a los
deficientes desagües sanitarios y a la falta de ventilación. El gobierno británico destinó una
Comisión Sanitaria a Scutari en marzo de 1855, casi seis meses después de la llegada de
Florence Nightingale, que efectuó la limpieza de los vertederos contaminantes y mejoró la
ventilación. A partir de esas medidas el índice de mortalidad bajó rápidamente.
El creciente interés del público por
sus iniciativas dio a su opinión una
fuerza de la que no disponían los
reformadores en las filas del ejército,
así, muchas de las recomendaciones
de la directora de enfermeras al
Secretario de Estado para la Guerra se
convirtieron en nuevos reglamentos
militares.
Durante la guerra ella no reconoció que la falta
de higiene era una de las causas principales de
muerte, creyendo que el elevado índice de
mortalidad se debía a la mala nutrición, a la
falta de suministros médicos y al agotamiento
extremo de los hombres. Pero a su regreso a
Londres comenzó a reunir pruebas para la
Comisión Real para la Salud en el Ejército, a
fin de sustentar su posición de que los soldados
fallecían a causa de las deplorables condiciones
de vida en el hospital. Esta experiencia influyó
decisivamente en su carrera posterior,
llevándola a abogar por la importancia de
mejorar las condiciones sanitarias hospitalarias.
En consecuencia, ayudó a reducir las muertes
en el ejército durante tiempos de paz y
promovió el correcto diseño sanitario de los
hospitales.
Se le atribuye el desarrollo de una forma de gráfico circular hoy conocida como
diagrama de área polar o como diagrama de la rosa de Nightingale, equivalente a un
moderno histograma circular, a fin de ilustrar las causas de la mortalidad de los soldados
en el hospital militar que dirigía.
Gráficos para variables
cualitativas
• Diagramas de barras
– Alturas proporcionales a
las frecuencias (abs. o rel.)
– Se pueden aplicar también
a variables discretas
• Diagramas de sectores
(tartas, polares)
– El área de cada sector es
proporcional a su
frecuencia (abs. o rel.)
37
Gráficos para variables cualitativas (y 2)
• Pictogramas
– Fáciles de
entender.
– Cada modalidad
debe ser
proporcional a la
frecuencia.
De los dos
pictogramas,
¿cuál dirías que es
incorrecto?
38
Gráficos diferenciales para
variables numéricas
419
400
375
Son diferentes en función de que las
variables sean discretas o continuas.
Valen con frec. absolutas o relativas.
Recuento
300
255
215
200
127
100
54
24
– Diagramas barras para v.
discretas
0
1
2
3
4
5
6
23
7 Ocho o más
Número de hijos
• Se deja un hueco entre barras para
indicar los valores que no son posibles
250
• El área que hay bajo el histograma
entre dos puntos cualesquiera indica la
cantidad (porcentaje o frecuencia) de
individuos en el intervalo.
Recuento
200
– Histogramas para v. continuas
150
100
50
20
40
60
Edad del encuestado
17
39 80
Diagramas integrales
• Cada uno de los anteriores diagramas tiene su correspondiente
diagrama integral. Se realizan a partir de las frecuencias acumuladas.
Indican, para cada valor de la variable, la cantidad (frecuencia) de
individuos que poseen un valor inferior o igual al mismo.
40
Impacto del eje vertical
«El gràfic de l’esquerra dóna la
sensació de que les despeses
han pujat però d’una manera
molt suau, mentre que el de la
dreta, amb les mateixes dades,
però fent un “zoom” sobre la
part de l’escala on està la
gràfica, l’increment es veu molt
més exagerat.» Pere Grima
Si quieres demostrar
algo absurdo toma un
montón de datos,
tortúralos hasta que
digan lo que quieres
demostrar, y a la
confesión así obtenida
llámalo “Estadística”.
(Darrel Huff: How to
lie with statistics)
Priorizar la estética
«Segurament aquí no hi havia mala intenció.
De fet, afavoria més al que volien transmetre
haver fet la gràfica bé!» Pere Grima.
143.449
85.990
Gráfico universal
Es muy rápido. Sobre el mismo dibujo se cambian los números
Sin escala
«Un clàssic de la publicitat: la
gràfica sense escala. Però en què
consisteixen aquests tests? Què
mesuren ? Com ho mesuren?»
Pere Grima
Sin escala
Unidad = Unidad
«Que ningú digui que no fan servir
unitats en els eixos! Justament la
unitat de mesura es la unidad.»
Pere Grima
«Aquí tenim un exemple de
llibre: Quant més valia un
dòlar en l’època d’Eisenhower
respecte l’època de Carter?
Segurament esteu pensant que
4 o 5 vegades, però no, només
val una mica més del doble. De
fet, es pot comprovar que les
longituds són proporcionals als
valors, però els bitllets tenen
dos dimensions, i la sensació de
quantitat que donen és
proporcional a la seva
superfície, i no a la longitud.
Podem veure que la superfície
del d’Eisenhower és 5 vegades
més gran que l’altra.»
Pere Grima
«I en el gràfic de la dreta, tret d’un diari
que fa una estadística” sobre les edats
dels seus lectors, tenim un exemple
similar. Entre 25 i 34 anys tenen un 37,5%
de lectors, i de més de 55 tenen un 12,8%.
Tot i que aquests últims són 1/3 dels
primers, en el gràfic sembla que no pinten
quasi bé res. De fet, es pot posar
un home de 12,8%” a cada pota del
“gegant”. Han fet els gràfics proporcionals
a les alçades (el “gegant” és tres vegades
més alt que l’home que comprèn el grup
de lectors de més de 55 anys), però la
sensació que donen és proporcional a les
àrees».
Pere Grima
Dieta más... lo que sea
«Prens ginebra amb glaçons
i t’emborratxes, vodka amb
glaçons i t’emborratxes,
whisky amb glaçons i
t’emborratxes. Conclusió:
els glaçons t’emborratxen».
Pere Grima
El Periódico, 13 de febrer de 2001
Descobriment sorprenent
A Catalunya les rosses no guanyen igual
que les morenes
«Si dividim les noies en rosses i morenes, és normal que un dels grups cobri més que
l’altre. Però segurament aquesta diferència no serà significativa. El que seria sorprenent
és que els dos grups de persones cobressin exactament igual, fins al cèntim d’euro!»
Pere Grima
¿Encuestas interesadas?
¡Atención: un 30% de los expertos no aconseja
huir del excesivo consumo de grasas!
Curiosa encuesta
http://nosomoshormigas.org/
Las 7 obsevaciones
optimistas de No
Somos Hormigas en
TEDxLaRioja.
http://www.youtu
be.com/watch?feat
ure=player_embed
ded&v=E6Wd8SGAac#t=621s
¿El peor gráfico de todos
los tiempos?
El País 22.11.05 publica a dos
páginas una nueva entrega de su
sección de Investigación y Análisis,
esta vez sobre el gasto farmacéutico.
“¿Alguien puede decirme qué
escala utiliza este gráfico? ¿El
4,7% de Castilla-La Mancha y el
País Vasco, es cada una, o es
entre las dos? Idem para
Cantabria y Navarra y Aragón y
Murcia. ¿Alguien sabe qué interés
tiene el gasto farmacéutico por
comunidades, si no es per cápita?”
http://personales.ya.com/josumezo/2005/11/el-peor-grfico-de-todos-los-tiempos.html
Ministerio de Agricultura
http://sigpac.mapa.es/fega/visor/
¿Cómo visualizar la complejidad del mundo?
Según Naciones Unidas existen en estos momentos más de 27 millones
de refugiados. El mayor número alcanzado jamás. La anchura de las flechas
indica la cantidad relativa de refugiados según las zonas.
En la web de la Agencia de la Organización de Naciones Unidas para los Refugiados podemos leer: La
Convención de Refugiados de 1951 que es el mandato principal del ACNUR explica que un refugiado es
una persona que "debido a fundados temores de ser perseguida por motivos de raza, religión, nacionalidad,
pertenencia a determinado grupo social u opiniones políticas se encuentre fuera del país de su nacionalidad
y no pueda o, a causa de dichos temores, no quiera acogerse a la protección de tal país".
90
Los métodos visuales para comunicar grandes
cantidades de información de manera eficiente
son una mezcla de arte y ciencia. Por ejemplo,
¿cómo podemos visualizar datos a nivel
mundial? Centrémonos en una cuestión
particular: a pesar del indudable progreso
humano, las desigualdades son ahora más
grandes que en ningún momento de la historia.
Uno de los indicadores más comunes de la
calidad de vida es la esperanza de vida, la
media de la cantidad de años que vive una
cierta población en un cierto periodo de tiempo.
Mientras en algunos lugares de la Tierra hay
gente que vive en la opulencia, más de mil
millones de personas pasan hambre. Así la
esperanza de vida es muy distinta según los
países. Si has nacido y vives en España, tu
esperanza de vida es de más de 80 años. Pero
si perteneces a uno de los 35 países con menor
esperanza de vida, localizados todos ellos en el
África sub-sahariana, tu esperanza de vida es
inferior a los 50 años. Una desigualdad
espeluznante que podemos apreciar en un
vistazo en este globo terráqueo diseñado por
Ingo Günther.
La esperanza de vida es la media de la
cantidad de años que vive una cierta
población en un cierto periodo de tiempo.
Nota: Los datos del proyecto
WorldProcessor no están actualizados: son
datos que van entre 1998 y 2005, según el
globo.
Montañas de débito
La deuda externa de los países, el dinero público y privado, que cada uno debe al extranjero,
está representada en este doble globo terráqueo de forma proporcional a la altura de sus
montañas.
© 1988 - 2006, Ingo Günther and Worldspace Corporation
Polución
Polución: Los círculos rojos indican vertidos de petróleo y los de color gris
sombreado contaminación del mar y de la tierra debida a fertilizantes químicos.
En promedio, cada tres meses esta imagen se vuelve obsoleta debido a otro gran
vertido de petróleo y al aumento continuo de la contaminación.
Comprehensive Guide to the World
Es cierto que el mundo hoy es
más complicado que nunca.
Aunque eso no significa que su
comprensión sea
necesariamente inaprensible o
extremadamente difícil, como
apunta Günther en este globo
terráqueo que titula con cierta
sorna: "Guía completa del
mundo".
Agencia de la Organización de Naciones Unidas para los Refugiados: http://www.acnur.org
Proyecto WorldProcessor: http://www.worldprocessor.com/catalog/world/
Estadísticas mundiales desde la CIA, la Agencia Central de Inteligencia de EEUU:
https://www.cia.gov/library/publications/the-world-factbook/
Redes para
representar
la complejidad
Mark
Lombardi
Complejidad en la corrupción:
Manipuladores del poder
Interconexiones clandestinas entre corporaciones,
organizaciones políticas e instituciones internacionales.
"Redes globales, … porque cada una
consiste en una red de líneas y apuntes, que
a su vez tratan de inspirar y redactar un
cuento, tipicamente sobre un evento reciente
…, como la caída de un gran banco
internacional o una firma de inversiones.
Una de mis metas es investigar las fuerzas
de interacción política, social y económica
en los negocios contemporáneos."
Mark Lombardi (1951-2000)
Artista, pintor e historiador de arte
george w. bush, harken energy, and jackson stevens c.1979-90, 5th version, 1999
graphite on paper
20 x 44 inches
sold
george w. bush, harken energy, and jackson stevens c.1979-90, 5th version, (detail)
Compañías
Compañías versus
países: algunas
compañías privadas
tienen beneficios
anuales mayores que
el producto interior
bruto (PIB) de algunos
países. En el globo, se
renombran algunos
países siguiendo este
criterio.
vs.
Países
They Rule
w w w .theyrule.net
They Rule permite crear redes
de relaciones entre las 500
compañías más poderosas de
EEUU y muchas de sus
instituciones gubernamentales,
educativas o fundaciones, a
través de las personas que
ocupan asiento en sus consejos
de administración.
Algunas de estas personas
ocupan asientos en hasta 7
compañías...
Parámetros y estadísticos
• Parámetro: Es una cantidad numérica
calculada sobre una población.
– La altura media de los individuos de un país.
– La idea es resumir toda la información que hay
en la población en unos pocos números
(parámetros).
• Estadístico: Ídem pero cambiando población por muestra.
– La altura media de los que estamos en este aula.
• Somos una muestra (¿representativa?) de la población.
– Si un estadístico se usa para aproximar un parámetro, se le suele
101
llamar estimador.
Estadísticos
•
•
Centralización: Indican valores con
respecto a los que los datos parecen
agruparse. Media, mediana y moda
Posición: Dividen un conjunto
ordenado de datos en grupos con la
misma cantidad de individuos.
Cuantiles, percentiles, cuartiles, deciles,...
Dispersión: Indican la mayor o menor
concentración de los datos con respecto
a las medidas de centralización.
Desviación típica, coeficiente de variación,
rango, varianza
•
Forma: Asimetría; apuntamiento o
curtosis...
102
Estadísticos de posición
• Se define el cuantil de orden α como un valor
de la variable por debajo del cual se encuentra
una frecuencia acumulada α.
• Casos particulares son los percentiles,
cuartiles, deciles, quintiles,...
103
• Percentil de orden k = cuantil de orden k/100
– La mediana es el percentil 50.
– El percentil de orden 15 deja por debajo al 15% de
las observaciones. Por encima queda el 85%.
• Cuartiles: Dividen a la muestra en 4 grupos
con frecuencias similares.
– Primer cuartil = Percentil 25 = Cuantil 0,25.
– Segundo cuartil = Percentil 50 = Cuantil 0,5 =
mediana.
– Tercer cuartil = Percentil 75 = cuantil 0,75.
104
– Ejemplos: El 5% de los recién nacidos tiene un peso
demasiado bajo. ¿Qué peso se considera “demasiado
bajo”?
• Percentil 5 o cuantil 0,05.
– ¿Qué peso es superado sólo por el 25% de los
individuos?
• Percentil 75.
– El colesterol se distribuye simétricamente en la
población. Se considera patológico los valores extremos.
El 90% de los individuos son normales. ¿Entre qué
valores se encuentran los individuos normales?
• Entre el percentil 5 y el 95.
– ¿Entre qué valores se encuentran la mitad de los
individuos “más normales” de una población?
• Entre 1º y 3º cuartil (Q1 y Q3).
105
http://www.who.int/growthref/who2007_height_for_age/en/index.html
106
107
http://www.who.int/growthref/who2007_height_for_age/en/index.html
Niveles de Hb en 61 adultos normales
105
110
125
126
138
138
148
148
153
153
158 159 160
168
168
112
127
138
148
154
160
170
112
128
138
149 149.5
154
160
172
118
130
141
150
154
163
172
119
132
142
150
154
164
176
120
133 133.5
144
150
155
164
179
120
134
145
151
156
165
120
135
146
151
156
166
Un resumen de esta serie en 5 valores
Min = 105 ; Max =179; Q1 = 133.5 ; Q3 = 159 ; Q2 = Mn = 149.5
IQR = Q3 - Q1
Recorrido intercuartílico
Min
Max
(Mediana de los datos inferiores)
105
Q1
133.5
Mn
Q3 (Mediana de los datos superiores)
149.5 159
(“Box-and-Whisker” plot)
179
108
Porcentaje... ¿De qué?
«Per exemple: Si el contingut anterior d’un producte
era 75ml i ara és de 100ml, quant ens regalen? La
resposta no és evident. Si ens referim al contingut
inicial regalen el 33%, però del contingut total que
estan venent ara, només regalen el 25%. Davant d’un
percentatge sempre cal preguntar-se: percentatge,
de què? I descobrirem que moltes vegades no ho té
clar ni el que ho ha calculat.» Pere Grima
Porcentajes y puntos porcentuales:
«Los beneficios han pasado del 2% al 4%»
¿Han aumentado 2 puntos o han
aumentado un 100% ?
PVP = 100 €
18% de descompte = 82 €
Sense IVA: 82? NO!
Sense IVA: 84,75
(84,75 x 1,18 = 100)
Números para dar credibilidad
«Els percentatges es fan servir també per
donar un aire de rigor científic en alguns
anuncis. És millor per això fer ser- vir
números que no siguin rodons (millor
89% que no 90%» Pere Grima.
«Operacions amb percentatges: Cal vigilar quan es fan operacions amb percentatges! Si
un producte està for- mat per 10 components i el cost de cadascun d’ells s’incrementa
un 2%, quant augmenta tot el producte? No augmenta un 20%, com algú podria pensar,
sinó només un 2%.» Pere Grima.
Porcentajes basados en niveles y cambios de nivel
Un vendedor vendió el año pasado por valor de 100.000 €.
Su objetivo este año era aumentar la facturación un 6%. Ha conseguido vender por valor
de 103.000 €. ¿Qué porcentaje del objetivo ha cubierto?
«Si volem que pinti malament: Havia d’augmentar un 6% i ha augmentat un 3%. Ha assolit
només un 50% del previst. Si volem que pinti bé: El seu objectiu era vendre per 106 000 €.
S’ha quedat en 103 000 €, per tant el percentatge d’acompliment ha estat (103 000 / 106
000) x 100 = 97,2%» Pere Grima
6%
3% 50%
106.000
103.000
97,2%
Porcentajes y puntos percentuales
Los beneficios han pasado de un 3% a un 6%...
Han aumentado “un 3 %”
(en realidad 3 puntos percentuales)
Han aumentado un 100 %
La Vanguardia, 23 novembre 2003
«Dos problemes en aquesta notícia. El 23% del titular no surt ni calculant-lo bé ni
malament! 1. El que segurament pretenia el periodista era fer 45 – 18, però això dóna 27%,
no 23%. 2. Però és que aquest percentatge no es calcula així. El càlcul correcte seria [(45
– 18)/45] x 100 = 60%. Per exemple, si passem d’un 5% a un 0%, no disminuïm un 5%, sinó
un 100%!» Pere Grima
Operaciones con porcentajes
«Només un exemple que vaig veure fa
uns mesos al diari: “El 65% dels
menors...” però d’on surt aquest 65%?:
del 50% dels nens i el 15% de les nenes!
I si sortís del 100% dels nens i el 100%
de les nenes, tindríem aleshores el
200% dels menors...?» Pere Grima
El Periódico, 5 de gener de 2006. Pàgina 27
«Recelo de la Estadística; un buen
amigo mío murió ahogado en un río
cuya profundidad media era de 40 cm.»
Pío Baroja
En cierta ocasión le preguntaron a un
vendedor que como podía vender tan baratos
sus sándwiches de conejo, a lo que
respondió :
«Bueno, tengo que admitir que hay un
poco de carne de caballo. Pero la mezcla es
solo 50:50; uso el mismo numero de conejos
que de caballos».
[ Darrel Huff, "Como mentir con la estadística".]
115
Centralización
• Añaden unos cuantos casos particulares a las medidas
de posición. Son medidas que buscan posiciones
(valores) con respecto a los que los datos muestran
tendencia a agruparse.
• Media (‘mean’) Es la media aritmética (promedio) de
los valores de una variable. Suma de los valores
dividido por el tamaño muestral.
– Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5
– Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor. Muy
X=
sensible a valores extremos.
– Centro de gravedad de los datos.
n
Media ponderada Xp =
∑w x
i =1
n
i i
∑w
i =1
i
116
n
∑X
i =1
n
i
Si en la ETSIA la edad media de los chicos es de 25 años y la
edad media de las chicas es 23, ¿cuál es la media de edad de los
estudiantes de la escuela?
¿Dados dos conjuntos de datos y sus dos medias, ¿la media
de las medias será la media de todos los datos?
_
_
n1 x1 + n2 x 2
xT =
n1 + n2
_
_
_
_
n1 _
n2 _
xT =
x1 +
x 2 = p1 x1 + p2 x 2
n1 + n2
n1 + n2
117
H ≤G≤ X ≤Q
Otras medias
• Media Armónica (H):
H=
• Media Cuadrática (Q):
n
k
1
∑
i =1 x i × ni
k
Q=
2
x
∑ i ⋅ ni
i =1
n
• Media Geométrica (G) o media logarítmica:
G=
n
x1 ⋅ x 2 ⋅  ⋅ x n
La media no necesariamente
representa a todos
La Vanguardia 25 noviembre 2005. Pág. 5 (suplemento Vivir)
El Periódico 25 noviembre 2005; Pág. 45
Sueldos
El País, 6 de marzo de 2011, pág. 25
Confundir la media con el conjunto
La Vanguardia, 26 de Febrero de 2002. Página 16
Centralización
• Mediana (‘median’) Es un valor que divide a las
observaciones en dos grupos con el mismo número
de individuos (percentil 50). Si el número de datos
es par, se elige la media de los dos datos centrales.
– Mediana de 1, 2, 4, 5, 6, 6, 8 es 5
– Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5,5
– Es conveniente cuando los datos son
asimétricos. No es sensible a valores extremos.
• Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. ¡La media es
117,7!
Si queremos saber si estamos entre los que cobramos más o menos en
nuestra empresa, mejor comparar nuestro salario con la mediana y no con la
media...
• Moda (‘mode’) Es el/los valor/es donde la
distribución de frecuencia alcanza un máximo. Su
uso tiene más sentido con datos cualitativos.
123
Altura mediana
124
Asimetría o sesgo
• Una distribución es simétrica si la
mitad izquierda de su distribución es
la imagen especular de su mitad
derecha.
• En las distribuciones simétricas
media y mediana coinciden. Si sólo
hay una moda también coincide.
• La asimetría es positiva o negativa
en función de a qué lado se
encuentra la cola de la distribución.
• La media tiende a desplazarse hacia
las valores extremos (colas).
• Las discrepancias entre las medidas
de centralización son indicación de
asimetría.
127
Apuntamiento o curtosis (kurtosis)
• La curtosis nos indica el grado de apuntamiento (aplastamiento) de
una distribución con respecto a la distribución normal o gaussiana.
Es adimensional.
• Platicúrtica: curtosis < 0
• Mesocúrtica: curtosis = 0
Los gráficos poseen la misma media y
• Leptocúrtica: curtosis > 0
desviación típica, pero diferente grado
de apuntamiento o curtosis.
400
300
160
140
300
200
120
200
100
100
60
40
Frecuencia
Frecuencia
Frecuencia
80
0
27
45 48 51 54 57 60 63 66 69 72 75 78 81 84
Platicúrtica
37
32
45
41
Mesocúrtica
53
49
61
57
69
65
77
73
85
81
0
3
93
89
100
99
27
16
37
32
47
42
Leptocúrtica
57
52
67
62
77
72
87
82
128
97
92
108
102 138
Medidas de dispersión
•Miden el grado de dispersión (variabilidad)
de los datos, independientemente de su causa.
•Amplitud o Rango (‘range’):
La diferencia entre las
observaciones extremas.
– 2,1,4,3,8,4. El rango es 8-1=7
– Es muy sensible a los valores
extremos.
•Rango intercuartílico (‘interquartile range’):
– Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
– Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores.
– No es tan sensible a valores extremos.
129
Fr
1
0.75
0.5
0.25
Recorrido o rango
intercuartílico
0
P25
Q1
P50
Q2
mediana
P75
Q3
x
130
• Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al
cuadrado) de las observaciones con respecto a la media.
1
2
S = ∑ ( xi − x )
n i
2
– Es sensible a valores extremos (alejados de la media).
– Sus unidades son el cuadrado de las de la variable.
• Desviación típica (‘standard deviation’)
Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad
(unidades) que la variable.
S= S
2
131
• Coeficiente de variación
• Es la razón entre la desviación típica y la media.
– Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
– También se la denomina variabilidad relativa.
– Es frecuente mostrarla en porcentajes
S
CV =
x
• Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25%
(variabilidad relativa)
• Es una cantidad adimensional. Interesante para comparar la
variabilidad de diferentes variables.
– Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan
más dispersión en peso que en altura.
• No debe usarse cuando la variable presenta valores negativos o
donde el valor 0 sea una cantidad fijada arbitrariamente
– Por ejemplo 0ºC ≠ 0ºF
• Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su
inverso).
132
• Centrados en la media y a una desviación típica de distancia
tenemos más de la mitad de las observaciones (izq.)
• A dos desviaciones típicas las tenemos a casi todas (dcha.)
133
Desigualdad de Chebyshev (1821-1894)
Si un conjunto de datos posee una varianza pequeña
no existirán "muchos valores" alejados de la media.
Precisemos: sea el intervalo alrededor de la media:
x − kσ < xi < x + kσ
1
S = ∑ ( xi − x ) 2 ⋅ f i
n i
1
1
2
2
2
(
)
(
)
−
⋅
+
−
⋅ fi
S =
x
x
f
x
x
∑
∑
i
i
i
n i dentro
n i fuera
del
entorno


 del
entorno



2
>0
>0
134
Demostración:
1
S ≥
n
2
1
( xi − x ) ⋅ f i ≥
∑
n
i fuera
2
del entorno
1
=k S
n
2
1
n
2
∑f
∑k
2
S ⋅ fi =
2
i fuera
del entorno
i
i fuera
del entorno
1
fi ≤ 2
∑
k
i fuera
del entorno
La frecuencia relativa de los
datos que caen fuera del intervalo
de centro media y radio k veces
la varianza es igual o menor que
1/k2
135
7.000 millones y tú
Google Public Data Explorer
http://www.google.com/publicdata/home
Directorio – Banco Mundial – Población
Cada círculo es proporcional a la población del país y puedes cambiar el color en la misma
aplicación simplemente picando encima del círculo. Deberían aparecer los siguientes datos:
China 1.338 millones de habitantes, India 1.171, EEUU 309, España 46, Nigeria 158, Brasil 195
Datos de 2010 (Banco Mundial, Indicadores de Desarrollo).
Siete mil millones... y usted, ¿sabe qué número es?
http://www.bbc.co.uk/mundo/noticias/2011/10/111027_7_mil_millones_y_usted.shtml
“El 30 de octubre de 2011, con el nacimiento de Danica Mae Camacho en Manila,
Filipinas se alcanzó la cifra de 7 mil millones de habitantes”. ¿Es esta noticia una
afirmación exacta?
Obviamente se trata de una noticia periodística “coloreada”. Es
imposible determinar quién ha sido realmente el ciudadano
7.000 millones. Las estimaciones estadísticas poblacionales de la
ONU determinan el instante en que se espera el nacimiento del
humano 7.000 millones. Se busca el nacimiento en un hospital a
nivel mundial más cercano a ese instante y se utiliza el dato para
“humanizar” la información estadística. Una cuestión simbólica
discutible.
En http://www.worldometers.info/es/ puedes acceder a un reloj de población mundial y
otras estadísticas mundiales a tiempo real.
Entra en
http://www.bbc.co.uk/mundo/noticias/2011/10/111027_7_mil_millones_y_usted.shtml
introduce tu fecha de nacimiento y determina cuál es tu posición entre los 7.000 millones de
habitantes actuales de la Tierra. Prueba con las fechas de tus padres y abuelos. El crecimiento
de la población mundial se ha acelerado extraordinariamente a lo largo de las tres últimas
generaciones.
Tres posibles escenarios de la evolución de la población mundial hasta 2100 según
Naciones Unidas (2010).
http://esa.un.org/wpp/Analytical-Figures/htm/fig_1.htm
Sobrepoblación
Cuando el destino nos alcance
(Soylent Green, Richard Fleischer, 1973)
Extinción
Hijos de los hombres
(Children of Men, Alfonso Cuarón, 2006)
Ambas películas describen futuros distópicos: “Cuando el destino nos alcance” muestra un
planeta Tierra superpoblado en el año 2022, donde la energía y los alimentos son escasos. E
“Hijos de los hombres” transcurre en 2027 con una humanidad estéril abocada a la
extinción. Para referencias detalladas de estas películas, y ciencia ficción en general,
recomendamos el portal de ciencia ficción Alt64-wiki (http://www.alt64.org/wiki/)
Si cada persona viva tiene dos progenitores, que a su vez tuvieron dos progenitores,
etc… necesariamente en el pasado la población era superior a la actual. Piensa que tú
tienes dos padres, cuatro abuelos, ocho bisabuelos… De hecho mientras más atrás
vamos en el tiempo, mayor debería ser la población. ¿Es esto correcto?
La falacia se produce porque contamos repetidamente la misma persona muchas
veces. Piensa que si una pareja tiene tres hijos y cada uno tiene otros tres, la misma
pareja son los abuelos de 9 personas distintas. Además en todo árbol genealógico se
producen cruzamientos entre parientes más o menos lejanos.
141
Descargar