Estudio de Distribución

Anuncio
OBJETIVOS DEL TRABAJO
El trabajo que se va a realizar consiste en el estudio de la distribución de la duración de películas
cinematográficas. Contrastaré películas del género drama con películas del género comedia.
Parto de la base de que las películas de drama son más largas que las de comedia, debido a que su
trama es mucho más complicada. Mediante este trabajo trataré de probar esta hipótesis.
OBTENCIÓN Y MUESTRA DE LOS DATOS
Los datos han sido obtenidos de una videoteca particular. Eso no quiere decir que haya visto todas las
películas, sino que hacía tiempo que ya habíamos tomado la duración de las mismas. Algunas de ellas
pueden tener un error de 15 minutos más o menos, debido a los anuncios. Las películas compradas
también tienen una duración aproximada, ya que existen trailers de otras películas al principio.
Aquí están los datos:
De esta manera los datos no aportan ninguna información, por lo que pasaremos a analizarlos.
ANÁLISIS DESCRIPTIVO DE DATOS
• DIAGRAMA DE TALLO Y HOJAS
De estos dos diagramas ya podemos obtener algunas conclusiones:
• Como bien habíamos supuesto las películas de comedia son más cortas que las de drama.
• En las películas de comedia no existen datos atípicos, su distribución es mucho más uniforme, (las
divisiones se contemplan de 5 en 5 minutos).
• Las películas de drama sí tienen datos atípicos. Su argumento es mucho más complejo y por ello algunas
películas necesitan de 3 horas para su completo desarrollo. Tal es el caso de El paciente inglés o de La lista
de Schindler.
• Los datos de películas de drama se distribuyen en su mayoría alrededor de los
• Los datos de películas de comedia se distribuyen en su mayoría alrededor de los
• Podríamos aventurarnos a decir que ambas variables parece que se distribuyen conforme a una normal por
la aparente simetría. No obstante es muy pronto para poder afirmarlo. Mediante otros métodos de análisis
llegaremos a asegurarlo o a rechazar esta hipótesis.
• MEDIDAS CARACTERÍSTICAS
Una vez observadas las medidas obtenidas, podremos corroborar algunas de las deducciones hechas con el
diagrama de tallo y hojas.
Como podemos ver las comedias tienen un rango muy inferior al de los dramas, por tanto su distribución está
más centralizada.
Existe gran equivalencia entre las medidas de centralización, sobre todo en las comedias. En ellas la mediana
y la media son prácticamente iguales, por lo que llegamos a la conclusión de que los datos son homogéneos.
En los dramas hay una pequeña diferencia entre la media y la mediana causada por los datos atípicos, pero
esta diferencia no es tan grande como para considerar que exista heterogeneidad en los datos.
Las medidas de dispersión son relativamente pequeñas. Mediante la desviación típica en las comedias
1
deducimos que entre 90 y 110 minutos están el 89% de los datos, y en los dramas entre 102 y 142 minutos.
El coeficiente de variación se presenta multiplicado por 100, por tanto en el caso de los dramas es 0.1636 y en
el caso de comedia 0.1041. Por tanto podemos asegurar la homogeneidad de los datos, ya que es menor que
1.5.
3. DIAGRAMA DE CAJA
Mediante los diagramas de caja observamos mucho mejor las diferencias entre los rangos de ambos géneros,
la centralización en las comedias, así como su simetría, y los datos atípicos en los dramas. Ahora podemos ver
con más claridad que las comedias sí se asemejan a una normal, y los dramas a pesar de los datos atípicos,
como son escasos también podría hallarse distribuida por una normal.
2
4. HISTOGRAMAS DE FRECUENCIA.
He representado los histogramas de frecuencia junto con una gráfica comparativa de distribución normal.
Podemos observar sin necesidad de ningún cálculo que las comedias se ajustan mucho más a una normal que
los dramas. No obstante, realizaré una estimación de parámetros y los test de Kolmogorov−Smirnov y de
.
• DIAGRAMA DE PROBABILIDAD NORMAL
3
Si los datos fueran normales, se ajustarían a la recta. Pues bien, parece que nuestras variables coinciden
bastante con las rectas, aunque parece que las comedias no se ajustan tanto como habíamos pensado en un
principio. Tengamos en cuenta la variable drama. Si eliminásemos los datos atípicos ¿Se ajustaría más a una
normal?. Lo comprobamos mediante otro histograma y otro diagrama de probabilidad normal.
4
Parece que con la eliminación de los datos atípicos la distribución sí es una normal, y además se aproxima
bastante más que las comedias. No obstante nuestro objetivo es demostrar que las películas de drama son más
largas que las comedias, y aunque ya ha quedado demostrado no tendría gracia que eliminase los datos más
significativos, aunque con ello mi variable se distribuyese como una normal, por tanto los test y los intervalos
de confianza los haré con la variable inicial completa.
CONSTRUCCIÓN DEL MODELO
Hemos visto en los puntos anteriores que las dos variables, drama y comedia, se asemejan considerablemente
al modelo teórico. En este punto trataremos de demostrar con argumentos más consistentes que la mera
observación, esta hipótesis.
Los parámetros de nuestras variables son:
DRAMA: Una Media de 122,509 y una Desviación Típica de 20,047
COMEDIA: Una Media de 120,018 y una Desviación Típica de 10,4145
• INTERVALOS DE CONFIANZA
Tras repetidas pruebas, dando un intervalo de confianza del 95% tanto en la media como en la varianza, la
variable comedia aceptará como mínima media el valor de 97.21 minutos y la variable drama 117.1 minutos.
Con estos valores no se rechazan las hipótesis de ambas medias.
• TEST DE
Este test está basado en las diferencias entre los valores reales y los teóricos para que se distribuya como una
normal (en este caso). Se puede apreciar que estas diferencias no son excesivamente grandes, de hecho para
que este test acepte la distribución de nuestras variables como normales ha de tener un nivel de significación
superior a 0.05, y en nuestro caso es 0.45 y 0.08 por lo que podemos aceptar nuestras distribuciones como
normales.
• TEST DE KOLMOGOROV−SMIRNOV
Los niveles de aceptación de este test son más elevados que los del anterior. Era suficiente con que fuese
mayor que 0.05 y a la vista tenemos los resultados. Por tanto, y ahora con seguridad podemos decir que
nuestras variables se distribuyen como una normal.
5
Hay que decir que a simple vista deducíamos mayor probabilidad de que fuese una normal a la variable
comedia y sin embargo los test nos dicen que la variable drama se asemeja más a una normal. El posible
motivo es que una normal deja el 5% de los datos (pertenecientes a la cola) fuera de la representación, por lo
que los datos atípicos quedarían fuera de ella. Si volvemos a observar las gráficas pertenecientes a la variable
drama sin datos atípicos podemos observar que se asemeja más a una normal que la variable comedia.
CONCLUSIONES
Hemos demostrado nuestra hipótesis de la duración de las películas, en efecto las películas de drama son más
largas que las comedias... Pero tampoco hace falta ser muy listo para deducir esto, por tanto no hemos
demostrado nada que no supiéramos de antemano.
No obstante jamás me había fijado en que las películas de comedia tienen una duración estándar, su rango es
más bien pequeño, mientras que los dramas tienen más de una hora y media de diferencia entre las películas
más cortas y las más largas.
Supongo que todavía no ha nacido el genio que sea capaz de mantener la atención de un espectador y hacerle
reír durante más de dos horas seguidas... La película se volvería repetitiva, soez e incluso vulgar. De hecho
muchas de las películas que quieren hacerse pasar por comedias rayan lo absurdo y lo grosero y no despiertan
en la mayoría de los espectadores más que una mueca de desagrado.
Siempre he considerado mucho más difícil hacer reír a la gente que hacerla llorar. Para desgracia de todos,
tenemos muchas más razones para llorar que para reír, o al menos eso creemos. Quizá por eso son muy pocas
las buenas comedias y abundantes los buenos dramas.
Con un poco de suerte dentro de poco aparecerá otro genio de la comedia como Jerry Lewis que consiga que
todos tengamos agujetas de tanto reír. Hasta entonces nos tendremos que conformar con las comedias que
simplemente se pueden ver, o `disfrutar' llorando con los dramas...
8
2
DRAMA: unidad = 1 1|2 representa 12
5 9|00388
13 10|01113577
25 11|000014556679
(14) 12|00001345567899
16 13|0445778
9 14|12556
4 15|0
3 16|5
HI|180, 185
6
COMEDIA: unidad = 1 1|2 representa 12
1 7o|9
2 8*|3
7 8o|57788
18 9*|00001222333
26 9o|55556889
(12) 10*|000000022344
17 10o|5566668
10 11*|03
8 11o|5568
4 12*|0012
Variable: DRAMA (longitud = 55)
( 1) 116 (19) 105 (37) 120 (55) 134
( 2) 110 (20) 117 (38) 126
( 3) 110 (21) 124 (39) 135
( 4) 120 (22) 146 (40) 98
( 5) 110 (23) 98 (41) 116
( 6) 103 (24) 114 (42) 119
( 7) 100 (25) 101 (43) 137
( 8) 120 (26) 138 (44) 115
( 9) 90 (27) 107 (45) 115
(10) 129 (28) 107 (46) 185
(11) 111 (29) 110 (47) 145
(12) 93 (30) 134 (48) 125
(13) 130 (31) 145 (49) 128
7
(14) 137 (32) 101 (50) 165
(15) 123 (33) 127 (51) 150
(16) 120 (34) 141 (52) 129
(17) 142 (35) 90 (53) 125
(18) 101 (36) 180 (54) 121
Variable: COMEDIA (longitud = 55)
( 1) 100 (19) 106 (37) 121 (55) 99
( 2) 120 (20) 90 (38) 100
( 3) 90 (21) 105 (39) 87
( 4) 92 (22) 85 (40) 102
( 5) 88 (23) 93 (41) 100
( 6) 90 (24) 88 (42) 92
( 7) 95 (25) 113 (43) 100
( 8) 105 (26) 83 (44) 120
( 9) 115 (27) 95 (45) 122
(10) 93 (28) 96 (46) 104
(11) 100 (29) 98 (47) 91
(12) 95 (30) 106 (48) 108
(13) 110 (31) 95 (49) 106
(14) 100 (32) 87 (50) 103
(15) 102 (33) 98 (51) 106
(16) 115 (34) 93 (52) 90
(17) 104 (35) 100 (53) 116
(18) 79 (36) 118 (54) 92
Variable: DRAMA COMEDIA
Amplitud 55 55
8
Media 122.509 100.018
Mediana 120 100
Moda 120 100
Media geométrica 120.997 99.4949
Varianza 401.884 108.463
Desviación típica 20.047 10.4145
Mínimo 90 79
Máximo 185 122
Rango 95 43
Cuartil inferior 110 92
Cuartil superior 134 106
Skewness 0.95427 0.408092
Curtosis 1.48939 0.421846
Coef. de variación 16.3637 10.4126
DRAMA
Muestra Estadística: N° de Observaciones 55
Media 122.509
Varianza 401.884
Desviación típica 20.047
Mediana 120
Intervalo de confianza para la Media: 95%
Muestra 1 117.088 127.93 54 D.F.
Intervalo de confianza para la Varianza: 95%
Muestra 1 284.83 609.835 54 D.F.
Test de Hipótesis para H0:
Media = 120 Computed t statistic = 0.928212
9
vs Alt: NE Nivel de Sig. = 0.357428
at Alpha = 0.05 NO SE RECHAZA H0.
COMEDIA
Muestra Estadística: N° de Observaciones 55
Media 100.018
Varianza 108.463
Desviación Típica 10.4145
Mediana 100
Intervalo de confianza para la Media: 95 %
Muestra 1 97.2021 102.834 54 D.F.
Intervalo de confianza para la Varianza: 95 %
Muestra 1 76.8713 164.585 54 D.F.
Test de Hipótesis H0: Media = 98 Computed t statistic = 0.0129473
vs Alt: NE Nivel de Sig. = 0.989718
at Alpha = 0.05 NO SE RECHAZA H0.
DRAMA
Límite Límite Frecuencia Frecuencia
Inferior Superior Observada Esperada
en o por debajo 100.000 6 7.2 .1975
100.000 113.333 12 10.6 .1835
113.333 120.000 11 7.0 2.3391
120.000 126.667 6 7.3 .2179
126.667 133.333 5 6.8 .4663
133.333 140.000 6 5.7 .0188
sobre 140.000 9 10.5 .2225
10
= 3.64555 con 4 d.f. nivel de Sig. = 0.456095
COMEDIA
Límite Límite Frecuencia Frecuencia
Inferior Superior Observada Esperada
en o por debajo 87.111 5 5.9 .1426
87.111 92.667 10 7.3 1.0087
92.667 98.222 10 10.5 .0265
98.222 101.000 8 5.8 .8069
101.000 103.778 3 5.7 1.2693
103.778 106.556 8 5.2 1.5525
106.556 112.111 2 7.8 4.3378
sobre 112.111 9 6.8 .7476
= 9.89183 con 5 d.f. nivel Sig. = 0.0783588
DRAMA
Estimación estadística de KOLMOGOROV DPLUS = 0.0821379
Estimación estadística KOLMOGOROV DMINUS = 0.0561989
Estimación estadística sobre todo DN = 0.0821379
Nivel aproximado de significación = 0.851939
COMEDIA
Estimación estadística de KOLMOGOROV DPLUS =0.100692
Estimación estadística KOLMOGOROV DMINUS = 0.0703188
Estimación estadística sobre todo DN = 0.100692
Nivel aproximado de significación = 0.632632
11
Descargar