OBJETIVOS DEL TRABAJO El trabajo que se va a realizar consiste en el estudio de la distribución de la duración de películas cinematográficas. Contrastaré películas del género drama con películas del género comedia. Parto de la base de que las películas de drama son más largas que las de comedia, debido a que su trama es mucho más complicada. Mediante este trabajo trataré de probar esta hipótesis. OBTENCIÓN Y MUESTRA DE LOS DATOS Los datos han sido obtenidos de una videoteca particular. Eso no quiere decir que haya visto todas las películas, sino que hacía tiempo que ya habíamos tomado la duración de las mismas. Algunas de ellas pueden tener un error de 15 minutos más o menos, debido a los anuncios. Las películas compradas también tienen una duración aproximada, ya que existen trailers de otras películas al principio. Aquí están los datos: De esta manera los datos no aportan ninguna información, por lo que pasaremos a analizarlos. ANÁLISIS DESCRIPTIVO DE DATOS • DIAGRAMA DE TALLO Y HOJAS De estos dos diagramas ya podemos obtener algunas conclusiones: • Como bien habíamos supuesto las películas de comedia son más cortas que las de drama. • En las películas de comedia no existen datos atípicos, su distribución es mucho más uniforme, (las divisiones se contemplan de 5 en 5 minutos). • Las películas de drama sí tienen datos atípicos. Su argumento es mucho más complejo y por ello algunas películas necesitan de 3 horas para su completo desarrollo. Tal es el caso de El paciente inglés o de La lista de Schindler. • Los datos de películas de drama se distribuyen en su mayoría alrededor de los • Los datos de películas de comedia se distribuyen en su mayoría alrededor de los • Podríamos aventurarnos a decir que ambas variables parece que se distribuyen conforme a una normal por la aparente simetría. No obstante es muy pronto para poder afirmarlo. Mediante otros métodos de análisis llegaremos a asegurarlo o a rechazar esta hipótesis. • MEDIDAS CARACTERÍSTICAS Una vez observadas las medidas obtenidas, podremos corroborar algunas de las deducciones hechas con el diagrama de tallo y hojas. Como podemos ver las comedias tienen un rango muy inferior al de los dramas, por tanto su distribución está más centralizada. Existe gran equivalencia entre las medidas de centralización, sobre todo en las comedias. En ellas la mediana y la media son prácticamente iguales, por lo que llegamos a la conclusión de que los datos son homogéneos. En los dramas hay una pequeña diferencia entre la media y la mediana causada por los datos atípicos, pero esta diferencia no es tan grande como para considerar que exista heterogeneidad en los datos. Las medidas de dispersión son relativamente pequeñas. Mediante la desviación típica en las comedias 1 deducimos que entre 90 y 110 minutos están el 89% de los datos, y en los dramas entre 102 y 142 minutos. El coeficiente de variación se presenta multiplicado por 100, por tanto en el caso de los dramas es 0.1636 y en el caso de comedia 0.1041. Por tanto podemos asegurar la homogeneidad de los datos, ya que es menor que 1.5. 3. DIAGRAMA DE CAJA Mediante los diagramas de caja observamos mucho mejor las diferencias entre los rangos de ambos géneros, la centralización en las comedias, así como su simetría, y los datos atípicos en los dramas. Ahora podemos ver con más claridad que las comedias sí se asemejan a una normal, y los dramas a pesar de los datos atípicos, como son escasos también podría hallarse distribuida por una normal. 2 4. HISTOGRAMAS DE FRECUENCIA. He representado los histogramas de frecuencia junto con una gráfica comparativa de distribución normal. Podemos observar sin necesidad de ningún cálculo que las comedias se ajustan mucho más a una normal que los dramas. No obstante, realizaré una estimación de parámetros y los test de Kolmogorov−Smirnov y de . • DIAGRAMA DE PROBABILIDAD NORMAL 3 Si los datos fueran normales, se ajustarían a la recta. Pues bien, parece que nuestras variables coinciden bastante con las rectas, aunque parece que las comedias no se ajustan tanto como habíamos pensado en un principio. Tengamos en cuenta la variable drama. Si eliminásemos los datos atípicos ¿Se ajustaría más a una normal?. Lo comprobamos mediante otro histograma y otro diagrama de probabilidad normal. 4 Parece que con la eliminación de los datos atípicos la distribución sí es una normal, y además se aproxima bastante más que las comedias. No obstante nuestro objetivo es demostrar que las películas de drama son más largas que las comedias, y aunque ya ha quedado demostrado no tendría gracia que eliminase los datos más significativos, aunque con ello mi variable se distribuyese como una normal, por tanto los test y los intervalos de confianza los haré con la variable inicial completa. CONSTRUCCIÓN DEL MODELO Hemos visto en los puntos anteriores que las dos variables, drama y comedia, se asemejan considerablemente al modelo teórico. En este punto trataremos de demostrar con argumentos más consistentes que la mera observación, esta hipótesis. Los parámetros de nuestras variables son: DRAMA: Una Media de 122,509 y una Desviación Típica de 20,047 COMEDIA: Una Media de 120,018 y una Desviación Típica de 10,4145 • INTERVALOS DE CONFIANZA Tras repetidas pruebas, dando un intervalo de confianza del 95% tanto en la media como en la varianza, la variable comedia aceptará como mínima media el valor de 97.21 minutos y la variable drama 117.1 minutos. Con estos valores no se rechazan las hipótesis de ambas medias. • TEST DE Este test está basado en las diferencias entre los valores reales y los teóricos para que se distribuya como una normal (en este caso). Se puede apreciar que estas diferencias no son excesivamente grandes, de hecho para que este test acepte la distribución de nuestras variables como normales ha de tener un nivel de significación superior a 0.05, y en nuestro caso es 0.45 y 0.08 por lo que podemos aceptar nuestras distribuciones como normales. • TEST DE KOLMOGOROV−SMIRNOV Los niveles de aceptación de este test son más elevados que los del anterior. Era suficiente con que fuese mayor que 0.05 y a la vista tenemos los resultados. Por tanto, y ahora con seguridad podemos decir que nuestras variables se distribuyen como una normal. 5 Hay que decir que a simple vista deducíamos mayor probabilidad de que fuese una normal a la variable comedia y sin embargo los test nos dicen que la variable drama se asemeja más a una normal. El posible motivo es que una normal deja el 5% de los datos (pertenecientes a la cola) fuera de la representación, por lo que los datos atípicos quedarían fuera de ella. Si volvemos a observar las gráficas pertenecientes a la variable drama sin datos atípicos podemos observar que se asemeja más a una normal que la variable comedia. CONCLUSIONES Hemos demostrado nuestra hipótesis de la duración de las películas, en efecto las películas de drama son más largas que las comedias... Pero tampoco hace falta ser muy listo para deducir esto, por tanto no hemos demostrado nada que no supiéramos de antemano. No obstante jamás me había fijado en que las películas de comedia tienen una duración estándar, su rango es más bien pequeño, mientras que los dramas tienen más de una hora y media de diferencia entre las películas más cortas y las más largas. Supongo que todavía no ha nacido el genio que sea capaz de mantener la atención de un espectador y hacerle reír durante más de dos horas seguidas... La película se volvería repetitiva, soez e incluso vulgar. De hecho muchas de las películas que quieren hacerse pasar por comedias rayan lo absurdo y lo grosero y no despiertan en la mayoría de los espectadores más que una mueca de desagrado. Siempre he considerado mucho más difícil hacer reír a la gente que hacerla llorar. Para desgracia de todos, tenemos muchas más razones para llorar que para reír, o al menos eso creemos. Quizá por eso son muy pocas las buenas comedias y abundantes los buenos dramas. Con un poco de suerte dentro de poco aparecerá otro genio de la comedia como Jerry Lewis que consiga que todos tengamos agujetas de tanto reír. Hasta entonces nos tendremos que conformar con las comedias que simplemente se pueden ver, o `disfrutar' llorando con los dramas... 8 2 DRAMA: unidad = 1 1|2 representa 12 5 9|00388 13 10|01113577 25 11|000014556679 (14) 12|00001345567899 16 13|0445778 9 14|12556 4 15|0 3 16|5 HI|180, 185 6 COMEDIA: unidad = 1 1|2 representa 12 1 7o|9 2 8*|3 7 8o|57788 18 9*|00001222333 26 9o|55556889 (12) 10*|000000022344 17 10o|5566668 10 11*|03 8 11o|5568 4 12*|0012 Variable: DRAMA (longitud = 55) ( 1) 116 (19) 105 (37) 120 (55) 134 ( 2) 110 (20) 117 (38) 126 ( 3) 110 (21) 124 (39) 135 ( 4) 120 (22) 146 (40) 98 ( 5) 110 (23) 98 (41) 116 ( 6) 103 (24) 114 (42) 119 ( 7) 100 (25) 101 (43) 137 ( 8) 120 (26) 138 (44) 115 ( 9) 90 (27) 107 (45) 115 (10) 129 (28) 107 (46) 185 (11) 111 (29) 110 (47) 145 (12) 93 (30) 134 (48) 125 (13) 130 (31) 145 (49) 128 7 (14) 137 (32) 101 (50) 165 (15) 123 (33) 127 (51) 150 (16) 120 (34) 141 (52) 129 (17) 142 (35) 90 (53) 125 (18) 101 (36) 180 (54) 121 Variable: COMEDIA (longitud = 55) ( 1) 100 (19) 106 (37) 121 (55) 99 ( 2) 120 (20) 90 (38) 100 ( 3) 90 (21) 105 (39) 87 ( 4) 92 (22) 85 (40) 102 ( 5) 88 (23) 93 (41) 100 ( 6) 90 (24) 88 (42) 92 ( 7) 95 (25) 113 (43) 100 ( 8) 105 (26) 83 (44) 120 ( 9) 115 (27) 95 (45) 122 (10) 93 (28) 96 (46) 104 (11) 100 (29) 98 (47) 91 (12) 95 (30) 106 (48) 108 (13) 110 (31) 95 (49) 106 (14) 100 (32) 87 (50) 103 (15) 102 (33) 98 (51) 106 (16) 115 (34) 93 (52) 90 (17) 104 (35) 100 (53) 116 (18) 79 (36) 118 (54) 92 Variable: DRAMA COMEDIA Amplitud 55 55 8 Media 122.509 100.018 Mediana 120 100 Moda 120 100 Media geométrica 120.997 99.4949 Varianza 401.884 108.463 Desviación típica 20.047 10.4145 Mínimo 90 79 Máximo 185 122 Rango 95 43 Cuartil inferior 110 92 Cuartil superior 134 106 Skewness 0.95427 0.408092 Curtosis 1.48939 0.421846 Coef. de variación 16.3637 10.4126 DRAMA Muestra Estadística: N° de Observaciones 55 Media 122.509 Varianza 401.884 Desviación típica 20.047 Mediana 120 Intervalo de confianza para la Media: 95% Muestra 1 117.088 127.93 54 D.F. Intervalo de confianza para la Varianza: 95% Muestra 1 284.83 609.835 54 D.F. Test de Hipótesis para H0: Media = 120 Computed t statistic = 0.928212 9 vs Alt: NE Nivel de Sig. = 0.357428 at Alpha = 0.05 NO SE RECHAZA H0. COMEDIA Muestra Estadística: N° de Observaciones 55 Media 100.018 Varianza 108.463 Desviación Típica 10.4145 Mediana 100 Intervalo de confianza para la Media: 95 % Muestra 1 97.2021 102.834 54 D.F. Intervalo de confianza para la Varianza: 95 % Muestra 1 76.8713 164.585 54 D.F. Test de Hipótesis H0: Media = 98 Computed t statistic = 0.0129473 vs Alt: NE Nivel de Sig. = 0.989718 at Alpha = 0.05 NO SE RECHAZA H0. DRAMA Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada en o por debajo 100.000 6 7.2 .1975 100.000 113.333 12 10.6 .1835 113.333 120.000 11 7.0 2.3391 120.000 126.667 6 7.3 .2179 126.667 133.333 5 6.8 .4663 133.333 140.000 6 5.7 .0188 sobre 140.000 9 10.5 .2225 10 = 3.64555 con 4 d.f. nivel de Sig. = 0.456095 COMEDIA Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada en o por debajo 87.111 5 5.9 .1426 87.111 92.667 10 7.3 1.0087 92.667 98.222 10 10.5 .0265 98.222 101.000 8 5.8 .8069 101.000 103.778 3 5.7 1.2693 103.778 106.556 8 5.2 1.5525 106.556 112.111 2 7.8 4.3378 sobre 112.111 9 6.8 .7476 = 9.89183 con 5 d.f. nivel Sig. = 0.0783588 DRAMA Estimación estadística de KOLMOGOROV DPLUS = 0.0821379 Estimación estadística KOLMOGOROV DMINUS = 0.0561989 Estimación estadística sobre todo DN = 0.0821379 Nivel aproximado de significación = 0.851939 COMEDIA Estimación estadística de KOLMOGOROV DPLUS =0.100692 Estimación estadística KOLMOGOROV DMINUS = 0.0703188 Estimación estadística sobre todo DN = 0.100692 Nivel aproximado de significación = 0.632632 11