MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MASTER D’ESTADÍSTICA I INVESTIGACIÓ OPERATIVA APUNTS DE CLASSE PROF. LÍDIA MONTERO: TEMA 1: INTRODUCCIÓ ALS MÈTODES DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES AUTORA: Lídia Montero Mercadé Departament d’Estadística i Investigació Operativa Versió 1.5 Setembre del 2.013 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC TABLA DE CONTENIDOS 1-1. TEMA 1: INTRODUCCIÓN A LA RECOGIDA DE DATOS (*)_________________________________________________________________ 3 1-1.1 TÉCNICAS DE OBSERVACIÓN DE LA REALIDAD ________________________________________________________________________________ 3 1-1.2 COSTES DE UNA ENCUESTA POR CUESTIONARIO _______________________________________________________________________________ 5 1-1.3 CONCEPCIÓN DEL CUESTIONARIO: DISEÑO DEL CUESTIONARIO __________________________________________________________________ 6 1-1.3.1 ANATOMÍA DEL CUESTIONARIO ____________________________________________________________________________________________ 6 1-1.3.2 ORDEN DE LAS PREGUNTAS DEL CUESTIONARIO _______________________________________________________________________________ 7 1-1.3.3 PRINCIPIOS DE REDACCIÓN DE LAS PREGUNTAS DEL CUESTIONARIO _______________________________________________________________ 8 1-1.4 PLANIFICACIÓN DE LA ENCUESTA: DISEÑO DEL PLAN DE MUESTREO _____________________________________________________________ 10 1-1.5 SELECCIÓN DE LA MUESTRA: PROBABILISTA O NO PROBABILISTA _______________________________________________________________ 10 1-1.5.1 SELECCIÓN DE MUESTRAS PROBABILISTAS __________________________________________________________________________________ 12 1-1.6 TRATAMIENTO DE LOS DATOS ____________________________________________________________________________________________ 14 1-1.6.1 DEPURACIÓN DEL ARCHIVO DE DATOS Y TRATAMIENTO ESTADÍSTICO _____________________________________________________________ 16 1-1.6.2 ESTRATEGIAS DE K VECINOS MÁS PRÓXIMOS ________________________________________________________________________________ 21 1-2. TIPOLOGÍA DE ERRORES MODELOS Y EN PREDICCIONES ______________________________________________________________ 24 1-3. 1-3.1 1-3.2 1-3.3 1-3.4 1-3.5 TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE __________________________________________________________________________ ENCUESTAS DOMICILIARÍAS ______________________________________________________________________________________________ ENCUESTAS CORDÓN, PANTALLA Y AFOROS ________________________________________________________________________________ OTRAS INFORMACIONES RECOGIDAS _______________________________________________________________________________________ ENCUESTAS DE PREFERENCIAS DECLARADAS, PD (STATED PREFERENCE SURVEYS) _________________________________________________ ENCUESTAS DE PREFERENCIAS REVELADAS EN REPARTO MODAL _______________________________________________________________ 27 27 29 30 31 37 1-4. 1-4.1 1-4.2 1-4.3 EJEMPLOS DE ENCUESTAS EN TRANSPORTE: SP, PR, CALIDAD _________________________________________________________ EJEMPLO PD: CAMBIOS EN LA OFERTA DE AUTOBUSES, COMPETENCIA ENTRE EL AUTOBÚS, EL COCHE Y A PIE. _________________________ EJEMPLO ENC.CALIDAD DEL SERVICIO EN LA RED DE AUTOBÚS DE CIUDAD PEQUEÑA_______________________________________________ EJEMPLO ENCUESTA DE MOVILIDAD DOMICILIARIA EN ÁMBITO REGIONAL ______________________________________________________ 46 46 50 58 Prof. Lídia Montero © Pàg. 1- 2 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1. TEMA 1: INTRODUCCIÓN A LA RECOGIDA DE DATOS (*) 1-1.1 Técnicas de observación de la realidad Permiten explicar lo que hacen, dicen u opinan los distintos agentes sociales implicados en un problema real. La encuesta por cuestionario facilita la observación sistemática y objetiva más allá de la visión de los distintos agentes sociales. Permite la comparación entre individuos (segmentos) y obtener datos cuantitativos que pueden generalizarse a los distintos segmentos de la población utilizando técnicas de inferencia estadística. Realidad -Hechos Cuestionario Datos Información ⇒ Con diseño de cuestionario: tipos de administración de las encuestas con cuestionarios. o Entrevista personal con cuestionario impreso y rellenado manual de las respuestas por parte del entrevistador. o Cuestionario de autocumplimentación enviado por correo (buzoneo). o Cuestionario telefónico sin contacto personal y cumplimentación por parte del entrevistador. o Computer Assisted Interview (entrada de datos con control y filtraje de errores): • CATI (by telephone) • CAPI (personal) • CASI (self interviewing, by internet) (*) Agradecimiento: Dr Tomàs Aluja, por los muchos y buenos consejos recibidos sobre el tema. Prof. Lídia Montero © Pàg. 1- 3 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 INTRODUCCIÓN: ENCUESTAS POR CUESTIONARIO ⇒ Por mera observación, por ejemplo estudio de las transacciones o accesos efectuados a servidores web. ⇒ Por discusión entre un grupo de expertos (focus group). La recogida de datos por cuestionario requiere del desarrollo de una metodología específica (diseño del cuestionario) y de una tecnología para filtrar, validar, almacenar y posteriormente realizar estudios estadísticos de los datos recogidos. Parten del supuesto que la opinión pública es la suma de las opiniones individuales, que todas las opiniones valen lo mismo y que todo el mundo debe tener una opinión sobre las preguntas planteadas. Fuente: M. Bécue – UPC Prof. Lídia Montero © Pàg. 1- 4 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 INTRODUCCIÓN: ENCUESTAS POR CUESTIONARIO Diferencia entre datos (asociado a los valores de las variables) e información (asociada a los conceptos objeto del estudio). Etapas de una encuesta: ⇒ Planificación: Diseño del Cuestionario y diseño del Plan de Muestreo. ⇒ Trabajo de Campo. ⇒ Explotación de los datos 1-1.2 Costes de una encuesta por cuestionario • Diseño del cuestionario • Grabación de los datos (valores de las variables contempladas). • Diseño del plan de muestreo. Tamaño. • Supervisión de la calidad del trabajo de campo, codificación y grabación de la encuesta. • Selección de la muestra. • Pretest: Encuesta piloto. • Análisis estadístico de los datos: exploratorio y confirmatorio. • Selección y training de los encuestadores. • Sueldos, viajes y dietas de los encuestadores. • Preparación de informes, memorias técnicas y resúmenes ejecutivos. • Codificación de las respuestas. Prof. Lídia Montero © • Teléfono, copistería. Pàg. 1- 5 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO 1-1.3 Concepción del cuestionario: diseño del cuestionario El cuestionario está determinado por el objetivo de la investigación, el tipo de administración y la explotación de los datos. Resulta imprescindible conocer lo que dicen los distintos agentes sociales implicados, los expertos y las fuentes de datos disponibles para construir caracterizar la población objeto de estudio. Resulta necesario introducir una terminología: el objetivo de la encuesta ha de especificarse a través de los conceptos significativos bajo los que va a observarse. Las preguntas son los medios para capturar datos y permiten dar valores a las características observables (variables) u obtener indicadores sobre variables complejas. Indicadores y variables aportarán datos que posteriormente serán transformados en información sobre los conceptos significativos en el objetivo de estudio. 1 - 1 . 3. 1 Anatomía del cuestionario • Descriptores socioeconómicos de los individuos (género, edad, educación, posición social, situación laboral, actividad profesional, residencia, estructura familiar, nivel de renta, patrimonio, etc). • Descriptores contextuales: altamente dependientes del objeto de estudio (conocimiento del contexto, comportamientos, etc). • Descriptores de prácticas y opiniones (actitudes, hábitos, colectivos de pertenencia, etc). Prof. Lídia Montero © Pàg. 1- 6 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO Los expertos sugieren emplear un formato tipo cuadernillo: • Tipografía clara • Diferenciar tipográficamente preguntas, preguntas filtro, frases de transición, respuestas, notas para los encuestadores y marcas para la codificación. • Debe ser lo más breve posible, depende del tema, la población estudiada y la modalidad de administración (telefónica o presencial). 1 - 1 . 3. 2 Orden de las preguntas del cuestionario La estructura del cuestionario puede variar según contenido, pero en todo caso deber ser coherente y facilitar el desarrollo y la continuidad de las preguntas que lo integran. La ordenación general y de las preguntes es importante y se pueden dar algunos consejos al respecto: 1. Ir de lo general a lo particular. 2. Ir de lo menos comprometido a lo más comprometido. 3. Las preguntas delicadas nunca han de ir al principio o al final. 4. Las preguntas socioeconómicas han de ir al fin. 5. Se han de usar frases de transición para romper la monotonía y en los cambios de temática. 6. Las primeras preguntas suelen ser estratégicas marcan el tono y predisponen al encuestado: deben ser neutras, amenas y fáciles. Prof. Lídia Montero © Pàg. 1- 7 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO 7. Se debe evitar que una pregunta (o grupo de preguntas) condicione la respuesta a las preguntas siguientes. 8. Resulta imprescindible diseñar preguntas filtro para no frustar a las personas que no tienen ciertos requisitos o para evitar condicionamientos. 9. El orden las preguntas puede influir en la no-respuesta, el peor de los lastres de una encuesta por cuestionario, en temas delicados la no-respuesta tiende a aumentar con la edad del encuestado, el género femenino, las actividades profesionales menos cualificadas, el bajo nivel educativo y el menor tamaño de los grupos de pertenencia. 1 - 1 . 3. 3 Principios de redacción de las preguntas del cuestionario 1. Emplear un vocabulario simple y adaptado al tipo de población estudiada. Prestar atención a las palabras introductorias de temas y preguntas. 2. Evitar formular una pregunta de manera que respuesta suponga reunir ciertos requisitos. 3. Verificar la estructura lógica de las preguntas: frases interrogativas con negaciones, dobles negaciones que pueden llevar a ambigüedades, incomprensión y finalmente errores de observación. 4. Evitar la introducción de 2 conceptos en la misma pregunta y las preguntas dobles. Prof. Lídia Montero © Pàg. 1- 8 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO 5. Evitar los términos cargados de afectividad, juicios de valor o frases de connotaciones diversas en función del contexto puesto que se modifica el sentido de la pregunta en función del contexto del individuo. 6. Evitar ambigüedades y situaciones en que a una misma pregunta se le pueda dar una misma respuesta, pero por razones diversas. 7. Autorizar dobles respuestas en preguntas cerradas, pero minimizarlas al mínimo dado que el análisis estadístico posterior se complica enormemente. 8. Las preguntas cerradas (donde los individuos eligen la respuesta entre una lista de posibilidades) debe cubrir todas las posibles situaciones. Se ha de establecer, si procede, un equilibrio entre modalidades positivas y negativas, revisando muy bien la lista de posibilidades ofertadas. 9. Valorar la inclusión de las no-respuestas y alternativas intermedias o neutras. Las preguntas abiertas-cerradas facilitan posicionamientos diferenciales. 10. Si se ofrece el “NS/NC” da opción a evadir la respuesta; sinó, fuerza a opinar a los sin opinión diminuyendo la no respuesta. 11. En preguntas delicadas convertir actitudes en creencias y combinarlas con preguntas irrelevantes. Los modos verbales son extremadamente importantes en estas preguntas. Prof. Lídia Montero © Pàg. 1- 9 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO 1-1.4 Planificación de la encuesta: diseño del plan de muestreo El plan de muestreo operativo detalla: • Los recursos disponibles y los costes previstos. • El calendario. • El tamaño y la composición de la muestra. Definición del marco muestral. • Las responsabilidades de las personas que efectúan el trabajo de campo. • La selección de la muestra. Rutas e itinerarios de los encuestadores. • Las formas de supervisión del trabajo de campo: revisión de las respuestas a los cuestionarios, control de la muestra, reencuesta para completar no respuestas, imputación de no respuestas. 1-1.5 Selección de la muestra: probabilista o no probabilista La población objeto de estudio puede estar disponible informatizadamente (marco muestral de referencia), de manera que sea posible realizar una selección aleatoria por algún método de muestreo de las unidades que van a integrar la muestra: se conoce a priori la probabilidad que tiene cada individuo de formar parte de la muestra (muestreo probabilista). Por razones de coste, no suele haber un marco muestral disponible y se opta por algún método de muestreo no probabilista. Hay dos grandes familias: por cuotas o por itinerarios. Prof. Lídia Montero © Pàg. 1- 10 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO Los métodos por cuotas imponen el reparto de la muestra según las cuotas (marginales o conjuntas) en la población. El principio reside en seleccionar una estructura de la muestra idéntica a la estructura de la población y por tanto, las variables que definen las cuotas (en general, género y grupo de edad) han de tener una influencia preponderante en el objetivo del estudio. Requiere entrevistadores capacitados que administren bien sus cuotas (y al final no les quede por entrevistar a un deportista de más de 80 años), las cuotas poblacionales en las distintas macrozonas de estudio han de ser recientes y fiables. Suelen dar buenos resultados en muestras pequeñas y por tanto, se combinan con diseños de primeras etapas probabilistas. El método de los itinerarios define al entrevistador un itinerario fijo sobre un plano y los puntos de encuesta. El coste de puesta en marcha para elaborar los itinerarios que den una cobertura satisfactoria a la población objeto de estudio no es despreciable. Da buenos resultados. La muestra debe ser representativa (reproducir las características del conjunto de la población). Diferenciar entre población (finita o infinita) y muestra. • La selección de la muestra por cuotas, por paseo aleatorio, etc lleva a las denominadas muestras no probabilistas. Hay técnicas de selección de la muestra (técnicas de muestreo) que llevan a muestras probabilistas sobre las que los estadísticos pueden aplicar todo el aparato de la inferencia estadística matemática convencional. Prof. Lídia Montero © Pàg. 1- 11 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-2 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO 1 - 1 . 5. 1 Selección de muestras probabilistas Las técnicas de selección de muestras probabilistas son muy variadas y el aparato estadístico-matemático resulta en la mayoría de casos complejos, es un campo para los especialistas en Estadística. Sin embargo, conviene conocer las principales técnicas de muestreo para valorar objetivamente las conclusiones de las encuestas que aparecen en la práctica profesional. Las técnicas de muestreo probabilista de las que se va a hablar en el presente curso son: • Muestreo aleatorio simple. Muestreo sistemático. ASSR m ind. H 2 Estratificación: Proporcional al tamaño según las UP's por estrato Sea f = n/N; n h = f . Nh 1 f: factor de muestreo (en familias) nh: tamaño muestral (UP o familias) en el estrato h mh desconocido a priori (tamaño muestral en individuos estrato h) • Muestreo Estratificado. Proporcional y no proporcional (Neymann). Universo: M ~ 250.000 N ~ 80.000 Prof. Lídia Montero © Pàg. 1- 12 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS • Muestreo por Conglomerados (clusters) y muestreo multietápico. CONGLOMERADOS n conglom. (fam.) cada uno tamaño m (ind.) m=n m Existen técnicas de postajuste de las muestras para corregir deficiencias de representatividad de las muestras. Las técnicas se clasifican en: • Post-ponderación (weighting tecniques) • Estimadores por cociente (ratio) y por regresión. Las muestras se emplean para estimar parámetros de la población el error de muestreo siempre existe es inherente a la variabilidad de la población y al hecho de estar trabajando con un subconjunto de ella (la muestra). El error de muestreo se puede acotar y en general es inversamente proporcional al tamaño de la muestra: el plan de muestreo seleccionado es el que determina las fórmulas a emplear. El sesgo del muestreo no debe confundirse con el error de muestreo: la deficiencia de una muestra, es decir, su falta de representatividad es la causante de esta fuente de error. Prof. Lídia Montero © Pàg. 1- 13 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS 1-1.6 Tratamiento de los datos Etapa final posterior al trabajo de campo. • Control de las respuestas cerradas. Codificación de aviso de los casos de no-respuesta para su posterior tratamiento estadístico. • Codificación de las preguntas abiertas: manualmente (hay que homogeneizar los criterios de codificación) o con técnicas estadísticas de análisis lexicométricos. • La grabación de los datos codificados en un archivo informatizado con formato preestablecido: creación de un archivo de datos brutos. A veces hay varios en función de las distintas partes en que se descompone el temario de la encuesta. Doble grabación o grabación asistida. Prof. Lídia Montero © Pàg. 1- 14 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS Los tipos de datos suelen ser muy variados: numéricos (discretos o continuos), cualitativos (nominales u ordinales), textos, imágenes, videos, etc. • Los entornos de almacenamiento de los datos deben permitir la definición de los diversos tipos. • Los procedimientos de filtraje y validación son distintos según la tipología del dato. • La introducción de metainformación es imprescindible para la correcta interpretación de los resultados, así como en los pasos iniciales del proceso de análisis, ya que permite clasificar entre distintos tipos de datos faltantes (missing data) y facilita la detección de outliers (valores estraños, ya sea por su especificidad o bien por resultar incorrectos). Ejemplo de la medición de la capa de ozono en el casquete antártico. ⇒ Existen estándares para el almacenamiento e intercambio de datos informatizados (XML). ⇒ Existen estándares para la caracterización de los metadatos. No todos los paquetes estadísticos permiten la definición exhaustiva de metadatos (el mejor SPAD, un entorno aceptable SPSS). ⇒ Las bases de datos históricas se denominan en el argot de la Minería de Datos data warehouses. ⇒ Los datos crudos (raw data) deben controlarse e incluso transformarse antes de realizar procesos estadísticos elaborados. Prof. Lídia Montero © Pàg. 1- 15 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 TEMA 1: INTRODUCCIÓN A LA RECOGIDA DE DATOS 1 - 1 . 6. 1 Depuración del archivo de datos y tratamiento estadístico • Control de errores de codificación obvios: rangos de edades, número de hijos, lineas de autobús disponibles, ingresos brutos, etc. • Recodificación: quizás la lista de opciones de respuestas a algunas preguntas cerradas sea demasiado al encontrarse opciones no seleccionadas por los encuestados. • Tratamiento de la no-respuesta: o Determinista: Por ejemplo, cuándo se le pide el barrio de residencia pero el encuestado sólo conoce la dirección, se puede inferir. o Imputación de un valor por defecto: al preguntar el número de hijos a un individuo que resulta menor de 10 años. o Técnicas de imputación hot-deck a partir de un donante y otras estrategias con alto sustrato estadístico. La Estadística se verá como una disciplina que permite cuantificar el nivel de incertidumbre asociado a medidas extraídas de datos y en ese sentido es una herramienta que asiste al técnico en el proceso de toma de decisiones bajo aleatoriedad. La Estadística se presenta como una disciplina que permite tratar la aleatoriedad y trabajar con la regularidad presente en los procesos no deterministas. Prof. Lídia Montero © Pàg. 1- 16 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO Los datos para un estudio se obtienen como una muestra de observaciones de una población de interés, que no resulta técnica ni económicamente factible de observar en su totalidad. Debemos diferenciar entre población y muestra. Las encuestas suelen presentar problemas en la muestra efectiva recogida: • Tasa de respuesta y validez no suele ser del 100% (mortalidad de las muestra). • Sesgo de muestreo: algunos individuos de la población se excluyen deliberada o indeliberadamente. o Se selecciona una muestra con una cobertura incompleta de la población, ya que hay individuos que no tienen posibilidad de ser seleccionados. Relacionado con el sesgo de selección en muestreos no probabilistas o Se puede detectar una tasa de no respuesta total elevada (característica de las encuestas por correo). Las técnicas para paliar la deficiencia consisten en la sustitución del individuo (por otro equivalente) o bien la reponderación de los estimadores que se van a obtener en el proceso estadístico de análisis. o Sesgo social: cuando determinados individuos evitan responder algunas preguntas delicadas. o Sesgo de medición: cuando el proceso de observación es falseado por el encuestado (falta de memoria, mala interpretación, por qué está socialmente mal o bien dar una respuesta concreta, etc), por el instrumento (defectos en el cuestionario) o por el encuestador (raza, clase social, personalidad). Artículo Daly-Ortúzar del TEC (December 1990): Forescasting and data aggregation theory and practice Prof. Lídia Montero © Pàg. 1- 17 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS La inclusión de preguntas abiertas dificulta el proceso de filtraje y validación y requiere del uso de técnicas de análisis estadístico de textos que no resultan de amplio uso profesional, ni están implementados en los paquetes estadísticos convencionales. La tendencia actual con la introducción de la informática y las tecnologías de la información en los entornos profesionales de la ingeniería, las ciencias e incluso en la vida privada lleva a la disponibilidad de mega bases de datos sin diseño de la muestra y por tanto sin representatividad estadística. Resulta un reto para los estadísticos el desarrollo de procedimientos que permitan explotar y cuantificar la incertidumbre inherente. Adicionalmente se debe plantear el problema de la confidencialidad de los datos que está muy desarrollado en los entornos estadísticos oficiales. La integración de diferentes fuentes de datos ha dado lugar a una disciplina muy de moda que se denomina data fusion. La fusión de datos trata los problemas de la mezcla de información procedentes de diversas fuentes y una de los problemas estrella es la imputación de un bloque completo de variables faltantes (missing variables). El interés de la fusión de datos reside en el aprovechamiento de datos disponibles de otros estudios y que no pueden disponerse (por cuestiones técnicas o económicas) en un estudio actual. Prof. Lídia Montero © Pàg. 1- 18 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS Los principales elementos en la fusión de datos son (fuente: apuntes Dr. Tomàs Aluja): • • • • Variables comunes Fichero Receptor Fichero Donante (X0, Y0) Fichero Receptor (X1) Variables comunes X Variables específicas Y Fichero Donante El objetivo de la fusion de datos reside en transferir las variables específicas del fichero donante al fichero receptor considerando f(Y/X) con las consideraciones siguientes: Variables específicas • Coherencia individual. Los valores imputados deben ser realistas para las variables específicas Y. • Precisión individual (ausencia de sesgo). Los valores imputados deben ser tan próximos como sea posible a los verdaderos valores de las variables específicas Y (desconocidos). • Simulación con datos reales: Las imputaciones multivariables deben reproducir la asociación existente entre las variables específicas Y y por tanto su f(Y). • Los valores imputados deben reproducir la distribución condicional de las variables Y dadas las variables X que se observa en el fichero donante (f(y/x)). Se suele asumir COV(Y,Z/X)=0 para toda Z). Prof. Lídia Montero © Pàg. 1- 19 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS Un ejemplo de fusión de datos en marketing es la medida de la efectividad de las campañas de publicidad en televisión Variables comunes Fichero Receptor • Fichero donante: Panel de audiencia • Fichero receptor: Panel de consumidores Metodologías para la fusión de datos: Fichero Donante Variables específicas • Modelos explícitos: Establecer un modelo que conecte las variables Y con las variables X en el fichero donante y aplicar este modelo al fichero receptor. Suelen ser modelos estadísticos: regresión en componentes principales, regresión lineal múltiple (generalizada o no), regresión en mínimos cuadrados parciales (PLSR), etc • Modelos implícitos (hot deck). Encontrar para cada individuo del fichero receptor uno o más individuos en el archivo donante lo más similar posible y posteriormente transferir los valores de las variables Y a cada individuo del fichero receptor: K-NN (K Nearest Neighbour), clustering, árboles de segmentación, etc. • Modelos cold deck: se utiliza información del donante correspondiente a cada receptor y a valores de las variables en alguna fecha anterior. Prof. Lídia Montero © Pàg. 1 - 20 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS 1 - 1 . 6. 2 Estrategias de K Vecinos más Próximos Localizar para cada individuo receptor, los individuos donantes más semejantes y transferir de alguna manera los valores específicos de las variables Y de los donantes a los receptores. Encontrar para cada receptor la lista de los donantes más similares según las variables comunes Se almacena una tabla con un número k de vecinos para cada individuo receptor. Se puede realizar en R Prof. Lídia Montero © Pàg. 1 - 21 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS Etapas de la fusión de datos según el algoritmo de los K Vecinos más próximos: • Preprocesado de los datos del fichero de donantes. Cuantificar la representatividad de los donantes con respecto a la población, establecer las diferencias estadísticas entre donantes y receptores, descripción estadística de las variables específicas con respecto a las variables comunes (cuantificar la potencia predictiva de cada una de las variables comunes con o sin transformaciones), etc. • Selección de las variables comunes efectivas: criterio de parsimonia, selección del mínimo conjunto de variables comunes con la máxima capacidad predictiva de las variables específicas. Espacio Original • Prof. Espacio Factorial Posible necesidad de establecer clusters instrumentales entre los donantes (según tamaño del archivo). Lídia Montero © Pàg. 1 - 22 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-2 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS • Posicionar donantes y receptores en el mismo subespacio definido por las variables comunes, construir un archivo común desde el punto de vista estadístico (dataframe en R): en el espació original o bien en espacio factorial transformado (componentes principales, correspondencias simples o múltiples). Se recomienda trabajar en los espacios factoriales transformados. • Determinar la tabla de K vecinos más próximos que relaciona cada receptor con sus K donantes más cercanos según las variables comunes X (en el espacio factorial transformado). • Imputación de la variables específicas Y en el fichero receptor. Diversas estrategias cada una con sus pros y contras: imputar según el vecino más próximo (coherencia) o bien por la media local de los r vecinos más próximos (minimiza el error de predicción) seleccionados de manera determinista o estocástica o estrategias de generación de valores aleatorios multivariantes más complejas. • Validación de la imputación. Prof. Lídia Montero © Pàg. 1 - 23 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-2. TIPOLOGÍA DE ERRORES MODELOS Y EN PREDICCIONES La finalidad de los modelos reside en su capacidad de realizar predicciones y los modelos más complejos no tienen porque ser siempre los que den las predicciones más precisas, ya que las variables explicativas están sujetas a imprecisiones o errores de medida. Dado un presupuesto y unos requerimientos de precisión en las predicciones, el ingeniero debe decidir cuál es el nivel de complejidad del modelo a emplear dada la precisión disponible en las variables explicativas del modelo. COMPLEJIDAD DEL MODELO Por ejemplo, en los modelos de generación de viajes se puede trabajar con la población total por zona de transporte o con la población por nivel socioeconómico, si estas variables explicativas no estuvieran disponibles a nivel de zona de transporte, sólo globalmente para subámbitos municipales, entonces no tendría ningún sentido desarrollar un modelo de regresión múltiple considerando esas variables a nivel zonal. TRADE-OFF DISPONIBILIDAD Y PRECISIÓN DE LAS VARIABLES EXPLICATIVAS Prof. Lídia Montero © Pàg. 1 - 24 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-2 TIPOLOGÍA DE ERRORES EN MODELOS Y EN PREDICCIONES Los errores más habituales en los procesos de recogida de datos son: ⇒ Los errores de medida. Imprecisiones inherentes a la toma de datos de partida, como una mala interpretación de las preguntas de un cuestionario (por ejemplo, duración de un desplazamiento, quiere decir de todas sus etapas o globalmente, en general o en un día concretamente? ), errores de medida en algunas magnitudes de la red (tiempos de semáforo), errores de codificación o grabación (por ejemplo, redondear los tiempos de viaje a múltiplos de 5 minutos) o sencillamente realizar una grabación simple en lugar de una doble grabación en una encuesta domiciliaria. En todo caso si se dedica más presupuesto al control de la calidad de los datos, se reduce esta fuente de perturbación. • Si la calidad de los datos no es buena, casi siempre será más seguro hacer predicciones con modelos más sencillos y robustos. La exactitud de las variables explicativas debe tenerse siempre en cuenta. ⇒ Los errores de muestreo son debidos al uso de muestras, no de poblaciones y en general son inversamente proporcionales a la raíz cuadrada del tamaño muestral (en muestras m.a.s.). ⇒ Los errores de especificación son debidos a la propia formulación del modelo como simplificación de la propia realidad, en este grupo se incluyen: Prof. Lídia Montero © Pàg. 1 - 25 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-2 TIPOLOGÍA DE ERRORES EN MODELOS Y EN PREDICCIONES • Inclusión de variables irrelevantes. Por ejemplo en regresión no producen sesgo, pero aumentan la variabilidad de los estimadores y las predicciones (incrementan el error de muestreo). • Omisión de variables relevantes. Causan sesgo en las predicciones y aumentan la imprecisión de las predicciones. • (cont.) Exclusión de variables subjetivas de gusto, por ejemplo en los modelos de reparto modal. • Omisión de variables de hábito o inercia o definición de relaciones lineales cuando los efectos son realmente no lineales. ⇒ Los errores de transferencia y portabilidad. Los modelos se formulan, estiman y validan para un ámbito de estudio concreto y su transferencia a otros estudios o contextos puede no ser adecuada. Se eliminan reestimando los modelos en los nuevos contextos, aunque puede resultar costoso. Un ejemplo recurrente es el valor del tiempo para distintos motivos de viaje. ⇒ Los errores de agregación. Básicamente originados al requerirse predicciones por grupos de individuos mientras los modelos disponibles definen las predicciones a nivel individual (por ejemplo, los modelos de reparto modal desagregados). • En estudios reales, las opciones presentadas a los individuos están agregadas y deben realizar su elección usando valores medios (en las variables explicativas o incluso en las alternativas). Prof. Lídia Montero © Pàg. 1 - 26 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE 1-3.1 Encuestas Domiciliarías Las encuestas domiciliarias para recoger hábitos de desplazamientos y origen-destino de éstos. Son caras en trabajo de campo y en el proceso de grabación y análisis de los datos. Son importantes en las grandes áreas metropolitanas ya que facilitan una fotografía de los perfiles de los desplazamientos y son la materia prima para la elaboración de los modelos de demanda. Desde siempre se ha dicho que no se debe invertir la mayor parte de los recursos monetarios y temporales en la recogida de datos. Se recogen: • Información sobre los viajes: origen y destino, duración, modo, motivo, etc. • Se incluyen todos los modos de desplazamiento, a veces se suprimen viajes con duración inferior a 5 min. Se detallan características de los motivos. Se dividen las etapas, etc. • Cobertura de un periodo largo de tiempo, un día o bien una semana, donde se deben detallar todos los viajes. • La muestra puede ser de hogares o individuos. Se recogen todos los viajes de todos los miembros de la familia con edad superior a un umbral (5 años o 14 años). El cálculo de errores muestrales no es el mismo en el caso de muestras de hogares o individuos. Prof. Lídia Montero © Pàg. 1 - 27 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: DOMICILIARIAS, ETC Las críticas esgrimidas contra las encuestas OD suelen ser: • Algunas sólo recogen el comportamiento promedio o habitual, no el comportamiento real. Típico de las encuestas que recogen qué viajes se realizan habitualmente, suelen mostrar un sesgo a desestimar los viajes ocasionales o inadvertidamente poco importantes según los individuos. • Las informaciones recogidas sobre los tiempos de desplazamiento suelen ser poco precisas, sesgadas y no estan asociadas con los niveles de servicio de los distintos modos. La solución es simple: en lugar de preguntar por duración se debe preguntar por hora de inicio y finalización de una etapa de un desplazamiento concreto. En transporte público, la valoración subjetiva del tiempo de espera, trayecto o nivel de servicio se ha revelado muy importante en el desarrollo de modelos de selección de alternativas. • Las encuestas domiciliarias se realizan en períodos-tipo o día habitual y en general no pueden emplear para estudios de movilidad en zonas turísticas con puntas estivales. • Las encuestas domiciliarias por hogares deben considerar también el personal relacionado con la familia (asistentas, canguros, etc.). El diseño del cuadernillo de la encuesta recae en especialistas y suelen dar mejor resultados las encuestas domiciliarias donde hay visita para recoger información común y caracterización socioeconómica de todos los miembros del hogar y se deja un cuadernillo para detallar los desplazamientos realizados en el periodo de estudio (con teléfonos de contacto en caso de dudas en la autocumplimentación y/o segunda visita para la recogida del cuadernillo de desplazamientos). Prof. Lídia Montero © Pàg. 1 - 28 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: DOMICILIARIAS, ETC 1-3.2 Encuestas Cordón, Pantalla y Aforos Ámbito del estudio Viajes Viajes de no residentes con origen y destino externo: tráfico de paso de Viajes de no residentes en el área de estudio Viajes de residentes fuera del área de estudio domiciliarias). Pueden incluir o no información OD. • Las encuestas domiciliarias recogen los viajes de los residentes. • Las encuestas cordón recogen los viajes de residentes o no residentes en el cordón externo o frontera del modelo. Se suelen apostar en las principales vías o carreteras de conexión exterior. Permiten calibrar las puertas del modelo. Pueden incluir o no información OD. • Las encuestas pantalla o de cordón interno recogen desplazamientos en el interior del área debidas a no residentes (y a su vez validan las encuestas OD • Los aforos de vehículos-tipo y personas en vías estratégicas del área de estudio (no son OD) es una información que se puede integrar posteriormente en la elaboración de matrices de movilidad OD. Prof. Lídia Montero © Pàg. 1 - 29 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: DOMICILIARIAS 1-3.3 Otras informaciones recogidas El desarrollo de modelos de demanda conlleva la necesidad de recoger información sobre los usos de suelo (población, viviendas, m2 por sector de actividad diferenciando pequeño comercio y gran superficie, número de empleos por sector, plazas de parking, ubicación de servicios cómo escuelas, teatros, centros médicos, etc). Los avances en los entornos informáticos permiten incrementar el detalle de la información recogida solicitando la información del entorno por capas, con las distintas unidades georeferenciadas. En GeoMedia, se tiene constancia de la recogida de información sobre la ubicación de todos y cada uno de los árboles, mobiliario urbano, elementos de actividad económica de ciudades medianas, como el caso de Barcelona o en Vitoria-Gasteiz. Los entornos GIS llevan asociados bases de datos relacionales que pueden exportarse posteriormente a tablas más habitualmente manejadas por los ingenieros en access o excel (entorn MSWindows). Las Encuestas de Calidad se realizan periódicamente por los operadores de transporte público y permite la obtención de un índice de satisfacción, la detección de aspectos a mejorar en el servicio o sencillamente aspectos no importantes. La comparación entre índicadores a lo largo del tiempo (cada 5 años) da una idea de la evolución de la opinión de los usuarios. Las Encuestas Sube/Baja en las distintas paradas de las líneas de autobús de un operador y la configuración OD entre paradas suele realizarse habitualmente. Prof. Lídia Montero © Pàg. 1 - 30 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PD VS PR 1-3.4 Encuestas de Preferencias Declaradas, PD (Stated Preference surveys) Las encuestas domiciliarias recogen viajes reales y por tanto permiten la estimación de modelos de reparto modal (genéricamente, de selección de alternativas) sobre elecciones efectuadas por los individuos, por tanto responden a información sobre preferencias reveladas (PR, revealed-preference surveys). El perfil de los viajes o comportamiento de los viajeros en una situación base queda reflejado en la recogida de información tipo preferencias reveladas, pero para la prognosis a escenarios futuros con cambios importantes en las infraestructuras de transporte, las predicciones de los modelos de demanda sobre una base PR suelen ser deficientes ya que utilizan variables explicativas que pueden estar correlacionadas en la situación base o bien existen variables secundarias que no se han introducido en los modelos (variables de confort o seguridad muy importantes en el uso de transporte público) o bien el escenario futuro recoge cambios muy drásticos, como la aparición de un nuevo modo o la implantación de peaje urbano en el CBD. La solución reside en someter a condiciones hipotéticas ficticias a los individiduos, con variables características a niveles inteligentemente definidos mediante diseño de experimentos y medir la posición o alternativa seleccionada por los individuos en diferentes condiciones. Esta es una información de preferencias declaradas (encuesta PD). Prof. Lídia Montero © Pàg. 1 - 31 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PD VS PR Las Encuesta de Preferencias Reveladas (PR) para la estimación de modelos de reparto modal suelen ser previas. Estas encuestas requieren de una muestra de unos 600 individuos (unos 50 a 100 individuos por parámetro, con el criterio de parsimonia implícito, no apunta a superar las 6-8 variables explicativas). Los individuos de la encuesta de PR son la base de partida para la encuesta PD, donde se tienen que eliminar los individuos cautivos o con necesidades muy específicas. La combinación de datos de Preferencias Reveladas (PR) y Declaradas (PD) con el fin de estimar un modelo único de PR/PD se ofrece como una opción de futuro que permite construir buenos modelos predictivos (Discrete Choice Methods with Simulation Kenneth Train Cambridge University Press, 2003 ). Los datos de encuestas PD son buenos para determinar la valoración subjetiva de atributos, pero pueden no ser fiables en términos de predicción a futuro. Los condicionantes para que las SP lleven a conclusiones válidas son: • El diseño de las encuestas SP es muy complejo y debe realizarse y reseguirse por personal experto. • Las alternativas deben ser descritas de manera realista y precisa a partir de atributos como tiempo de viaje, coste, frecuencia, comodidad, trazado. Las distintas alternativas hipotéticas se construyen de manera que se pueda estimar el efecto individual de cada atributo (diseño de experimentos). • La presentación de las alternativas hipotéticas tienen que ser inteligible y concisa. • Las respuestas a las situaciones hipotéticas pueden ser la elección de una alternativa o bien el establecimiento de un ranking de preferencia entre las alternativas o la elección por competencia entre parejas de alternativas, etc. Prof. Lídia Montero © Pàg. 1 - 32 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PD VS PR El orden y la presentación de las alternativas se ha revelado importante. El efecto de fatiga aparece en los encuestados con facilidad si el número de opciones es elevado (superior a 10), posiblemente debido al gran número de atributos incluídos o bien a los muchos niveles de variación a los que son sometidos. Una prueba piloto suele ser necesaria para detectar problemas en el diseño o definir los niveles correctos de los atributos. Los autores experimentados afirman que aplican algoritmo específicos en el diseño del cuestionario para reducir la molestia del entrevistado. Una amplia discusión sobre los aspectos relevantes en el diseño del cuestionario, punto que los expertos indican crítico se encuentra en el texto editado por Ortúzar, Hensher, Jara-Díaz (1998) en Elsevier “Travel Behavior Research: Updating the State of Play”, concretamente la contribución de Staffan Widlert Stated Preferente Studies: The Design Affects the Results. Hay tres formas principales de recoger datos de PD: Jerarquizaciones (rankings) Elecciones Elecciones generalizadas o escalamientos Prof. Lídia Montero © Pàg. 1 - 33 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PD, PR El diseño de las encuestas PD contempla: • La definición de las alternativas tecnológicamente posibles (factibles). • La selección de los atributos que van a caracterizar cada opción. • La selección de las unidades de medida para cada atributo (o el nombre dado a los distintos niveles). • La definición de los niveles a considerar en cada atributo y la combinación de niveles en atributos que va a caracterizar cada opción (diseño experimental). De acuerdo con Louviere (Louviere, J.J., Hensher D.A. and Swait J (2000) Stated Choice Methods: Analysis and Application. Cambridge Univ. Press, Cambridge): • Los efectos principales explican 80% o más de la varianza. • Las interacciones dobles raramente explican más del 3%. Las interacciones triples explican proporciones aún menores de la varianza de los datos, raramente más de 0,5 a 1%. • Los efectos de orden superior explican una proporción minúscula de la varianza de los datos El costo de introducir interacciones es básicamente mayor complejidad (se requiere evaluar más situaciones hipotéticas). Si el número de alternativas, atributos, etc. no se mantiene bajo, el diseño puede tornarse impracticable. La solución es utilizar un diseño de bloques, aplicado a varias sub-muestras, lo que complica notablemente el diseño del Plan de Muestreo y tiende a requerir un cierto aumento del tamaño muestral total. Prof. Lídia Montero © Pàg. 1 - 34 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: SP, PR Todas se diseñan en forma análoga; en los últimos dos casos sólo cambia la escala para responder. Los datos de Escalamiento o Elección Generalizada permiten usar las escalas como tasas y así estimar el efecto de cada factor en las elecciones individuales. La jerarquización es algo más compleja; número de evaluaciones requerido para ordenar N opciones: 1 N2 + N ) −1 ( 2 Los datos de jerarquización requieren de la explosión del ranking; el ordenamiento: U1 ≥ U2 ≥ …. ≥ Um que puede ser transformado en m – 1 elecciones equivalentes: U1 ≥ Uj j = {2, 3, …, m} U2 ≥ Uj j = {3, 4, …, m} • • • Um-1 ≥ Um Prof. Lídia Montero © Pàg. 1 - 35 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: SP, PR Las elecciones generadas se tratan igual que en el caso de Preferencias Reveladas. Los problema detectados habitualmente son: opciones independientes, ruido por profundidad (autores como Ben Akiva recomiendan no superar la profundidad de 4, en cambio otros autores como Ortúzar afirman poder llegar hasta 8-9, si el diseño de las alternativas está muy estudiado y refinado, después de sufrir pruebas en encuestas piloto de 30-40 individuos). Los métodos de Estimación para Elecciones Generalizadas Regresión lineal tras transformación de Berkson-Theil Probit ordinal Logit binario (no recomendable) Los métodos de Estimación para Datos de Elección Tal como en el caso de datos de Preferencias Reveladas – máxima verosimilitud Los métodos anteriores requieren de una hipótesis potencialmente inválida; todas las observaciones de un individuo son independientes entre sí. En estos momentos, es tema de investigación científica la extensión de los modelos desagregados habituales (de procedencia PR o PD) a observaciones repetidas (efectos aleatorios). Prof. Lídia Montero © Pàg. 1 - 36 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: SP, PR 1-3.5 Encuestas de Preferencias Reveladas en reparto modal Los modelos de reparto modal son probablemente los más importantes dentro de los modelos de Planificación del Transporte. Esto se debe al papel que juega la dicotomía transporte colectivo/privado en el mantenimiento de niveles de congestión aceptables en las grandes ciudades occidentales. El reparto modal actual de un ámbito de estudio requiere de Encuestas de Preferencias Reveladas. Los factores que influyen en la selección del modo de viaje pueden clasificarse en varios grupos: • Características del viajero: • Disponibilidad de vehículo privado. • Estructura de la vivienda. • Nivel de renta. • Densidad de población. Características del viaje: • El motivo del viaje (los viajes de trabajo son más propensos a utilizar el transporte colectivo). • Hora del día en que se lleva a cabo el viaje. Prof. Lídia Montero © Pàg. 1 - 37 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR Características del sistema de transporte: • Tiempo de viaje (viaje más espera) en los distintos modos. • Coste monetario del viaje en cada modo. • Disponibilidad y coste del aparcamiento en modo privado. • Comodidad y conveniencia de los modos. • Seguridad y regularidad del servicio. En la mayoría de los casos, los modelos de reparto modal se han aplicado posteriormente a la distribución de viajes, considerando como variables significativas una o dos características del viaje (normalmente, tiempo de viaje en el vehículo) y deben calibrar una curva de aspecto exponencial que representa la proporción de viajes en cada modo, a partir de la diferencia de coste del viaje (tiempo). Los modelos de reparto modal más inexactos son agregados y representan el reparto modal colectivo/privado donde el factor primordial de discrimininación entre ambos modos es el coste de viaje generalizado, tijk, supuestamente valores suministrados al modelo de partida para cada pareja O-D (i,j) y modo k (1 ó 2). . Prof. Lídia Montero © Pàg. 1 - 38 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR Los modelos desagregados de demanda se basan en las elecciones observadas de viajeros individuales: consideran las probabilidades de elección individual. El uso de este segundo enfoque debiera posibilitar el desarrollo de modelos más realistas. En general se postula que: • La probabilidad de elección individual depende de las características socioeconómicas de cada persona y de la atractividad relativa de cada una de las alternativas Para representar la atractividad se utiliza el concepto de utilidad, (tautológicamente definida como aquello que el individuo busca maximizar): La utilidad sistemática o representativa, se especifica usualmente como una combinación lineal de variables, por ejemplo: Vauto = 0,25 – 1,2 TVauto – 2,5 Accauto – 0,3 (C/I)auto + 1,1 Naut En este caso un cambio unitario en el Tiempo de acceso (Acc) tiene un impacto de aproximadamente el doble que el Tiempo de viaje en el vehículo (TV), y de más de siete veces el de un cambio unitario en la variable Costo dividido por ingreso (C/I). Naut es el número de autos en el hogar del individuo modelado. La constante específica (0,25) representa la influencia neta de todas las características no observadas, o no incluidas en forma explicita, del individuo o de la alternativa en su función de utilidad. Prof. Lídia Montero © Pàg. 1 - 39 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR Individuos q ∈ Q → homo economicus; siempre eligen la alternativa más atractiva sujeto a sus restricciones ambientales Alternativas Aj ∈ A(q) ∈ A; Los atributos medidos x ∈ X, pueden ser variables de nivel de servicio o características socioeconómicas de los individuos. El modelador asume que la utilidad Ujq de la opción Aj para el individuo q tiene la forma: U= V jq + ε jq jq Los errores estocásticos ε tienen media cero y una matriz de covarianzas no diagonal; esto permite tomar en cuenta aparentes inconsistencias en la conducta individual. La utilidad sistemática se especifica normalmente como: V jq = ∑θ jk X jkq k en que θ se supone constante entre los individuos pero puede variar para cada alternativa. U jq ≥ U iq , El individuo q escogerá Aj, si y sólo si: Esto es, si: Prof. Lídia Montero © V jq − Viq ≥ ε iq − ε jq , Pàg. 1 - 40 ∀Ai ∈ A(q ) Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR Como la parte derecha de la ecuación es desconocida, sólo se puede plantear la probabilidad de elegir Aj: = Pjq Prob {ε iq ≤ ε jq + V jq − Viq , ∀Ai ∈ A(q )} y esto es equivalente a: Pjq = ∫ f (ε ) dε RN Resulta imprescindible para derivar un modelo analítico se necesita conocer la distribución de los residuos estocásticos. Una clase importante de estos modelos se genera al suponer funciones de utilidad con residuos que distribuyen en forma independiente e idéntica (IID). Hay que notar que este requisito implica que las alternativas serán consideradas efectivamente independientes. Así opciones combinadas (por ejemplo, auto-tren), usualmente violarán esta condición. De hecho, cada vez que dos opciones puedan ser consideradas más similares entre sí que otra(s), por ejemplo, bus y tren vs auto, se sospecha la presencia de correlación. Prof. Lídia Montero © Pàg. 1 - 41 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR Aún si los residuos no distribuyen IID es posible generar modelos de utilidad aleatoria, como el Probit, pero éstos son más difíciles de especificar y estimar. Las variables explicativas pueden ser de tres tipos: • Genéricas: comparten el mismo coeficiente en todas las alternativas • Específicas: aparecen en sólo una alternativa o tienen un parámetro diferente en cada una de ellas • Constantes específicas: toman el valor 1 para una alternativa determinada y 0 para las restantes El modelo MNL (Logit Multinomial ) se genera si: 0 σ 2 0 0 ε ∼ iid Gumbel . , Σ = . . . 0 0 exp ( λV jq ) ⇒ Pjq = ∑ Ai ∈ A( q ) Prof. Lídia Montero © Pàg. 1 - 42 0 σ 2 . . . . . . . . . . 0 . . 0 . , λ = . 2 σ 0 exp ( λViq ) Curs 201 3- 201 4 π 6σ Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR El MNL no permite variaciones en los gustos (esto es, que cada individuo tenga diferentes parámetros θ), ni tratar correctamente el caso de disponer más de una observación proveniente de la misma persona, ni permite tratar la heteroscedasticidad. El Logit Mixto, en cambio, permite combinar errores Gumbel tipo ruido blanco como el MNL, con errores provenientes de otras distribuciones. Si bien hoy es el estándar, su estimación, y sobre todo la interpretación de sus resultados, es mucho más compleja. Los consultores están familiarizados con estos modelos y con el sofware de libre distribución accesible a través de la página web del profesor Kenneth Train de la Universidad de Berkeley en EEUU. Williams (1977) se dio cuenta que existen situaciones donde la extrema generalidad permitida por el Logit Mixto pueden ser un lujo innecesario. Un buen ejemplo son situaciones bi-dimensionales de elección (ej: destino y modo), donde se puede postular: U(d, m) = Ud + Udm = Vd + εd + Vdm + εdm Si los ε son separadamente IID, P(d , m ) = bajo ciertas condiciones se obtiene el modelo logit jerárquico o anidado (NL): Prof. Lídia Montero © e ∑e d′ Pàg. 1 - 43 β (Vd +Vd ∗ ) β (Vd ′ +Vd ′∗ ) ⋅ e λVdm λVdm′ e ∑ m′ Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR En la práctica el NL (Logit Anidado) no está restringido a un número determinado de nidos en serie o en paralelo. Sin embargo, como la búsqueda de la mejor especificación es más compleja (problema de tipo combinatorio), es importante probar sólo estructuras jerárquicas que tengan un sentido intuitivo o estén de acuerdo con la teoría. Una estructura NL típica se caracteriza por agrupar a todos los subconjuntos de opciones correlacionadas (más similares entre sí que otras) en jerarquías o nidos. Cada nido se representa, a su vez, por una opción compuesta que compite con las restantes alternativas que el individuo tiene disponibles. Tr. coche taxi bus tren metro El NL tampoco es capaz de tratar adecuadamente la heteroscedasticidad o las variaciones en los gustos. Para hacerlo, se debe especificar funciones más complejas, como el Probit o el Logit Mixto. En síntesis, el análisis de los resultados de encuestas de Preferencias Reveladas o Declaradas requiere sentido común y un conocimiento de métodos de análisis estadístico avanzados (modelos lineales generalizados) Prof. Lídia Montero © Pàg. 1 - 44 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR Según Ortúzar, una guía práctica para examinar la coherencia de los valores estimados de los parámetros, se podría resumir genéricamente en la siguiente tabla: Variable Relevante de Política Adicional Prof. Significativamente de 0 o distinta No significativamente distinta de cero Signo correcto OK Mantener en el modelo Signo incorrecto Problema serio Problema Signo correcto OK Probar si es posible sacarla del modelo Signo incorrecto Sacar del modelo Lídia Montero © Pàg. 1 - 45 Sacar del modelo Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: SP, PR, CALIDAD 1-4.1 Ejemplo PD: Cambios en la oferta de autobuses, competencia entre el autobús, el coche y a pie. Las variables consideradas relevantes sobre la respuesta modal discreta son: 1. Precio: Dos niveles Actual (referencia) y +20% (20% más caro que actualmente). 2. Distancia de Parada en Origen: < 150m y Más de 150m (referencia). 3. Distancia de Parada en Destino: < 150m y Más de 150m (referencia). 4. Frecuencia de la linea o líneas implicadas en el desplazamiento: 3 (referencia) y 6 unidades por hora (es decir, frecuencias de 15 o 10 minutos). 5. Longitud del desplazamiento: < 500 m (referencia en Autobús-Pie) y Más de 500 m (Referencia en AutobúsCoche). 6. Precio de Hora de Parking: Actual(referencia) y +20% (20% más caro que actualmente). La configuración de la encuesta responde a un diseño factorial fraccional de 2 niveles con k=6 variables explicativas dicotómicas y reducción fraccional de 1 a 4, con resolución de orden 4. Todos los efectos principales van a poder estimarse y únicamente hay confusión entre efectos principales e interacciones a partir del orden 3. Prof. Lídia Montero © Pàg. 1 - 46 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: PD SELECCIONE EL MODO DE VIAJE, A PIE O EN AUTOBUS, EN FUNCIÓN DE LAS CARACTERÍSTICAS HIPÓTETICAS DEL DESPLAZAMIENTO DESCRITO O DISTANCIA A DISTANCIA A PARADA EN PARADA EN AUTOBUS ORIGEN PIE 1. Pie 2. Autobus FRECUENCIA DE UNA LINEA DESTINO PRECIO PRECIO HORA LONGITUD PARKING DESPLAZAMIENTO DE BUS EN UNIDADES POR HORA Campo 12 13 14 15 16 <150 m <150 m <150 m <150 m <150 m 17 3 Actual Actual 3 Sube 20% Actual 500 m o más <150 m 6 Actual Sube 20% 500 m o más <150 m <150 m 6 Sube 20% Sube 20% <150 m 150 m+ 3 Actual Sube 20% <150 m 150 m+ 3 Sube 20% Sube 20% <150 m 150 m+ 6 Actual Actual <150 m 150 m+ 6 Sube 20% Actual 150 m+ <150 m 3 Actual Sube 20% 150 m+ <150 m 3 Sube 20% Sube 20% 500 m o más 150 m+ <150 m 6 Actual Actual 500 m o más 150 m+ <150 m 6 Sube 20% Actual 150 m+ 150 m+ 3 Actual Actual 150 m+ 150 m+ 3 Sube 20% Actual 150 m+ 150 m+ 6 Actual Sube 20% 150 m+ 150 m+ 6 Sube 20% Sube 20% 3. Otros o NS/NC "ID SP-Fila 1 Col.18 "ID SP-Fila 2 Col.18 "ID SP-Fila 3 Col.18 "ID SP-Fila 4 Col.18 "ID SP-Fila 5 Col.18 "ID SP-Fila6 Col.18 "ID SP-Fila 7 Col.18 "ID SP-Fila 8 Col.18 "ID SP-Fila 9 Col.18 "ID SP-Fila 10 Col.18 "ID SP-Fila 11 Col.18 "ID SP-Fila 12 Col.18 "ID SP-Fila 13 Col.18 "ID SP-Fila 14 Col.18 "ID SP-Fila 15 Col.18 "ID SP-Fila 16 Col.18 Prof. Lídia Montero © Pàg. 1 - 47 < 500 m < 500 m 500 m o más < 500 m < 500 m 500 m o más < 500 m < 500 m 500 m o más < 500 m < 500 m 500 m o más Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: PD Los Factores de Diseño más relevantes son: Longitud de Viaje y Frecuencia en el lado positivo para la captación del autobús y en el lado negativo, el Precio del Billete. En la tabla adjunta se resumen en los efectos principales de los distintos factores, en términos de log-odds, odds y probabilidades, tomando como probabilidad base del uso del autobús la del grupo de referencia estimada por el modelo. VARIABLE Referencia REPARTO MODAL AUTOBÚS-COCHE (Sólo Factores de Diseño) LOG-ODDS ODDS Categoría 150 m+ 150 m+ 3uni/h Actual Actual +500m Dist. Parada en Origen <150m Dist. Parada en Destino Autobuses por Hora Precio del Billete Precio Hora Parking Longitud del Viaje Prof. Lídia Montero © -0,71334 PROBABILIDAD (Aproximada) 0,49000485 33% 0,32896 39% 8% <150m 0,25969 30% 6% 6 uni/hora 0,39229 48% 10% Sube 20% -0,37306 -31% -9% Sube 20% 0,28150 33% 7% Menos 500 m 0,44103 55% 11% Pàg. 1 - 48 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: PD La interpretación de los parámetros es la siguiente: 1. En el grupo de referencia 150 m+150 m+3u/hActual Actual 500 m o más que representa la situación de diseño de paradas de autobús de más de 150m en origen y en destino, una frecuencia equivalente a 3 autobuses por hora, precio de billete actual, precio de la hora de parking actual y longitud del viaje superior a los 500m, el valor del log-odd es de -0,71334, es decir, la probabilidad estimada de uso del autobús por el modelo es del 33 %. 2. Dentro del mismo grupo de variables explicativas, el disponer de una parada de autobús a una distancia <150 m en origen supone un incremento en la razón de preferencia del autobús del 39%. Lo que difiere si la mejora se refiere a disponibilidad en destino, ya que la razón de preferencia del autobús se incrementa en sólo un 30%. 3. Dentro del mismo grupo de variables explicativas, el doblar la frecuencia de 3 a 6 autobuses supone un incremento en la razón de preferencia del autobús del 48%. 4. Dentro del mismo grupo de variables explicativas, el incrementar el precio del billete de autobús supone un decremento en la razón de preferencia del autobús del 31%. 5. Dentro del mismo grupo de variables explicativas, el incrementar el precio del de la hora de parking supone un incremento en la razón de preferencia del autobús del 33%. 6. Dentro del mismo grupo de variables explicativas, suponer que la longitud del viaje es inferior a los 500 m supone un incremento en la razón de preferencia del autobús del 55% . 7. La frecuencia de servicio de los autobuses es la variable más significativa de cara a mejorar la captación del autobús. Por el lado negativo, el incremento de la longitud del viaje y las tarifas juegan a la baja en la captación. Prof. Lídia Montero © Pàg. 1 - 49 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: CALIDAD 1-4.2 Ejemplo Enc.Calidad del servicio en la red de autobús de ciudad pequeña TOMA DE DATOS DE CAMPO Encuestador: Clima: Observaciones: Campo 1 Campo 2 Campo 3 Lugar de encuesta: Codigo parada: Campo 7 Campo 8 PERCEPCION USUARIO · CALIDAD Hoja 1 Fecha: Hora inicio: Hora fin: Campo 4 Campo 5 Campo 6 PERFIL Edad: Campo 9 Sexo: Campo 10 1. Hombre 2. Mujer Es usuario habitual del BUS: Campo 13 Estado Civil: Campo 11 1. Casado 2. Soltero 3. Divorciado 4. Viudo 1. Si 2. No 1. No tiene coche 2. Es mas cómodo 3. Es mas barato 4. Está de paso, es turista Lídia Montero © Pàg. 4. Jubilado 5. Ama de casa 6. Estudiante Que línea usa: Campo 15 (Nº de línea) Porqué lo usa: Campo 14 Prof. Campo Profesión: 12 1. Superior 2. Medio 3. Elemental 1 - 50 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC COBERTURA Tiempo Distancia (minutos) (metros) Cuanto tiempo / distancia anda de su origen a la parada: Campo 16 Campo 17 Cuanto tiempo / distancia anda de la parada a su destino: Campo 18 Campo 19 Necesita hacer algún transbordo en su viaje: 1. Si 2. No Campo 20 Existen motivos de viaje o destinos en que no usa el BUS: 1. Si 2. No Campo 21 En los destinos o motivos de viaje que no usa el BUS ¿Porqué no lo hace?: 1. No me es cómodo 2. Las paradas están lejos 3. El tiempo de viaje o frecuencia no es bueno 4. No hay servicio en este horario 5. Voy acompañado de persona de movilidad reducida (PMR) TOMA DE DATOS DE CAMPO Campo 22 PERCEPCION USUARIO · CALIDAD Hoja 2 SERVICIO Considera que el tiempo medio de espera en paradas es: 2. Corto 3. Excesivamente largo 1. Aceptable Campo 23 Considera que el tiempo de viaje total es: Campo 24 1. Aceptable 2. Competitivo con el coche 3. Excesivo Considera que el servicio es puntual, pasa a su hora: 2. Poco 3. Variable 4. Inaceptable 1. Puntual Campo 25 Considera que el servicio, puntualidad y tiempo de viaje es: 2. Con variaciones puntuales 3. Muy variable 1. Estable Campo 26 Considera que la calidad de los vehículos es adecuada: 1. Si 2. No Prof. Lídia Montero © Pàg. 1 - 51 Campo 27 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC Nº asientos: Campo 28 Limpieza: Campo 29 Accesibilidad Campo 30 Considera que la atención del personal es adecuada: 1. Si 2. No Campo 32 Conoce la información que facilita XXXX.S.A.: 1. Si 2. No Campo 33 Considera que la información sobre el servicio es adecuada: 1. Si 2. No campo 34 Folletos: Campo 35 Paradas: Campo 36 Internet: Campo 37 Que tipo de pago utiliza para el transporte : 3. 1. Bonobus 2. Billete sencillo Estudiante Campo 38 4. Gratuito Le parece adecuado el precio en función de la calidad del servicio: 1. Si 2. No Campo 39 Nivel de satisfacción con los servicios: Puntue de 0 a 10 Campo 40 Valore la importancia que tienen para el servicio los siguientes aspectos y el nivel de satisfacción que ud. percibe en cada uno de ellos. Puntue de 0 a 10 Tener autobuses modernos y 1 avanzados 2 Disponer de paradas muy limpias y cuidadas 3 Disponer de paneles horarios en sitios visibles 4 Cumplir siempre las promesas del servicio 5 Ser siempre muy puntual 6 Dar la información necesaria a los usuarios 7 Hacer que los autobuses pasen con la frecuencia adecuada Colocar autobuses mas grandes para ir mas 8 holgados 9 Contar con canductores que conduzcan muy bien Prof. Comodidad Campo 31 Lídia Montero © Pàg. 1 - 52 Hoja 3 Importancia Satisfacción Campo 41 Campo 43 Campo 45 Campo 47 Campo 49 Campo 51 Campo 53 Campo 42 campo 44 Campo 46 Campo 48 Campo 50 Campo 52 Campo 54 Campo 55 Campo 57 Campo 56 Campo 58 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 10 Tener empleados que sepan tratar con mucha amabilidad Poder coger el primer autobus que pasa de la linea que me 11 interesa 12 Disponer de horarios y avisos que se entiendan con facilidad 13 Tener paradas bien localizadas Tener empleados que atiendan y resuelvan las 14 quejas 15 Garantizar la seguridad de las personas y sus bienes 16 Rapidez en el servicio MEDIA Campo 59 Campo 60 Campo 61 Campo 63 Campo 65 Campo 62 Campo 64 Campo 66 Campo 67 Campo 69 Campo 71 Campo 73 Campo 68 Campo 70 Campo 72 Campo 74 Valore la evolución en el tiempo de los siguientes aspectos del servicio 1. Mejorado mucho 2. Mejorado algo 3. Igual 4.Empeorado algo 5. Empeorado mucho 1 Limpieza de los autobuses y paradas Campo 75 2 Cumplimiento del horario de llegada y salida Campo 76 3 Frecuencia del autobus y amplitud en las plazas Campo 77 4 Competencia y amabilidad de los empleados Campo 78 5 Rapidez en realizar el trayecto Campo 79 Ha tenido algún problema con XXXX.S.A. 1. Si 2. No Campo 80 Si lo ha tenido, que ha sido ? 1 Conductores poco educados 2 Arrancar a destiempo, cierre de puertas, conduccion deficiente 3 No parar en las paradas, pasar de largo sin parar 4 Pérdida de carnet 5 Problemas de acceso al autobus 6 Disconformidad por quitar paradas de la linea Discusión con otro viajero por un 7 asiento 8 Otro: Si lo ha tenido lo considera 1. Grave 2. Molesto 3. Intrascendente Prof. Lídia Montero © Campo 81 Campo 82 Campo 83 Campo 84 Campo 85 Campo 86 Campo 87 Campo 88 campo 89 4. Ns./Nc. Pàg. 1 - 53 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: CALIDAD Veamos ahora en un gráfico la distribución según la importancia y la satisfacción otorgadas a cada uno de los conceptos. Variable Importancia Mean Satisfacción Mean 6,7926 8,4579 7,1 2. Limpieza Parada 6,381 8,2793 7,0 3. Paneles Horarios 6,319 8,7668 6,9 4. Promesas del Servicio 6,274 8,7482 6,8 5. Puntualidad 6,502 9,1577 6. Información Solicitada 6,190 8,7815 7. Frecuencia Autobuses 8. Autobuses Grandes 6,393 6,605 9,1716 8,445 9. Buenos Conductores 7,058 8,9653 10.Amabilidad Empleados 6,799 8,504 satisfacción 1. Autobuses Modernos 9 15 1 6,7 10 8 6,597 8,714 12.Información Fácil 6,409 8,8937 13.Ubicación Paradas 6,770 8,8828 14.Atendión al Cliente 6,371 8,930 15.Seguridad 6,891 9,443 16.Rapidez Servicio 6,397 9,1181 Media Satisfacción 6,583 8,966 media de importancia=8,966 11 6,6 5 media de satisfacción=6,5830 6,5 6,4 12 2 3 6,3 11.Autobuses No Llenos 13 4 6,2 8,5 16 7 14 6 9,0 9,5 importancia Los puntos que menos satisfacen a los clientes, aun cuando estos les otorgan una mayor importancia, son la puntualidad y la frecuencia de los autobuses, y la rapidez en el servicio. Así, es importante mejorar ese aspecto, que el cliente no sufra demoras o retrasos en sus desplazamientos debidos al servicio de transporte urbano. Prof. Lídia Montero © Pàg. 1 - 54 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: CALIDAD Frecuencia y motivos de uso del transporte urbano Un 80’4% de los encuestados son usuarios habituales del transporte urbano, aunque la mayoría de los encuestados son mujeres (70%), dentro del grupo de los hombres el 75% es usuario habitual, frente al 83% en las mujeres. Formación-Ocupación según UsuarioHabitual Tabulated Statistics: UsuarioHabitual; Genero Columns: Genero Hombre Mujer No 30 45 75 Si 88 220 308 118 265 383 All Count of Formacion Rows: UsuarioH 121 All No Si 100 80 55 51 44 50 34 2 13 16 1 1 30 13 1 4 0 a te al do as nt an i e la C i d a b tu em Ju Am El Es Prof. Lídia Montero © Pàg. 1 - 55 i ed M o r io er p Su Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: CALIDAD En términos relativos, los estudiantes, jubilados y las amas de casas muestran una mayor incidencia del grupo de usuarios habituales. Atendiendo al Estado Civil, los divorciados y los viudos muestran una mayor incidencia de usuarios habituales. EstadoCivil según UsuarioHabitual Grupo_Edad según UsuarioHabitual 104 96 No Si 50 29 17 0 0 M Prof. 96 88 s ne e v Jó y u Lídia Montero © 0 s ne e v Jó M 14 17 0 2 d da E na ia d e Count of EstadoCivil Count of Grupo_Edad 100 192 200 143 100 38 M 39 33 10 3 es or y a No Si 4 0 3 0 C N S/ N Pàg. C /a do a as D a o/ d ia rc ivo ro l te o S /a V /a do u i Según los grupos de edad, encontramos que los muy jóvenes son usuarios habituales del transporte urbano en un 82%, los jóvenes en un 72%, los de mediana edad en un 84% y los de mayor edad en un 82%. 1 - 56 Curs 201 3- 201 4 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: CALIDAD Pie Chart of Pq_UsHab? Porqué Usa el Autobús según Usuario Habitual Cautivo (178; 46,0%) 155 Count of UsuarioHabitual 150 ( 26; 6,7%) Turista ( 5; 1,3%) Economia ( 16; 4,1%) Comodidad (162; 41,9%) 134 Cautivo Comodida Economia Turista 100 50 20 22 27 2 4 1 1 14 6 1 0 No Si La mayoría de los encuestados usa el autobús porque es cautivo del transporte urbano (46%) o bien por comodidad (42%). Dentro de los usuarios habituales, el 50% es cautivo y el 43% lo usa por comodidad; mientras que entre los No Usuarios Habituales, el 40% es cautivo y el 50% lo usa por comodidad. Prof. Lídia Montero Pàg. 1 - 57 Curs 2. 006- 2. 007 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA 1-4.3 Ejemplo Encuesta de Movilidad Domiciliaria en ámbito regional Objetivo: La realización de este estudio responde al interés del Departamento de Transportes y Obras Públicas por conocer los hábitos de desplazamiento de la población en la Comunidad Autónoma XXXX y realizar un diagnóstico del sistema actual de transporte, lo cual permitirá realizar una reordenación y optimización del mismo. El objetivo específico es conocer los siguientes aspectos: –Movilidad de los residentes en la Comunidad Autónoma XXXX. –Movilidad global, interterritorial e intraterritorial. –Vectores de generación y atracción en cada zona de transporte. –Distribución de los desplazamientos según el modo de transporte: • Distribución de los desplazamientos según el modo de transporte (andando, automóvil, transporte público y otros). Caracterización del colectivo de usuarios. • Análisis de los transbordos realizados en la red de transporte público. – Matriz origen-destino por actividad en destino: trabajo, estudio, compras y ocio. Características de estos colectivos. –Autocontención laboral. –Oferta de transporte público: • Operadores. • Oferta de plazas/hora y demanda por Territorios, Comarcas y Municipios. • Conectividad. • Cuota del transporte público. Prof. Lídia Montero © Pàg. 1 - 58 Curs 201 2- 201 3 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA Metodología: La finalidad de esta encuesta ha sido obtener información de los desplazamientos realizados por los residentes en la Comunidad Autónoma XXXX con una edad superior a los seis años. En concreto se han recogido todos los desplazamientos motorizados y los realizados andando cuya duración fuera superior a los cinco minutos, excepto los realizados por motivos de trabajo y estudios que se han recogido todos independientemente del modo de transporte utilizado. Los datos recogidos en relación a los desplazamientos han sido, entre otros, el origen y destino del viaje, modo de transporte utilizado, motivo del viaje, duración, número de etapas, etc. Junto a esto se han obtenido una serie de datos de caracterización de las familias y de sus miembros (edad, nivel de estudios, ocupación, etc.). Para la realización de la encuesta domiciliaria se ha tomado una muestra de 10.800 viviendas, lo cual ha supuesto un error general de muestreo del ±1% para un nivel de confianza del 95,5%. Se ha entrevistado a 10.674 familias, lo que ha supuesto un total de 29.624 individuos mayores de seis años. El trabajo de campo se ha realizado durante los meses de octubre, noviembre y diciembre de 2002. Prof. Lídia Montero © Pàg. 1 - 59 Curs 201 2- 201 3 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA Plan de Muestreo: El tamaño muestral ha sido de 10.800 viviendas, estructuradas según el siguiente plan de muestreo. 1ª ETAPA DE MUESTREO Afijación proporcional según el número de habitantes (población de derecho) existente en cada una de las zonas en que se ha estructurado la Comunidad Autónoma XXXX. A su vez, dentro de cada zona se ha distribuido la muestra asignada a las mismas proporcionalmente a la población residente en cada una de las secciones censales que comprende. 2ª ETAPA DE MUESTREO La selección de las unidades muestrales dentro de cada zona se ha realizado por sorteo sistemático y con arranque aleatorio, estableciéndose la condición de que la vivienda esté habitada y los suplentes se hallen a una distancia de los titulares de, al menos, tres viviendas. Prof. Lídia Montero © Pàg. 1 - 60 Curs 201 2- 201 3 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA Tratamiento de la información: Todos los resultados han sido elevados al total de la población correspondiente a cada una de las zonas de transporte en que se ha estructurado la Comunidad Autónoma XXXX, obteniéndose las diferentes matrices origen-destino de los desplazamientos. La elevación de los resultados de la encuesta domiciliaria se ha realizado en dos etapas: a) Obtención de elevadores iniciales (correspondientes a la unidad familiar y, por tanto, aplicables a cada uno de sus miembros). b) Obtención de los elevadores finales (incorporación del factor de corrección de los elevadores iniciales). A partir del universo correspondiente a cada estrato y la muestra obtenida, se ha procedido a la determinación de los coeficientes de elevación. La utilización de elevadores, dado que se trabaja con decimales, origina que, en determinadas tablas, el sumatorio de los datos correspondientes a cada zona no coincidan, con el total reflejado, existiendo pequeñas diferencias. A su vez, toda la información, junto con la cartografía de la Comunidad Autónoma XXXX, sobre la que han sido digitalizadas todas las líneas de transporte público, ha sido integrada en un sistema de información geográfica (GIS), que permite realizar explotaciones a nivel gráfico de todos los datos obtenidos en la realización de este estudio mediante la generación de diferentes mapas temáticos. Prof. Lídia Montero © Pàg. 1 - 61 Curs 201 2- 201 3 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA Zonificación Para la realización del estudio se ha estructurado cada Territorio de la Comunidad Autónoma XXXX en zonas de transporte lo más homogéneas posibles, partiendo de las comarcas, municipios, distritos y secciones. Para la explotación de resultados se han establecido, de cara al análisis de los desplazamientos realizados, 46 zonas internas en Provincia 1, 110 en Provincia 2, 65 en Provincia 3 y 15 zonas externas. En total, 236 zonas de transporte. Posteriormente, y con el objetivo de asignar una mayor claridad a la exposición de los datos, estas zonas se han agrupado en 23 correspondientes a las 20 comarcas en que se estructura la Comunidad Autónoma XXXX, diferenciando las tres capitales C1, C2 y C3. ZONIFICACION EN C1 CODIGO ZONA TRANSPORTE DISTRITO SECCION 1 ZONA 1 1 1-13,15 2 ZONA 2 1 16-23 3 ZONA 3 1 25-26,30-44 4 ZONA 4 1 27-29,45 5 DISEMINADO TOTAL 6 ZONA 6 2 31,32,33,35 7 ZONA 7 2 2,18,25-27,34 8 ZONA 8 2 3-6,19-24,28-30 9 ZONA 9 2 1,7-17 TOTAL Prof. Lídia Montero © Pàg. 1 - 62 Curs 201 2- 201 3 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA Descripicion De Los Campos Del Fichero Prof. Lídia Montero © Pàg. 1 - 63 Curs 201 2- 201 3 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA Prof. Lídia Montero © Pàg. 1 - 64 Curs 201 2- 201 3 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA Prof. Lídia Montero © Pàg. 1 - 65 Curs 201 2- 201 3 Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC 1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA Prof. Lídia Montero © Pàg. 1 - 66 Curs 201 2- 201 3