models de captació, anàlisi i interpretació de dades

Anuncio
MODELS DE CAPTACIÓ, ANÀLISI I
INTERPRETACIÓ DE DADES
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MASTER D’ESTADÍSTICA I INVESTIGACIÓ OPERATIVA
APUNTS DE CLASSE PROF. LÍDIA MONTERO:
TEMA 1: INTRODUCCIÓ ALS MÈTODES DE CAPTACIÓ,
ANÀLISI I INTERPRETACIÓ DE DADES
AUTORA:
Lídia Montero Mercadé
Departament d’Estadística i Investigació Operativa
Versió 1.5
Setembre del 2.013
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
TABLA DE CONTENIDOS
1-1. TEMA 1: INTRODUCCIÓN A LA RECOGIDA DE DATOS (*)_________________________________________________________________ 3
1-1.1 TÉCNICAS DE OBSERVACIÓN DE LA REALIDAD ________________________________________________________________________________ 3
1-1.2 COSTES DE UNA ENCUESTA POR CUESTIONARIO _______________________________________________________________________________ 5
1-1.3 CONCEPCIÓN DEL CUESTIONARIO: DISEÑO DEL CUESTIONARIO __________________________________________________________________ 6
1-1.3.1 ANATOMÍA DEL CUESTIONARIO ____________________________________________________________________________________________ 6
1-1.3.2 ORDEN DE LAS PREGUNTAS DEL CUESTIONARIO _______________________________________________________________________________ 7
1-1.3.3 PRINCIPIOS DE REDACCIÓN DE LAS PREGUNTAS DEL CUESTIONARIO _______________________________________________________________ 8
1-1.4 PLANIFICACIÓN DE LA ENCUESTA: DISEÑO DEL PLAN DE MUESTREO _____________________________________________________________ 10
1-1.5 SELECCIÓN DE LA MUESTRA: PROBABILISTA O NO PROBABILISTA _______________________________________________________________ 10
1-1.5.1 SELECCIÓN DE MUESTRAS PROBABILISTAS __________________________________________________________________________________ 12
1-1.6 TRATAMIENTO DE LOS DATOS ____________________________________________________________________________________________ 14
1-1.6.1 DEPURACIÓN DEL ARCHIVO DE DATOS Y TRATAMIENTO ESTADÍSTICO _____________________________________________________________ 16
1-1.6.2 ESTRATEGIAS DE K VECINOS MÁS PRÓXIMOS ________________________________________________________________________________ 21
1-2.
TIPOLOGÍA DE ERRORES MODELOS Y EN PREDICCIONES ______________________________________________________________ 24
1-3.
1-3.1
1-3.2
1-3.3
1-3.4
1-3.5
TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE __________________________________________________________________________
ENCUESTAS DOMICILIARÍAS ______________________________________________________________________________________________
ENCUESTAS CORDÓN, PANTALLA Y AFOROS ________________________________________________________________________________
OTRAS INFORMACIONES RECOGIDAS _______________________________________________________________________________________
ENCUESTAS DE PREFERENCIAS DECLARADAS, PD (STATED PREFERENCE SURVEYS) _________________________________________________
ENCUESTAS DE PREFERENCIAS REVELADAS EN REPARTO MODAL _______________________________________________________________
27
27
29
30
31
37
1-4.
1-4.1
1-4.2
1-4.3
EJEMPLOS DE ENCUESTAS EN TRANSPORTE: SP, PR, CALIDAD _________________________________________________________
EJEMPLO PD: CAMBIOS EN LA OFERTA DE AUTOBUSES, COMPETENCIA ENTRE EL AUTOBÚS, EL COCHE Y A PIE. _________________________
EJEMPLO ENC.CALIDAD DEL SERVICIO EN LA RED DE AUTOBÚS DE CIUDAD PEQUEÑA_______________________________________________
EJEMPLO ENCUESTA DE MOVILIDAD DOMICILIARIA EN ÁMBITO REGIONAL ______________________________________________________
46
46
50
58
Prof.
Lídia Montero ©
Pàg.
1- 2
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1. TEMA 1: INTRODUCCIÓN A LA RECOGIDA DE DATOS (*)
1-1.1
Técnicas de observación de la realidad
Permiten explicar lo que hacen, dicen u opinan los distintos agentes sociales implicados en un problema real.
La encuesta por cuestionario facilita la observación sistemática y objetiva más allá de la visión de los
distintos agentes sociales. Permite la comparación entre individuos (segmentos) y obtener datos
cuantitativos que pueden generalizarse a los distintos segmentos de la población utilizando técnicas
de inferencia estadística.
Realidad
-Hechos
Cuestionario
Datos
Información
⇒ Con diseño de cuestionario: tipos de administración de las encuestas con cuestionarios.
o Entrevista personal con cuestionario impreso y rellenado manual de las respuestas por parte del
entrevistador.
o Cuestionario de autocumplimentación enviado por correo (buzoneo).
o Cuestionario telefónico sin contacto personal y cumplimentación por parte del entrevistador.
o Computer Assisted Interview (entrada de datos con control y filtraje de errores):
• CATI (by telephone)
• CAPI (personal)
• CASI (self interviewing, by internet)
(*) Agradecimiento: Dr Tomàs Aluja, por los muchos y buenos consejos recibidos sobre el tema.
Prof.
Lídia Montero ©
Pàg.
1- 3
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 INTRODUCCIÓN: ENCUESTAS POR CUESTIONARIO
⇒ Por mera observación, por ejemplo estudio de las transacciones o accesos efectuados a servidores web.
⇒ Por discusión entre un grupo de expertos (focus group).
La recogida de datos por
cuestionario requiere del
desarrollo de una metodología
específica (diseño del
cuestionario) y de una
tecnología para filtrar, validar,
almacenar y posteriormente
realizar estudios estadísticos
de los datos recogidos. Parten
del supuesto que la opinión
pública es la suma de las
opiniones individuales, que
todas las opiniones valen lo
mismo y que todo el mundo
debe tener una opinión sobre
las preguntas planteadas.
Fuente: M. Bécue – UPC
Prof.
Lídia Montero ©
Pàg.
1- 4
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 INTRODUCCIÓN: ENCUESTAS POR CUESTIONARIO
Diferencia entre datos (asociado a los valores de las variables) e información (asociada a los
conceptos objeto del estudio).
Etapas de una encuesta:
⇒ Planificación: Diseño del Cuestionario y diseño del Plan de Muestreo.
⇒ Trabajo de Campo.
⇒ Explotación de los datos
1-1.2
Costes de una encuesta por cuestionario
• Diseño del cuestionario
• Grabación de los datos (valores de las variables
contempladas).
• Diseño del plan de muestreo. Tamaño.
• Supervisión de la calidad del trabajo de campo,
codificación y grabación de la encuesta.
• Selección de la muestra.
• Pretest: Encuesta piloto.
• Análisis estadístico de los datos: exploratorio y
confirmatorio.
• Selección y training de los encuestadores.
• Sueldos, viajes y dietas de los
encuestadores.
• Preparación de informes, memorias técnicas y
resúmenes ejecutivos.
• Codificación de las respuestas.
Prof.
Lídia Montero ©
• Teléfono, copistería.
Pàg.
1- 5
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO
1-1.3
Concepción del cuestionario: diseño del cuestionario
El cuestionario está determinado por el objetivo de la investigación, el tipo de administración y la
explotación de los datos. Resulta imprescindible conocer lo que dicen los distintos agentes sociales
implicados, los expertos y las fuentes de datos disponibles para construir caracterizar la población objeto
de estudio.
Resulta necesario introducir una terminología: el objetivo de la encuesta ha de especificarse a través de
los conceptos significativos bajo los que va a observarse. Las preguntas son los medios para capturar datos
y permiten dar valores a las características observables (variables) u obtener indicadores sobre variables
complejas. Indicadores y variables aportarán datos que posteriormente serán transformados en
información sobre los conceptos significativos en el objetivo de estudio.
1 - 1 . 3. 1
Anatomía del cuestionario
• Descriptores socioeconómicos de los individuos (género, edad, educación, posición social, situación
laboral, actividad profesional, residencia, estructura familiar, nivel de renta, patrimonio, etc).
• Descriptores contextuales: altamente dependientes del objeto de estudio (conocimiento del contexto,
comportamientos, etc).
• Descriptores de prácticas y opiniones (actitudes, hábitos, colectivos de pertenencia, etc).
Prof.
Lídia Montero ©
Pàg.
1- 6
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO
Los expertos sugieren emplear un formato tipo cuadernillo:
• Tipografía clara
• Diferenciar tipográficamente preguntas, preguntas filtro, frases de transición, respuestas, notas para
los encuestadores y marcas para la codificación.
• Debe ser lo más breve posible, depende del tema, la población estudiada y la modalidad de
administración (telefónica o presencial).
1 - 1 . 3. 2
Orden de las preguntas del cuestionario
La estructura del cuestionario puede variar según contenido, pero en todo caso deber ser coherente y
facilitar el desarrollo y la continuidad de las preguntas que lo integran.
La ordenación general y de las preguntes es importante y se pueden dar algunos consejos al respecto:
1. Ir de lo general a lo particular.
2. Ir de lo menos comprometido a lo más comprometido.
3. Las preguntas delicadas nunca han de ir al principio o al final.
4. Las preguntas socioeconómicas han de ir al fin.
5. Se han de usar frases de transición para romper la monotonía y en los cambios de temática.
6. Las primeras preguntas suelen ser estratégicas marcan el tono y predisponen al encuestado: deben ser
neutras, amenas y fáciles.
Prof.
Lídia Montero ©
Pàg.
1- 7
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO
7. Se debe evitar que una pregunta (o grupo de preguntas) condicione la respuesta a las preguntas
siguientes.
8. Resulta imprescindible diseñar preguntas filtro para no frustar a las personas que no tienen ciertos
requisitos o para evitar condicionamientos.
9. El orden las preguntas puede influir en la no-respuesta, el peor de los lastres de una encuesta por
cuestionario, en temas delicados la no-respuesta tiende a aumentar con la edad del encuestado, el
género femenino, las actividades profesionales menos cualificadas, el bajo nivel educativo y el menor
tamaño de los grupos de pertenencia.
1 - 1 . 3. 3
Principios de redacción de las preguntas del cuestionario
1. Emplear un vocabulario simple y adaptado al tipo de población estudiada. Prestar atención a las
palabras introductorias de temas y preguntas.
2. Evitar formular una pregunta de manera que respuesta suponga reunir ciertos requisitos.
3. Verificar la estructura lógica de las preguntas: frases interrogativas con negaciones, dobles
negaciones que pueden llevar a ambigüedades, incomprensión y finalmente errores de observación.
4. Evitar la introducción de 2 conceptos en la misma pregunta y las preguntas dobles.
Prof.
Lídia Montero ©
Pàg.
1- 8
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO
5. Evitar los términos cargados de afectividad, juicios de valor o frases de connotaciones diversas en
función del contexto puesto que se modifica el sentido de la pregunta en función del contexto del
individuo.
6. Evitar ambigüedades y situaciones en que a una misma pregunta se le pueda dar una misma respuesta,
pero por razones diversas.
7. Autorizar dobles respuestas en preguntas cerradas, pero minimizarlas al mínimo dado que el análisis
estadístico posterior se complica enormemente.
8. Las preguntas cerradas (donde los individuos eligen la respuesta entre una lista de posibilidades) debe
cubrir todas las posibles situaciones. Se ha de establecer, si procede, un equilibrio entre modalidades
positivas y negativas, revisando muy bien la lista de posibilidades ofertadas.
9. Valorar la inclusión de las no-respuestas y alternativas intermedias o neutras. Las preguntas
abiertas-cerradas facilitan posicionamientos diferenciales.
10.
Si se ofrece el “NS/NC” da opción a evadir la respuesta; sinó, fuerza a opinar a los sin opinión
diminuyendo la no respuesta.
11. En preguntas delicadas convertir actitudes en creencias y combinarlas con preguntas irrelevantes. Los
modos verbales son extremadamente importantes en estas preguntas.
Prof.
Lídia Montero ©
Pàg.
1- 9
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO
1-1.4
Planificación de la encuesta: diseño del plan de muestreo
El plan de muestreo operativo detalla:
• Los recursos disponibles y los costes previstos.
• El calendario.
• El tamaño y la composición de la muestra. Definición del marco muestral.
• Las responsabilidades de las personas que efectúan el trabajo de campo.
• La selección de la muestra. Rutas e itinerarios de los encuestadores.
• Las formas de supervisión del trabajo de campo: revisión de las respuestas a los cuestionarios,
control de la muestra, reencuesta para completar no respuestas, imputación de no respuestas.
1-1.5
Selección de la muestra: probabilista o no probabilista
La población objeto de estudio puede estar disponible informatizadamente (marco muestral de referencia),
de manera que sea posible realizar una selección aleatoria por algún método de muestreo de las unidades
que van a integrar la muestra: se conoce a priori la probabilidad que tiene cada individuo de formar parte
de la muestra (muestreo probabilista).
Por razones de coste, no suele haber un marco muestral disponible y se opta por algún método de muestreo
no probabilista. Hay dos grandes familias: por cuotas o por itinerarios.
Prof.
Lídia Montero ©
Pàg.
1- 10
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO
Los métodos por cuotas imponen el reparto de la muestra según las cuotas (marginales o conjuntas) en la
población. El principio reside en seleccionar una estructura de la muestra idéntica a la estructura de la
población y por tanto, las variables que definen las cuotas (en general, género y grupo de edad) han de
tener una influencia preponderante en el objetivo del estudio.
Requiere entrevistadores capacitados que administren bien sus cuotas (y al final no les quede por
entrevistar a un deportista de más de 80 años), las cuotas poblacionales en las distintas macrozonas
de estudio han de ser recientes y fiables. Suelen dar buenos resultados en muestras pequeñas y por
tanto, se combinan con diseños de primeras etapas probabilistas.
El método de los itinerarios define al entrevistador un itinerario fijo sobre un plano y los puntos de
encuesta. El coste de puesta en marcha para elaborar los itinerarios que den una cobertura satisfactoria a
la población objeto de estudio no es despreciable. Da buenos resultados.
La muestra debe ser representativa (reproducir las características del conjunto de la población).
Diferenciar entre población (finita o infinita) y muestra.
• La selección de la muestra por cuotas, por paseo aleatorio, etc lleva a las denominadas muestras no
probabilistas.
Hay técnicas de selección de la muestra (técnicas de muestreo) que llevan a muestras probabilistas sobre
las que los estadísticos pueden aplicar todo el aparato de la inferencia estadística matemática convencional.
Prof.
Lídia Montero ©
Pàg.
1- 11
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-2 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO
1 - 1 . 5. 1
Selección de muestras probabilistas
Las técnicas de selección de muestras probabilistas son muy variadas y el aparato estadístico-matemático
resulta en la mayoría de casos complejos, es un campo para los especialistas en Estadística. Sin embargo,
conviene conocer las principales técnicas de muestreo para valorar objetivamente las conclusiones de las
encuestas que aparecen en la práctica profesional.
Las técnicas de muestreo probabilista de las que se va a hablar en el presente curso son:
• Muestreo aleatorio simple. Muestreo sistemático.
ASSR
m ind.
H
2
Estratificación: Proporcional al tamaño
según las UP's por estrato
Sea f = n/N; n h = f . Nh
1
f: factor de muestreo (en familias)
nh: tamaño muestral (UP o familias) en el
estrato h
mh desconocido a priori (tamaño
muestral en individuos estrato h)
• Muestreo Estratificado. Proporcional y
no proporcional (Neymann).
Universo: M ~ 250.000
N ~ 80.000
Prof.
Lídia Montero ©
Pàg.
1- 12
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS
• Muestreo por Conglomerados (clusters) y muestreo multietápico.
CONGLOMERADOS
n conglom. (fam.)
cada uno tamaño m (ind.)
m=n m
Existen técnicas de postajuste de las muestras para corregir deficiencias de representatividad de las
muestras. Las técnicas se clasifican en:
• Post-ponderación (weighting tecniques)
• Estimadores por cociente (ratio) y por regresión.
Las muestras se emplean para estimar parámetros de la población el error de muestreo siempre existe es
inherente a la variabilidad de la población y al hecho de estar trabajando con un subconjunto de ella (la
muestra). El error de muestreo se puede acotar y en general es inversamente proporcional al tamaño de la
muestra: el plan de muestreo seleccionado es el que determina las fórmulas a emplear.
El sesgo del muestreo no debe confundirse con el error de muestreo: la deficiencia de una muestra, es
decir, su falta de representatividad es la causante de esta fuente de error.
Prof.
Lídia Montero ©
Pàg.
1- 13
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS
1-1.6
Tratamiento de los datos
Etapa final posterior al trabajo de campo.
• Control de las respuestas cerradas. Codificación de aviso de los casos de no-respuesta para su
posterior tratamiento estadístico.
• Codificación de las preguntas abiertas: manualmente (hay que homogeneizar los criterios de
codificación) o con técnicas estadísticas de análisis lexicométricos.
• La grabación de los datos codificados en un archivo informatizado con formato preestablecido:
creación de un archivo de datos brutos. A veces hay varios en función de las distintas partes en que
se descompone el temario de la encuesta. Doble grabación o grabación asistida.
Prof.
Lídia Montero ©
Pàg.
1- 14
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS
Los tipos de datos suelen ser muy variados: numéricos (discretos o continuos), cualitativos (nominales u
ordinales), textos, imágenes, videos, etc.
• Los entornos de almacenamiento de los datos deben permitir la definición de los diversos tipos.
• Los procedimientos de filtraje y validación son distintos según la tipología del dato.
• La introducción de metainformación es imprescindible para la correcta interpretación de los
resultados, así como en los pasos iniciales del proceso de análisis, ya que permite clasificar entre
distintos tipos de datos faltantes (missing data) y facilita la detección de outliers (valores estraños,
ya sea por su especificidad o bien por resultar incorrectos). Ejemplo de la medición de la capa de
ozono en el casquete antártico.
⇒ Existen estándares para el almacenamiento e intercambio de datos informatizados (XML).
⇒ Existen estándares para la caracterización de los metadatos. No todos los paquetes estadísticos
permiten la definición exhaustiva de metadatos (el mejor SPAD, un entorno aceptable SPSS).
⇒ Las bases de datos históricas se denominan en el argot de la Minería de Datos data warehouses.
⇒ Los datos crudos (raw data) deben controlarse e incluso transformarse antes de realizar procesos
estadísticos elaborados.
Prof.
Lídia Montero ©
Pàg.
1- 15
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 TEMA 1: INTRODUCCIÓN A LA RECOGIDA DE DATOS
1 - 1 . 6. 1
Depuración del archivo de datos y tratamiento estadístico
• Control de errores de codificación obvios: rangos de edades, número de hijos, lineas de autobús
disponibles, ingresos brutos, etc.
• Recodificación: quizás la lista de opciones de respuestas a algunas preguntas cerradas sea demasiado al
encontrarse opciones no seleccionadas por los encuestados.
• Tratamiento de la no-respuesta:
o Determinista: Por ejemplo, cuándo se le pide el barrio de residencia pero el encuestado sólo conoce
la dirección, se puede inferir.
o Imputación de un valor por defecto: al preguntar el número de hijos a un individuo que resulta
menor de 10 años.
o Técnicas de imputación hot-deck a partir de un donante y otras estrategias con alto sustrato
estadístico.
La Estadística se verá como una disciplina que permite cuantificar el nivel de incertidumbre asociado a
medidas extraídas de datos y en ese sentido es una herramienta que asiste al técnico en el proceso de toma
de decisiones bajo aleatoriedad. La Estadística se presenta como una disciplina que permite tratar la
aleatoriedad y trabajar con la regularidad presente en los procesos no deterministas.
Prof.
Lídia Montero ©
Pàg.
1- 16
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 INTRODUCCIÓN: DISEÑO DE ENCUESTAS POR CUESTIONARIO
Los datos para un estudio se obtienen como una muestra de observaciones de una población de interés, que
no resulta técnica ni económicamente factible de observar en su totalidad. Debemos diferenciar entre
población y muestra. Las encuestas suelen presentar problemas en la muestra efectiva recogida:
• Tasa de respuesta y validez no suele ser del 100% (mortalidad de las muestra).
• Sesgo de muestreo: algunos individuos de la población se excluyen deliberada o indeliberadamente.
o Se selecciona una muestra con una cobertura incompleta de la población, ya que hay individuos
que no tienen posibilidad de ser seleccionados. Relacionado con el sesgo de selección en
muestreos no probabilistas
o Se puede detectar una tasa de no respuesta total elevada (característica de las encuestas por
correo). Las técnicas para paliar la deficiencia consisten en la sustitución del individuo (por otro
equivalente) o bien la reponderación de los estimadores que se van a obtener en el proceso
estadístico de análisis.
o Sesgo social: cuando determinados individuos evitan responder algunas preguntas delicadas.
o Sesgo de medición: cuando el proceso de observación es falseado por el encuestado (falta de
memoria, mala interpretación, por qué está socialmente mal o bien dar una respuesta concreta,
etc), por el instrumento (defectos en el cuestionario) o por el encuestador (raza, clase social,
personalidad).
Artículo Daly-Ortúzar del TEC (December 1990): Forescasting and data aggregation theory and practice
Prof.
Lídia Montero ©
Pàg.
1- 17
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS
La inclusión de preguntas abiertas dificulta el proceso de filtraje y validación y requiere del uso de
técnicas de análisis estadístico de textos que no resultan de amplio uso profesional, ni están implementados
en los paquetes estadísticos convencionales.
La tendencia actual con la introducción de la informática y las tecnologías de la información en los entornos
profesionales de la ingeniería, las ciencias e incluso en la vida privada lleva a la disponibilidad de mega bases
de datos sin diseño de la muestra y por tanto sin representatividad estadística. Resulta un reto para los
estadísticos el desarrollo de procedimientos que permitan explotar y cuantificar la incertidumbre
inherente. Adicionalmente se debe plantear el problema de la confidencialidad de los datos que está muy
desarrollado en los entornos estadísticos oficiales.
La integración de diferentes fuentes de datos ha dado lugar a una disciplina muy de moda que se denomina
data fusion. La fusión de datos trata los problemas de la mezcla de información procedentes de diversas
fuentes y una de los problemas estrella es la imputación de un bloque completo de variables faltantes
(missing variables). El interés de la fusión de datos reside en el aprovechamiento de datos disponibles de
otros estudios y que no pueden disponerse (por cuestiones técnicas o económicas) en un estudio actual.
Prof.
Lídia Montero ©
Pàg.
1- 18
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS
Los principales elementos en la fusión de datos son (fuente:
apuntes Dr. Tomàs Aluja):
•
•
•
•
Variables comunes
Fichero Receptor
Fichero Donante (X0, Y0)
Fichero Receptor (X1)
Variables comunes X
Variables específicas Y
Fichero Donante
El objetivo de la fusion de datos reside en transferir las
variables específicas del fichero donante al fichero
receptor considerando f(Y/X) con las consideraciones
siguientes:
Variables
específicas
• Coherencia individual. Los valores imputados deben ser realistas para las variables específicas Y.
• Precisión individual (ausencia de sesgo). Los valores imputados deben ser tan próximos como sea posible
a los verdaderos valores de las variables específicas Y (desconocidos).
• Simulación con datos reales: Las imputaciones multivariables deben reproducir la asociación existente
entre las variables específicas Y y por tanto su f(Y).
• Los valores imputados deben reproducir la distribución condicional de las variables Y dadas las variables
X que se observa en el fichero donante (f(y/x)). Se suele asumir COV(Y,Z/X)=0 para toda Z).
Prof.
Lídia Montero ©
Pàg.
1- 19
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS
Un ejemplo de fusión de datos en marketing es la medida de
la efectividad de las campañas de publicidad en televisión
Variables comunes
Fichero Receptor
• Fichero donante: Panel de audiencia
• Fichero receptor: Panel de consumidores
Metodologías para la fusión de datos:
Fichero Donante
Variables
específicas
• Modelos explícitos: Establecer un modelo que conecte
las variables Y con las variables X en el fichero donante
y aplicar este modelo al fichero receptor. Suelen ser
modelos estadísticos: regresión en componentes principales, regresión lineal múltiple (generalizada o
no), regresión en mínimos cuadrados parciales (PLSR), etc
• Modelos implícitos (hot deck). Encontrar para cada individuo del fichero receptor uno o más
individuos en el archivo donante lo más similar posible y posteriormente transferir los valores de las
variables Y a cada individuo del fichero receptor: K-NN (K Nearest Neighbour), clustering, árboles de
segmentación, etc.
• Modelos cold deck: se utiliza información del donante correspondiente a cada receptor y a valores de
las variables en alguna fecha anterior.
Prof.
Lídia Montero ©
Pàg.
1 - 20
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS
1 - 1 . 6. 2
Estrategias de K Vecinos más Próximos
Localizar para cada individuo receptor, los individuos donantes más semejantes y transferir de alguna
manera los valores específicos de las variables Y de los donantes a los receptores.
Encontrar para cada receptor la
lista de los donantes más similares
según las variables comunes
Se almacena una tabla con un número
k de vecinos para cada individuo
receptor.
Se puede realizar en R
Prof.
Lídia Montero ©
Pàg.
1 - 21
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-1 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS
Etapas de la fusión de datos según el algoritmo de los K Vecinos más próximos:
• Preprocesado de los datos del fichero de donantes. Cuantificar la representatividad de los donantes
con respecto a la población, establecer las diferencias estadísticas entre donantes y receptores,
descripción estadística de las variables específicas con respecto a las variables comunes (cuantificar la
potencia predictiva de cada una de las variables comunes con o sin transformaciones), etc.
• Selección de las variables comunes efectivas: criterio de parsimonia, selección del mínimo conjunto de
variables comunes con la máxima capacidad predictiva de las variables específicas.
Espacio Original
•
Prof.
Espacio Factorial
Posible necesidad de establecer clusters instrumentales entre los donantes (según tamaño del archivo).
Lídia Montero ©
Pàg.
1 - 22
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-2 TEMA 1: INTRODUCCIÓN A LOS TIPOS DE RECOGIDA DE DATOS
•
Posicionar donantes y receptores en el mismo subespacio definido por las variables comunes,
construir un archivo común desde el punto de vista estadístico (dataframe en R): en el espació original o
bien en espacio factorial transformado (componentes principales, correspondencias simples o
múltiples). Se recomienda trabajar en los espacios factoriales transformados.
•
Determinar la tabla de K vecinos más próximos que relaciona cada receptor con sus K donantes más
cercanos según las variables comunes X (en el espacio factorial transformado).
•
Imputación de la variables específicas Y en el fichero receptor. Diversas estrategias cada una con sus
pros y contras: imputar según el vecino más próximo (coherencia) o bien por la media local de los r
vecinos más próximos (minimiza el error de predicción)
seleccionados de manera determinista o estocástica o
estrategias de generación de valores aleatorios
multivariantes más complejas.
• Validación de la imputación.
Prof.
Lídia Montero ©
Pàg.
1 - 23
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-2. TIPOLOGÍA DE ERRORES MODELOS Y EN PREDICCIONES
La finalidad de los modelos reside en su capacidad de realizar predicciones y los modelos más complejos no
tienen porque ser siempre los que den las predicciones más precisas, ya que las variables explicativas están
sujetas a imprecisiones o errores de medida. Dado un presupuesto y unos requerimientos de precisión en las
predicciones, el ingeniero debe decidir cuál es el nivel de complejidad del modelo a emplear dada la
precisión disponible en las variables explicativas del modelo.
COMPLEJIDAD DEL
MODELO
Por ejemplo, en los modelos de generación
de viajes se puede trabajar con la
población total por zona de transporte o
con la población por nivel socioeconómico, si
estas variables explicativas no estuvieran
disponibles a nivel de zona de transporte,
sólo
globalmente
para
subámbitos
municipales, entonces no tendría ningún
sentido desarrollar un modelo de regresión
múltiple considerando esas variables a nivel
zonal.
TRADE-OFF
DISPONIBILIDAD
Y
PRECISIÓN DE LAS
VARIABLES
EXPLICATIVAS
Prof.
Lídia Montero ©
Pàg.
1 - 24
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-2 TIPOLOGÍA DE ERRORES EN MODELOS Y EN PREDICCIONES
Los errores más habituales en los procesos de recogida de datos son:
⇒ Los errores de medida. Imprecisiones inherentes a la toma de datos de partida, como una mala
interpretación de las preguntas de un cuestionario (por ejemplo, duración de un desplazamiento, quiere
decir de todas sus etapas o globalmente, en general o en un día concretamente? ), errores de medida en
algunas magnitudes de la red (tiempos de semáforo), errores de codificación o grabación (por ejemplo,
redondear los tiempos de viaje a múltiplos de 5 minutos) o sencillamente realizar una grabación simple en
lugar de una doble grabación en una encuesta domiciliaria. En todo caso si se dedica más presupuesto al
control de la calidad de los datos, se reduce esta fuente de perturbación.
• Si la calidad de los datos no es buena, casi siempre será más seguro hacer predicciones con modelos
más sencillos y robustos. La exactitud de las variables explicativas debe tenerse siempre en cuenta.
⇒ Los errores de muestreo son debidos al uso de muestras, no de poblaciones y en general son
inversamente proporcionales a la raíz cuadrada del tamaño muestral (en muestras m.a.s.).
⇒ Los errores de especificación son debidos a la propia formulación del modelo como simplificación de la
propia realidad, en este grupo se incluyen:
Prof.
Lídia Montero ©
Pàg.
1 - 25
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-2 TIPOLOGÍA DE ERRORES EN MODELOS Y EN PREDICCIONES
• Inclusión de variables irrelevantes. Por ejemplo en regresión no producen sesgo, pero aumentan la
variabilidad de los estimadores y las predicciones (incrementan el error de muestreo).
• Omisión de variables relevantes. Causan sesgo en las predicciones y aumentan la imprecisión de las
predicciones.
• (cont.) Exclusión de variables subjetivas de gusto, por ejemplo en los modelos de reparto modal.
• Omisión de variables de hábito o inercia o definición de relaciones lineales cuando los efectos son
realmente no lineales.
⇒ Los errores de transferencia y portabilidad. Los modelos se formulan, estiman y validan para un ámbito
de estudio concreto y su transferencia a otros estudios o contextos puede no ser adecuada. Se eliminan
reestimando los modelos en los nuevos contextos, aunque puede resultar costoso. Un ejemplo recurrente
es el valor del tiempo para distintos motivos de viaje.
⇒ Los errores de agregación. Básicamente originados al requerirse predicciones por grupos de individuos
mientras los modelos disponibles definen las predicciones a nivel individual (por ejemplo, los modelos de
reparto modal desagregados).
• En estudios reales, las opciones presentadas a los individuos están agregadas y deben realizar su
elección usando valores medios (en las variables explicativas o incluso en las alternativas).
Prof.
Lídia Montero ©
Pàg.
1 - 26
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE
1-3.1
Encuestas Domiciliarías
Las encuestas domiciliarias para recoger hábitos de desplazamientos y origen-destino de éstos. Son caras
en trabajo de campo y en el proceso de grabación y análisis de los datos. Son importantes en las grandes
áreas metropolitanas ya que facilitan una fotografía de los perfiles de los desplazamientos y son la materia
prima para la elaboración de los modelos de demanda.
Desde siempre se ha dicho que no se debe invertir la mayor parte de los recursos monetarios y temporales
en la recogida de datos.
Se recogen:
• Información sobre los viajes: origen y destino, duración, modo, motivo, etc.
• Se incluyen todos los modos de desplazamiento, a veces se suprimen viajes con duración inferior a 5
min. Se detallan características de los motivos. Se dividen las etapas, etc.
• Cobertura de un periodo largo de tiempo, un día o bien una semana, donde se deben detallar todos los
viajes.
• La muestra puede ser de hogares o individuos. Se recogen todos los viajes de todos los miembros
de la familia con edad superior a un umbral (5 años o 14 años). El cálculo de errores muestrales no es
el mismo en el caso de muestras de hogares o individuos.
Prof.
Lídia Montero ©
Pàg.
1 - 27
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: DOMICILIARIAS, ETC
Las críticas esgrimidas contra las encuestas OD suelen ser:
• Algunas sólo recogen el comportamiento promedio o habitual, no el comportamiento real. Típico de las
encuestas que recogen qué viajes se realizan habitualmente, suelen mostrar un sesgo a desestimar los
viajes ocasionales o inadvertidamente poco importantes según los individuos.
• Las informaciones recogidas sobre los tiempos de desplazamiento suelen ser poco precisas, sesgadas
y no estan asociadas con los niveles de servicio de los distintos modos. La solución es simple: en lugar
de preguntar por duración se debe preguntar por hora de inicio y finalización de una etapa de un
desplazamiento concreto. En transporte público, la valoración subjetiva del tiempo de espera,
trayecto o nivel de servicio se ha revelado muy importante en el desarrollo de modelos de selección
de alternativas.
• Las encuestas domiciliarias se realizan en períodos-tipo o día habitual y en general no pueden emplear
para estudios de movilidad en zonas turísticas con puntas estivales.
• Las encuestas domiciliarias por hogares deben considerar también el personal relacionado con la
familia (asistentas, canguros, etc.).
El diseño del cuadernillo de la encuesta recae en especialistas y suelen dar mejor resultados las encuestas
domiciliarias donde hay visita para recoger información común y caracterización socioeconómica de todos
los miembros del hogar y se deja un cuadernillo para detallar los desplazamientos realizados en el periodo
de estudio (con teléfonos de contacto en caso de dudas en la autocumplimentación y/o segunda visita para
la recogida del cuadernillo de desplazamientos).
Prof.
Lídia Montero ©
Pàg.
1 - 28
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: DOMICILIARIAS, ETC
1-3.2
Encuestas Cordón, Pantalla y Aforos
Ámbito del estudio
Viajes
Viajes de no
residentes con
origen y destino
externo: tráfico
de paso
de
Viajes de no
residentes en el
área de estudio
Viajes de residentes
fuera del área de estudio
domiciliarias). Pueden incluir o no información OD.
• Las encuestas domiciliarias recogen
los viajes de los residentes.
• Las encuestas cordón recogen los
viajes de residentes o no residentes en el
cordón externo o frontera del modelo. Se
suelen apostar en las principales vías o
carreteras de conexión exterior. Permiten
calibrar las puertas del modelo. Pueden
incluir o no información OD.
• Las encuestas pantalla o de cordón
interno recogen desplazamientos en el
interior del área debidas a no residentes (y
a su vez validan las encuestas OD
• Los aforos de vehículos-tipo y personas en vías estratégicas del área de estudio (no son OD) es una
información que se puede integrar posteriormente en la elaboración de matrices de movilidad OD.
Prof.
Lídia Montero ©
Pàg.
1 - 29
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: DOMICILIARIAS
1-3.3
Otras informaciones recogidas
El desarrollo de modelos de demanda conlleva la necesidad de recoger información sobre los usos de suelo
(población, viviendas, m2 por sector de actividad diferenciando pequeño comercio y gran superficie, número
de empleos por sector, plazas de parking, ubicación de servicios cómo escuelas, teatros, centros médicos,
etc).
Los avances en los entornos informáticos permiten incrementar el detalle de la información recogida
solicitando la información del entorno por capas, con las distintas unidades georeferenciadas. En GeoMedia,
se tiene constancia de la recogida de información sobre la ubicación de todos y cada uno de los árboles,
mobiliario urbano, elementos de actividad económica de ciudades medianas, como el caso de Barcelona o en
Vitoria-Gasteiz. Los entornos GIS llevan asociados bases de datos relacionales que pueden exportarse
posteriormente a tablas más habitualmente manejadas por los ingenieros en access o excel (entorn MSWindows).
Las Encuestas de Calidad se realizan periódicamente por los operadores de transporte público y permite la
obtención de un índice de satisfacción, la detección de aspectos a mejorar en el servicio o sencillamente
aspectos no importantes. La comparación entre índicadores a lo largo del tiempo (cada 5 años) da una idea
de la evolución de la opinión de los usuarios.
Las Encuestas Sube/Baja en las distintas paradas de las líneas de autobús de un operador y la
configuración OD entre paradas suele realizarse habitualmente.
Prof.
Lídia Montero ©
Pàg.
1 - 30
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PD VS PR
1-3.4
Encuestas de Preferencias Declaradas, PD (Stated Preference surveys)
Las encuestas domiciliarias recogen viajes reales y por tanto permiten la estimación de modelos de reparto
modal (genéricamente, de selección de alternativas) sobre elecciones efectuadas por los individuos, por
tanto responden a información sobre preferencias reveladas (PR, revealed-preference surveys).
El perfil de los viajes o comportamiento de los viajeros en una situación base queda reflejado en la recogida
de información tipo preferencias reveladas, pero para la prognosis a escenarios futuros con cambios
importantes en las infraestructuras de transporte, las predicciones de los modelos de demanda sobre una
base PR suelen ser deficientes ya que utilizan variables explicativas que pueden estar correlacionadas en la
situación base o bien existen variables secundarias que no se han introducido en los modelos (variables de
confort o seguridad muy importantes en el uso de transporte público) o bien el escenario futuro recoge
cambios muy drásticos, como la aparición de un nuevo modo o la implantación de peaje urbano en el CBD.
La solución reside en someter a condiciones hipotéticas ficticias a los individiduos, con variables
características a niveles inteligentemente definidos mediante diseño de experimentos y medir la posición o
alternativa seleccionada por los individuos en diferentes condiciones. Esta es una información de
preferencias declaradas (encuesta PD).
Prof.
Lídia Montero ©
Pàg.
1 - 31
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PD VS PR
Las Encuesta de Preferencias Reveladas (PR) para la estimación de modelos de reparto modal suelen ser
previas. Estas encuestas requieren de una muestra de unos 600 individuos (unos 50 a 100 individuos por
parámetro, con el criterio de parsimonia implícito, no apunta a superar las 6-8 variables explicativas). Los
individuos de la encuesta de PR son la base de partida para la encuesta PD, donde se tienen que eliminar los
individuos cautivos o con necesidades muy específicas.
La combinación de datos de Preferencias Reveladas (PR) y Declaradas (PD) con el fin de estimar un modelo
único de PR/PD se ofrece como una opción de futuro que permite construir buenos modelos predictivos
(Discrete Choice Methods with Simulation Kenneth Train Cambridge University Press, 2003 ).
Los datos de encuestas PD son buenos para determinar la valoración subjetiva de atributos, pero pueden no
ser fiables en términos de predicción a futuro. Los condicionantes para que las SP lleven a conclusiones
válidas son:
• El diseño de las encuestas SP es muy complejo y debe realizarse y reseguirse por personal experto.
• Las alternativas deben ser descritas de manera realista y precisa a partir de atributos como tiempo
de viaje, coste, frecuencia, comodidad, trazado. Las distintas alternativas hipotéticas se construyen
de manera que se pueda estimar el efecto individual de cada atributo (diseño de experimentos).
• La presentación de las alternativas hipotéticas tienen que ser inteligible y concisa.
• Las respuestas a las situaciones hipotéticas pueden ser la elección de una alternativa o bien el
establecimiento de un ranking de preferencia entre las alternativas o la elección por competencia
entre parejas de alternativas, etc.
Prof.
Lídia Montero ©
Pàg.
1 - 32
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PD VS PR
El orden y la presentación de las alternativas se ha revelado importante. El efecto de fatiga aparece en los
encuestados con facilidad si el número de opciones es elevado (superior a 10), posiblemente debido al gran
número de atributos incluídos o bien a los muchos niveles de variación a los que son sometidos. Una prueba
piloto suele ser necesaria para detectar problemas en el diseño o definir los niveles correctos de los
atributos.
Los autores experimentados afirman que aplican algoritmo específicos en el diseño del cuestionario para
reducir la molestia del entrevistado.
Una amplia discusión sobre los aspectos relevantes en el diseño del cuestionario, punto que los expertos
indican crítico se encuentra en el texto editado por Ortúzar, Hensher, Jara-Díaz (1998) en Elsevier
“Travel Behavior Research: Updating the State of Play”, concretamente la contribución de Staffan
Widlert Stated Preferente Studies: The Design Affects the Results.
Hay tres formas principales de recoger datos de PD:
 Jerarquizaciones (rankings)
 Elecciones
 Elecciones generalizadas o escalamientos
Prof.
Lídia Montero ©
Pàg.
1 - 33
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PD, PR
El diseño de las encuestas PD contempla:
• La definición de las alternativas tecnológicamente posibles (factibles).
• La selección de los atributos que van a caracterizar cada opción.
• La selección de las unidades de medida para cada atributo (o el nombre dado a los distintos niveles).
• La definición de los niveles a considerar en cada atributo y la combinación de niveles en atributos que va
a caracterizar cada opción (diseño experimental).
De acuerdo con Louviere (Louviere, J.J., Hensher D.A. and Swait J (2000) Stated Choice Methods:
Analysis and Application. Cambridge Univ. Press, Cambridge):
• Los efectos principales explican 80% o más de la varianza.
• Las interacciones dobles raramente explican más del 3%. Las interacciones triples explican proporciones
aún menores de la varianza de los datos, raramente más de 0,5 a 1%.
• Los efectos de orden superior explican una proporción minúscula de la varianza de los datos
El costo de introducir interacciones es básicamente mayor complejidad (se requiere evaluar más
situaciones hipotéticas). Si el número de alternativas, atributos, etc. no se mantiene bajo, el diseño puede
tornarse impracticable. La solución es utilizar un diseño de bloques, aplicado a varias sub-muestras, lo que
complica notablemente el diseño del Plan de Muestreo y tiende a requerir un cierto aumento del tamaño
muestral total.
Prof.
Lídia Montero ©
Pàg.
1 - 34
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: SP, PR
Todas se diseñan en forma análoga; en los últimos dos casos sólo cambia la escala para responder. Los datos
de Escalamiento o Elección Generalizada permiten usar las escalas como tasas y así estimar el efecto de
cada factor en las elecciones individuales.
La jerarquización es algo más compleja; número de evaluaciones
requerido para ordenar N opciones:
1
N2 + N ) −1
(
2
Los datos de jerarquización requieren de la explosión del ranking; el ordenamiento:
U1 ≥ U2 ≥ …. ≥ Um
que puede ser transformado en m – 1 elecciones equivalentes:
U1 ≥ Uj
j = {2, 3, …, m}
U2 ≥ Uj
j = {3, 4, …, m}
•
•
•
Um-1 ≥ Um
Prof.
Lídia Montero ©
Pàg.
1 - 35
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: SP, PR
Las elecciones generadas se tratan igual que en el caso de Preferencias Reveladas. Los problema
detectados habitualmente son: opciones independientes, ruido por profundidad (autores como Ben Akiva
recomiendan no superar la profundidad de 4, en cambio otros autores como Ortúzar afirman poder llegar
hasta 8-9, si el diseño de las alternativas está muy estudiado y refinado, después de sufrir pruebas en
encuestas piloto de 30-40 individuos).
Los métodos de Estimación para Elecciones Generalizadas
 Regresión lineal tras transformación de Berkson-Theil
 Probit ordinal
 Logit binario (no recomendable)
Los métodos de Estimación para Datos de Elección
 Tal como en el caso de datos de Preferencias Reveladas – máxima verosimilitud
Los métodos anteriores requieren de una hipótesis potencialmente inválida; todas las observaciones de un
individuo son independientes entre sí. En estos momentos, es tema de investigación científica la extensión
de los modelos desagregados habituales (de procedencia PR o PD) a observaciones repetidas (efectos
aleatorios).
Prof.
Lídia Montero ©
Pàg.
1 - 36
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: SP, PR
1-3.5
Encuestas de Preferencias Reveladas en reparto modal
Los modelos de reparto modal son probablemente los más importantes dentro de los modelos de
Planificación del Transporte. Esto se debe al papel que juega la dicotomía transporte colectivo/privado en
el mantenimiento de niveles de congestión aceptables en las grandes ciudades occidentales. El reparto
modal actual de un ámbito de estudio requiere de Encuestas de Preferencias Reveladas.
Los factores que influyen en la selección del modo de viaje pueden clasificarse en varios grupos:
• Características del viajero:
• Disponibilidad de vehículo privado.
• Estructura de la vivienda.
• Nivel de renta.
• Densidad de población.
Características del viaje:
• El motivo del viaje (los viajes de trabajo son más propensos a utilizar el transporte colectivo).
• Hora del día en que se lleva a cabo el viaje.
Prof.
Lídia Montero ©
Pàg.
1 - 37
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR
Características del sistema de transporte:
• Tiempo de viaje (viaje más espera) en los distintos modos.
• Coste monetario del viaje en cada modo.
• Disponibilidad y coste del aparcamiento en modo privado.
• Comodidad y conveniencia de los modos.
• Seguridad y regularidad del servicio.
En la mayoría de los casos, los modelos de reparto modal se han aplicado posteriormente a la distribución
de viajes, considerando como variables significativas una o dos características del viaje (normalmente,
tiempo de viaje en el vehículo) y deben calibrar una curva de aspecto exponencial que representa la
proporción de viajes en cada modo, a partir de la diferencia de coste del viaje (tiempo).
Los modelos de reparto modal más inexactos son agregados y representan el reparto modal
colectivo/privado donde el factor primordial de discrimininación entre ambos modos es el coste de viaje
generalizado, tijk, supuestamente valores suministrados al modelo de partida para cada pareja O-D (i,j) y
modo k (1 ó 2).
.
Prof.
Lídia Montero ©
Pàg.
1 - 38
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR
Los modelos desagregados de demanda se basan en las elecciones observadas de viajeros individuales:
consideran las probabilidades de elección individual. El uso de este segundo enfoque debiera posibilitar el
desarrollo de modelos más realistas. En general se postula que:
• La probabilidad de elección individual depende de las características socioeconómicas de cada persona
y de la atractividad relativa de cada una de las alternativas
Para representar la atractividad se utiliza el concepto de utilidad, (tautológicamente definida como aquello
que el individuo busca maximizar):
La utilidad sistemática o representativa, se especifica usualmente como una combinación lineal de variables,
por ejemplo:
Vauto = 0,25 – 1,2 TVauto – 2,5 Accauto – 0,3 (C/I)auto + 1,1 Naut
En este caso un cambio unitario en el Tiempo de acceso (Acc) tiene un impacto de aproximadamente el
doble que el Tiempo de viaje en el vehículo (TV), y de más de siete veces el de un cambio unitario en la
variable Costo dividido por ingreso (C/I). Naut es el número de autos en el hogar del individuo modelado. La
constante específica (0,25) representa la influencia neta de todas las características no observadas, o no
incluidas en forma explicita, del individuo o de la alternativa en su función de utilidad.
Prof.
Lídia Montero ©
Pàg.
1 - 39
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR
Individuos q ∈ Q → homo economicus; siempre eligen la alternativa más atractiva sujeto a sus
restricciones ambientales
Alternativas Aj ∈ A(q) ∈ A; Los atributos medidos
x ∈ X, pueden ser variables de nivel de
servicio o características socioeconómicas de los individuos.
El modelador asume que la utilidad Ujq de la opción Aj para el individuo q tiene la forma:
U=
V jq + ε jq
jq
Los errores estocásticos ε tienen media cero y una matriz de covarianzas no diagonal; esto permite tomar
en cuenta aparentes inconsistencias en la conducta individual. La utilidad sistemática se especifica
normalmente como:
V jq = ∑θ jk X jkq
k
en que θ se supone constante entre los individuos pero puede variar para cada alternativa.
U jq ≥ U iq ,
El individuo q escogerá Aj, si y sólo si:
Esto es, si:
Prof.
Lídia Montero ©
V jq − Viq ≥ ε iq − ε jq ,
Pàg.
1 - 40
∀Ai ∈ A(q )
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR
Como la parte derecha de la ecuación es desconocida, sólo se puede plantear la probabilidad de elegir Aj:
=
Pjq Prob {ε iq ≤ ε jq + V jq − Viq , ∀Ai ∈ A(q )}
y esto es equivalente a:
Pjq =
∫ f (ε ) dε
RN
Resulta imprescindible para derivar un modelo analítico se necesita conocer la distribución de los residuos
estocásticos. Una clase importante de estos modelos se genera al suponer funciones de utilidad con
residuos que distribuyen en forma independiente e idéntica (IID).
Hay que notar que este requisito implica que las alternativas serán consideradas efectivamente
independientes. Así opciones combinadas (por ejemplo, auto-tren), usualmente violarán esta condición. De
hecho, cada vez que dos opciones puedan ser consideradas más similares entre sí que otra(s), por ejemplo,
bus y tren vs auto, se sospecha la presencia de correlación.
Prof.
Lídia Montero ©
Pàg.
1 - 41
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR
Aún si los residuos no distribuyen IID es posible generar modelos de utilidad aleatoria, como el Probit,
pero éstos son más difíciles de especificar y estimar.
Las variables explicativas pueden ser de tres tipos:
• Genéricas: comparten el mismo coeficiente en todas las alternativas
• Específicas: aparecen en sólo una alternativa o tienen un parámetro diferente en cada una de ellas
• Constantes específicas: toman el valor 1 para una alternativa determinada y 0 para las restantes
El modelo MNL (Logit Multinomial )
se genera si:
 0
σ 2
 0
0
ε ∼ iid Gumbel   .  , Σ = .
 . 
 .
 0
0




exp ( λV jq )
⇒ Pjq =
∑
Ai ∈ A( q )
Prof.
Lídia Montero ©
Pàg.
1 - 42
0
σ
2
. .
. .
.
.
. .
. .
0
. .

0 
. , λ =

. 
2 
σ 
0
exp ( λViq )
Curs 201 3- 201 4
π
6σ
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR
El MNL no permite variaciones en los gustos (esto es, que cada individuo tenga diferentes parámetros θ), ni
tratar correctamente el caso de disponer más de una observación proveniente de la misma persona, ni
permite tratar la heteroscedasticidad.
El Logit Mixto, en cambio, permite combinar errores Gumbel tipo ruido blanco como el MNL, con errores
provenientes de otras distribuciones. Si bien hoy es el estándar, su estimación, y sobre todo la
interpretación de sus resultados, es mucho más compleja. Los consultores están familiarizados con estos
modelos y con el sofware de libre distribución accesible a través de la página web del profesor Kenneth
Train de la Universidad de Berkeley en EEUU.
Williams (1977) se dio cuenta que existen situaciones donde la extrema generalidad permitida por el Logit
Mixto pueden ser un lujo innecesario. Un buen ejemplo son situaciones bi-dimensionales de elección (ej:
destino y modo), donde se puede postular:
U(d, m) = Ud + Udm = Vd + εd + Vdm + εdm
Si los ε son separadamente IID,
P(d , m ) =
bajo ciertas condiciones se obtiene
el modelo logit jerárquico o anidado (NL):
Prof.
Lídia Montero ©
e
∑e
d′
Pàg.
1 - 43
β (Vd +Vd ∗ )
β (Vd ′ +Vd ′∗ )
⋅
e
λVdm
λVdm′
e
∑
m′
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR
En la práctica el NL (Logit Anidado) no está restringido a un número determinado de nidos en serie o en
paralelo. Sin embargo, como la búsqueda de la mejor especificación es más compleja (problema de tipo
combinatorio), es importante probar sólo estructuras jerárquicas que tengan un sentido intuitivo o estén de
acuerdo con la teoría.
Una estructura NL típica se caracteriza por agrupar a todos
los subconjuntos de opciones correlacionadas (más similares
entre sí que otras) en jerarquías o nidos. Cada nido se
representa, a su vez, por una opción compuesta que compite
con las restantes alternativas que el individuo tiene
disponibles.
Tr.
coche
taxi
bus
tren
metro
El NL tampoco es capaz de tratar adecuadamente la heteroscedasticidad o las variaciones en los gustos.
Para hacerlo, se debe especificar funciones más complejas, como el Probit o el Logit Mixto.
En síntesis, el análisis de los resultados de encuestas de Preferencias Reveladas o Declaradas requiere
sentido común y un conocimiento de métodos de análisis estadístico avanzados (modelos lineales
generalizados)
Prof.
Lídia Montero ©
Pàg.
1 - 44
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-3. TIPOLOGÍA DE ENCUESTAS EN TRANSPORTE: PR
Según Ortúzar, una guía práctica para examinar la coherencia de los valores estimados de los parámetros,
se podría resumir genéricamente en la siguiente tabla:
Variable
Relevante
de Política
Adicional
Prof.
Significativamente
de 0
o
distinta
No significativamente distinta de cero
Signo correcto
OK
Mantener en el modelo
Signo incorrecto
Problema serio
Problema
Signo correcto
OK
Probar si es posible sacarla del modelo
Signo incorrecto
Sacar del modelo
Lídia Montero ©
Pàg.
1 - 45
Sacar del modelo
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: SP, PR, CALIDAD
1-4.1
Ejemplo PD: Cambios en la oferta de autobuses, competencia entre el autobús,
el coche y a pie.
Las variables consideradas relevantes sobre la respuesta modal discreta son:
1.
Precio: Dos niveles Actual (referencia) y +20% (20% más caro que actualmente).
2.
Distancia de Parada en Origen: < 150m y Más de 150m (referencia).
3.
Distancia de Parada en Destino: < 150m y Más de 150m (referencia).
4.
Frecuencia de la linea o líneas implicadas en el desplazamiento: 3 (referencia) y 6 unidades por hora (es decir,
frecuencias de 15 o 10 minutos).
5.
Longitud del desplazamiento: < 500 m (referencia en Autobús-Pie) y Más de 500 m (Referencia en AutobúsCoche).
6.
Precio de Hora de Parking: Actual(referencia) y +20% (20% más caro que actualmente).
La configuración de la encuesta responde a un diseño factorial fraccional de 2 niveles con k=6 variables explicativas
dicotómicas y reducción fraccional de 1 a 4, con resolución de orden 4. Todos los efectos principales van a poder
estimarse y únicamente hay confusión entre efectos principales e interacciones a partir del orden 3.
Prof.
Lídia Montero ©
Pàg.
1 - 46
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: PD
SELECCIONE EL MODO DE VIAJE, A PIE O EN AUTOBUS, EN FUNCIÓN DE LAS
CARACTERÍSTICAS HIPÓTETICAS DEL DESPLAZAMIENTO DESCRITO
O
DISTANCIA
A
DISTANCIA A
PARADA EN PARADA EN
AUTOBUS
ORIGEN
PIE
1. Pie
2. Autobus
FRECUENCIA
DE UNA LINEA
DESTINO
PRECIO
PRECIO
HORA
LONGITUD
PARKING
DESPLAZAMIENTO
DE BUS EN
UNIDADES POR HORA
Campo 12
13
14
15
16
<150 m
<150 m
<150 m
<150 m
<150 m
17
3
Actual
Actual
3
Sube 20%
Actual
500 m o más
<150 m
6
Actual
Sube 20%
500 m o más
<150 m
<150 m
6
Sube 20%
Sube 20%
<150 m
150 m+
3
Actual
Sube 20%
<150 m
150 m+
3
Sube 20%
Sube 20%
<150 m
150 m+
6
Actual
Actual
<150 m
150 m+
6
Sube 20%
Actual
150 m+
<150 m
3
Actual
Sube 20%
150 m+
<150 m
3
Sube 20%
Sube 20%
500 m o más
150 m+
<150 m
6
Actual
Actual
500 m o más
150 m+
<150 m
6
Sube 20%
Actual
150 m+
150 m+
3
Actual
Actual
150 m+
150 m+
3
Sube 20%
Actual
150 m+
150 m+
6
Actual
Sube 20%
150 m+
150 m+
6
Sube 20%
Sube 20%
3. Otros o NS/NC
"ID SP-Fila 1 Col.18
"ID SP-Fila 2 Col.18
"ID SP-Fila 3 Col.18
"ID SP-Fila 4 Col.18
"ID SP-Fila 5 Col.18
"ID SP-Fila6 Col.18
"ID SP-Fila 7 Col.18
"ID SP-Fila 8 Col.18
"ID SP-Fila 9 Col.18
"ID SP-Fila 10 Col.18
"ID SP-Fila 11 Col.18
"ID SP-Fila 12 Col.18
"ID SP-Fila 13 Col.18
"ID SP-Fila 14 Col.18
"ID SP-Fila 15 Col.18
"ID SP-Fila 16 Col.18
Prof.
Lídia Montero ©
Pàg.
1 - 47
< 500 m
< 500 m
500 m o más
< 500 m
< 500 m
500 m o más
< 500 m
< 500 m
500 m o más
< 500 m
< 500 m
500 m o más
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: PD
Los Factores de Diseño más relevantes son: Longitud de Viaje y Frecuencia en el lado positivo para la captación del autobús y
en el lado negativo, el Precio del Billete.
En la tabla adjunta se resumen en los efectos principales de los distintos factores, en términos de log-odds, odds y
probabilidades, tomando como probabilidad base del uso del autobús la del grupo de referencia estimada por el modelo.
VARIABLE
Referencia
REPARTO MODAL AUTOBÚS-COCHE (Sólo Factores de Diseño)
LOG-ODDS ODDS
Categoría
150 m+ 150 m+ 3uni/h Actual Actual +500m
Dist. Parada en Origen <150m
Dist. Parada en Destino
Autobuses por Hora
Precio del Billete
Precio Hora Parking
Longitud del Viaje
Prof.
Lídia Montero ©
-0,71334
PROBABILIDAD
(Aproximada)
0,49000485
33%
0,32896
39%
8%
<150m
0,25969
30%
6%
6 uni/hora
0,39229
48%
10%
Sube 20%
-0,37306
-31%
-9%
Sube 20%
0,28150
33%
7%
Menos 500 m
0,44103
55%
11%
Pàg.
1 - 48
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: PD
La interpretación de los parámetros es la siguiente:
1. En el grupo de referencia 150 m+150 m+3u/hActual Actual 500 m o más que
representa la situación de diseño de paradas de autobús de más de 150m en origen y en destino,
una frecuencia equivalente a 3 autobuses por hora, precio de billete actual, precio de la hora de
parking actual y longitud del viaje superior a los 500m, el valor del log-odd es de -0,71334, es
decir, la probabilidad estimada de uso del autobús por el modelo es del 33 %.
2. Dentro del mismo grupo de variables explicativas, el disponer de una parada de autobús a una
distancia <150 m en origen supone un incremento en la razón de preferencia del autobús del
39%. Lo que difiere si la mejora se refiere a disponibilidad en destino, ya que la razón de
preferencia del autobús se incrementa en sólo un 30%.
3. Dentro del mismo grupo de variables explicativas, el doblar la frecuencia de 3 a 6 autobuses
supone un incremento en la razón de preferencia del autobús del 48%.
4. Dentro del mismo grupo de variables explicativas, el incrementar el precio del billete de autobús
supone un decremento en la razón de preferencia del autobús del 31%.
5. Dentro del mismo grupo de variables explicativas, el incrementar el precio del de la hora de
parking supone un incremento en la razón de preferencia del autobús del 33%.
6. Dentro del mismo grupo de variables explicativas, suponer que la longitud del viaje es inferior a
los 500 m supone un incremento en la razón de preferencia del autobús del 55% .
7. La frecuencia de servicio de los autobuses es la variable más significativa de cara a mejorar la
captación del autobús. Por el lado negativo, el incremento de la longitud del viaje y las tarifas
juegan a la baja en la captación.
Prof.
Lídia Montero ©
Pàg.
1 - 49
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: CALIDAD
1-4.2
Ejemplo Enc.Calidad del servicio en la red de autobús de ciudad pequeña
TOMA DE DATOS DE CAMPO
Encuestador:
Clima:
Observaciones:
Campo 1
Campo 2
Campo 3
Lugar de encuesta:
Codigo parada:
Campo 7
Campo 8
PERCEPCION USUARIO · CALIDAD
Hoja 1
Fecha:
Hora inicio:
Hora fin:
Campo 4
Campo 5
Campo 6
PERFIL
Edad: Campo 9
Sexo: Campo 10
1. Hombre
2. Mujer
Es usuario habitual del
BUS: Campo 13
Estado Civil: Campo 11
1. Casado
2. Soltero
3. Divorciado
4. Viudo
1. Si
2. No
1. No tiene coche
2. Es mas cómodo
3. Es mas barato
4. Está de paso, es turista
Lídia Montero ©
Pàg.
4. Jubilado
5. Ama de casa
6. Estudiante
Que línea
usa: Campo 15
(Nº de línea)
Porqué lo usa: Campo 14
Prof.
Campo
Profesión: 12
1. Superior
2. Medio
3. Elemental
1 - 50
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
COBERTURA
Tiempo
Distancia
(minutos)
(metros)
Cuanto tiempo / distancia anda de su origen a la parada:
Campo 16
Campo 17
Cuanto tiempo / distancia anda de la parada a su destino:
Campo 18
Campo 19
Necesita hacer algún transbordo en su viaje:
1. Si
2. No
Campo 20
Existen motivos de viaje o destinos en que no usa el BUS:
1. Si
2. No
Campo 21
En los destinos o motivos de viaje que no usa el BUS ¿Porqué no lo hace?:
1. No me es cómodo
2. Las paradas están lejos
3. El tiempo de viaje o frecuencia no es bueno
4. No hay servicio en este horario
5. Voy acompañado de persona de movilidad reducida (PMR)
TOMA DE DATOS DE CAMPO
Campo 22
PERCEPCION USUARIO · CALIDAD
Hoja 2
SERVICIO
Considera que el tiempo medio de espera en paradas es:
2. Corto
3. Excesivamente largo
1. Aceptable
Campo 23
Considera que el tiempo de viaje total es:
Campo 24
1. Aceptable
2. Competitivo con el coche
3. Excesivo
Considera que el servicio es puntual, pasa a su hora:
2. Poco
3. Variable 4. Inaceptable
1. Puntual
Campo 25
Considera que el servicio, puntualidad y tiempo de viaje es:
2. Con variaciones puntuales
3. Muy variable
1. Estable
Campo 26
Considera que la calidad de los vehículos es adecuada:
1. Si
2. No
Prof. Lídia Montero ©
Pàg. 1 - 51
Campo 27
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
Nº
asientos: Campo 28
Limpieza: Campo 29
Accesibilidad Campo 30
Considera que la atención del personal es adecuada:
1. Si
2. No
Campo 32
Conoce la información que facilita XXXX.S.A.:
1. Si
2. No
Campo 33
Considera que la información sobre el servicio es adecuada:
1. Si
2. No
campo 34
Folletos: Campo 35
Paradas: Campo 36
Internet: Campo 37
Que tipo de pago utiliza para el transporte :
3.
1. Bonobus
2. Billete sencillo
Estudiante
Campo 38
4. Gratuito
Le parece adecuado el precio en función de la calidad del servicio:
1. Si
2. No
Campo 39
Nivel de satisfacción con los servicios:
Puntue de 0 a 10
Campo 40
Valore la importancia que tienen para el servicio los siguientes aspectos
y el nivel de satisfacción que ud. percibe en cada uno de ellos.
Puntue de 0 a 10
Tener autobuses modernos y
1 avanzados
2 Disponer de paradas muy limpias y cuidadas
3 Disponer de paneles horarios en sitios visibles
4 Cumplir siempre las promesas del servicio
5 Ser siempre muy puntual
6 Dar la información necesaria a los usuarios
7 Hacer que los autobuses pasen con la frecuencia adecuada
Colocar autobuses mas grandes para ir mas
8 holgados
9 Contar con canductores que conduzcan muy bien
Prof.
Comodidad Campo 31
Lídia Montero ©
Pàg.
1 - 52
Hoja 3
Importancia Satisfacción
Campo 41
Campo 43
Campo 45
Campo 47
Campo 49
Campo 51
Campo 53
Campo 42
campo 44
Campo 46
Campo 48
Campo 50
Campo 52
Campo 54
Campo 55
Campo 57
Campo 56
Campo 58
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
10 Tener empleados que sepan tratar con mucha amabilidad
Poder coger el primer autobus que pasa de la linea que me
11 interesa
12 Disponer de horarios y avisos que se entiendan con facilidad
13 Tener paradas bien localizadas
Tener empleados que atiendan y resuelvan las
14 quejas
15 Garantizar la seguridad de las personas y sus bienes
16 Rapidez en el servicio
MEDIA
Campo 59
Campo 60
Campo 61
Campo 63
Campo 65
Campo 62
Campo 64
Campo 66
Campo 67
Campo 69
Campo 71
Campo 73
Campo 68
Campo 70
Campo 72
Campo 74
Valore la evolución en el tiempo de los siguientes aspectos del servicio
1. Mejorado mucho 2. Mejorado algo 3. Igual 4.Empeorado algo 5. Empeorado mucho
1 Limpieza de los autobuses y paradas
Campo 75
2 Cumplimiento del horario de llegada y salida
Campo 76
3 Frecuencia del autobus y amplitud en las plazas
Campo 77
4 Competencia y amabilidad de los empleados
Campo 78
5 Rapidez en realizar el trayecto
Campo 79
Ha tenido algún problema con XXXX.S.A.
1. Si
2. No
Campo 80
Si lo ha tenido, que ha sido ?
1 Conductores poco educados
2 Arrancar a destiempo, cierre de puertas, conduccion deficiente
3 No parar en las paradas, pasar de largo sin parar
4 Pérdida de carnet
5 Problemas de acceso al autobus
6 Disconformidad por quitar paradas de la linea
Discusión con otro viajero por un
7 asiento
8 Otro:
Si lo ha tenido lo considera
1. Grave
2. Molesto 3. Intrascendente
Prof.
Lídia Montero ©
Campo 81
Campo 82
Campo 83
Campo 84
Campo 85
Campo 86
Campo 87
Campo 88
campo 89
4. Ns./Nc.
Pàg.
1 - 53
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: CALIDAD
Veamos ahora en un gráfico la distribución según la importancia y la satisfacción otorgadas a cada uno de los conceptos.
Variable
Importancia
Mean Satisfacción
Mean
6,7926
8,4579
7,1
2. Limpieza Parada
6,381
8,2793
7,0
3. Paneles Horarios
6,319
8,7668
6,9
4. Promesas del Servicio
6,274
8,7482
6,8
5. Puntualidad
6,502
9,1577
6. Información Solicitada
6,190
8,7815
7. Frecuencia Autobuses
8. Autobuses Grandes
6,393
6,605
9,1716
8,445
9. Buenos Conductores
7,058
8,9653
10.Amabilidad Empleados
6,799
8,504
satisfacción
1. Autobuses Modernos
9
15
1
6,7
10
8
6,597
8,714
12.Información Fácil
6,409
8,8937
13.Ubicación Paradas
6,770
8,8828
14.Atendión al Cliente
6,371
8,930
15.Seguridad
6,891
9,443
16.Rapidez Servicio
6,397
9,1181
Media Satisfacción
6,583
8,966
media de importancia=8,966
11
6,6
5
media de satisfacción=6,5830
6,5
6,4
12
2
3
6,3
11.Autobuses No Llenos
13
4
6,2
8,5
16
7
14
6
9,0
9,5
importancia
Los puntos que menos satisfacen a los clientes, aun cuando estos les otorgan una mayor importancia, son la puntualidad y la
frecuencia de los autobuses, y la rapidez en el servicio. Así, es importante mejorar ese aspecto, que el cliente no sufra
demoras o retrasos en sus desplazamientos debidos al servicio de transporte urbano.
Prof.
Lídia Montero ©
Pàg.
1 - 54
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: CALIDAD
Frecuencia y motivos de uso del transporte urbano
Un 80’4% de los encuestados son usuarios habituales del transporte urbano, aunque la mayoría de los encuestados son
mujeres (70%), dentro del grupo de los hombres el 75% es usuario habitual, frente al 83% en las mujeres.
Formación-Ocupación según UsuarioHabitual
Tabulated Statistics:
UsuarioHabitual; Genero
Columns: Genero
Hombre
Mujer
No
30
45
75
Si
88
220
308
118
265
383
All
Count of Formacion
Rows: UsuarioH
121
All
No
Si
100
80
55
51
44
50
34
2
13
16
1
1
30
13
1
4
0
a
te
al
do
as
nt
an
i
e
la
C
i
d
a
b
tu
em
Ju
Am
El
Es
Prof.
Lídia Montero ©
Pàg.
1 - 55
i
ed
M
o
r
io
er
p
Su
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: CALIDAD
En términos relativos, los estudiantes, jubilados y las amas de casas muestran una mayor incidencia del grupo de usuarios
habituales. Atendiendo al Estado Civil, los divorciados y los viudos muestran una mayor incidencia de usuarios habituales.
EstadoCivil según UsuarioHabitual
Grupo_Edad según UsuarioHabitual
104
96
No
Si
50
29
17
0
0
M
Prof.
96
88
s
ne
e
v
Jó
y
u
Lídia Montero ©
0
s
ne
e
v
Jó
M
14
17
0
2
d
da
E
na
ia
d
e
Count of EstadoCivil
Count of Grupo_Edad
100
192
200
143
100
38
M
39
33
10
3
es
or
y
a
No
Si
4
0
3
0
C
N
S/
N
Pàg.
C
/a
do
a
as
D
a
o/
d
ia
rc
ivo
ro
l te
o
S
/a
V
/a
do
u
i
Según los grupos de edad, encontramos que los muy jóvenes
son usuarios habituales del transporte urbano en un 82%,
los jóvenes en un 72%, los de mediana edad en un 84% y los
de mayor edad en un 82%.
1 - 56
Curs 201 3- 201 4
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: CALIDAD
Pie Chart of Pq_UsHab?
Porqué Usa el Autobús según Usuario Habitual
Cautivo (178; 46,0%)
155
Count of UsuarioHabitual
150
( 26; 6,7%)
Turista ( 5; 1,3%)
Economia ( 16; 4,1%)
Comodidad (162; 41,9%)
134
Cautivo
Comodida
Economia
Turista
100
50
20 22
27
2 4
1 1
14
6
1
0
No
Si
La mayoría de los encuestados usa el autobús porque es
cautivo del transporte urbano (46%) o bien por comodidad
(42%). Dentro de los usuarios habituales, el 50% es cautivo
y el 43% lo usa por comodidad; mientras que entre los No
Usuarios Habituales, el 40% es cautivo y el 50% lo usa por
comodidad.
Prof.
Lídia Montero
Pàg.
1 - 57
Curs 2. 006- 2. 007
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA
1-4.3
Ejemplo Encuesta de Movilidad Domiciliaria en ámbito regional
Objetivo:
La realización de este estudio responde al interés del Departamento de Transportes y Obras Públicas por conocer los hábitos
de desplazamiento de la población en la Comunidad Autónoma XXXX y realizar un diagnóstico del sistema actual de
transporte, lo cual permitirá realizar una reordenación y optimización del mismo.
El objetivo específico es conocer los siguientes aspectos:
–Movilidad de los residentes en la Comunidad Autónoma XXXX.
–Movilidad global, interterritorial e intraterritorial.
–Vectores de generación y atracción en cada zona de transporte.
–Distribución de los desplazamientos según el modo de transporte:
• Distribución de los desplazamientos según el modo de transporte (andando, automóvil, transporte público y otros).
Caracterización del colectivo de usuarios.
• Análisis de los transbordos realizados en la red de transporte público.
– Matriz origen-destino por actividad en destino: trabajo, estudio, compras y ocio. Características de estos colectivos.
–Autocontención laboral.
–Oferta de transporte público:
• Operadores.
• Oferta de plazas/hora y demanda por Territorios, Comarcas y Municipios.
• Conectividad.
• Cuota del transporte público.
Prof.
Lídia Montero ©
Pàg.
1 - 58
Curs 201 2- 201 3
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA
Metodología:
La finalidad de esta encuesta ha sido obtener información de los desplazamientos realizados por los residentes en la
Comunidad Autónoma XXXX con una edad superior a los seis años.
En concreto se han recogido todos los desplazamientos motorizados y los realizados andando cuya duración fuera superior a
los cinco minutos, excepto los realizados por motivos de trabajo y estudios que se han recogido todos independientemente
del modo de transporte utilizado.
Los datos recogidos en relación a los desplazamientos han sido, entre otros, el origen y destino del viaje, modo de transporte
utilizado, motivo del viaje, duración, número de etapas, etc.
Junto a esto se han obtenido una serie de datos de caracterización de las familias y de sus miembros (edad, nivel de
estudios, ocupación, etc.).
Para la realización de la encuesta domiciliaria se ha tomado una muestra de 10.800 viviendas, lo cual ha supuesto un error
general de muestreo del ±1% para un nivel de confianza del 95,5%. Se ha entrevistado a 10.674 familias, lo que ha supuesto
un total de 29.624 individuos mayores de seis años.
El trabajo de campo se ha realizado durante los meses de octubre, noviembre y diciembre de 2002.
Prof.
Lídia Montero ©
Pàg.
1 - 59
Curs 201 2- 201 3
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA
Plan de Muestreo:
El tamaño muestral ha sido de 10.800 viviendas, estructuradas según el siguiente plan de muestreo.
1ª ETAPA DE MUESTREO
Afijación proporcional según el número de habitantes (población de derecho) existente en cada una de las zonas en que se ha
estructurado la Comunidad Autónoma XXXX.
A su vez, dentro de cada zona se ha distribuido la muestra asignada a las mismas proporcionalmente a la población residente
en cada una de las secciones censales que comprende.
2ª ETAPA DE MUESTREO
La selección de las unidades muestrales dentro de cada zona se ha realizado por sorteo sistemático y con arranque aleatorio,
estableciéndose la condición de que la vivienda esté habitada y los suplentes se hallen a una distancia de los titulares de, al
menos, tres viviendas.
Prof.
Lídia Montero ©
Pàg.
1 - 60
Curs 201 2- 201 3
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA
Tratamiento de la información:
Todos los resultados han sido elevados al total de la población correspondiente a cada una de las zonas de transporte en que
se ha estructurado la Comunidad Autónoma XXXX, obteniéndose las diferentes matrices origen-destino de los
desplazamientos.
La elevación de los resultados de la encuesta domiciliaria se ha realizado en dos etapas:
a) Obtención de elevadores iniciales (correspondientes a la unidad familiar y, por tanto, aplicables a cada uno de sus
miembros).
b) Obtención de los elevadores finales (incorporación del factor de corrección de los elevadores iniciales).
A partir del universo correspondiente a cada estrato y la muestra obtenida, se ha procedido a la determinación de los
coeficientes de elevación.
La utilización de elevadores, dado que se trabaja con decimales, origina que, en determinadas tablas, el sumatorio de los
datos correspondientes a cada zona no coincidan, con el total reflejado, existiendo pequeñas diferencias.
A su vez, toda la información, junto con la cartografía de la Comunidad Autónoma XXXX, sobre la que han sido digitalizadas
todas las líneas de transporte público, ha sido integrada en un sistema de información geográfica (GIS), que permite realizar
explotaciones a nivel gráfico de todos los datos obtenidos en la realización de este estudio mediante la generación de
diferentes mapas temáticos.
Prof.
Lídia Montero ©
Pàg.
1 - 61
Curs 201 2- 201 3
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA
Zonificación
Para la realización del estudio se ha estructurado cada Territorio de la Comunidad Autónoma XXXX en zonas de transporte
lo más homogéneas posibles, partiendo de las comarcas, municipios, distritos y secciones.
Para la explotación de resultados se han establecido, de cara al análisis de los desplazamientos realizados, 46 zonas internas
en Provincia 1, 110 en Provincia 2, 65 en Provincia 3 y 15 zonas externas. En total, 236 zonas de transporte.
Posteriormente, y con el objetivo de asignar una mayor claridad a la exposición de los datos, estas zonas se han agrupado en
23 correspondientes a las 20 comarcas en que se estructura la Comunidad Autónoma XXXX, diferenciando las tres capitales
C1, C2 y C3.
ZONIFICACION EN C1
CODIGO
ZONA TRANSPORTE
DISTRITO SECCION
1
ZONA 1
1
1-13,15
2
ZONA 2
1
16-23
3
ZONA 3
1
25-26,30-44
4
ZONA 4
1
27-29,45
5
DISEMINADO
TOTAL
6
ZONA 6
2
31,32,33,35
7
ZONA 7
2
2,18,25-27,34
8
ZONA 8
2
3-6,19-24,28-30
9
ZONA 9
2
1,7-17
TOTAL
Prof.
Lídia Montero ©
Pàg.
1 - 62
Curs 201 2- 201 3
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA
Descripicion De Los Campos Del Fichero
Prof.
Lídia Montero ©
Pàg.
1 - 63
Curs 201 2- 201 3
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA
Prof.
Lídia Montero ©
Pàg.
1 - 64
Curs 201 2- 201 3
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA
Prof.
Lídia Montero ©
Pàg.
1 - 65
Curs 201 2- 201 3
Models de Captació, Anàlisi i Interpretació de Dades – MASTER LTM - UPC
1-4. EJEMPLOS DE ENCUESTAS EN TRANSPORTE: DOMICILIARIA
Prof.
Lídia Montero ©
Pàg.
1 - 66
Curs 201 2- 201 3
Descargar