Estadı́stica y sus aplicaciones en Ciencias Sociales Taller - Estadı́stica Facultad de Ciencias Sociales, UdelaR Junio de 2016 ESTADÍSTICA Y SUS APLICACIONES EN CIENCIAS SOCIALES TALLER I 5 ventanas en Stata: Results: los comandos ejecutados y sus resultados Review: almacena los comandos ejecutados Command: lı́nea en que se ejecuta comandos con ”enter” Variables: nombre y etiqueta de las variables en la base Properties: maneja las caracterı́sticas de las variables Modos de trabajo: programa: se escribe un archivo de texto ”do file” con terminación.do menú: los comandos se despliegan interactivamente lı́nea de comandos: se teclean una a una las instrucciones dando ”enter” Trabajando en la lı́nea de comandos: clear Usando display y haciendo cálculos en la lı́nea de comandos: display 10/5 display invnorm(.95) Cambiando el directorio de trabajo para grabar, leer, etc.: cd “C:\. . . \taller” Cargando el archivo Salarios.dta use Salarios.dta Mirando o editando los datos edit Trabajando con un archivo de programa (do-file) En el menú, seleccionar el botón que tiene una hoja de cuaderno (New Do-file editor) - Se abre una nueva ventana de un editor de archivo de texto. Escribir uno o varios comandos Para ejecutarlos, seleccionar la parte del texto correspondiente Desde el menú ejecutar Tools-Execute(do) Ejemplo: summ educ if casado==1 - El do-file puede guardarse con extensión .do, y puede editarse en cualquier editor de texto. En lo sucesivo, escribir los comandos en el archivo do y guardar (file-save desde el menú del propio do-editor) Crear una nueva variable gen edad = educ + exper + 6 tablas de frecuencias tab educ medidas de resumen de los datos: x y s. mı́nimo, máximo, no. de observaciones. summ s hora estadı́sticos adicionales: summ s hora, detail estadı́sticas para parte de la muestra summ s hora if mujer==1 summ s hora if educ=<12 Histograma de frecuencias histogram s hora hist exper Gráfica de dispersión de los datos scatter s hora educ scatter s hora exper Covarianza y correlación: correlate s hora educ correlate s hora educ, covariance Intervalos de confianza: El comando ci produce intervalos para variables distribuidas normalmente o variables con otras distribucions con tamaño de muestra que soporte una aproximación normal. Ejemplo: ci s hora edad Por defecto el nivel de confianza es 95%. Se puede obtener otro nivel escribiendo ci s hora edad, level(99) Pruebas de hipótesis: El comando ttest produce pruebas de hipótesis respecto a la media de una variable (cola derecha, dos colas y cola izquierda). Ejemplo: ttest s hora==6 Utiliza la distribución t, por lo que debe tenerse en cuenta o población normal o que el tamaño de la muestra permita aproximación por el TCL. Simular la extracción de una muestra Hay dos comandos para extraer una muestra de una base de datos: sample (sin reposición) y bsample (con reposición). Ejemplo: sample 40, count bsample 40, count Stata inmediatamente borra todos los demás datos. Podemos correrlo muchas veces y observar cada vez el nuevo valor que tiene la media en la muestra extraı́da. Cada vez haremos: clear use Salarios.dta sample 50, count summ s hora dis r(mean) Para ello creamos un bucle o ”loop”, trozo de programa que se repite muchas veces, como un conjunto de comandos en renglones comprendidos entre llaves { }. Creamos una variable especial (llamada ”local”) con el nombre i y le damos un valor inicial de 1. Luego de cada realización del procedimiento la incrementamos una unidad, y establecemos una condición de seguir realizando el proceso en tanto ésta variable no alcance cierto valor, en este caso 30. Eso nos permite cargar el archivo de datos 30 veces, tomar una muestra de tamaño 50 cada vez, calcular la media, y guardarla en un archivo. Luego unimos todos los archivos en uno, y podemos estudiar la distribución de las medias muestrales obtenidas. Programa para extraer 30 muestras de tamaño 50 y calcular en cada caso la media muestral. Se crean los archivos muestra1, muestra2, . . . , muestra 30. local i = 1 while ‘i’ <= 30 { clear use ”Salarios.DTA” sample 50, count summ s hora dis r(mean) keep if n == 1 gen n = ‘i’ gen x = r(mean) keep n x save muestra‘i’.dta local i= ‘i’ + 1 } Segunda parte: reúne en un solo archivo las medias muestrales de cada muestra y borra los archivos intermedios. clear use muestra1.dta local k = 2 while ‘k’ <= 30 { append using muestra‘k’.dta local k = ‘k’ +1 } local j = 1 while ‘j’ <= 30 { erase muestra‘j’.dta local k = ‘j’ +1 } Especificando regresiones simples de salarios en educ y en experiencia por separado reg s hora educ reg s hora exper Interpretando la salida tabla de las sumas de cuadrados: ss (sum of squares) 2 total: y0 y − nY = ∑N i =1 yi − Y residual: u b0 u b = ∑N bi2 i =1 u model: total - residual 2 Number of obs: N F(K-1,N-K): Estadı́stico F para la prueba de de hipótesis H0 : todos los β k son cero con excepción del correspondiente a la constante. Prob > F : valor p asociado a la prueba F R-squared: ”R cuadrado”: 1-(residual sum squares/total sum squares) Adj. R-squared: ”R cuadrado ajustado”: 1 − NN−−K1 1 − R 2 corrige el denominador de la suma de residuos al cuadrado por N-K y totales por N-1 Root MSE: s bi2 ∑N i =1 u (N − K ) (estimación de la desviación estándar de los errores del modelo) Coef: bk Std. Err: EE (bk ) t: βbk /EE (bk ), estadı́stico asociado a H0 : β k = 0 [95% Conf. Interval]: Intervalo para β k con α = 0, 05 Prueba de hipótesis Comprobar la significación de β educ en la prueba con H0 : β educ = 0 y la alternativa bilateral H0 : β educ 6= 0 al 5% de significación. Obtener el valor de una función distribución t con 525 grados de libertad que acumula probabilidad igual a 1 - 0,025 usando ”dis invttail(525, 0.025)” y tomar la decisión de rechazo o no rechazo. Considerar el valor-p reportado por Stata en relación con la pregunta anterior. Discutir qué información aporta respecto a la prueba el intervalo de confianza que presenta la salida. Residuos: predict resid, res crea variable igual a u b Graficar la distribución de los residuos: histogram resid Dispersión y lı́nea de regresión, juntos twoway (scatter s hora educ) (lfit s hora educ) Regresión múltiple: reg s hora educ exper Inclusión en la regresión de una variable binaria: reg s hora educ exper mujer Correr la regresión para las submuestras de hombres y mujeres: reg s hora educ exper if mujer==1 reg s hora educ exper if mujer==0