Prácticas de estadística y programación en SAS®

Anuncio
Servei d’Estadística
Universitat Autònoma de Barcelona
Prácticas de estadística y
programación en SAS®
Llorenç Badiella Busquets
Director Técnico del Servei d’Estadística
Universidad Autónoma de Barcelona
Anna Espinal Berenguer
Asesora estadística del Servei d’Estadística
Profesora asociada del departamento de Matemáticas
Universidad Autónoma de Barcelona
Joan Valls Marsal
Asesor estadístico del Servei d’Estadística
Profesor asociado del departamento de Matemáticas
Universidad Autónoma de Barcelona
1
Publicado por el Servei d’Estadística de la UAB, mayo 2003.
Este documento puede ser copiado y libremente distribuido, siempre y cuando sea
preservada su integridad y referenciado su origen. No está permitido añadir, borrar o
cambiar ninguna de sus partes, o extraer páginas para su uso en otros documentos.
2
1.
Índice
1.
Índice.................................................................................................................3
2.
Presentación .....................................................................................................4
3.
Manipulación de datos....................................................................................5
3.1.
3.1.1.
3.2.
3.2.1.
3.3.
3.3.1.
3.4.
3.4.1.
3.5.
3.5.1.
3.6.
3.6.1.
Ejemplo básico. Ejemplo 1 ...................................................................................... 5
Fichero SAS de Sintaxis: Ejemplo 1.Datos......................................................... 7
Homicidios en California 1850-1900...................................................................... 9
Fichero SAS de Sintaxis: Homicidios.Datos ..................................................... 13
Gastos de publicidad a Europa ............................................................................ 14
Fichero SAS de Sintaxis: Publicidad.Datos....................................................... 15
Peso de bebés ...................................................................................................... 16
Fichero SAS de Sintaxis: Bebes.Datos.............................................................. 17
Caparazón Palletoida ........................................................................................... 18
Fichero SAS de Sintaxis: Caparazon.Datos ...................................................... 19
Factores experimentales en la fabricación del plástico .......................................... 20
Fichero SAS de Sintaxis: Plastico.Datos ........................................................... 21
4.
Estadística descriptiva...................................................................................22
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
Ejemplo básico. Ejemplo1 .................................................................................... 22
Homicidios en California 1850-1900.................................................................... 26
Gastos de publicidad a Europa ............................................................................ 29
Peso de bebés ...................................................................................................... 33
Caparazón Palletoida ........................................................................................... 36
Factores experimentales en la fabricación de plástico ........................................... 38
5.
Inferencia estadística básica .........................................................................44
5.1.
5.2.
5.3.
5.4.
5.5.
5.6.
5.7.
5.8.
Ejemplo básico. Ejemplo1 .................................................................................... 44
Homicidios en California 1850-1900.................................................................... 45
Gastos de publicidad a Europa ............................................................................ 46
Peso de bebés ...................................................................................................... 47
Caparazón Palletoida ........................................................................................... 48
Factores experimentales en la fabricación de plástico ........................................... 49
Capacidad de detección de los murciélagos .......................................................... 50
Velocidad de reacción .......................................................................................... 53
6.
Modelización estadística ...............................................................................55
6.1.
Crecimiento del ficus ........................................................................................... 55
7.
Programación en lenguaje macro................................................................60
7.1.
7.2.
Validación de una matriz de datos........................................................................ 60
Exportación de SPSS a SAS. ................................................................................ 61
8.
Los datos.........................................................................................................62
9.
Bibliografía .....................................................................................................63
3
2.
Presentación
En este documento se proponen un conjunto de problemas para poder introducirse en la
práctica del paquete estadístico SAS®. Están diseñados los en cuatro módulos siguientes:
•
•
•
•
•
Manipulación de datos: SAS/BASE(I)
Estadística descriptiva: SAS/BASE(II), SAS/STAT(I), SAS/GRAPHS
Inferencia estadística básica: SAS/STAT(II), SAS/GRAPHS
Modelización estadística: SAS/STAT(III)
Macros
Los ficheros de datos así como los ficheros con las sintaxis pueden encontrarse en la página
web del Servei d’Estadística de la Universidad Autónoma de Barcelona, en la sección de
Materiales.
4
3.
Manipulación de datos
3.1.
Ejemplo básico. Ejemplo 1
1.
Introducir la siguiente tabla en un archivo de SAS llamado salario:
Id
1
2
3
4
5
6
7
8
9
10
2.
3.
Sexo
Hombre
Mujer
Hombre
Hombre
Mujer
Hombre
Mujer
Mujer
Mujer
Hombre
Salario anual (en €)
18.000
15.000
25.000
17.000
19.000
30.000
22.000
10.000
13.000
21.000
Crear una variable nueva que contenga el salario anual en pesetas y otra variable
categórica para el salario con 4 categorías.
Añadir los datos para 3 individuos más contenidos en la siguiente tabla:
Id
11
12
13
4.
Etiqueta
Joan
Sílvia
Josep
Pere
Anna
David
Cristina
Marta
Magda
Carles
Etiqueta
Oriol
Ester
Rosa
Sexo
Hombre
Mujer
Mujer
Salario anual (en €)
23.000
17.000
35.000
Crear otro archivo SAS (socecon) con las características edad, nivel de estudios,
tipo de transporte para llegar al trabajo y tiempo de recorrido desde la vivienda
habitual hasta el trabajo (en minutos) que aparecen en la siguiente tabla:
Id
1
2
3
4
5
6
7
8
9
10
11
12
13
Edad
27
20
35
30
25
37
35
23
21
28
29
32
40
Nivel estudios
Transporte
Est. superiores
Bus
FP II o equiv.
Metro
FP II o equiv. Coche part.
Est. Superiores Coche part.
Est. Medios
Moto
Est. Medios
Bus
Est. Superiores
Bus
Est. medios.
Moto
FP II o equiv.
Moto
Est. medios
Metro
Est. Medios Coche part.
FP II o equiv.
Metro
Est. superiores
Bus
Tiempo
15
20
55
45
30
35
15
10
7
25
50
35
35
5
5.
6.
Fusionar los dos archivos anteriores y crear un archivo de SAS llamado ejemplo1
Asignar de forma aleatoria los individuos en dos grupos para poder realizar un
experimento de comparación de medios de transporte
6
3.1.1. Fichero SAS de Sintaxis: Ejemplo 1.Datos
DATA ejemplo1;
INPUT id etiqueta $ sexo $ salario;
CARDS;
1 Joan Hombre 18000
2 Silvia Mujer 15000
3 Josep Hombre 25000
4 Pere Hombre 17000
5 Anna Mujer 19000
6 David Hombre 30000
7 Cristina Mujer 22000
8 Marta Mujer 10000
9 Magda Mujer 13000
10 Carles Hombre 21000
;
RUN;
PROC PRINT DATA=ejemplo1;
RUN;
* crear una variable categorica para el salario;
DATA ej1salca;
SET ejemplo1;
salpts=salario*166.386;
IF salario <= 15000 THEN salca=1;
IF salario > 15000 AND salario <= 21000 THEN salca=2;
IF salario > 21000 AND salario <= 25000 THEN salca=3;
IF salario >25000 THEN salca=4;
RUN;
* añadimos 3 casos a los datos;
DATA ej11;
INPUT id etiqueta $ sexo $ salario;
CARDS;
11 Oriol Hombre 23000
12 Ester Mujer 17000
13 Rosa Mujer 35000
;
RUN;
DATA ej11salc;
SET ej11;
salpts=salario*166.386;
IF salario <= 15000 THEN salca=1;
IF salario > 15000 AND salario <= 21000 THEN salca=2;
IF salario > 21000 AND salario <= 25000 THEN salca=3;
IF salario >25000 THEN salca=4;
RUN;
PROC APPEND BASE=ej1salca DATA=ej11salc;
RUN;
* añadimos 4 variables;
DATA socecon;
INPUT id edad nivest $ transp $ tiempo;
CARDS;
1 27 Est_sup Bus 15
2 20 FPII Metro 20
3 35 FPII Coche 55
4 30 Est_sup Coche 45
5 25 Gr_medio Moto 30
6 37 Gr_medio Bus 35
7 35 Est_sup Bus 15
8 23 Gr_medio Moto 10
9 21 FPII Moto 7
7
10 28 Gr_medio Metro 25
11 29 Gr_medio Coche 50
12 32 FPII Metro 35
13 40 Est_sup Bus 35
;
RUN;
DATA ejemplo1;
MERGE ej1salca socecon;
BY id;
RUN;
* asignacion aleatoria en dos grupos;
DATA ej12g;
SET ejemplo1;
grupo = RANBIN(0,1,0.5);
RUN;
8
3.2.
Homicidios en California 1850-1900
El fichero homicide.sav (formato SPSS) contiene los datos analizados en el estudio:
Ethnicity and homicide
McKanna, C. (1995)
in
California,
1850-1900,
Los datos han sido obtenidos en la página web del National Archive of Criminal Justice Data de
los EUA (http://www.icpsr.umich.edu/NACJD/). Se dispone de variables referentes a
1.317 homicidios producidos en California durante los años 1850 hasta 1900. Se obtuvieron
datos sobre el lugar, causa del crimen y arma utilizada así como la relación entre raza, sexo,
edad y ocupación de la víctima y el acusado.
•
•
•
•
•
•
•
•
•
Nombre de la víctima (VICTIM)
Cadena de caracteres
Nombre del acusado (KILLER)
Cadena de caracteres
Año (YEAR)
Variable cuantitativa (50-99)
Mes (MONTH)
Variable cuantitativa (1-12)
Día dentro del mes (DAY)
Variable cuantitativa(1-31)
Hora (HOUR)
Variable categórica
1 12 NOON-3 PM
2 3 PM-6PM
3 6 PM-9 PM
4 9 PM-12 MIDNIGHT
5 12 MIDNIGHT-3 AM
6 3 AM-6 AM
7 6 AM-9 AM
8 9 AM-12 NOON
9 UNKNOWN
Día de la semana (WEEKDAY)
Variable categórica
1 MONDAY
2 TUESDAY
3 WEDNESDAY
4 THURSDAY
5 FRIDAY
6 SATURDAY
7 SUNDAY
9 UNKNOWN
Condado de California (COUNTY)
Variable categórica
1 SAN DIEGO
3 SANTA BARBARA
4 SAN LUIS OBISPO
11 SACRAMENTO
12 SAN JOAQUIN
21 CALAVERAS
22 TUOLUMNE
99 UNKNOWN
Raza de la víctima (VICRACE)
Variable categórica
1 WHITE
•
•
•
2 HISPANIC
3 NATIVE AMERICAN
4 ORIENTAL
5 AFRICAN-AMERICAN
9 UNKNOWN
Sexo de la víctima (VICSEX)
Variable categórica
1 MALE
2 FEMALE
9 UNKNOWN
Edad de la víctima (VICAGE)
Variable cuantitativa
Ocupación de la víctima (VICOCCUP)
Variable categórica
1 LABORER
2 FARMER
3 RANCHER
4 MERCHANT
5 COWBOY
6 SHEEP HERDER
7 SOLDIER
8 SAILOR
9 BARTENDER
10 LAWMAN
12 HOUSEWIFE
13 PROSTITUTE
14 LAWYER
15 COOK
16 BUTCHER
17 TEAMSTER
18 RR WORKER
19 MINER
20 HOTEL KEEPER
21 BAR OWNER
22 CLERICAL
23 TEACHER
24 TRANSIENT
25 FISHERMAN
26 NURSE
27 STUDENT
28 DOMESTIC
29 DRUGGIST
30 DOCTOR
31 STORE CLERK
32 BAKER
9
•
•
•
•
•
33 BARBER
34 WAITER
35 LAUNDRY
36 MUSICIAN
37 DENTIST
38 SHOEMAKER
39 MECHANIC
40 BLACKSMITH
41 CARPENTER
42 PREACHER
44 HARNESS MAKER
45 GARDENER
46 SALESMAN
47 TAILOR
48 STEAMBOAT RUNNER
49 DISHWASHER
50 PORTER
51 LEGISLATOR
52 RANCH/FARM HAND
53 OTHER TRADESMAN
54 BOAT HAND
55 GAMBLER
56 PIMP
57 MINISTER
58 EDITOR/PUBLISHER
59 PEDDLER
60 PRISON INMATE
61 WATCHMAN
62 BOOKKEEPER
63 WELLS FARGO GRD
64 ASYLUM INMATE
65 JUDGE/JUSTICE
66 SEAMSTRESS
99 UNKNOWN
Estado de la víctima (VICCOND)
Variable categórica
1 DRINKING
2 OTHER DRUGS
3 CALM
4 AGITATED
5 OTHER
9 UNKNOWN
Raza del acusado (ACCURACE)
Variable categórica
1 WHITE
2 HISPANIC
3 NATIVE AMERICAN
4 ORIENTAL
5 AFRICAN-AMERICAN
9 UNKNOWN
Sexo del acusado (ACCUSEX)
Variable categórica
1 MALE
2 FEMALE
9 UNKNOWN
Edad del acusado (ACCUAGE)
Variable cuantitativa
Ocupación del acusado (ACCUOCCU)
Variable categórica
1 LABORER
2 FARMER
3
4
5
6
7
8
9
10
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
RANCHER
MERCHANT
COWBOY
SHEEP HERDER
SOLDIER
SAILOR
BARTENDER
LAWMAN
HOUSEWIFE
PROSTITUTE
LAWYER
COOK
BUTCHER
TEAMSTER
RR WORKER
MINER
HOTEL KEEPER
BAR OWNER
CLERICAL
TEACHER
TRANSIENT
FISHERMAN
NURSE
STUDENT
DOMESTIC
DRUGGIST
DOCTOR
STORE CLERK
BAKER
BARBER
WAITER
LAUNDRY
MUSICIAN
DENTIST
SHOEMAKER
MECHANIC
BLACKSMITH
CARPENTER
PREACHER
HARNESS MAKER
GARDENER
SALESMAN
TAILOR
STEAMBOAT RUNNER
DISHWASHER
PORTER
LEGISLATOR
RANCH/FARM HAND
OTHER TRADESMAN
BOAT HAND
GAMBLER
PIMP
MINISTER
EDITOR/PUBLISHER
PEDDLER
PRISON INMATE
WATCHMAN
BOOKKEEPER
WELLS FARGO GRD
ASYLUM INMATE
JUDGE/JUSTICE
SEAMSTRESS
10
•
•
•
•
•
99 UNKNOWN
Estado del acusado (ACCUCOND)
Variable categórica
1 DRINKING
2 OTHER DRUGS
3 CALM
4 AGITATED
5 OTHER
9 UNKNOWN
Relación víctima-acusado (RELATION)
Variable categórica
1 MARRIED
2 IN-LAWS
3 FRIENDS
4 STRANGERS
5 ROOMMATES
8 OTHER
9 UNKNOWN
Causa del homicidio (CAUSE)
Variable categórica
1 DOMESTIC DISPUTE
2 QUARREL
3 BRAWL
4 LYNCH MOB
5 KILLED BY POLICE
6 KILLED POLICE
7 ROBBERY
8 OTHER
9 UNKNOWN
Arma utilizada (WEAPON)
Variable categórica
1 HAND GUN
2 RIFLE
3 SHOTGUN
4 GUN UNKNOWN
5 KNIFE
6 AXE
7 HANGING
8 FIRE
9 FALL
10 STRANGLED
11 FISTS
12 BLUNT INSTRUMENT
13 POISON
14 THROWN DOWN
15 SHARP INSTRUMENT
16 DRUGS
17 KICKED
18 DROWNED
99 UNKNOWN
Lugar del homicidio (LOCATION)
Variable categórica
1 VICTIM'S HOME
2 STREET
3 SALOON
4 WORK
5 RANCH
6 FARM
7 COUNTRY ROAD
8 DESERT
9 JAIL
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
99
WOODS
HOTEL
WHARF
SHIP
RAILROAD
BEACH
MOUNTAINS
RIVER
OCEAN
INDIAN RESERVE
ACCUSED HOME
CEMETARY
CHURCH
MISSION
COURTHOUSE
HOSPITAL
MILITARY FORT
BANK
SAW MILL
STORE
LAKE
HOSPITAL
MINE
BRIDGE
BROTHEL
CEMETARY
RESTAURANT
PRISON
ROOMING HOUSE
PARK
OTHER HOUSE
STATE BUILDING
BLACKSMITH SHOP
OTHER BUSINESS
STABLE OR CORRAL
STAGE/RR STATION
DANCE HALL
OTHER BUILDING
CABIN (RURAL)
ASYLUM
UNKNOWN
11
1. Importar la base de datos al sistema SAS.
2. Asignar las etiquetas a las variables categóricas.
12
3.2.1. Fichero SAS de Sintaxis: Homicidios.Datos
LIBNAME HOMI SPSS 'HOMICIDE.por';
DATA HOMICIDE;
SET HOMI._FIRST_;
RUN;
PROC FORMAT;
VALUE RACE 1='1-WHITE'
2='2-HISPANIC'
3='3-NATIVE AMERICAN'
4='4-ORIENTAL'
5='5-AFRICAN-AMERICAN'
9='6-UNKNOWN'
;
VALUE COND 1='1-DRINKING'
2='2-OTHER DRUGS'
3='3-CALM'
4='4-AGITATED'
5='5-OTHER'
9='6-UNKNOWN'
;
VALUE SEX 1='1-MALE'
2='2-FEMALE'
9='3-UNKNOWN'
;
VALUE RELATION 1='1-MARRIED'
2='2-IN-LAWS'
3='3-FRIENDS'
4='4-STRANGERS'
5='5-ROOMMATES'
8='6-OTHER'
9='7-UNKNOWN'
;
VALUE CAUSE 1='1-DOMESTIC DISPUTE'
2='2-QUARREL'
3='3-BRAWL'
4='4-LYNCH MOB'
5='5-KILLED BY POLICE'
6='6-KILLED POLICE'
7='7-ROBBERY'
8='8-OTHER'
9='9-UNKNOWN'
;
RUN;
DATA HOMICIDE;
SET HOMICIDE;
FORMAT VICRACE RACE. ACCURACE RACE. VICCOND COND. ACCUCOND
COND.VICSEX SEX. ACCUSEX SEX. RELATION RELATION. CAUSE CAUSE.;
RUN;
* Para comprobar el formato miramos las 10
primeras observaciones;
PROC PRINT DATA=HOMICIDE(OBS=10);
RUN;
PROC CONTENTS DATA=HOMICIDE POSTITION;
RUN;
13
3.3.
Gastos de publicidad a Europa
En la siguiente tabla se muestra la repartición (en porcentajes) de los gastos publicitarios según
el medio de comunicación de 16 países de Europa. Los datos corresponden al año 1990 y se
extrajeron de la revista Press Landscape update & Eur. Direct Marketing NTC, 1991.
Belgium
Denmark
France
Germany
Greece
Ireland
Italy
Netherlands
Portugal
Spain
U.K.
Austria
Finland
Norway
Sweden
Switzerland
Newspapers
Magazines
TV
Radio
Cinema
Outdoor/Transport
35.3
76.1
28.6
46.0
26.0
63.7
27.8
50.4
25.1
37.6
44.1
51.6
67.2
77.2
78.6
61.1
20.5
11.8
27.5
27.9
28.2
5.4
24.0
27.8
21.7
15.4
19.3
18.0
13.5
15.8
14.3
16.8
27.5
9.6
24.8
15.8
35.3
19.6
43.02
9.0
37.1
31.3
30.5
17.7
12.9
2.5
2.2
6.7
1.2
0.8
6.6
5.1
5.7
6.2
1.4
2.2
6.7
10.3
2.2
8.0
4.0
1.0
0.0
1.7
1.4
0.4
0.8
1.2
0.0
0.0
0.0
0.3
0.0
0.8
0.5
0.4
0.1
1.2
0.6
0.9
14.2
1.3
11.7
3.9
4.8
5.1
3.6
10.4
9.5
4.7
3.4
4.4
2.3
2.2
4.3
12.7
Los datos se encuentran en el archivo PublicidadEuropa.dat.
1. Abrir el archivo de texto con el editor de texto. Observar su formato.
2. Exportar los datos a un archivo de datos editable con SAS.
3. Revisar /modificar las etiquetas de las variables.
14
3.3.1. Fichero SAS de Sintaxis: Publicidad.Datos
/* el fichero está separado por tabuladores utilizaremos DLM='09'X*/
DATA PUB;
INFILE 'PublicidadEuropa.dat' DLM='09'x FIRSTOBS=2;
INPUT PAIS $ DIARIOS REVISTAS TV RADIO CINE EXTERIOR;
RUN;
PROC PRINT DATA=PUB;
RUN;
PROC CONTENTS DATA=PUB;
RUN;
15
3.4.
Peso de bebés
El archivo PesoBebes.sav contiene información de 189 nacimientos, siendo el peso del bebé al
nacer la variable principal.
1. Abrir el archivo con SPSS y exportarlo a SAS.
2. Editar las etiquetas de las variables y sus valores.
3. Se considera que un peso inferior a 2500 gramos es demasiado pequeño, pudiendo
afectar problemas en el recién nacido. Crear la variable binaria que discrimine a los
bebés según este factor de riesgo.
16
3.4.1. Fichero SAS de Sintaxis: Bebes.Datos
LIBNAME EXP SPSS 'PesoBebes.por';
DATA BEBES;
SET EXP._FIRST_;
RUN;
PROC CONTENTS DATA=BEBES;
RUN;
PROC FORMAT;
VALUE RAZA 1='1-BLANCA'
2='2-NEGRA'
3='3-OTRAS'
;
VALUE BINARIA 0='0-NO'
1='1-SI'
;
RUN;
DATA BEBES;
SET BEBES;
LABEL V1='Código ID';
LABEL V3='Edad madre';
LABEL V4='Peso de la madre en la ultima menstruacion';
LABEL V5='Raza madre';
LABEL V6='Fumar durante el embarazo';
LABEL V7='Embarazo prematuro';
LABEL V8='Hipertensión';
LABEL V9='Irritabilidad uterina';
LABEL V10='Numero de visitas al medico';
LABEL V11='Peso del bebé en gramos';
FORMAT V5 RAZA. V6 BINARIA. V7 BINARIA. V8 BINARIA. V9
BINARIA.;
RUN;
PROC CONTENTS DATA=BEBES POSITION;
RUN;
DATA BEBES;
SET BEBES;
IF V11<= 2500 THEN POCOPESO=1;
IF V11> 2500 THEN POCOPESO=0;
RUN;
PROC FORMAT;
VALUE POCOPESO 0='SUPERIOR A 2500 G'
1='INFERIOR A 2500 G';
RUN;
DATA BEBES;
SET BEBES;
FORMAT POCOPESO POCOPESO.;
RUN;
PROC PRINT LABEL DATA=BEBES;
RUN;
PROC CONTENTS DATA=BEBES POSITION;
RUN;
17
3.5.
Caparazón Palletoida
El archivo CaparazonPalletoida.sav contiene la longitud y la altura medidas en 28 caparazones
de la especie Palletoida de moluscos.
1. Importar los datos a un archivo editable con SAS.
2. Editar las etiquetas de las variables. Imprimir el archivo con las etiquetas ‘longitud’ y
‘altura’ de las variables X e Y.
3. Crear la variable que contenga el logaritmo de la longitud.
18
3.5.1. Fichero SAS de Sintaxis: Caparazon.Datos
LIBNAME PALLET SPSS 'caparazonpalletoide.por';
DATA caparaz;
SET PALLET._FIRST_;
RUN;
PROC PRINT data=caparaz;
RUN;
* INFORMACIÓN CONTENIDA EN EL FICHERO;
PROC CONTENTS DATA=caparaz;
RUN;
PROC PRINT DATA=caparaz LABEL;
LABEL X='altura' Y='longitud';
RUN;
* LOGARITMO DE LA ALTURA;
DATA caparaz;
SET caparaz;
loglongi = LOG(Y);
RUN;
19
3.6.
Factores experimentales en la fabricación del plástico
Una determinada fábrica desea conocer la mejor manera de producir un tipo de plástico. Para
ello, realizan un experimento controlado, tomando como variables experimentales:
Nivel de extrusión. 2 niveles (bajo o alto).
Cantidad de aditivo. 2 niveles (bajo o alto).
Creen que una variación en los niveles de estos factores afecta a las características del plástico
finalmente fabricado. Concretamente, están interesados en estudiar la resistencia a la ruptura, el
brillo y la opacidad de los plásticos generados (valorados en una escala de 0 a 10). Su objetivo
es fabricar un tipo de plástico con los máximos valores de estos parámetros. Para resolver esta
cuestión, realizan un experimento factorial 22, con cuatro réplicas para cada condición
experimental. Los datos recogidos son los siguientes:
Nivel de extrusión
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
Cantidad de aditivo
1
1
1
1
1
2
2
2
2
2
1
1
1
1
1
2
2
2
2
2
Resistencia a la ruptura
6.5
6.2
5.8
6.5
6.5
6.9
7.2
6.9
6.1
6.3
6.7
6.6
7.2
7.1
6.8
7.1
7.0
7.2
7.5
7.6
Brillo
9.5
9.9
9.6
9.6
9.2
9.1
10.0
9.9
9.5
9.4
9.1
9.3
8.3
8.4
8.5
9.2
8.8
9.7
10.1
9.2
Opacidad
4.4
6.4
3.0
4.1
.8
5.7
2.0
3.9
1.9
5.7
2.8
4.1
3.8
1.6
3.4
8.4
5.2
6.9
2.7
1.9
1. Importar los datos del archivo ExperimentoPlastico.sav a un archivo editable con SAS.
2. Revisar la importación de etiquetas.
20
3.6.1. Fichero SAS de Sintaxis: Plastico.Datos
LIBNAME PLAST SPSS 'ExperimentoPlastico.por';
DATA EXP;
SET PLAST._FIRST_;
RUN;
PROC CONTENTS DATA=EXP;
RUN;
PROC FORMAT;
VALUE EXTRUS 1='1-EXTRUSIÓN BAJA'
2='2-EXTRUSIÓN ALTA'
;
VALUE ADITIVO 1='1-ADITIVO BAJO'
2='2-ADITIVO ALTO'
;
RUN;
DATA EXP;
SET EXP;
FORMAT EXTRUS EXTRUS. ADITIVO ADITIVO.;
RUN;
PROC CONTENTS DATA=EXP POSTITION;
RUN;
21
4.
Estadística descriptiva
4.1.
Ejemplo básico. Ejemplo1
1.
Resumir la variable salario y calcular las medidas de posición y variabilidad para el
salario.
PROC UNIVARIATE DATA=ej12g;
VAR salario;
RUN;
2.
Comparar la variable salario para las dos submuestras que define la variable sexo
Antes de realizar un PROC UNIVARIATE para distintas submuestras los datos deben estar
ordenados según la variable que define las submuestras
PROC SORT DATA=ej12g;
BY sexo;
RUN;
PROC UNIVARIATE DATA=ej12g;
CLASS sexo;
VAR salario;
RUN;
22
23
3.
Dibujar un histograma del salario para cada submuestra
PROC UNIVARIATE DATA=ej12g;
CLASS SEXO;
VAR salario;
HISTOGRAM;
RUN;
4.
Resumir mediante una tabla de dos entradas las variables nivel de estudios y sexo
PROC FREQ DATA=ej12g;
TABLES nivest*sexo;
RUN;
5.
Dibujar un gráfico de dispersión para las variables salario y edad
PROC GPLOT DATA=ej12g;
PLOT salario*edad;
RUN;
*para editar el grafico como deseamos;
AXIS2 LABEL=('SALARIO' justify=right '(en pts)');
AXIS1 LABEL=('EDAD (en años)') ORDER=(20 TO 40 BY 5);
PROC GPLOT DATA=ej12g;
PLOT salario*edad /haxis=axis1 hminor=1 vaxis=axis2;
SYMBOL1 VALUE=DOT COLOR=BLUE ;
RUN;
24
25
4.2.
Homicidios en California 1850-1900
1. Realizar un listado de las variables de la base de datos creada en el ejercicio 3.2
PROC CONTENTS DATA=HOMICIDE POSTITION;
RUN;
2. Distinguir entre variables respuesta y variables explicativas.
3. Realizar tablas de contingencia para analizar bivariantemente pares de variables
categóricas.
DATA HOMICIDE;
SET HOMICIDE;
IF ACCUSEX=9 OR VICSEX=9 THEN DELETE;
RUN;
PROC FREQ DATA=HOMICIDE;
TABLES ACCUSEX*VICSEX/OUT=M OUTPCT;
RUN;
/* SE PUEDE EMPLEAR LA MISMA SINTAXI PARA CREAR OTRAS TABLAS
DE CONTINGENCIA */
26
4. Crear la tabla de perfiles filas e interpretar los resultados.
PROC PRINT DATA=M;
RUN;
5. Realizar gráficos de línea para los perfiles fila.
AXIS1 ORDER=(1 TO 2 BY 1);
PROC GPLOT DATA=M;
PLOT PCT_ROW * VICSEX=ACCUSEX /HAXIS=AXIS1 hminor=0;
SYMBOL1 I=J VALUE=DOT COLOR=BLUE;
SYMBOL2 I=J;
RUN;
27
28
4.3.
Gastos de publicidad a Europa
1. Resumir los datos del ejercicio 3.3.
PROC MEANS DATA=pub;
RUN;
2. Determinar e interpretar la matriz de correlaciones entre las variables.
PROC CORR DATA=PUB;
VAR CINE DIARIOS EXTERIOR
RUN;
RADIO REVISTAS TV;
29
4. Realizar gráficos de dispersión y evaluar la linealidad de las relaciones.
PROC GPLOT DATA=pub;
PLOT TV*DIARIOS;
TITLE 'GASTOS EN TV RESPECTO A DIARIOS';
RUN;
30
5. Diferenciar entre los países de la zona mediterránea del resto. Repetir los análisis
*CREAMOS UNA NUEVA VARIABLE PARA DIFERENCIA L0S PAÍSES
MEDITERRÁNEOS DEL RESTO;
DATA PUB;
SET PUB;
IF PAIS='France' OR PAIS='Greece' OR PAIS='Italy' OR
PAIS='Portugal' OR PAIS='Spain'
THEN MEDIT=1;
ELSE MEDIT=2;
RUN;
PROC FORMAT;
VALUE MEDIT 1='Países mediterráneos'
2='Países no mediterráneos';
RUN;
DATA PUB;
SET PUB;
FORMAT MEDIT MEDIT.;
RUN;
PROC PRINT LABEL DATA=PUB;
RUN;
PROC SORT DATA=PUB;
BY MEDIT;
RUN;
PROC CORR DATA=PUB;
VAR CINE DIARIOS EXTERIOR RADIO REVISTAS TV;
BY MEDIT;
RUN;
31
32
4.4.
Peso de bebés
1. Analizar las tablas de contingencia cruzando la variable peso del bebé (superior o
inferior a 2500 gramos) con el resto de variables categóricas.
PROC FREQ DATA=BEBES;
TABLES V5*POCOPESO;
RUN;
PROC FREQ DATA=BEBES;
TABLES V6*POCOPESO;
RUN;
PROC FREQ DATA=BEBES;
TABLES V7*POCOPESO;
RUN;
PROC FREQ DATA=BEBES;
TABLES V8*POCOPESO;
RUN;
PROC FREQ DATA=BEBES;
TABLES V9*POCOPESO;
RUN;
* TAMBIEN PODEM OBTENER LAS TABLAS DE CONTINGENCIA CON LA
INSTRUCCION;
PROC FREQ DATA=BEBES;
TABLES (V5 V6 V7 V8 V9)*POCOPESO;
RUN;
2. Crear una tabla con los estadísticos descriptivos y gráficos adecuados para analizar la
edad de la madre y el número de visitas al médico.
PROC MEANS DATA=BEBES;
VAR V3 V10;
RUN;
PROC UNIVARIATE DATA=BEBES;
VAR V3;
HISTOGRAM;
RUN;
PROC GCHART DATA=BEBES;
VBAR V10 /MIDPOINTS=(1 TO 6 BY 1) vminor=0;
RUN;
33
34
3. Crear las tablas anteriores separadamente distinguiendo si el bebé ha presentado un
peso menor o superior a 2500 gramos.
PROC SORT DATA=BEBES;
BY POCOPESO;
RUN;
PROC MEANS DATA=BEBES;
VAR V3 V10;
BY POCOPESO;
RUN;
35
4.5.
Caparazón Palletoida
1. Editar el gráfico de dispersión de la longitud (Y) respecto de la altura.
AXIS2 LABEL=('LONGITUD');
AXIS1 LABEL=('ALTURA') ORDER=(0.9 TO 2.7 BY 0.3);
PROC GPLOT DATA=caparaz;
PLOT Y*X /haxis=axis1 hminor=0 vaxis=axis2;
SYMBOL1 VALUE=DOT COLOR=BLUE ;
RUN;
2. Calcular e interpretar el coeficiente de correlación entre las dos variables.
PROC CORR DATA=caparaz;
VAR Y X;
RUN;
*si ademas queremos la covarianza;
PROC CORR DATA=caparaz COV OUTP=corcap;
VAR Y X;
RUN;
36
3. Repetir los apartados anteriores utilizando el logaritmo de la longitud.
PROC CORR DATA=caparaz COV OUTP=corcapl;
VAR loglongi X;
RUN;
AXIS2 LABEL=('LOG-LONGITUD') ORDER=(1.1 TO 1.9 BY 0.1);
AXIS1 LABEL=('ALTURA') ORDER=(0.9 TO 2.7 BY 0.3);
PROC GPLOT DATA=caparaz;
PLOT loglongi*X /haxis=axis1 hminor=0 vaxis=axis2 vminor=0;
SYMBOL1 VALUE= COLOR=BLUE ;
RUN;
37
4.6.
Factores experimentales en la fabricación de plástico
1. Resolver el problema planteado por la industria, utilizando técnicas de estadística
descriptiva.
* análisis de los efectos principales*;
PROC MEANS DATA=EXP;
CLASS EXTRUS;
VAR BRILLO;
OUTPUT OUT=G1 MEAN(BRILLO)= M1;
RUN;
GOPTIONS RESET=ALL;
AXIS1 ORDER=(1 TO 2 BY 1);
AXIS2 ORDER=(9 TO 9.7 BY 0.1);
PROC GPLOT DATA=G1;
WHERE _TYPE_=1;
PLOT M1*EXTRUS / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2;
SYMBOL1 I=JOIN VALUE=DOT COLOR=BLUE;
RUN;
PROC MEANS DATA=EXP;
CLASS ADITIVO;
VAR BRILLO;
OUTPUT OUT=G1 MEAN(BRILLO)= M1;
RUN;
PROC GPLOT DATA=G1;
WHERE _TYPE_=1;
PLOT M1*ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2;
RUN;
PROC MEANS DATA=EXP;
CLASS EXTRUS;
VAR OPACIDAD;
OUTPUT OUT=G1 MEAN(OPACIDAD)= M1;
RUN;
AXIS2 ORDER=(3.4 TO 4.5 BY 0.1);
PROC GPLOT DATA=G1;
WHERE _TYPE_=1;
PLOT M1*EXTRUS / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2;
RUN;
PROC MEANS DATA=EXP;
CLASS ADITIVO;
VAR OPACIDAD;
OUTPUT OUT=G1 MEAN(OPACIDAD)= M1;
RUN;
PROC GPLOT DATA=G1;
WHERE _TYPE_=1;
PLOT M1*ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2;
RUN;
PROC MEANS DATA=EXP;
CLASS EXTRUS;
VAR RESIST;
OUTPUT OUT=G1 MEAN(RESIST)= M1;
RUN;
38
AXIS2 LABEL=('resistencia' justify=right 'a la ruptura')
ORDER=(6.4 TO 7.1 BY 0.1);
PROC GPLOT DATA=G1;
WHERE _TYPE_=1;
PLOT M1*EXTRUS / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2;
RUN;
PROC MEANS DATA=EXP;
CLASS ADITIVO;
VAR RESIST;
OUTPUT OUT=G1 MEAN(RESIST)= M1;
RUN;
PROC GPLOT DATA=G1;
WHERE _TYPE_=1;
PLOT M1*ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2;
RUN;
2. ¿Qué características dependen del nivel de extrusión? ¿Cómo?
39
40
3. ¿Qué características dependen de la cantidad de aditivo? ¿Cómo?
41
4. ¿Existe interacción entre el nivel de extrusión y la cantidad de aditivo?
*analisis de las interacciones ;
PROC MEANS DATA=EXP;
CLASS EXTRUS ADITIVO;
VAR BRILLO;
OUTPUT OUT=G4 MEAN(BRILLO)= M4;
RUN;
AXIS2 ORDER=(8.7 TO 9.7 BY 0.2);
PROC GPLOT DATA=G4;
WHERE _TYPE_=3;
PLOT M4*EXTRUS=ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2;
SYMBOL2 I=JOIN VALUE='TRIANGLE';
RUN;
PROC MEANS DATA=EXP;
CLASS EXTRUS ADITIVO;
VAR OPACIDAD;
OUTPUT OUT=G4 MEAN(OPACIDAD)= M4;
RUN;
AXIS2 ORDER=(3 TO 5.3 BY 0.3);
PROC GPLOT DATA=G4;
WHERE _TYPE_=3;
PLOT M4*EXTRUS=ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2;
RUN;
PROC MEANS DATA=EXP;
CLASS EXTRUS ADITIVO;
VAR RESIST;
OUTPUT OUT=G4 MEAN(RESIST)= M4;
RUN;
42
AXIS2 LABEL=('resistencia' justify=right 'a la ruptura')
ORDER=(6.2 TO 7.4 BY 0.3);
PROC GPLOT DATA=G4;
WHERE _TYPE_=3;
PLOT M4*EXTRUS=ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2;
RUN;
5. ¿Cuál es el mejor prototipo por lo que se refiere a la resistencia a la ruptura? ¿y respecto
al brillo? ¿y respecto la opacidad?
Para la resistencia a la ruptura: un plástico con un nivel de extrusión y aditivo altos
Para el brillo: un plástico con un nivel de extrusión bajo y aditivo alto
Para la opacidad: un plástico con un nivel de extrusión y aditivo altos
6. ¿Existe algún plástico óptimo? ¿Es robusto?
A la vista de los gráficos el plástico óptimo tendría un nivel de extrusión y aditivo altos
43
5.
Inferencia estadística básica
5.1.
Ejemplo básico. Ejemplo1
1. Realizar un intervalo de confianza al 90%, 95% y 99% para la media de la variable
salario.
PROC TTEST DATA=EJ12G;
VAR SALARIO;
RUN;
PROC TTEST DATA=EJ12G ALPHA=0.1;
VAR SALARIO;
RUN;
PROC TTEST DATA=EJ12G ALPHA=0.01;
VAR SALARIO;
RUN;
The TTEST Procedure
Statistics
Variable
salario
N
Lower CL
Mean
Mean
Upper CL
Mean
Lower CL
Std Dev
Std Dev
Upper CL
Std Dev
Std Err
13
16260
20385
24509
4894.6
6825.7
11267
1893.1
T-Tests
Variable
salario
DF
t Value
12
Pr > |t|
10.77
<.0001
2. Realizar los mismos intervalos distinguiendo para las dos submuestras que define la
variable sexo.
3. Calcular el coeficiente de correlación entre las variables salario y edad. Evaluar su
significación.
PROC CORR DATA=EJ12G;
VAR SALARIO EDAD;
RUN;
Pearson Correlation Coefficients, N = 13
Prob > |r| under H0: Rho=0
salario
edad
salario
1.00000
0.86315
0.0001
edad
0.86315
0.0001
1.00000
44
5.2.
Homicidios en California 1850-1900
1. Analizar el grado de dependencia entre pares de variables categóricas, representadas en
una tabla de contingencia.
2. Resolver la prueba de independencia de ji-cuadrado.
PROC FREQ DATA=HOMICIDE;
TABLES ACCUSEX*VICSEX/CHISQ;
RUN;
The FREQ Procedure
Table of ACCUSEX by VICSEX
ACCUSEX(SEX OF ACCUSED)
VICSEX(SEX OF VICTIM)
Frequency ‚
Percent
‚
Row Pct
‚
Col Pct
‚1-MALE ‚2-FEMALE‚ Total
‚
‚
‚
ƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1-MALE
‚
1052 ‚
87 ‚
1139
‚ 90.38 ‚
7.47 ‚ 97.85
‚ 92.36 ‚
7.64 ‚
‚ 98.23 ‚ 93.55 ‚
ƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2-FEMALE ‚
19 ‚
6 ‚
25
‚
1.63 ‚
0.52 ‚
2.15
‚ 76.00 ‚ 24.00 ‚
‚
1.77 ‚
6.45 ‚
ƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
1071
93
1164
92.01
7.99
100.00
Statistics for Table of ACCUSEX by VICSEX
Statistic
DF
Value
Prob
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Chi-Square
1
8.9085
0.0028
Likelihood Ratio Chi-Square
1
6.1284
0.0133
Continuity Adj. Chi-Square
1
6.8218
0.0090
Mantel-Haenszel Chi-Square
1
8.9008
0.0029
Phi Coefficient
0.0875
Contingency Coefficient
0.0872
Cramer's V
0.0875
WARNING: 25% of the cells have expected counts less
than 5. Chi-Square may not be a valid test.
45
5.3.
Gastos de publicidad a Europa
1. Determinar la matriz de correlaciones entre las variables e avaluar la significación de los
coeficientes de correlación.
PROC CORR DATA=PUB;
VAR CINE DIARIOS EXTERIOR
RUN;
RADIO REVISTAS TV;
The CORR Procedure
6
Variables:
CINE
DIARIOS
EXTERIOR RADIO
REVISTAS TV
Simple Statistics
Variable
N
Mean
Std Dev
Sum
Minimum
Maximum
CINE
DIARIOS
EXTERIOR
RADIO
REVISTAS
TV
16
16
16
16
16
16
0.53750
49.77500
6.15625
3.94375
19.24375
20.35625
0.47170
19.00023
4.10186
3.05766
6.66033
12.86489
8.60000
796.40000
98.50000
63.10000
307.90000
325.70000
0
25.10000
1.30000
0
5.40000
2.20000
1.40000
78.60000
14.20000
10.30000
28.20000
43.20000
Pearson Correlation Coefficients, N = 16
Prob > |r| under H0: Rho=0
CINE
DIARIOS
EXTERIOR
RADIO
REVISTAS
TV
CINE
1.00000
0.14338
0.5963
0.30033
0.2584
-0.19350
0.4727
0.10448
0.7002
-0.35390
0.1787
DIARIOS
0.14338
0.5963
1.00000
-0.41420
0.1107
-0.46603
0.0688
-0.68887
0.0032
-0.88498
<.0001
EXTERIOR
0.30033
0.2584
-0.41420
0.1107
1.00000
0.00723
0.9788
0.35120
0.1823
0.09987
0.7129
-0.19350
0.4727
-0.46603
0.0688
0.00723
0.9788
1.00000
0.06992
0.7969
0.42136
0.1041
0.10448
0.7002
-0.68887
0.0032
0.35120
0.1823
0.06992
0.7969
1.00000
0.36761
0.1613
-0.35390
0.1787
-0.88498
<.0001
0.09987
0.7129
0.42136
0.1041
0.36761
0.1613
1.00000
RADIO
REVISTAS
TV
46
5.4.
Peso de bebés
1. Analizar las tablas de contingencia cruzando la variable peso del bebé (superior o
inferior a 2500 gramos) con el resto de variables categóricas. Plantear y resolver la
prueba de independencia de ji-cuadrado.
2. Comparar las medias de las edades de las madres y el número de visitas distinguiendo si
el bebé ha presentado un peso menor o mayor a 2500 gramos.
PROC FREQ DATA=BEBES;
TABLES V5*POCOPESO/CHISQ;
RUN;
PROC FREQ DATA=BEBES;
TABLES V6*POCOPESO/CHISQ;
RUN;
PROC FREQ DATA=BEBES;
TABLES V7*POCOPESO/CHISQ;
RUN;
PROC FREQ DATA=BEBES;
TABLES V8*POCOPESO/CHISQ;
RUN;
PROC FREQ DATA=BEBES;
TABLES V9*POCOPESO/CHISQ;
RUN;
PROC TTEST DATA=BEBES;
CLASS POCOPESO;
VAR V4 V10;
RUN;
47
5.5.
Caparazón Palletoida
1. Editar el gráfico de dispersión de la longitud (Y) respecto la altura.
2. Calcular e interpretar el coeficiente de correlación entre las dos variables. Evaluar el
grado de significación.
3. Repetir los apartados anteriores utilizando el logaritmo de la longitud.
48
5.6.
Factores experimentales en la fabricación de plástico
1. Resolver el problema planteado en los ejercicios 3.6 y 4.6 mediante pruebas de
hipótesis. Construir intervalos de confianza para los prototipos.
49
5.7.
Capacidad de detección de los murciélagos
Los murciélagos son capaces de detectar un objeto sólido mediante un sofisticado sistema de
localización. Se piensa que este sistema presenta un diámetro máximo de 6 metros. Para
confirmar esta hipótesis se seleccionó una muestra aleatoria simple de 16 murciélagos, cada
uno de los cuáles fue liberado en una zona grande que presentaba un único obstáculo. Se
observó la distancia a la que el murciélago era capaz de detectarlo. Los datos recogidos son los
siguientes:
6.2 , 6.8, 6.1, 5.7, 6.1, 6.3, 5.8, 6.3, 5.9, 6.3, 6.4, 6.0, 6.3, 6.2, 5.9, 6.1
1. Describir la muestra mediante una tabla de estadísticos descriptivos y un diagrama de
caja.
data MURC;
input DISTANCIA;
datalines;
6.2
6.8
6.1
5.7
6.1
6.3
5.8
6.3
5.9
6.3
6.4
6.0
6.3
6.2
5.9
6.1
;
RUN;
PROC PRINT DATA=MURC;
RUN;
PROC UNIVARIATE DATA=MURC;
RUN;
DATA MURC;
SET MURC;
MUESTRA=1;
RUN;
PROC BOXPLOT DATA=MURC;
PLOT DISTANCIA*MUESTRA;
RUN;
50
2. Construir un intervalo de confianza al 95% para el diámetro medio poblacional de
detección de los murciélagos.
DATA MURC;
SET MURC;
CDIST=DISTANCIA-6;
RUN;
PROC PRINT DATA=MURC;
RUN;
PROC TTEST DATA=MURC;
VAR DISTANCIA;
RUN;
The TTEST Procedure
Statistics
Variable
DISTANCIA
N
Lower CL
Mean
Mean
Upper CL
Mean
Lower CL
Std Dev
Std Dev
Upper CL
Std Dev
Std Err
16
6.0083
6.15
6.2917
0.1964
0.2658
0.4114
0.0665
T-Tests
Variable
DISTANCIA
DF
t Value
15
92.54
Pr > |t|
<.0001
51
3. Plantear y resolver un contraste de hipótesis que permita analizar la plausibilidad de la
hipótesis apuntada inicialmente por los investigadores.
PROC TTEST DATA=MURC;
VAR CDIST;
RUN;
The TTEST Procedure
Statistics
Variable
CDIST
N
Lower CL
Mean
Mean
Upper CL
Mean
Lower CL
Std Dev
Std Dev
Upper CL
Std Dev
Std Err
16
0.0083
0.15
0.2917
0.1964
0.2658
0.4114
0.0665
T-Tests
Variable
CDIST
DF
t Value
15
2.26
Pr > |t|
0.0394
52
5.8.
Velocidad de reacción
Se desea analizar la velocidad de reacción de unas partículas sometidas a una reacción química.
Para realizar este procedimiento se dispone de dos instrumentos de medida.
Fruto de la experimentación, se obtuvieron dos muestras, con los siguientes resultados:
Instrumento A: 25.4, 27.8, 30.4, 15.2, 33.6, 30.2, 28.7, 40.7, 32.5, 36.8
Instrumento B: 35.6, 59.8, 43.2, 32.5, 26.7, 39.5, 63.4, 45.7, 56.8, 43.2
1. Realizar gráficos descriptivos que permitan comparar ambas muestras
data REACCION;
input VEL MAQ$;
datalines;
25.4 A
27.8 A
30.4 A
15.2 A
33.6 A
30.2 A
28.7 A
40.7 A
32.5 A
36.8 A
35.6 B
59.8 B
43.2 B
32.5 B
26.7 B
39.5 B
63.4 B
45.7 B
56.8 B
43.2 B
;
RUN;
PROC PRINT DATA=REACCION;
RUN;
PROC SORT DATA=REACCION;
BY MAQ;
RUN;
PROC BOXPLOT DATA=REACCION;
PLOT VEL*MAQ;
RUN;
53
2. Plantear un contraste de hipótesis para comparar las medias de velocidad de reacción
según el instrumento. Construir un intervalo de confianza para la diferencia.
PROC TTEST DATA=REACCION;
CLASS MAQ;
VAR VEL;
RUN;
The TTEST Procedure
Statistics
Variable
Class
N
VEL
VEL
VEL
A
B
Diff (1-2)
10
10
Lower CL
Mean
Mean
Upper CL
Mean
Lower CL
Std Dev
Std Dev
Upper CL
Std Dev
Std Err
25.204
36.002
-23.74
30.13
44.64
-14.51
35.056
53.278
-5.275
4.7361
8.3057
7.4269
6.8856
12.075
9.829
12.57
22.044
14.535
2.1774
3.8185
4.3957
T-Tests
Variable
Method
Variances
VEL
VEL
Pooled
Satterthwaite
Equal
Unequal
DF
t Value
Pr > |t|
18
14.3
-3.30
-3.30
0.0040
0.0051
Equality of Variances
Variable
Method
VEL
Folded F
Num DF
Den DF
F Value
Pr > F
9
9
3.08
0.1096
54
6.
Modelización estadística
6.1.
Crecimiento del ficus
Se desea estudiar el crecimiento de los ficus en función del tiempo. Para ello, se observa el
crecimiento, en centímetros, de un conjunto de 30 plantas hasta los 126 días.
Los datos se encuentran en el fichero FICUS.SAS7BDAT.
1. Plantear y ajustar modelos que expliquen el crecimiento a partir del tiempo.
libname datos 'N:\Material Cursos\Curs SAS - 2003\Fitxers dades';
goptions reset=all ftext=triplex2 fontres=presentation vsize=13cm
hsize=16cm device=gif;
options formdlim='_' nodate nonumber;
axis label=(a=90 r=0);
proc tabulate data=datos.ficus;
class dias;
var altura;
table altura,dias,n mean std cv;
title2 'Tabla';
run;
Tabla
ALTURA
„ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒ†
‚
‚
N
‚
Mean
‚
Std
‚
CV
‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚DIAS
‚
‚
‚
‚
‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚
‚
‚
‚
‚4
‚
30.00‚
3.40‚
1.53‚
45.03‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚23
‚
30.00‚
7.21‚
2.16‚
29.99‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚39
‚
30.00‚
9.93‚
1.94‚
19.53‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚58
‚
30.00‚
12.99‚
2.04‚
15.69‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚73
‚
30.00‚
16.92‚
2.45‚
14.51‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚90
‚
30.00‚
22.82‚
2.82‚
12.34‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚108
‚
30.00‚
31.12‚
3.48‚
11.20‚
‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒ‰
‚126
‚
30.00‚
37.13‚
3.53‚
9.51‚
Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒŒ
55
data ficus;
set datos.ficus;
laltura=log(altura);
run;
proc reg data=ficus;
model laltura=dias/clb;
output out=r student=st p=p;
title2 'Regresión del logaritmo de la altura';
run;
Regresión del logaritmo de la altura
The REG Procedure
Model: MODEL1
Dependent Variable: laltura
Analysis of Variance
DF
Sum of
Squares
Mean
Square
1
238
239
136.89863
16.97119
153.86982
136.89863
0.07131
Root MSE
Dependent Mean
Coeff Var
0.26703
2.60930
10.23396
Source
Model
Error
Corrected Total
R-Square
Adj R-Sq
F Value
Pr > F
1919.83
<.0001
0.8897
0.8892
Parameter Estimates
Variable
Intercept
1.42893
DIAS
0.01999
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
1
1.36343
0.03325
41.00
<.0001
1.29792
1
0.01913
0.00043661
43.82
<.0001
0.01827
95% Confidence Limits
proc gplot data=r;
plot laltura *dias=1 p*dias=2/overlay vaxis=axis name='m21';
plot st*p/vref=-2 0 2 vaxis=axis name='m22';
symbol1 v=plus i=none c=black;
symbol2 v=none i=sm c=black;
run;
quit;
56
proc nlin data=datos.ficus;
parameters alfa=3 beta=.02;
model altura=alfa*exp(beta*dias);
output out=r student=st p=p;
title2 'Regresion no lineal';
run;
Regresion no lineal
The NLIN Procedure
Iterative Phase
Dependent Variable ALTURA
Method: Gauss-Newton
Iter
alfa
beta
Sum of
Squares
0
1
2
3
4
5
6
3.0000
5.1391
5.2025
5.2847
5.2759
5.2765
5.2765
0.0200
0.0146
0.0161
0.0158
0.0158
0.0158
0.0158
4347.3
4205.2
1952.9
1927.1
1927.1
1927.1
1927.1
NOTE: Convergence criterion met.
57
Estimation Summary
Method
Iterations
R
PPC(alfa)
RPC(alfa)
Object
Objective
Observations Read
Observations Used
Observations Missing
Gauss-Newton
6
8.676E-7
4.496E-7
6.927E-6
1.67E-10
1927.064
240
240
0
NOTE: An intercept was not specified for this model.
DF
Sum of
Squares
Mean
Square
Regression
Residual
Uncorrected Total
2
238
240
104172
1927.1
106099
52085.8
8.0969
Corrected Total
239
30990.4
Source
F Value
Approx
Pr > F
6432.80
<.0001
proc gplot data=r;
plot altura *dias=1 p*dias=2/overlay name='m23';
plot st*p/vref=-2 0 2 name='m24';
symbol1 v=plus i=none c=black;
symbol2 v=none i=sm c=black;
run;
quit;
58
59
7.
Programación en lenguaje macro
7.1.
Validación de una matriz de datos.
Antes de cualquier análisis estadístico es necesario realizar una validación de los datos
disponibles. En este proceso es habitual detectar los valores faltantes y los valores fuera de
rango.
Los datos se encuentran en el fichero PESOBEBES.POR
1. Detectar todos los casos con valores faltantes y producir un único listado.
2. Detectar todos los casos con valores fuera de rango y producir un único listado.
Se pueden tener en cuenta los siguientes rangos:
Edad de la Madre: 18-40
Peso de la Madre (en Libras): 90-200
Peso del Bebé (en gramos): 1500-4000
Variables categóricas dentro de las posibles categorías.
3. Detectar todos los casos con posibles errores de inconsistencia y producir un único
listado.
Se puede validar la siguiente condición:
Irritabilidad Uterina tendría que implicar al menos una visita al médico en el primer
trimestre.
4. Producir un informe conjunto de todas las incidencias detectadas para cada individuo.
60
7.2.
Exportación de SPSS a SAS.
En este ejemplo se utilizará la macro spss2sas para exportar las etiquetas de valores de las
variables categóricas.
Los datos se encuentran en el fichero PESOBEBES.SAV
1. Utilizar la macro spss2sas para exportar la base de datos PESOBEBES.SAV de SPSS a
SAS.
61
8.
Los datos
En este apartado se enumeran, por orden de aparición, los datos utilizados en estas prácticas
así como su precedencia.
HOMICIDIOS EN CALIFORNIA. National Archive of Criminal Justice Data de los EUA
(http://www.icpsr.umich.edu/NACJD/).
GASTOS DE PUBLICIDAD EN EUROPA Press Landscape update & Eur. Direct Marketing NTC,
1991
PESO DE BEBÉ. Hosmer & Lemeshow (2000)
CAPARAZÓN PALLETOIDA Fichero base de SPSS.
FACTORES EXPERIMENTALES EN LA FABRICACIÓN DEL PLÁSTICO Milton, J. Estadística
para Biología y Ciencias de la Salud. McGraw-Hill
CAPACIDAD DE DETECCIÓN DE MURCIÉLAGOS Milton, J. Estadística para Biología y Ciencias de
la Salud. McGraw-Hill
VELOCIDAD DE REACCIÓN Milton, J. Estadística para Biología y Ciencias de la Salud. McGraw-
Hill
CRECIMIENTO DEL FICUS Utilizado con autorización de la Escola d’Enginyeria Técnica
Agrícola de la Universitat Politécnica de Catalunya.
62
9.
Bibliografía
Delwiche, L. D. & Slaughter, S. J. (2002). The Little SAS Book: A Primer. Second ed. SAS
Institute
Gilmore, J. (1999). Painless Windows: A Handbook for SAS® users. Second ed. SAS Institute
Hosmer, D.W. & Lemeshow, S. (2000). Applied Logistic Regression. Second ed. Willey & Sons
63
Descargar