Conceptos de Estadística Universidad Metropolitana Programa Ahora

Anuncio
Estadística
1
Conceptos de Estadística
Universidad Metropolitana
Programa Ahora
STAT 555
Taller 1
Widalys Vélez Díaz
# S00342308
18 de junio de 2015
Profesora Sylvia Cosme Montalvo
Estadística
I.
¿Cuál es la diferencia entre muestra y población?
La población se compone de todos los elementos o individuos sobre los que se desea
llegar a una conclusión. La población es el ‘gran grupo”.
La muestra es la parte de una población seleccionada para el análisis. La muestra es el
“grupo pequeño.
II.
¿Cuál es la diferencia entre estadístico y parámetro?
Estadístico es una medida numérica que describe una característica de una muestra.
Parámetros es una medida numérica que describe una característica de una población.
III.
¿Cuál es la diferencia entre estadística descriptiva e inferencia estadística?
La estadística es la rama de la matemática que transforma los datos en información útil para
los que toman decisiones. Dos diferentes ramas de la Estadística que se utilizan en los negocios
son la estadística descriptiva y la inferencial.
La estadística descriptiva es la rama de la estadística que se ocupa de la recolección,
resumen, presentación y análisis de un conjunto de datos.
La estadística inferencial es la rama de la estadística que utiliza los datos obtenidos de un
grupo pequeño para sacar conclusiones acerca de un grupo más grande.
IV.
Contraste variable aleatoria categórica con variable aleatoria numérica.
Las variables aleatorias categóricas (cualitativas) tienen valores que sólo se pueden
colocar en categorías como “sí y “no”. Estas variables definen las categorías como por
2
Estadística
3
ejemplo, el color de ojo, entre otros. Para su medición se utilizan solamente escalas
nominales y ordinales.
Las variables aleatorias numéricas (cuantitativas) tienen valores que representan
cantidades. Las variables aleatorias numéricas se dividen en datos discretos y continuos.
Para su medición se utilizan escalas de intervalo o de razón.
V.
Compare datos discretos de datos continuos.
Los datos discretos surgen de un proceso de conteo. Por ejemplo: cantidad de niños y
defectos por hora. Los datos continuos surgen de un proceso de medición. Por ejemplo: altura y
voltaje.
VI.
Diferencia entre escala nominal y ordinal.
La escala nominal clasifica los datos en distintas categorías en las cuales no están explícitas.
Ejemplo: Dueño de una computadora – Sí o No
La escala ordinal clasifica los datos en distintas categorías en las cuales la categoría es
implícita. Ejemplo: Calificaciones de Estudiantes – A, B, C, D, F
VII.
Detalle la diferencia entre escala de intervalo y de razón.
Una escala de intervalo es una escala ordenada en la que la diferencia entre las mediciones es
una cantidad significativa, pero las mediciones no tienen un verdadero punto cero. Ejemplo:
Temperatura y Puntuación de un Examen Estandarizado.
Estadística
4
Una escala de razón es una escala ordenada en la que la diferencia entre las mediciones es
una cantidad significativa, pero las mediciones tienen un verdadero punto cero. Ejemplo: Años,
Salarios y Peso.
VIII.
Explique las razones principales para obtener datos.
Las razones para obtener datos varían según las personas y los objetivos de éstas. Por
ejemplo, un fabricante de productos farmacéuticos necesita determinar si un nuevo medicamento
es más eficaz que los actuales. Un experto en mercadeo debe evaluar la eficacia de un anuncio
en los periódicos. Un auditor revisa las transacciones financieras de una organización con el
propósito de determinar si la empresa cumple con los principios de contabilidad aceptados. Un
gerente de operaciones quiere investigar si la calidad del producto que se fabrica se ajusta a las
normas de la empresa.
IX.
¿Cuál es la diferencia entre muestreo probabilístico y no probabilístico?
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de
equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las
posibles muestras de tamaño tienen la misma probabilidad de ser seleccionadas. Sólo estos
métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y
son los más recomendables.
Los métodos de muestreo no probabilísticos son utilizados aun siendo conscientes de que
no sirven para realizar generalizaciones (estimaciones inferenciales sobre la población), pues no
se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la
Estadística
5
población tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos
siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra sea
representativa.
X.
¿Cuáles son algunos riesgos potenciales al utilizar métodos de pecera para seleccionar
una muestra aleatoria simple?
Los métodos de pecera para selección de muestras tienen una importante desventaja: la
habilidad para mezclar a fondo las fichas y extraer aleatoriamente la muestra. Aunque son
métodos de fácil comprensión, no son muy útiles. Es recomendable contar con métodos de
selección menos engorrosos y más científicos para asegurar lo aleatorio del proceso de selección.
XI.
Mencione la diferencia entre muestreo con remplazo y muestreo sin remplazo.
Muestreo con remplazo implica que una vez seleccionada una persona o elemento, se regresa
al marco, donde tiene la misma probabilidad de ser elegida de nuevo.
Muestreo sin reemplazo no se regresa la persona o elemento al marco una vez seleccionado
y, por lo tanto, no puede elegirse otra vez.
XII.
Contraste muestreo aleatorio simple con muestreo sistemático.
El procedimiento empleado para el muestreo aleatorio simple es el siguiente: 1) se asigna un
número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de
una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u
ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra
Estadística
6
requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica
cuando la población que estamos manejando es muy grande.
El procedimiento para el muestreo sistemático exige, como el anterior, numerar todos los
elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se
parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la
muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los
individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño
de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al
azar entre 1 y k.
XIII.
Compare muestreo estratificado y muestreo sistemático
El muestreo estratificado trata de obviar las dificultades que presentan los anteriores ya que
simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra.
Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran
homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la
profesión, el municipio de residencia, el sexo, etc.). Lo que se pretende con este tipo de muestreo
es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la
muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el
muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán
parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues
exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...).
Estadística
7
El procedimiento para el muestreo sistemático exige, como el anterior, numerar todos los
elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se
parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la
muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los
individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño
de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al
azar entre 1 y k.
XIV.
Determine la diferencia entre muestreo estratificado y muestreo por conglomerados
(“cluster”)
Los métodos presentados hasta ahora están pensados para seleccionar directamente los
elementos de la población, es decir, que las unidades muéstrales son los elementos de la
población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la
población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias,
los departamentos universitarios, etc., son conglomerados naturales. En otras ocasiones se
pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los
conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El muestreo por
conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el
necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los
elementos pertenecientes a los conglomerados elegidos.
XV.
¿Qué distingue a las cuatro fuentes potenciales de error cuando se manejan encuestas
diseñadas utilizando muestreo probabilístico?
Estadística
8
Las cuatro fuentes potenciales de error son: 1) Error de cobertura o sesgo de selección: Se
convierte en un problema ético sólo si se excluyen a propósito grupos específicos de individuos
del marco de población, para obtener resultados sesgados, que indican una posición más
favorable para el patrocinador de la encuesta; 2) Error o sesgo de no respuesta: Se convierte en
un problema ético sólo si es menos probable que grupos o individuos específicos respondan a un
formato de encuesta dado y si el patrocinador diseña a propósito la encuesta, con el fin de excluir
a esos grupos o individuos; 3) Error de muestreo: Se convierte en un problema ético sólo cuando
los resultados se presentan, a propósito, sin referencia al tamaño de muestra o al margen de error,
de modo que el patrocinador puede promover un punto de vista que de otra manera sería
insignificante; por último, 4) Error de medición: Se convierte en un problema ético cuando un
patrocinador puede elegir, en forma deliberada, preguntas orientadas que guían las respuestas
hacia dirección específica; un entrevistador, mediante actitudes y tono de voz, puede crear un
efecto deliberado de halo o puede guiar las respuestas en cierta dirección y cuando alguien que
responde, pero no está de acuerdo con la encuesta, puede proporcionar información falsa, a
propósito.
XVI.
¿Por qué es necesario organizar un conjunto de datos numéricos recopilados?
Organizar un conjunto de datos numéricos recopilados permite la representación y análisis
del mismo. Para que podamos interpretar datos muy numerosos es necesario resumirlos o
reducirlos. Cuando se organiza se simplifica la complejidad de todos los datos.
XVII.
Detalle y explique los principios de excelencia gráfica.
Estadística
9
Los principios de excelencia gráfica son los siguientes: 1) La gráfica no debe distorsionar los
datos; 2) La gráfica no debe contener adornos innecesarios; 3) La escala en el eje vertical debe
comenzar en cero; 4) Todos los ejes deben estar correctamente etiquetados; 5) La gráfica deben
contener un título y por último, 6) La gráfica debe ser lo más simple posible utilizando los datos
dados.
XVIII.
Menciones las diferencias principales entre un arreglo ordenado y un diagrama de tallo y
hoja.
Un arreglo ordenado es cuando se ordenan los datos de menor a mayor. Un diagrama de
tallo y hoja es una herramienta valiosa y versátil para organizar un conjunto de datos y
entender la distribución y agrupación de los valores dentro del intervalo de observaciones en
el conjunto. Un diagrama de tallo y hoja separa los datos en dígitos guía, o tallos, y dígitos
que les siguen u hojas.
XIX.
¿Cómo difieren el histograma y el polígono de frecuencias en cuanto a su construcción,
desarrollo y utilización?
El histograma se utiliza para describir datos numéricos que están agrupados en distribuciones
de frecuencias, de frecuencia relativa o de porcentajes. Cuando se grafica un histograma, la
variable aleatoria de interés se coloca sobre el eje horizontal; el eje vertical representa el número,
la proporción o el porcentaje de observaciones por intervalo de clase.
El polígono tiene a veces una apariencia dentada porque los puntos medios consecutivos se
unen entre sí con la ayuda de una serie de líneas rectas. Sin embargo, si se tiene un conjunto
muy grande de datos, en el que las fronteras de clase en la distribución de frecuencias están más
cerca unas de otras, entonces se suavizan las líneas dentadas del polígono. Al construir los
Estadística
10
polígonos o histogramas, el eje vertical debe indicar el “origen” o cero verdadero, para no
distorsionar o presentar de manera errónea el carácter de los datos. Por razones estéticas, el
intervalo de la variable aleatoria debe ocupar la mayor parte de la gráfica.
XX.
¿Para qué es útil el polígono de frecuencias acumuladas?
Es la representación gráfica de una tabla de distribución acumulada. Como en el caso de
histogramas y polígonos, al graficar polígonos acumulados se colocan los fenómenos de interés
en el eje horizontal y el eje vertical representa el número, la proporción, o el porcentaje de
observaciones acumuladas. De nuevo, se dedicará la atención al último tipo.
XXI.
Detalle la importancia de construir una tabla resumen de frecuencias y por cientos.
La importancia es la de organizar datos con significado. Que el lector analiza la naturaleza,
forma y distribución de los datos. Facilitar cómputos para otras estadísticas descriptivas como
los son las medidas de tendencia central y dispersión. Comunicar datos en un lenguaje uniforme.
Poder hacer comparaciones entre diferentes datos.
XXII.
Mencione las ventajas y desventajas de utilizar un diagrama de barras, diagrama circular
(“pie chart”) o diagrama Pareto.
En los diagramas de barras, cada categoría se representa con una barra cuya longitud es la
frecuencia o el porcentaje de observaciones dentro de la categoría. Nos permite hacer
comparaciones directamente. Se prefiere la gráfica de barras porque se ha observado que los
humanos pueden juzgar con mayor precisión comparaciones de longitud con relación a una
escala fija (gráfica de barras) que en medidas angulares (diagrama circulares).
Estadística
11
El diagrama de pastel se utiliza ampliamente para describir los datos categóricos de una
tabla resumen. Ciertas investigaciones sobre la percepción humana concluyen que el
diagrama de pastel es la presentación más débil. El diagrama de pastel tiene dos ventajas: 1)
es estéticamente agradable, y 2) muestra con claridad que el total de las categorías o
rebanadas suman el 100%. La elección del tipo de diagrama con gran frecuencia depende de
las preferencias del usuario.
El diagrama de Pareto es un recurso gráfico que permite representar datos categóricos
que a menudo proporciona más información visual que los diagramas de barras y de pastel.
Esto ocurre a medida que aumenta el número de clases o grupos de las variables categóricas
de interés. Es un tipo especial de diagrama de barras verticales, donde las respuestas
categorizadas se grafican en orden descendente de frecuencias y se combinan con un
polígono acumulado en la misma escala. En la construcción de un diagrama de Pareto, el eje
vertical de la izquierda contiene las frecuencias o porcentajes, el eje vertical de la derecha
contiene los porcentajes acumulados y el eje horizontal contiene las categorías de interés. Al
estudiar un diagrama de Pareto se buscan dos cosas: las magnitudes de las diferencias en las
longitudes de las barras que corresponden a las categorías adyacentes decrecientes y los
porcentajes acumulados de estas categorías adyacentes.
XXIII.
Contraste el diagrama de barras para datos categóricos con el histograma para datos
numéricos.
El diagrama de barras se usa para representar de forma gráfica datos cuantitativos
discretos o datos cualitativos, en cambio el histograma es exclusivo para representar datos
cuantitativos continuos.
Estadística
XXIV.
12
Explique por qué uno de los atributos sobresalientes del diagrama Pareto es su habilidad
de separar los pocos datos esenciales de los muchos datos triviales.
El principio fundamental que subyace en esta técnica gráfica es la posibilidad de separar los
“pocos vitales” de los “muchos triviales”, lo que permite dirigir la atención a las respuestas
importantes. Así, el diagrama alcanza su utilidad máxima cuando la variable categórica de
interés contiene muchas categorías. El diagrama de Pareto se usa ampliamente en el control
estadístico de procesos y el control estadístico de la calidad del producto.
XXV.
¿Qué tipos de por cientos pueden ayudar a interpretar los resultados obtenidos en una
tabla de contingencias a base de 2 variables categóricas?
A fin de explorar cualquier patrón o relación posible entre el objetivo de los fondos y la lista
de cargos, conviene convertir primero estos resultados en porcentajes basados en los siguientes
totales: 1) El gran total, 2) Los totales por renglón y 3) Los totales por columna.
XXVI.
¿Cuáles son algunos aspectos éticos que deben estar presentes al presentar datos en tablas
y gráficas?
Lo que preocupa es que las personas toman decisiones con base a lo que se publica. No
todas las investigaciones son buenas, significativas o importantes, y no todas son éticas. Debe
intentarse distinguir entre un diseño de encuesta deficiente y un diseño carente de ética. La
verdad, credibilidad y responsabilidad deben estar presentes al presentar datos en tablas y
gráficas.
XXVII.
Obtenga y presente una gráfica de un periódico o revista, que a su entender contenga una
representación gráfica inadecuada de alguna variable. Explique por qué entiende que no
es apropiada.
Estadística
13
Entiendo que la representación gráfica es inadecuada porque el diagrama de pastel tiene dos
ventajas: 1) es estéticamente agradable, y 2) muestra con claridad que el total de las categorías o
rebanadas suman el 100%. Ninguna de las dos ventajas mencionadas se encuentra presentes en
las siguientes gráficas.
Estadística
14
Referencias
Berenson, M. L., Levine, D. M., & Krehbiel, T. C. (2001). Estadística para administración.
México: Pearson Educación.
Berenson, M. L., Levine, D. M., & Krehbiel, T. C. (2011). Basic Business Statistics (12th ed.).
Pearson.
Delgado Castro, I. (2015, June 15). El contagio se mantiene. El Nuevo Día.
González De La Cruz, A. M. (2013). Retrieved from www.suagm.edu/.../Distribucion de
frecuencias .pdf
Tipos de Muestreo - Estadística. (n.d.). Retrieved from
www.estadistica.mat.uson.mx/Material/elmuestreo.pdf
Unidad 3 Población y Muestra. (n.d.). Retrieved from
estadisticachepes.wikispaces.com/file/view/Unidad 3.pdf/..
Descargar