Subido por Valentin Latorre

notas de catedra u1

Anuncio
UNIVERSIDAD NACIONAL DEL NORDESTE
FACULTAD DE CIENCIAS ECONÓMICAS
INTRODUCCIÓN A LA
ESTADISTICA
NOTAS DE CÁTEDRA
Elaborado por
Eº Mº Mario Jaime Garber
Actualizados por Lic. Ma. de Los Arcos Martínez
Lic. Enrique C. Nolte
Lic. Cristian Nieto
Corregidos por: Lic. Mariel L. Martínez Russo
Editados por:
Lic. Ma. de los Ángeles Morales
Agradecemos a la alumna Melani Blanco Romero los errores
detectados, lo que permitió mejorar las Notas de Cátedra
Introducción a la Estadística
1
INTRODUCCIÓN A LA
ESTADÍSTICA
Unidad I - INTRODUCCIÓN
1. ESTADÍSTICA. DEFINICIÓN Y CONCEPTO DE ESTADÍSTICA DESCRIPTIVA E
INDUCTIVA
Todos los días recibimos infinidad de información que nos sirven de guía en nuestra vida
personal. Por ejemplo, escuchar el pronóstico del tiempo a la mañana nos ayuda a decidir cómo
vestirnos, nuestros gustos personales también rigen algunas decisiones, como ver una película, a
pesar de las críticas negativas.
Los administradores, también deben tomar decisiones todos los días. Aunque en ocasiones evidencian sus “impulsos” al tomar decisiones (lo que se conoce formalmente como toma de
decisiones no estructuradas), la mayoría de las veces deciden a partir de hechos concretos. Como
estudiante de Ciencias Económicas, usted no debe tomar decisiones no estructuradas, ya que
éstas requieren una intuición y discernimiento que se desarrollan tras muchos años de experiencia. Sin embargo, puede aprender procedimientos y métodos que lo ayudarán a tomar mejores
decisiones basadas en hechos concretos. Cuando comiencen a familiarizarse con los procedimientos y métodos implicados en la recolección, la presentación y la elaboración de resúmenes
de un conjunto de datos o a obtener conclusiones acerca de tales datos, entonces habrán descubierto la estadística.
En los negocios y en la economía, una razón básica para recopilar, ordenar, presentar y
resumir datos, para posteriormente analizarlos, es proporcionar a los administradores y a quienes
deben tomar decisiones una mejor comprensión del entorno económico y comercial, para permitirles tomar mejores decisiones, al contar con más información. En una sociedad globalizada, se
dispone de mucha información estadística. Los mejores administradores, economistas, contadores y ejecutivos son lo que pueden comprender la información y usarla eficazmente.
En el lenguaje cotidiano, el término estadística hace referencia a datos numéricos. Sin
embargo, el campo de la estadística abarca mucho más que hechos numéricos.
La Estadística es un método científico destinado a recopilar, ordenar, presentar y resumir datos, para posteriormente analizarlos, extraer conclusiones válidas y tomar, sobre esa
base, decisiones razonables.
Las primeras cuatro acciones indicadas en la anterior definición conforman la “Estadística Descriptiva”, mientras que las últimas tres, la “Inferencia Estadística”.
Algunas de las aplicaciones actuales más conocidas de la Estadística en el campo de las Ciencias
Económicas son:
Introducción a la Estadística
2
 Contabilidad: para realizar auditorías a sus clientes los estudios contables o consultoras emplean procedimientos estadísticos de muestreo.
 Finanzas: los asesores financieros recurren a una variedad de información estadística
para hacer recomendaciones de inversión.
 Comercialización: una empresa realiza una prueba de mercado, en determinados lugares para determinar si el producto va a ser aceptado
 Producción: un molino arrocero para verificar el funcionamiento de su línea de envasado utiliza métodos estadísticos.
 Economía: para pronosticar las tendencias de las variables económicas
ESTADÍSTICA
Método Científico
Extraer conclusiones válidas
Tomar decisiones
Datos
Probabilidad
Población
Estadística Descriptiva
Recopilar
Ordenar
Muestra
Inferencia Estadística
Presentar
Resumir
Estimar
Decidir
2. POBLACIÓN Y MUESTRA: CONCEPTOS Y SIMBOLOGÍA
Al recoger datos relativos a las características de un grupo de individuos u objetos, sea
edad de los estudiantes o cantidad de paquetes de yerba producidos en un molino, suele ser imposible o poco práctico observar todo el grupo, en especial si es muy grande. En vez de examinar
el grupo entero, llamado población o universo, se examina una pequeña parte del grupo, llamado muestra.
Población es un conjunto de elementos, que responden a una determinada característica.
Es un conjunto homogéneo de elementos. El concepto de población en Estadística va más allá de
la clásica definición que se da en la Demografía, esto es, la población de seres humanos exclusivamente. En la actividad estadística una población puede estar constituida por elementos de
cualquier tipo, no solamente por seres humanos. Por ejemplo, se puede hablar de la población de
Introducción a la Estadística
3
viviendas de un barrio; de la población de comprobantes contables de una empresa; de la
población de alumnos de una Facultad, etc.
Una población puede ser finita o infinita. Por ejemplo, la población consistente en todos
los paquetes de yerba producidos por un molino es infinita, mientras que la población de clientes
de caja de ahorros de un banco es finita.
El proceso de tomar datos de todos los miembros de la población recibe el nombre de
censo.
Las medidas resumen de la población se denominan parámetros. Se simbolizan con letras del alfabeto griego. El tamaño de la población se simboliza con la letra N.
Estudiar la población entera es costoso, lento, engorroso y en algunos casos no se puede
realizar, por ejemplo en las encuestas políticas o la prueba de duración de las cubiertas, focos,
etc., en estos casos se estudia una muestra, extraída de la población.
Muestra es un subconjunto de elementos seleccionado en una población, o sea de tamaño
menor que ésta, que se utiliza para realizar estudios o investigaciones referidas a toda la población pero en menor tiempo y por supuesto a un menor costo que si se la estudiara en forma exhaustiva, pero al mismo tiempo sin la exactitud que sólo se puede conseguir en investigaciones
del cien por ciento.
Si una muestra es representativa de una población, es posible inferir importantes conclusiones sobre la población a partir del análisis de la muestra. La parte de la Estadística que trata de
las condiciones bajo las cuales tal diferencia es válida se llama estadística inductiva o inferencia estadística. Ya que dicha inferencia no es del todo exacta, el lenguaje de las probabilidades
aparecerá al establecer nuestras conclusiones.
Las medidas resumen de la muestra se denominan estadísticos. Se simbolizan con letras
del alfabeto romano. El tamaño de la muestra se simboliza con n.
La opción entre población y muestra puede ser presentada como la opción entre un relevamiento caro y un relevamiento económico, o bien entre exactitud y precisión. La muestra
no garantiza, pues, exactitud pero puede asegurar investigaciones estadística rápidas y económicas que suelen ir acompañadas con la información del grado de precisión con el que se ha trabajado.
Los propósitos de los métodos estadísticos es utilizar estadísticos muestrales para estimar
parámetros poblacionales.
Introducción a la Estadística
POBLACIÓN
4
MUESTRA
Cuando se estudian las características de una población, existen diversas razones prácticas para preferir la selección de una muestra para observar y medir. Algunas de las razones son:

Tiempo. Si el gobernador de una provincia quisiera conocer la opinión de los habitantes de
esa provincia respecto a la seguridad, entrevistar a todos los habitantes llevaría mucho tiempo. Realizar una encuesta por muestreo permitiría conocer los resultados en poco tiempo.

Costo. Los costos de preguntar la opinión de los habitantes de esa provincia respecto a la
seguridad, son significativamente mayores que los que resultarían de trabajar con una muestra.

Verificación física todos los elementos de la población. Algunas poblaciones son infinitas.
Sería imposible contar todos los peces que hay en el río Paraná, porque se desplazan, nacen
y mueren. Sin embargo, se puede estimar la población de peces utilizando técnicas de muestreo.

Pruebas de naturaleza destructiva. Si una empresa fabricante de cubiertas, para verificar
si satisfacen las normas de calidad las hiciera rodar a todas hasta que se destruyeran, acabarían con la producción y no quedarían cubiertas para la venta. En realidad, estas pruebas se
hacen, pero el departamento de control de calidad, selecciona una muestra para cerciorarse
de la calidad.

Resultados adecuados. Aunque se contara con el tiempo y los recursos suficientes para realizar un estudio de toda la población, es posible que la diferencia en los resultados obtenidos
no sea significativa, respecto a los resultados de un estudio muestral. Si quisiéramos conocer
el precio de un kg. de costilla, es posible que no encontramos diferencias significativas en el
Introducción a la Estadística
5
precio, si consultamos una muestra de carnicerías y supermercados, en vez de encuestar a
todas las carnicerías y supermercados.
3. VARIABLES. NIVELES DE MEDICIÓN. FUENTES DE DATOS.
El objeto de estudio o elemento es la entidad acerca de la cual se reúnen los datos; estos
se obtienen anotando las mediciones de cada variable para cada uno de los componentes del objeto de estudio.
Una variable es una magnitud que puede tomar diferentes valores entre dos previamente determinados, que limitan lo que constituye el campo de variación de la variable.
Ejemplos: los ingresos o los gastos de un conjunto de personas, la cantidad de facturas emitidas
por una empresa en un mes determinado, la variación en el precio de las acciones que cotizan en
Bolsa.
Una variable es una característica de interés del objeto de estudio. Un aspecto esencial de
la palabra variable es la idea de que las personas difieren y las cosas también. A diferencia de
una constante que es una magnitud que puede tomar un solo valor. Se debe distinguir entre una
variable y su valor en una observación individual (dato).
Los datos son los valores observados de las variables. Son hechos o números que se recopilan, ordenan, presentan y resumen para su análisis.
Las variables pueden ser aleatorias o determinísticas.
Las variables aleatorias expresan el resultado de un experimento, también denominado
aleatorio, que recibe ese nombre porque se realiza en condiciones de incertidumbre, y que se
presenta con una cierta probabilidad que puede llegar a conocerse. Responden a procesos al
azar, y puede asumir valores discretos o continuos.
Un experimento aleatorio, es aquel que al realizarse bajo las mismas condiciones, puede
arrojar diferentes resultados.
Ejemplos: los incobrables de una empresa; tiempo requerido para realizar una reparación;
peso de un paquete de arroz; el importe de una compra; el precio de una acción.
Las variables no aleatorias se denominan determinísticas.
Estas variables, a su vez, pueden clasificarse en cualitativas (categóricas) o cuantitativas (numéricas).
Las variables cualitativas indican atributos o calidades, a pesar que se pueden utilizar
diferentes cantidades para indicar cualidades, pero sin que las cantidades utilizadas permitan
realizar comparaciones del tipo mayor – menor. Se refieren a clasificaciones y arrojan respuestas
categóricas.
Ejemplos: forma de pago en un comercio, preferencia por una marca de gaseosas, sectores económicos, etc.
Introducción a la Estadística
6
Las variables cuantitativas se expresan mediante cantidades (número, distancia, importes, etc.). Estas variables pueden ser discretas o continuas.
Las variables discretas sólo pueden tomar algunos valores en su campo de variación o
valores aislados a lo largo de una escala. Obedecen a procesos de conteo y toman como valores
los números enteros.
Ejemplos: el número de clientes; la cantidad de diarios vendidos; la cantidad de jubilados
en la Provincia del Chaco; el número de personas que entra a un banco en una hora a solicitar un
servicio; el número de personas por hogar; las unidades de un artículo en inventario, etc.
Las variables continuas son aquellas que pueden tomar cualquier valor en su campo
de variación o cualquier valor entre dos valores dados. Son el resultado de procesos de medición
y toman como valores los números fraccionarios.
En todos los casos, el valor podría desviarse dentro de un cierto margen, dependiendo de
la precisión del instrumento de medición utilizado. En las conversaciones diarias tendemos a
truncar las variables y tratarlas como si fueran variables discretas. Sin embargo, la diferencia es
muy importante en estadística, ya que es uno de los factores de los que depende que un método
estadístico sea mejor que otro.
Ejemplos: el peso del contenido de un paquete de arroz; el tiempo necesario para realizar
una transacción bancaria; la distancia que recorre un alumno para llegar a la facultad; el monto a
pagar de impuesto a las ganancias; el importe de las extracciones realizadas en un cajero automático, etc.
En términos generales puede decirse que las variables continuas se relacionan con la
operación de medir, en tanto las variables discretas se relacionan con la operación de contar.
El análisis estadístico apropiado para una variable depende de si ésta es cuantitativa o
cualitativa. El análisis estadístico con variables cualitativas es bastante limitado. Podemos resumir datos cualitativos al contar el número de observaciones en cada categoría, o bien calcular la
proporción de observaciones en cada categoría. Con las variables cuantitativas se obtienen resultados significativos de las operaciones aritméticas.
Variables
Aleatorias
Determinísticas
Cualitativas
Cuantitativas
Introducción a la Estadística
7
Discretas
Continuas
Los datos se reúnen mediante niveles o escalas de medición, que permiten determinar la
cantidad de información que contienen los datos e indican el resumen de los datos y el análisis
estadístico apropiado.
Las escalas de medición son: nominal, ordinal, de intervalos y de razón.
1. Datos de nivel o escala nominal: en este caso los datos son etiquetados con nombres que se
emplean para identificar un atributo del elemento. Son observaciones de una variable cualitativa y sólo se clasifican y cuentan. No existe una forma particular para ordenarlos, pero se les
puede asignar una clave numérica, para facilitar su tratamiento. Por ejemplo: marcas de gaseosas; países a los que se exporta soja; ocupación de los clientes.
Resumiendo:
 Las categorías de datos se encuentran representadas por etiquetas o nombres.
 Aun cuando las etiquetas se codifiquen con números, las categorías de datos no tienen
ningún orden lógico.
2. Datos de nivel o escala ordinal: los datos ordinales indican el orden que ocupan los distintos objetos y los valores son palabras que describen las respuestas. Por ejemplo, se podrían
codificar las respuestas para valorar la calidad de un producto (1: malo; 2: medio; 3: bueno);
valorar la satisfacción con el servicio del bar de la facultad (1: muy insatisfecho; 2: moderadamente insatisfecho; 3: ninguna opinión; 4: moderadamente satisfecho; 5: muy satisfecho) o
la preferencia de los consumidores entre tres gaseosas (1: la que más prefiere; 2: segunda opción; 3; tercera opción). En esto ejemplos las respuestas son ordinales, es decir, se sigue un
orden, pero la “diferencia” entre ellas no tiene ningún significado mensurable, se clasifican y
ordenan, considerando las respuestas obtenidas. La calidad del producto que obtiene la calificación, bueno, es mejor que el medio y este mejor que el malo, pero si al bueno se le asigna
un 3 y al malo un 1, no podemos concluir que la calidad del producto que obtuvo un 3 es tres
veces mejor que el que obtuvo un 1.
Resumiendo:
 Las clasificaciones de los datos se encuentran representadas por conjuntos de etiquetas o nombres, las que tienen valores relativos.
 En consecuencia, los valores relativos de los datos se pueden clasificar u ordenar.
3. Datos de nivel o escala de intervalos: cuando los datos tienen las características de los datos
ordinales y la diferencia entre valores constituye una magnitud constante, son datos de nivel
o escala de intervalos. Son siempre numéricos. En resumen, si las distancias entre los números tienen sentido, aunque las razones no, estamos ante una escala de intervalo de medición
Es importante destacar que 0 es un punto más en la escala, no representa la ausencia de estado. Ejemplos: temperatura, los talles de la ropa, etc.
Resumiendo:
 Las clasificaciones de los datos se ordenan de acuerdo con el grado que posean de la
característica en cuestión.
8
Introducción a la Estadística

Diferencias iguales en las características representan diferencias iguales en las mediciones.
4. Datos de nivel o escala de razón: todos los datos cuantitativos son registrados en esta escala, si los datos tienen todas las propiedades de los datos de intervalo, el punto 0 tiene sentido
y el cociente de dos valores es significativo, tenemos una escala de razón. Un requisito de ésta escala es que debe contener un valor cero que indica que no existe nada para una variable
en el punto cero. Ejemplos: cantidad de extracciones realizadas en un cajero automático, número de facturas emitidas, importe de ventas diarias, producción de soja en una campaña.
Resumiendo:
 Las clasificaciones de datos se ordenan de acuerdo con la cantidad de características
que poseen
 Diferencias iguales en las características representan diferencia iguales en los números asignados a las clasificaciones.
 El punto 0 representa la ausencia de característica y la razón entre dos números es
significativa.
Niveles o
escalas de
medición
Nominal
Los datos sólo
se clasifican
Ordinal
Intervalo
Razón
Los datos se
ordenan
Diferencias
significativas
entre valores
Punto 0
significativo y
razón entre
valores
También es importante distinguir entre datos transversales y series de tiempo. Los datos transversales se reúnen en el mismo, o aproximadamente el mismo, punto en el tiempo. Los datos de
series de tiempo se coleccionan a lo largo de varios períodos de tiempo.
Una observación es el conjunto de mediciones obtenidas para cada elemento de un conjunto de datos. En consecuencia, la cantidad de observaciones siempre es igual a la cantidad de
elementos. El número de mediciones obtenidas sobre cada elemento es igual al número de variables. Por consiguiente, el número total de datos es igual al número de observaciones por el número de variables.
Identificar las fuentes de datos apropiadas es un aspecto importante del análisis estadístico. Si los sesgos, ambigüedades u otro tipo de errores estropean los datos que son recolectados,
ni siquiera los métodos estadísticos más complejos producirán una información precisa.
Las fuentes de datos se clasifican en fuentes primarias y fuentes secundarias. Cuando
el recolector de datos es quien los usa para el análisis, la fuente es primaria. Cuando una organización o individuo utiliza los datos que otra organización o individuo ha recopilado, la fuente es
Introducción a la Estadística
9
secundaria. Las organizaciones e individuos que recolectan y publican datos, generalmente, los
utilizan como fuentes primarias y después permiten a otros usarlos como fuentes secundarias.
Existen tres importantes fuentes de datos primarios:

Observación directa, en este estudio el investigador observa el comportamiento de forma
directa, generalmente en su ambiente natural. Los estudios observacionales tienen muchas
formas en los negocios. Un ejemplo de ellos es el grupo focal, una herramienta de investigación de mercados que se utiliza para provocar respuestas no estructuradas a preguntas abiertas. En el grupo focal un moderador dirige la discusión y los participantes responden a las
preguntas. Otros tipos de estudios más estructurados implican dinámica de grupos, construcción de consenso y el uso de herramientas de comportamiento organizacional como la lluvia
de ideas, el método Delphi y el método del grupo nominal. Las técnicas de estudios observacionales también se utilizan en situaciones en las que el esfuerzo de un grupo de trabajo o el
mejoramiento en la calidad de los productos son los objetivos o metas de la administración.

Experimento, en el que se ejerce un control deliberado de algunos o todos los factores que
pueden influir en la variable bajo estudio a fin de identificar posibles causas. Por ejemplo,
para probar la efectividad de un detergente, un experimentador determina qué marcas son
más eficientes para dejar limpia la ropa sucia, lavándola directamente, en lugar de preguntar
a los clientes qué marca creen que sea más eficaz.

Encuesta: es el proceso de recolección de datos solicitándolos a individuos. Los datos pueden obtenerse con métodos como entrevistas personales, entrevistas telefónicas, electrónicas
o cuestionarios por escrito. En las encuestas se pregunta a la gente sobre sus creencias, actitudes, comportamientos y otras características. Las respuestas posteriormente se editan, codifican y tabulan para su análisis.
4. MÉTODOS DE SELECCIÓN MUESTRAL
El muestreo es un método estadístico que permite realizar investigaciones referidas
a determinadas poblaciones, finitas o infinitas, en corto tiempo y a menor costo, para observar variables cuantitativas o cualitativas, sin que se pueda garantizar la exactitud que sólo
podría obtenerse consultando a toda la población, lo que finalmente termina por ser lento y caro,
cuando no imposible, a veces.
Existen dos tipos fundamentales de muestreo:
 Muestreo probabilístico: consiste en seleccionar la muestra asignando a cada elemento
constituyente de la población, una probabilidad (idéntica o diferente, según el caso) de aparecer en la muestra. En este tipo de muestreo aparecen las condiciones básicas para que se
cumpla la exigencia de la representatividad, porque todos los elementos están en condiciones
de integrar la muestra sin que se excluya anticipadamente a ninguno.
Introducción a la Estadística
10
 Muestreos no probabilísticos: consiste en seleccionar arbitrariamente los elementos que integran la muestra, lo cual permite efectuar la selección con rapidez pero no garantiza la condición de representatividad indicada más arriba. A pesar de esto suele ser utilizada en algunas
ocasiones.
En la selección probabilística se asigna a cada elemento de la población una determinada probabilidad de ser incluido en la muestra. La selección probabilística se realiza por medios
manuales o automáticos. Un medio manual de selección probabilística consiste en asignar a los
elementos de la población una numeración y efectuar un sorteo entre ellos por algún método
apropiado (un bolillero, por ejemplo). Un método automático consiste en instrumentar un procedimiento de selección mediante un sistema de computación que realice la tarea seleccionando
los elementos que integrarán la muestra.
Para la selección probabilística manual, es común utilizar las tablas de números aleatorios, que son construcciones numéricas de dígitos dispuestos en filas y columnas, de modo tal
que se agrupan de a 25 dígitos (a razón de 5 filas y 5 columnas por grupo). Un grupo de 25 dígitos puede ser el siguiente:
23874
07854
96453
17590
52086
La selección de los números aleatorios permite, con un sistema apropiado de asignaciones, determinar los elementos que conformarán la muestra. Para iniciar la selección de los números aleatorios, conviene un ingreso aleatorio a la tabla, seleccionando al azar la columna y la
fila que permitirán encontrar el primer grupo de cinco dígitos de la serie de n que se requieren.
Seleccionado, entonces, al azar el primer grupo de cinco dígitos que constituye el primer
número aleatorio, se continúa con los siguientes, considerando a la tabla como un texto que debe
leerse de izquierda a derecha.
Por ejemplo, sean los siguientes números los aleatorios seleccionados para conformar una
muestra determinada de tamaño n=6:
23874 56730 05628 34902 17472 96173
A continuación se convierte a estos en números decimales, agregándoles a su izquierda
un cero y una coma, procedimiento éste que determina valores que varían entre cero y uno:
0,23874 0,56730 0,05628 0,34902 0,17472 0,96173
Los números decimales así construidos se simbolizan con 𝒙𝒂𝒊 (número aleatorio iésimo),
y se utilizan en la siguiente fórmula, cuya aplicación permite obtener todos los elementos de la
muestra:
𝐸𝐿𝐸𝑀𝐸𝑁𝑇𝑂 = 𝐸𝑁𝑇𝐸𝑅𝑂[(𝑁)(𝑥 ) + 1]
con lo cual, si el tamaño de la población fuera de 𝑁 = 120, los seis elementos que integrarán la
muestra serán:
Introducción a la Estadística
11
𝐸𝐿𝐸𝑀𝐸𝑁𝑇𝑂 = 𝐸𝑁𝑇𝐸𝑅𝑂[(120)(0,23874) + 1] = 𝐸𝑁𝑇𝐸𝑅𝑂(28,648 + 1) = 29
𝐸𝐿𝐸𝑀𝐸𝑁𝑇𝑂 = 𝐸𝑁𝑇𝐸𝑅𝑂[(120)(0,56730) + 1] = 𝐸𝑁𝑇𝐸𝑅𝑂(68,076 + 1) = 69
⋮
𝐸𝐿𝐸𝑀𝐸𝑁𝑇𝑂 = 𝐸𝑁𝑇𝐸𝑅𝑂[(120)(0,96173) + 1] = 𝐸𝑁𝑇𝐸𝑅𝑂(115,4076 + 1) = 116
Es decir que los elementos número 29, 69,…, y 116 conformarán la muestra elegida.
5. TIPOS DE MUESTREO
Hay dos tipos fundamentales de muestreo el probabilístico y el no probabilístico.
Muestreo probabilístico:

Muestreo simple al azar: Consiste en seleccionar la muestra considerando que cada elemento de la población tiene similar probabilidad de ser incluido en la selección. Es decir, una vez
identificados los N elementos, se elige una muestra de tamaño n mediante un sorteo (con los
métodos ya vistos y conocidos), lo cual convierte a este sistema en un procedimiento rápido
y eficiente. Esta forma de selección es conveniente cuando la población resulta ser homogénea, es decir cuando la variabilidad es menor.

Muestreo sistemático: Este sistema es conveniente utilizarlo cuando la población se encuentra ordenada de un modo no secuencial (de mayor a menor, por ejemplo). Si no existe un orden debido a la participación de alguna variable (por ejemplo, un fichero de clientes ordenados alfabéticamente y no por el valor de sus compras), este sistema es tan conveniente como
el muestreo simple al azar pero operativamente más cómodo. Consiste en definir el tamaño
de la muestra y, posteriormente, dos valores denominados 𝒂(arranque) y 𝒑 (progresión),
donde:
𝑝= ,
y
1≤𝑎≤𝑝
En primer lugar se obtiene 𝑝. Luego se calcula a aplicando la siguiente fórmula:
𝑎 = 𝐸𝑁𝑇𝐸𝑅𝑂[(𝑝)(𝑥 ) + 1]
donde xa es un número aleatorio. La muestra se conforma eligiendo a los elementos a partir
de a y adicionando sucesivamente p.

Muestreo estratificado: cuando la población tiene una variabilidad importante, conviene
dividirla en ℎ estratos, que son grupos de elementos internamente homogéneos (o con poca
variabilidad) aunque heterogéneos entre los diferentes estratos conformados. Se calcula el
tamaño de cada estrato (𝑛 ) y se selecciona una muestra en cada estrato, de modo que el total
de elementos se obtiene haciendo:
Introducción a la Estadística
12
𝑛=
𝑛
Las variables de estratificación (las que se utilizan para dividir a la población en estratos) deben estar estrechamente relacionadas con la característica de interés buscada.

Muestreo por grupos o conglomerados: En todos los métodos anteriores los elementos que
conforman la muestra se seleccionan individualmente. En esta técnica un grupo de elementos
se selecciona aleatoriamente en forma simultánea, es decir se utilizan todos los elementos del
grupo seleccionado. Por lo tanto, antes de poder seleccionar una muestra la población debe
dividirse en grupos mutuamente excluyentes y colectivamente exhaustivos. Luego, se selecciona una muestra aleatoria de estos grupos. Si los grupos son exactamente tan heterogéneos
como la población, cualquier grupo que se seleccione representará con exactitud a la población. Una forma común del muestreo por grupos es el muestreo por áreas, en el cual los grupos consisten en áreas geográficas como ciudades, calles, etc.
Muestreo no probabilístico:

Muestreo por conveniencia: se efectúa el relevamiento a ciertos y determinados elementos
que sean fácilmente accesibles, de modo de cumplir la tarea con rapidez y sin excesivos costos. Se seleccionan en base a la conveniencia del investigador. Ejemplo: solicitar la opinión
de personas que transitan en un centro comercial o realizar “entrevistas a personas de la calle” para un canal de televisión.

Muestreo por juicio: Los elementos de muestreo se seleccionan en base a lo que algún experto considera acerca de la contribución que esas unidades en particular harán para responder las preguntas de investigación. Ejemplo: la decisión de entrevistar a un agente de compras de una empresa acerca de un determinado producto o en una prueba de mercado hacer
un juicio con respecto a qué ciudades serían las mejores para probar el potencial de venta de
un nuevo producto.

Muestreo por cuotas: Es un tipo especial de muestreo por juicio. Trata de obtener una muestra que sea similar a la población en algunas características. La muestra se selecciona por
medio de un relevamiento de campo tratando de integrarla con cierta proporción de casos de
determinadas características de control (sexos, edades, niveles sociales, etc.), datos estos que
se conocen de un relevamiento censal anterior. Para seleccionar una muestra por cuotas debemos primero especificar la lista de características de control más importantes y luego conocer la distribución de las mismas en toda nuestra población. Ejemplo: si tenemos dos características de control de interés: edad y sexo, lo expondríamos así:
 Edad: 2 categorías: menores de 30 y mayores de 30
 Sexo: 2 categorías: masculino y femenino
Se obtienen así cuatro grupos. Conociendo la proporción de población en cada uno de estos
grupos calculamos la cuota de la muestra para cada uno de ellos. El único requerimiento es
que los elementos seleccionados se ajusten a las características de control.

Muestreo de bola de nieve: Es una técnica en la que se selecciona al azar un grupo inicial de
entrevistados. Los entrevistados siguientes se eligen en base a las referencias o la informa-
Introducción a la Estadística
13
ción que proporcionan los entrevistados iniciales. Con obtención de referencias de las referencias, este proceso puede llevarse a cabo en forma sucesiva. Uno de los principales objetivos de este muestreo es estimar las características raras de la población. Ejemplo: se entrevistan a personas dedicadas al ciclismo y a esas personas se les pide referencias sobre otras con
la misma característica.
Aleatorio simple
Tipos de
muestreo
Probabilístico
Aleatorio sistemático
Estratificado
Por grupos o conglomerados
Por conveniencia
No probabilístico
Por juicio
Por cuotas
Bola de nieve
El muestreo debe basarse en las siguientes condiciones:
 la representatividad: la muestra debe integrarse con una proporción de elementos similares a la composición existente en la población. Esta condición, si bien es importante, debe
tener algún tipo de limitación, ya que si se exige una composición exactamente igual a la de
la población, se terminará extrayendo una muestra de tamaño igual a aquélla, de modo que la
representatividad debe cumplirse con aquéllos atributos que son fundamentales.
 la confiabilidad: resulta ser, en cierto modo, consecuencia de lo anterior, pero asimismo
constituye un principio sobre la seguridad de que la toma de la información no producirá sesgos o errores en los resultados que se obtienen, considerando que un dato erróneo en la muestra incide en la confiabilidad mucho más que uno en la población.
El tamaño de la muestra(n) no es caprichoso. Puede determinarse mediante fórmulas
apropiadas, para lo cual deben tomarse en consideración los siguientes elementos:
 La variabilidad de la población: En el caso extremo que todos los elementos de la población fueran iguales, será suficiente con un tamaño de muestra igual a un solo elemento, y este
tamaño necesariamente deberá crecer si la variabilidad entre los elementos de la población se
incrementa y comienzan a diferenciarse entre ellos cada vez más. Es decir que hay una relación directa entre la variabilidad poblacional y el tamaño de la muestra.
Introducción a la Estadística
14
 El tamaño de la población (N): Una muestra de determinado tamaño puede ser suficiente
para investigar una cierta población, pero si el número de elementos de esa población se incrementa al doble, si bien será necesario incrementar el tamaño de la muestra, no puede asegurarse que deba incrementarse el tamaño de la muestra al doble (puede ser incrementada a
más o a menos del doble), lo cual quiere decir que la muestra crecerá en el mismo sentido
que la población, pero en proporciones tal vez diferentes. ¿De qué depende eso? Sin duda,
de la variabilidad que asuma la población con su nuevo tamaño. En definitiva, el tamaño de
la población influye en forma directa en el tamaño de la muestra.
 El margen de error o tolerancia (d): Si se desea realizar una investigación muestral y se
exige que ella conduzca a un resultado sin errores, deberá tomarse un tamaño de muestra
igual al de la población, ya que ése es el único modo de no cometer un error. Es decir que
con un margen de error cero (o tolerancia cero) el tamaño n de la muestra deberá ser igual
al tamaño N de la población. Pero si se admite un margen de error mayor que cero, la muestra
puede disminuir. Es decir que a medida que crece el margen de error admitido, disminuye el tamaño de la muestra, lo cual convierte a esa relación en inversa.
 El nivel de confianza en la estimación (NC): Este concepto significa que el investigador
debe establecer cuál es el margen de seguridad que tiene para que la estimación se efectúe
con el margen de error d requerido. Si se deseara una confianza del 100 % en los resultados
muestrales, se está requiriendo exactitud, por lo que debieran seleccionarse a todos los elementos de la población. Pero si el nivel de confianza disminuye (o aumenta), también disminuirá (o aumentará) el tamaño de la muestra: la relación es directa.
Como vimos el tamaño de la muestra n está en función de la variabilidad, del tamaño de
la población, del grado de error (o tolerancia) admitidos y del nivel de confianza en la estimación. Estos elementos, adecuadamente ubicados, se integrarán en una fórmula que permitirá calcular n, pero de todos ellos el único que suele no conocerse anticipadamente es la variabilidad
poblacional. Como se trata de un dato propio de la población, desconocido, el investigador resuelve esta dificultad seleccionando una muestra inicial, llamada “muestra piloto” de tamaño arbitrario nh. Este tamaño debe ser razonable, aunque mínimo, como para obtener una muestra compuesta por un primer conjunto de elementos (siempre aplicando el criterio de la selección
probabilística) que le permitirán conseguir una primera aproximación al valor de la variabilidad
que él necesita conocer. Una vez obtenido, ese valor es aplicado en la fórmula de cálculo de n
para definir el número de elementos que se deberán seleccionar en la muestra.
Hecho esto, pueden ocurrir tres cosas:
* que 𝑛 < 𝑛: en este caso se aumenta 𝑛 hasta llegar a n.
* que 𝑛 = 𝑛 : en este caso se mantiene 𝑛
* que 𝑛 > 𝑛 : en este caso se mantiene 𝑛 .
6. PRESENTACIÓN DE DATOS EN CUADROS Y GRÁFICOS.
Los cuadros estadísticos son construcciones técnicas apropiadas que tienen como propósito la presentación sistematizada de los datos estadísticos de manera ordenada para facilitar su
observación y comprensión.
15
Introducción a la Estadística
Para la construcción de los cuadros estadísticos, los organismos oficiales de estadística
han elaborado un conjunto de normas y procedimientos, que suministran criterios generales.
Para diseñar un cuadro estadístico debe tenerse presente que los aspectos formales (título,
nombre de las columnas, disposición de las filas, disposición de los totales en su interior) son tan
importantes como los propios datos o informaciones incorporados en él.
En primer lugar, el cuadro estadístico se construye sobre la base del siguiente diagrama:
Título
Columna matriz
Encabezamiento (cabezales)
Contenido
Fuente de la información
A continuación se analizará cada uno de los elementos que integra el cuadro:
 Título del cuadro: el título debe expresar claramente y con brevedad el contenido del cuadro.
Para ello debe dar una idea precisa y preliminar acerca del tema al cual hace referencia
la información contenida en él.
Para construir adecuadamente el título, se deben formular las siguientes cuatro preguntas:
1º) ¿Qué?
2º) ¿Cómo?
3º) ¿Dónde?
4º) ¿Cuándo?
 ¿Qué?: se refiere al tipo de información contenida en el cuadro. Esta pregunta debe ser contestada conformando dos partes: la primera parte se denomina “cuantificador” y se refiere a qué es lo que se está presentando en el cuadro. Ejemplos: “Cantidad”, “Número”, “Superficie”, “Valor”, “Monto”, etc. La segunda parte se denomina
“Sujeto de la información” y se refiere al conjunto de elementos (o universo) que
se está presentando en el cuadro. Ejemplos: Población en edad escolar, Clientes,
Superficie sembrada, etc.

¿Cómo?: indica la manera en que la información se presenta en las aperturas por
filas o por columnas del cuadro. Ejemplos de aperturas: Edad y Sexo; Nivel Social y
Grupos de edad; Monto de compras, etc. Las divisiones que contiene la información
se denominan “Clasificaciones”, y cada clasificación tiene un número determinado
de “categorías”. Por ejemplo: sexo posee dos categorías; Nivel de educación primaria, 7 categorías; Edad, numerosas categorías o determinadas agrupaciones por edad,
en ese caso con limitadas categorías (por ejemplo: de 0 a 9 años; de 10 a 19 años;
etc.).
Introducción a la Estadística
16

¿Dónde?: señala el lugar o ámbito geográfico que corresponde a la información
contenida. Ejemplos: Corrientes (Capital); Departamento Comandante Fernández;
Provincia del Chaco.

¿Cuándo?: define el momento (dado por la fecha o el período de tiempo) al que
se refiere la información. Ejemplos: Año 2018; Marzo 2018; Período 2000-2018.
Para organizar correctamente el armado del título se aconseja seguir la secuencia que se indica a continuación: comenzar por el cuantificador, seguir por el sujeto de la información y
culminar por las categorías y aperturas, tomando en cuenta el siguiente principio: las clasificaciones que figuran en el encabezamiento deben estar precedidas por la expresión “por” y las
clasificaciones que figuran en la columna matriz, por la expresión “según”.
Ejemplo: suponga que posee información sobre los importes de las ventas de las empresas
concesionarias de autos en el país, por provincias, para los años 2000 - 2018.
Siguiendo las normas señaladas: (primero el cuantificador) “Importe de” (luego el sujeto)
“ventas de las empresas concesionarias de autos” (colocar el dónde) “en la República Argentina” (luego se colocan el nombre de las clasificaciones a las que se anteponen las palabras “por” y “según” en función de cuál va en el encabezamiento y cuál en la columna matriz)
“por provincia” (finalmente el cuándo) “Años 2000 - 2018”
 Columna Matriz del Cuadro: en este sector va la clasificación que posea la mayor cantidad
de categorías. En el ejemplo dado, los años poseen la mayor cantidad de categorías (son 19).

Encabezamiento: recibe el resto de las clasificaciones, teniendo en cuenta que, si hay dos o
más, cada una deberá contener a las demás.

Cuerpo de la tabla o contenido del cuadro: es el sector central del cuadro, destinado a recibir la información que se desea presentar, y puede confeccionarse con valores absolutos,
relativos (porcentajes) o con una combinación de ambas alternativas.
Para aquellos datos que necesiten una indicación especial resulta apropiado confeccionar un
conjunto de signos convencionales, que pueden ser algunos de los siguientes:
(-)
(.)
(…)
(o)
(x)
Si el dato es cero o no significativo
Si el dato o el concepto correspondiente no exista
Si dato existe pero no fue procesado o no se encuentra disponible
Si el dato es provisorio y puede modificarse en futuras publicaciones
Si el dato se publicó con un valor y luego se modificó sin se haya indicado como provisorio en la anterior publicación
Las indicaciones especiales deben efectuarse mediante llamadas que se señalan con números
entre paréntesis (por ejemplo: (1)), y son aclaradas al pié del cuadro, antes de la fuente.

Fuente de los datos: Es la mención del origen de la información que debe ser incorporada
en cada cuadro estadístico que se presente. Se coloca al pié, luego de las notas explicativas
Introducción a la Estadística
17
que se requiera agregar. La fuente es el único reconocimiento que se efectúa a quien ha construido el cuadro originalmente o a quien ha procesado la información estadística que le da
origen, por lo que su inserción es necesaria.
En la fuente deben detallarse los siguientes datos: nombre de la publicación de la que se obtuvo los datos; nombre del servicio que la editó; año de edición y en caso de ser necesario,
página/s que contienen los cuadros originales. En caso de que la fuente sea propia, basada en
recopilación por censos o encuestas, debe indicarse esta circunstancia.
VENTAS DE LAS EMPRESAS CONCESIONARIAS DE AUTOS TÍTULO
DE LA REPÚBLICA ARGENTINA POR PROVINCIAS
Período 2000 – 2018
ENCABEZAMIENTO
En millones de $
Provincias
Ciudad
Buenos Aires
Santa Fe
……….
Total
Autónoma
Años
2000
2001
CUERPO DE LA TABLA
…..
2018
Total
FUENTE: elaboración propia.
COLUMNA
MATRIZ
Los gráficos estadísticos son construcciones que permiten presentar los datos contenidos
en un cuadro para una mejor, más clara y rápida interpretación. El gráfico estadístico es un complemento sumamente útil de cualquier cuadro estadístico y por lo tanto corresponde dar las indicaciones apropiadas para su construcción.
La mayor parte de los gráficos estadísticos están basados en un sector del plano encerrado
entre dos ejes, simbolizados con X é Y, llamados respectivamente eje de las abscisas y eje de las
ordenadas, y que, esquemáticamente, tiene la forma siguiente:
Y (ordenadas)
X (abscisas)
En el eje Y se representa la cantidad de casos mientras que en el eje X se representa la variable que se desea medir. Estos ejes deben tener las escalas adecuadas para permitir dicha representación
Los gráficos se construyen a partir de varias clasificaciones existentes en un cuadro. Un
mismo cuadro puede presentarse con más de un gráfico en el caso de que uno solo resulte insufi-
Introducción a la Estadística
18
ciente. Sin embargo, lo ideal es construir los gráficos de modo que se represente el aspecto más
importante y destacable de un cuadro.
Algunos elementos propios de la construcción de gráficos son los siguientes:

Todo gráfico debe tener un título, cuya construcción sigue los mismos lineamientos que el de
los cuadros. Sin embargo, cuando el gráfico acompaña a un cuadro que ya tiene título y se
presentan en conjunto, el título del cuadro sirve también para identificar el gráfico.

Debe indicarse claramente en que unidad de medida se trabaja con cada eje, colocando esas
unidades a la derecha en el eje “X” y en la parte superior en el eje “Y”.

Son fundamentales las referencias que permiten identificar qué representa cada barra (que se
rellena con colores o grafismos diferentes), y que se colocan en el interior del gráfico (siempre que sea posible) o en el exterior.

Se pueden trazar líneas horizontales que marcan valores de la escala, para permitir una lectura más sencilla y rápida de los valores correspondientes al eje Y.
Hay distintos tipos de gráficos y no existen reglas definidas que indique qué gráfico debe
usarse en cada caso. Más bien hay normas y razones de conveniencia que sugieren el uso de un
tipo de gráfico y no de otro para determinados casos. En líneas generales los tipos de gráficos
son:
De bastones
Lineales
Poligonal
Simples verticales
Simples horizontales
De superficie
De barras
Barras múltiples
Barras compuestos
De partes componentes
Circulares

De bastones: se utilizan generalmente para representar distribuciones con pocos valores de
una variable discreta. Se marcan los valores de una variable sobre el eje de abscisa y se levanta una ordenada para cada uno de ellos, que es proporcional a la cantidad de observaciones. Este tipo de gráfico es útil para enfatizar comparaciones entre sí de un número reducido de ítems.
19
Introducción a la Estadística
Autos vendidos por la concesionaria
Autos vendidos (unidades)
700
600
500
400
300
200
100
0
2016
2017
2018
Años

Gráficos de líneas: se construyen, como su nombre lo indica, sobre la base de una poligonal, es decir una línea quebrada, que va mostrando las variaciones de la variable que se
desea analizar.
Para la correcta construcción de un gráfico lineal deben tenerse presente que se aplica
cuando se dispone de datos que tienen una evolución a lo largo del tiempo (para varios
días, semanas, meses, o años) ya que, precisamente, la poligonal que sirve de base para
graficar se asocia visualmente con la idea de una evolución temporal; en cambio no es
aplicable a datos que correspondan a diferentes zonas geográficas (ciudades, provincias,
barrios, etc.).
Autos vendidos (unidades)
Autos vendidos por la concesionaria
500
450
400
350
300
250
200
150
100
50
0
2012
Nacionales
Importados
2013
2014
2015
2016
2017
2018
Años

Gráfico de Barras simples verticales: consiste en construir el gráfico con rectángulos, todos de igual base y altura proporcional.
20
Introducción a la Estadística
Autos vendidos (unidades)
Autos vendidos por la concesionaria
700
600
500
400
300
200
100
0
2016
2017
2018
Años

Gráfico de Barras simples horizontales: veamos el mismo ejemplo, pero ahora, con barras horizontales.
Autos vendidos
Años
2018
2017
2016
0
100
200
300
400
500
600
700
Autos vendidos (unidades)
 Gráfico de Barras múltiples: en este tipo de gráfico coexisten, para cada valor de la variable, dos o más barras, y en esas condiciones se puede presentar, por ejemplo, la evolución
para varios momentos simultáneamente. Sin embargo, no conviene construir los gráficos
de barras múltiples con una cantidad de barras que exceda las tres debido a las dificultades
de interpretación.
21
Introducción a la Estadística
Autos vendidos (unidades)
Autos vendidos
500
400
300
Nacionales
200
Importados
100
0
2016
2017
2018
Años
Gráfico de Barras compuestas: se utilizan fundamentalmente para mostrar composiciones
para diferentes momentos o lugares. Consta de barras rectangulares de igual altura y tantas
como momentos o lugares tengamos.
Autos vendidos
700
Autos vendidos (unidades)

600
500
400
300
Importados
200
Nacionales
100
0
2016
2017
2018
Años
En el caso anterior el gráfico se construyó con valores absolutos, pero puede construirse
con valores relativos (porcentajes). En ese caso la escala del eje Y se indica en forma porcentual. La altura de todas las barras es la misma y equivale a un valor porcentual del 100
%.
Observe el mismo ejemplo anterior, pero esta vez con valores relativos:
22
Introducción a la Estadística
Autos vendidos (unidades)
Autos vendidos
100%
80%
60%
Importados
40%
Nacionales
20%
0%
2016
2017
2018
Años
Las diferencias entre los gráficos son notorias: en el primero la altura de las columnas difiere según los valores que les corresponden; en el segundo, la altura de las barras es la
misma, y el interior de cada una está dividido según la participación porcentual de cada
carrera.
Gráfico de partes componentes: permite representar, para distintos momentos del tiempo,
las partes componentes de un total, pero en este caso, a pesar de que se utilizan líneas rectas para efectuar los trazos, lo que importan son precisamente las superficies o áreas que
aquellas delimitan, cuyo tamaño va mostrando la evolución de cada componente a lo largo
del tiempo.
A diferencia del gráfico lineal, el de partes componentes tiene una estructura similar a la
barra compuesta, es decir que cada parte va acumulando los valores a la parte anterior, por
lo que la última parte agregada muestra el total.
Autos vendidos
Autos vendidos (unidades)

500
400
300
200
Nacionales
100
Importados
0
2016
2017
2018
Años
Asimismo, del mismo modo que los gráficos de barras compuestas, pueden construirse con
valores absolutos o con valores relativos (porcentajes), en cuyo caso se observarán diferencias en la lectura e interpretación de los datos involucrados.
23
Introducción a la Estadística
Autos vendidos (unidades)
Autos vendidos
100%
80%
60%
40%
Importados
20%
Nacionales
0%
2016
2017
2018
Años

Gráficos circulares: son gráficos que se confeccionan tomando como base la figura geométrica del círculo, el cual se divide en sectores que representan valores porcentuales similares a las partes de un total. En un lenguaje más vulgar, estos gráficos son conocidos como
los de “torta”.
Autos vendidos - Año 2018
225
Nacionales
Importados
434
Los gráficos circulares son muy útiles para presentar la composición de un total en un
momento en particular, no así para mostrar la evolución de una variable en el tiempo.
Asimismo los gráficos circulares pueden construirse tomando en consideración los datos
absolutos como los datos porcentuales.
Introducción a la Estadística
24
Autos vendidos - Año 2018
34%
Nacionales
Importados
66%
PREGUNTAS TEÓRICAS
1. Una población de 400 elementos es sometida a un muestreo sistemático donde el tamaño
dela muestra es 16. Para elegir el arranque ("a") se selecciona un número aleatorio que
resulta ser 57842.
¿Cuánto vale a?
2. ¿Cómo influye la variabilidad de una variable en el tamaño de la muestra que se desea
seleccionar?
a) en forma directa
b) en forma inversa
c) no influye
3. En el muestreo sistemático, el cálculo N/n ¿ se realiza para obtener cuál de los siguientes
elementos?:
a) el arranque “a”
b) la progresión “p”
c) el primer elemento a seleccionar
Descargar