María José Pérez Ponce Pedagogía General Básica • La palabra estadística comenzó a usarse en el siglo XVIII, en Alemania, en relación a estudios donde los grandes números, que representaban datos, eran de importancia para el estado. Sin embargo, la estadística moderna se desarrolló en el siglo XX a partir de los estudios de Karl Pearson. • El Instituto Nacional de Estadísticas, (INE), es el organismo encargado de recoger, de forma fidedigna y oportuna, información relevante para la administración del Estado y para las actividades nacionales, con el objetivo de mejorar la calidad de vida de las personas. • En muchas ocasiones, para llevar a cabo una investigación se hacen encuestas, las cuales son dirigidas a una muestra representativa de la población. Población: Es un conjunto de personas, eventos o cosas de las cuales se desea hacer un estudio, y tienen una característica en común. Muestra: Es un subconjunto de la población; es importante escoger la muestra en forma aleatoria (al azar), así se logra que sea representativa y se puedan obtener conclusiones más afines acerca de las características de la población. Variables cualitativas: Relacionadas con características no numéricas de un individuo (por ejemplo: atributos de una persona). Variables cuantitativas: Relacionadas con características numéricas del individuo. Las variables cuantitativas se dividen en discretas (no admiten otro valor entre dos valores distintos y consecutivos) o continuas (pueden tomar una infinidad de valores entre dos de ellos). Tabla de frecuencia: Es una tabla que se construye para ordenar datos muy numerosos, es usual agruparlos en clases o categorías. Al determinar cuántos pertenecen a cada clase, establecemos la frecuencia. Tabla de frecuencia: Es una tabla que se construye para ordenar datos muy numerosos, es usual agruparlos en clases o categorías. Al determinar cuántos pertenecen a cada clase, establecemos la frecuencia. Tabla de frecuencias para datos agrupados: Para construirla determinamos el tamaño de cada intervalo, dividiendo el valor del rango por la cantidad de intervalos que se desea obtener. La frecuencia absoluta: Es el número de veces que aparece dicho valor en la variable. Frecuencia relativa: Corresponde a la razón entre la frecuencia absoluta y el total de datos, la cual se puede expresar mediante el uso de porcentajes. Rango: Está dado por la diferencia entre el máximo y el mínimo valor de una variable. Tamaño del intervalo: Se aproxima al impar más cercano. (DA - DNA) Marca de clase: Es el representante de un intervalo, y corresponde al promedio entre los extremos de éste. Gráfico: Son una forma de representación de datos, generalmente numéricos, mediante recursos gráficos (líneas, vectores, superficies o símbolos), para que se manifieste visualmente la relación matemática o correlación estadística que guardan entre sí. Gráfico de barras: facilita la comparación entre las frecuencias de los valores. Pictograma: Se recomienda cuando la variable estudiada es una cualidad. Gráfico circular: Es útil cuando se necesita representar porcentajes. Histograma: Sirve para expresar información sobre datos que están agrupados. Gráfico de dispersión: Sirve para estudiar la homogeneidad o heterogeneidad de los datos. • Las medidas de tendencia central nos dan una idea acerca del comportamiento de los datos a los que se refieren. Se puede decir que expresan el grado de centralización de los datos que representan. Media aritmética: Es el cociente entre la suma de todos los datos y la frecuencia total de ellos. Mediana: De un conjunto de datos numéricos ordenados en forma creciente o decreciente, es el dato que se encuentra al centro de dicha ordenación, o la media aritmética de los datos centrales. Moda: De un conjunto de datos, es aquel que tiene la mayor frecuencia. Desviación media: Es la media aritmética de las desviaciones absolutas respecto de la media. La designaremos como DM. Desviación estándar o típica: Expresa el grado de dispersión de los datos con respecto . Se designará con la letra s. Correlación: Indica el grado de asociación de dos variables; la influencia que pueda tener una sobre la otra, lo que a veces permite encontrar funciones que predicen ciertos comportamientos, como, por ejemplo, el modelo que se usa para aplicar la restricción vehicular. • Anteriormente aprendiste que la mediana de un conjunto de datos ordenados, de acuerdo a su magnitud, los separa en dos mitades. • Ahora estudiaremos otros valores típicos que dividen a un conjunto de datos numéricos en cierta cantidad de partes iguales, como los cuartiles, deciles, percentiles. Cuartiles: De una distribución de datos numéricos, corresponden a los 3 valores que dividen a estos en 4 partes iguales, es decir, al 25%, 50% y 75%. Los cuartiles se designan por Q1(25%), Q2(50%) y Q3(75%). Deciles: De una distribución de datos numéricos corresponden a los 9 valores que dividen a estos en 10 partes iguales. Los deciles se designan por D1, D2, ..., D9. Diagrama de cajas: Consiste en un gráfico que muestra simultáneamente diferentes elementos de la distribución de una o más muestras, por ejemplo, mediana, rango, cuartiles, deciles, etc. Percentiles: De una distribución de datos numéricos, corresponden a los 99 valores que dividen a estos en 100 partes iguales. Distribución normal: Describe la distribución de datos, que en general se relacionan con mediciones relacionadas con variables, tales como, el tamaño de las especies, rendimiento intelectual, variables sociales, etc.