2012 Estadística Facultad de Ciencias Agropecuarias y Ambientales Ing. Mabel Leiva 0 Estadística 2012 CONTENIDO Introducción .......................................................................................................................... 2 UNIDAD I ................................................................................................................................ 4 Importancia de estudiar estadística en agronomía............................................................... 4 Estudio del problema ........................................................................................................ 4 Evaluación de resultados ................................................................................................... 5 EL MÉTODO CIENTÍFICO ........................................................................................................ 6 MÉTODOS ESTADÍSTICOS ...................................................................................................... 7 CONCEPTOS BÁSICOS ............................................................................................................ 8 Población ........................................................................................................................... 8 Muestra ............................................................................................................................. 8 Variables ............................................................................................................................ 9 Tipos de variables .............................................................................................................. 9 Variable cuantitativa ......................................................................................................... 9 Variable categorizada ...................................................................................................... 10 Muestreo aleatorio simple .............................................................................................. 10 1 Introducción 2012 INTRODUCCIÓN La estadística es una disciplina que va elevando su nivel de importancia en distintos ámbitos de la ciencia como la agricultura, la biología, las ciencias políticas, la física, así como muchos otros campos de la ciencia y la ingeniería1. La estadística diseña los procedimientos para la obtención de los datos, para el análisis de los datos y proporciona las herramientas adecuadas que permiten extraer la información. Desde los comienzos de la civilización han existido formas sencillas de estadísticas, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 A.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque2. El Imperio Romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de los datos económicos, políticos, sociales, psicológicos, biológicos y físicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo el proceso de interpretación de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para analizar datos estadísticos. La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico. Según la metodología, los procedimientos y los alcances, la estadística se clasifica en dos grandes ramas3: Estadística inferencial o inductiva: Es la parte de la ciencia estadística que con base en los resultados obtenidos de análisis de una muestra de la población, infiere, induce o 1 Murray R. Spiegel. ESTADÍSTICA. Segunda Edición Valdes, Fernando. COMPRENSIÓN Y USO DE LA ESTADÍSTICA. http://web.cortland.edu/flteach/stats/stat-sp.html. 3 Cetina López Wendy. DEFINICIONES-ESTADÍSTICA. México. 2005. pp. 2. http://www.itch.edu.mx/academic/industrial/sabaticorita/index.html 2 2 Estadística 2012 establece las leyes de comportamiento de la población a la cual pertenece; es también un buen instrumento para aceptar o rechazar las hipótesis que se hayan hecho sobre las características del colectivo del problema. La estadística inferencial o inductiva sirve extrapolar los resultados obtenidos en el análisis de los datos y a partir de ello predecir acerca de la población, con un margen de confianza conocido. Estadística descriptiva o deductiva: Tiene por objeto analizar un determinado conjunto sin pretender obtener conclusiones de tipo más general. La estadística descriptiva o deductiva se construye a partir de los datos y la inferencia sobre la población no se puede realizar, al menos con una confianza determinada, la representación de la información obtenida de los datos se representa mediante el uso de unos cuantos parámetros y algunas graficas planteadas de tal forma que den importancia los mismos datos. En esta asignatura se estudia, esta última, la Estadística Descriptiva o Deductiva. El propósito es el de ayudar a los estudiantes a obtener los conocimientos básicos para la utilización de esta herramienta en el ámbito práctico. 3 Unidad I 2012 UNIDAD I IMPORTANCIA DE ESTUDIAR ESTADÍSTICA EN AGRONOMÍA4 Países del mundo con gran cantidad de habitantes importan materia prima de Paraguay para elaborar alimentos. Rusia es uno de los mercados de exportación de productos paraguayos, y es en donde las necesidades de importación de la soja van en aumento. Es indudable que con esto debemos aumentar nuestras producciones y exportarles en mayor cantidad con mayor calidad, aumentando así los ingresos a nuestro país. Estudio del problema Los analistas de nuestro país comienzan a recoger información sobre el producto. Muy fácilmente encuentran la cantidad de soja exportada en los últimos cinco años y el valor percibido, pero con estos datos sólo tenemos una parte de la demanda. Necesitamos conocer además, la producción de nuestro país, por lo que tendremos que acudir a organismos del estado, como Ministerio de Agricultura y Ganadería, para recopilar información sobre las superficies cultivadas y las producciones obtenidas. En este planteamiento no se intenta destacar los procedimientos para obtener las informaciones, sino más bien, que existe un campo de estudio específico y de gran trascendencia donde se requiere de la estadística como instrumento que permite conocer con un grado de precisión ciertos aspectos importantes de un país, como son: la superficie destinada a la agricultura, el área de los cultivos, el rendimiento de cada cultivo por unidad básica de superficie y la producción total del país, entre otros. Una vez que ya tenemos las informaciones necesarias para nuestro estudio, ya sabemos la producción (P) nacional, la cantidad importada (I) si la hay, la cantidad exportada (E) de los últimos cinco años, se puede estimar la Demanda Interna Aparente (DIA) de estos años, estimamos la DIA ya que debemos calcular cuánto consume el país y no hacer faltar el producto internamente para mejorar las exportaciones, usando la siguiente ecuación: Considerando el DIA de los últimos cinco años como una base, se puede utilizar la técnica estadística adecuada y pronosticar cuanto será la DIAf dentro de los próximos tres años. Nuevamente, debe apreciarse la utilidad de la estadística, al predecir fenómenos en base a la ocurrencia de éstos a través del tiempo. 4 Caballero, Wilfredo. INTRODUCCIÓN A LA ESTADÍSTICA. http://books.google.com.py/books?id=8y9sSY_89vYC&printsec=frontcover#v=onepage&q&f=false 4 Estadística 2012 Si los analistas eliminan la importación (I) y la exportación (E), ya que debemos aumentar nuestra producción interna, de tal modo que: Si en base a la serie de cinco años, se estima también la producción, independiente del DIA, se tendrá P’, que vendrá a ser la producción dentro de los tres años sin tener en cuenta la importación. Por simple diferencia, producir. , se tendrá la cantidad adicional que el país deberá Aumento de la productividad La producción actual de la soja se obtiene por la cosecha de una superficie (S) con rendimiento (R) por unidad de superficie. Luego la producción actual (P) puede expresarse como: Por lo tanto, la producción P* = DIAf, puede exponerse como: Si el rendimiento permanece constante, esto es R*=R, entonces P* (la producción futura) se logrará únicamente aumentando la superficie en cierta cantidad . Pero si P* se obtiene por una combinación del incremento de la superficie, , y del incremento del rendimiento, , entonces: Aumentar el rendimiento en una cantidad presupone proyectar un elaborado plan de investigación, en el que se tendrá en cuenta hallar entre otros factores: variedades de buen rendimiento y resistentes a royas, adecuadas formas de abonamiento, épocas óptimas de siembra, los que actuando al mismo tiempo deberían conducir a los resultados deseados. Terminada la investigación en la fase experimental será necesario saber si los mismos resultados se logran en la fase industrial. Por los canales propios de comunicación se deberá orientar a los agricultores sobre el uso de una nueva variedad de soja y se les darán indicaciones sobre fertilización, época de siembra y densidad de cultivo. Evaluación de resultados ¿Cómo podremos determinar, a nivel nacional, si el rendimiento unitario se ha incrementado en una cantidad ? Si son pocos los agricultores que han participado en este proyecto, será fácil conocer la extensión cultivada y la producción obtenida. De forma simple se calcula el rendimiento por unidad de área: 5 Estadística 2012 Pero si son muchos los agricultores que se unieron al proyecto, por ejemplo 10000, será difícil entrevistar a cada uno de los mismos y lograr la información necesaria para determinar el rendimiento a nivel nacional. En este caso el servicio de estadísticas agropecuarias, haciendo uso de técnicas adecuadas, entrevistará a una muestra (100) agricultores, y en base a ellos inferirá el rendimiento medio que debe corresponder a todo el país (teoría y técnica de muestreo). Este ejemplo es una simple visión de una de las tantas utilidades de la estadística en el ámbito agropecuario, otras aplicaciones de la misma podrían ser: Alimentación de animales, tratando de hallar dietas balanceadas, de acuerdo a su edad y al propósito de su crianza; Control de calidad en la producción industrial, tratando de estimar el número de piezas o de artículos defectuosos; Determinación de poblaciones formadas por un conjunto de cosas, animales, personas, ideas. Este conocimiento puede ser por enumeración total de todos los elementos de la población o por selección de una parte de la población que sea representativa; Curación de enfermedades por suministro de cierto tipo de sustancias, pastillas o inyecciones; Entre otros. Según Wilfredo Caballero Armas, “La estadística es parte del método científico que tiene por objeto la recolección, la organización, el análisis, la interpretación y la presentación de datos”. EL MÉTODO CIENTÍFICO La estadística orienta al investigador en la toma de decisiones de acuerdo a sus puntos de vista. La estadística no es en sí misma un conocimiento, sino una ciencia que crea métodos para lograr el conocimiento, los cuales forman parte del método científico5. Describir el método científico general es tarea difícil pues no existe como tal; es decir, no hay un método que siga un conjunto de pasos ordenados. No hay procedimientos formales o informales que indiquen cómo empezar, cuál es el paso siguiente a realizar o qué conclusiones alcanzar. En pocas palabras, el método científico, consta de la observación, la cual conlleva a una hipótesis, la que hay que comprobar o desechar. Asimismo de una predicción, de la verificación o experimentación en el laboratorio, ya que todo evento de la naturaleza debe ser tratado de duplicar para que sea efectiva la comprobación de la hipótesis. Por último, 5 Caballero, Wilfredo. INTRODUCCIÓN A LA ESTADÍSTICA. 6 Estadística 2012 refutar o demostrar la hipótesis, por medio del paso anterior. Todo esto, se concluye con conclusiones6. En síntesis, el método científico consta de: observación, hipótesis, predicción, verificación y replicación7. Observación: Al contemplar la naturaleza se detectan enigmas o problemas para los que se busca respuesta. Hipótesis: Tras la observación analítica de la naturaleza, se elabora una explicación provisional que describa de la manera más simple posible el objeto de estudio. Predicción: A partir de la hipótesis, se realizan predicciones de lo que se tendría que encontrar bajo determinadas condiciones. La concepción de una hipótesis aplicada a los fenómenos observados hace posible la utilización de la lógica y permite deducir varias consecuencias. Si la teoría es satisfactoria, estas deducciones constituyen un conocimiento y toman el nombre de predicciones, no en el sentido de augurios, sino más bien en el sentido de pronósticos, anticipando lo que se verá si ciertas observaciones, aún no producidas, se realizan. Verificación: Se somete a prueba la hipótesis para tratar de demostrar que es falsa para acabar confirmando o desechando la hipótesis. Replicación: Se han de dejar lo suficientemente claras las condiciones en las que se realizó el estudio para que puedan ser repetidas por otros investigadores. MÉTODOS ESTADÍSTICOS La materia prima de la estadística consiste en conjuntos de números obtenidos al contar o medir cosas. Al recopilar datos estadísticos se ha de tener especial cuidado para garantizar que la información sea completa y correcta8. El primer problema para los estadísticos reside en determinar qué información y cuánta se ha de reunir. La dificultad para compilar la información de un censo por ejemplo, está en obtener el número de habitantes de forma completa y exacta; de la misma manera que un físico que quiere contar el número de colisiones por segundo entre las moléculas de un gas debe empezar determinando con precisión la naturaleza de los objetos a contar. Los estadísticos se enfrentan a un complejo problema cuando, por ejemplo, toman una muestra para un sondeo de opinión sobre la aplicación de algún agroquímico en los 6 ¿Qué es el método científico? http://www.misrespuestas.com/que-es-el-metodo-cientifico.html Generalidades de la Investigación en Ciencias de la Salud. http://www.auladae.com/pdf/cursos/expertos/capitulo/11.pdf 8 Valdes, Fernando. COMPRENSIÓN Y USO DE LA ESTADÍSTICA. http://web.cortland.edu/flteach/stats/stat-sp.html 7 7 Estadística 2012 cultivos. El seleccionar una muestra capaz de representar con exactitud los resultados obtenidos a nivel general del total de la población no es tarea fácil. Uno de los objetivos de esta asignatura es el de lograr reconocer la población y las variables relevantes en un proceso de observación o de experimentación, caracterizar y describir muestras de las poblaciones mediante medidas resumen, tablas de frecuencias y representaciones gráficas y conocer algunas metodologías de extracción de muestras. CONCEPTOS BÁSICOS9 Población Definición: Una población es un conjunto de elementos acotados en un tiempo y en un espacio, determinados, con alguna característica común observable o medible. Es necesario acotar el tiempo y el espacio para especificar claramente los alcances y los límites del problema en estudio, ya que dentro de estos márgenes, todo lo que se diga o afirme tendrá validez y fuera de ellos no. Tamaño poblacional: Si la población es finita, diremos que el tamaño poblacional es el número de elementos de la misma y lo denotaremos con N. Por ejemplo, el tamaño poblacional de Paraguay es de más de 6 millones de habitantes. Muestra Generalmente es imposible o impracticable realizar un estudio en la población entera, por lo que se examina una parte de ella y en base a la información relevada en esa porción se hacen inferencias sobre toda la población. Definición: La muestra es un subconjunto de elementos de la población. Es una parte tomada de la población para hacer el estudio. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones que están incluidas en tal población. Unidad muestral: es el elemento o entidad de la muestra. El elemento puede ser por ejemplo: plantas, semillas, personas, etc. Tamaño muestral: es el número de elementos de la población que conforman la muestra y se denota con n. Más adelante, se presentarán algunas técnicas para la obtención de muestras de una población y las formas principales de resumir la información que éstas proveen. 9 Di Rienzo, Julio Alejandra, et al. ESTADÍSTICA PARA LAS CIENCIAS AGROPECUARIAS. Sexta Edición. http://agro.uncor.edu/~estad/EstadisticaPCA.pdf 8 Estadística 2012 Variables Definición: Una variable es una característica, propiedad o atributo, con respecto a la cual los elementos de una población difieren de alguna forma. Las observaciones o mediciones sobre los elementos de una población constituyen la materia prima con la cual se trabaja en Estadística. Para que dichas observaciones puedan ser tratadas estadísticamente deben estar expresadas o poder ser reexpresadas en términos numéricos. Aunque sea obvio, se destaca que la característica de interés a observar o medir en cada elemento de la población debe ser la misma, en tanto que se espera que no asuma el mismo valor en cada uno de los elementos que la conforman. Aquellas características que van cambiando en su estado o expresión entre los elementos de la población se denominan "variables", mientras que aquellas que no cumplen esta condición son llamadas "constantes". Indicaciones: Para indicar a una cierta variable se utilizan letras mayúsculas, y con la misma letra en minúscula se hace referencia al dato, que es a un valor en particular observable en un elemento de la población. Ejemplo: Si X es el número de semillas germinadas en un conjunto de bandejas de germinación, x denotará el número de semillas germinadas observadas en una de aquellas bandejas. El dato, en este caso x, utilizado con un subíndice hace referencia a un valor en particular. Ejemplo: x20 representa el número de semillas germinadas observadas en la bandeja número 20. Esta notación se suele generalizar, utilizando como subíndices letras minúsculas desde la i en adelante y luego indicando el rango de posibles valores que puede adoptar el subíndice para establecer cuántos datos se consideran en el problema. Los siguientes son algunos ejemplos de la notación con subíndices: a) xi, i=1,...,6 hace referencia concretamente a los valores observados x1, x2, x3, x4, x5, y x6, no interesando otros si existieran. b) xi, i=1,... en este caso i puede valer a partir de 1 en adelante y hasta infinito. c) xi, i=0,1,... en este caso i puede valer desde cero hasta infinito. Tipos de variables Variable cuantitativa La variable cuantitativa es la que se expresa mediante un número, por lo tanto, se pueden realizar operaciones aritméticas con ella. Se pueden distinguir dos tipos de variables cuantitativas: 9 Estadística 2012 Variable continua: es aquella que puede tomar valores comprendidos entre dos números. Es decir, existe una cantidad infinita de posibles valores para los resultados de la variable. Se puede describir el conjunto de posibles valores de una variable continua de distintas formas. Se suele seguir la siguiente convención: a) Un intervalo es cerrado si sus extremos pertenecen al mismo, lo que se denotará con corchetes, por ejemplo, [a, b] denota al conjunto de todos los x tal que a ≤ x ≤ b. b) Un intervalo es abierto si sus extremos no pertenecen al mismo, lo que se denotará con paréntesis, por ejemplo, (a, b) denota al conjunto de todos los x tal que a < x < b. c) Un intervalo es semi-cerrado (o semi-abierto) si uno de sus extremos no pertenece al mismo, lo que se denotará con el corchete y el paréntesis que corresponda. Por ejemplo, (a, b] denota al conjunto de todos los x tal que a<x≤b, en tanto [a, b) = {x : a ≤ x < b}. Variable discreta: es aquella que toma valores aislados, es decir, no admite valores intermedios entre dos valores específicos. Por ejemplo: El número de frutos de un árbol. Variable categorizada Es aquella cuya escala de medida es un conjunto de categorías, se refiere a características o cualidades que no pueden ser medidas con números. Podemos distinguir al menos dos: Categóricas nominales, como la orientación de los vientos, que se podrían considerar como “Norte”, “Sur”, “Este”, “Oeste”; el color del tegumento de las semillas, el sexo, etc. Categóricas ordinales, como el grado de ataque de una virosis vegetal que puede ser "severo", "moderado" o "leve". Muestreo aleatorio simple Es el procedimiento probabilístico de selección de muestras más sencillo y conocido, no obstante, en la práctica es difícil de realizar debido a que requiere de un marco muestral y en muchos casos no es posible obtenerlo10. Se caracteriza por que otorga la misma probabilidad de ser elegidos a todos los elementos de la población. 10 Muestreo aleatorio simple. http://aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php?id=55121 10 Estadística 2012 Definición: El muestreo aleatorio simple es el método de selección de n unidades de una población de tamaño N de tal modo que cada una de las muestras posibles tenga la misma oportunidad de ser elegida (Cochran,1981). Para obtener una muestra aleatoria simple se enumeran las unidades de la población de 1 a N y posteriormente se extrae una serie de n números aleatorios entre 1 y N. Las unidades cuya numeración coincide con la serie de números seleccionados conformarán la muestra aleatoria. En este esquema muestral si una unidad muestral fue previamente seleccionada, entonces no puede ser seleccionada nuevamente. En cada extracción el proceso debe garantizar la misma oportunidad de selección a todos y cada uno de los elementos que no hayan sido seleccionados aún. El método recibe también el nombre de muestreo sin restitución porque en la muestra no puede aparecer el mismo elemento repetido, es decir, que una vez que un elemento ha sido extraído no es restituido y por lo tanto no está disponible para la elección del próximo elemento de la muestra. Por ejemplo, se tiene una población de seis elementos identificados como: a, b, c, d, e, f y se desea saber cuántas muestras posibles de tamaño 3 se pueden tomar de la misma utilizando un esquema de muestreo sin restitución. Si el tamaño poblacional es N = 6 y el de la muestra es n = 3, entonces el número de muestras posibles sin restitución es: Las muestras posibles son las siguientes: En los puntos que siguen, cuando se haga referencia a muestra, se considerará solamente a la obtenida a partir de un muestreo aleatorio simple con restitución. En este tipo de muestreo la cantidad de formas posibles de extraer n elementos desde una población de tamaño N es igual a Nn. Por ejemplo, si una población tiene 2 elementos 11 Estadística 2012 identificados con a y b y se quiere saber cuántas formas se tiene de extraer tres elementos, estas son 23 = 8 y están dadas por: {aaa, aab, aba, baa, bba, bab, abb, bbb}. Nótese que aab, aba, y baa contienen los mismos elementos, por lo cual éstas constituyen la misma muestra (dos conjuntos con iguales elementos son indistinguibles) luego el total de muestras posibles es menor que Nn pero en este caso las muestras no son todas igualmente probables. 12