UNA REVISIÓN DEL MÉTODO CIENTÍFICO José Manuel Perea Muñoz Universidad de Córdoba. España. Departamento de Producción Animal. 14071 Campus Rabanales, Córdoba, [email protected] Introducción La investigación podría definirse como la actividad mediante la cual se resuelven problemas. Si la resolución de estos problemas es significativa para el conocimiento científico, entonces estamos hablando de investigación científica. La segunda condición que define al conocimiento científico es que éste se genera mediante la aplicación del llamado método científico; sin embargo, no podemos delimitarlo como un conjunto de reglas inviolables que demarcan lo que es científicamente aceptable y lo que no. Aquí comienzan los problemas. El científico utiliza diferentes modos y técnicas para construir conocimiento, y éstas están sujetas al paradigma del momento. Por tanto, lo que hoy es aceptable puede que mañana no lo sea. Incluso algunos epistemólogos contemporáneos como Feyerabend niegan que la ciencia sea metodológica en su teoría del anarquismo epistemológico. Una aproximación inicial al problema del método nos lleva a considerar que éste debe generar conocimientos formalmente verdaderos y materialmente verdaderos. Para los antiguos griegos la ciencia era “LA VERDAD”, y el modo de aproximarnos a ella era la lógica. La conformidad del pensamiento consigo mismo era el método científico del momento, y actualmente continúa formando parte del mismo, sea cual sea la corriente de pensamiento que utilicemos para delimitarlo. Asegurar la verdad formal, al menos en apariencia, es el sentido en el que se postulan las leyes y las teorías científicas; que no son más que generalizaciones que explican, o intentan explicar, la realidad. Los postulados generales emanan de las observaciones particulares que hacen los científicos, y se basan en la inducción. A partir de las ideas de Galileo y Bacon, la ciencia también está obligada a ser verdad material, por lo que el paso previo a la consolidación de las leyes es la formulación de una hipótesis que debe ser empíricamente demostrada. Esta es la esencia del método hipotético–deductivo de Bacon (1620). Las observaciones particulares dan lugar a hipótesis que pueden ser contrastadas, verificadas o falsadas, empíricamente. Cuando el experimento prueba la 1 hipótesis, de ésta surge entonces la teoría o ley general que explica la realidad. Aquí aparecen otros dos fundamentos del método científico: la repetibilidad y la refutabilidad. Una proposición científica es refutable si un experimento puede demostrar su falsedad. Un experimento es repetible si se puede desarrollar en otro momento por otros investigadores. ¿El experimento confirma la hipótesis? Sólo en apariencia, dado que no se puede afirmar algo universal a partir de un conjunto finito de datos u observaciones. Para entender mejor esta idea y su consecuencia para el método científico, vamos a utilizar el clásico ejemplo del color de los cisnes, más profundamente desarrollado por Taleb (2008). Supongamos que es usted un británico del siglo XVIII que suele dar largos paseos al atardecer por la campiña inglesa, repleta de cisnes. ¿De qué color es el primer cisne que ve? Es blanco. ¿Y el segundo? También blanco. Todos los cisnes que contempla durante sus paseos son de color blanco. Supongamos que usted observa una media de veinte cisnes en cada paseo, y sale cinco tardes a la semana en promedio. Anualmente usted contempla en torno a 5.200 cisnes, todos de color blanco. A lo largo de su vida ¿cuántos cisnes habrá tenido oportunidad de admirar? Considerando una esperanza de vida de cincuenta años y asumiendo que paseará regularmente toda su vida, podría contemplar algo más de 260.000 cisnes (y no hay manera de descartar que el mismo cisne haya sido observado varias veces); por supuesto, todos de color blanco. Después de observar que todos esos cisnes eran de color blanco, usted podría formular la proposición “todos los cisnes son de color de blanco”. La creencia en la veracidad de su predicado no sólo es avalada por sus propias observaciones. ¿Cuántos cisnes habrán sido observados a lo largo de la historia? Todos blancos. Su predicado “todos los cisnes son de color blanco” recibe apoyo empírico adicional cada que vez que alguien contempla un cisne y es de color blanco. Sin embargo, unos años después de plantear su proposición, en el mismo sigo XVIII, el hombre europeo observó el primer cisne de color negro. Lo hizo con el descubrimiento de Australia, único continente donde habitan de modo natural cisnes negros. 2 El hecho de observar un solo cisne de color negro aporta evidencia suficiente para rechazar su predicado “todos los cisnes son de color blanco”. El indefinido número de cisnes observados a lo largo de la historia (todos de color blanco), no verifica la hipótesis; sin embargo, una sola observación en contra demuestra su falsedad. Por tanto, el experimento puede rechazar categóricamente cualquier hipótesis, pero sólo aporta evidencias a favor de la verdad aparente de la misma. En consecuencia, el científico puede estar seguro de lo que es falso, pero debe conformarse con lo aparentemente verdadero. Este problema es reconocido en lógica como la falacia del consecuente, y pone de manifiesto los límites del método científico en la búsqueda de la verdad. Para el positivismo primitivo de Bacon, el conocimiento científico (“LA VERDAD”), surge de generalizaciones empíricamente contrastables que se desarrollan a partir de observaciones sistemáticas particulares. Esta visión es verificacionista, es decir, acepta que los contrastes experimentales aportan pruebas que verifican las hipótesis. Sin embargo, ya hemos visto que las generalizaciones empíricas no pueden ser verificadas, sólo refutadas. Por esta razón, Popper (1934) planteó el falsacionismo como el criterio de demarcación científica: dado que las leyes científicas no pueden ser verificadas, la ciencia progresa demostrando la falsedad de las hipótesis. Tanto falsacionismo como verificacionismo aparecen por primera vez como parte del problema inductivo en el pensamiento de Hume. El falsacionismo no invalida la concepción positivista de Bacon, pero relativiza el alcance de la ciencia. Al reconocer que las leyes científicas no son infalibles, aunque la ciencia busque la verdad, debe conformarse con lo verosímil. En consecuencia, el conocimiento científico se compone de sucesivas teorías que son demostradas falsas y así, demostrando lo que es falso, se aproxima cada vez más a la verdad. Estas ideas constituyen la base del programa de investigación científica desarrollado por Lakatos (1978) que, con una visión muy pragmática de la ciencia, se centra en el progreso científico y no en la verdad en sí misma. En esencia, su método defiende que el progreso científico se basa en intentos sistemáticos de refutación de teorías formuladas con base falsable; es decir, que pueden ser objeto de rechazo empírico. Los científicos deben plantear conjuntamente una hipótesis y las posibles circunstancias donde se demostraría su falsedad; y a continuación desarrollar intentos sistemáticos de refutación. 3 Si no se encuentran pruebas adversas, la hipótesis se refuerza inductivamente y prevalece como teoría hasta que se demuestre su falsedad, y sea sustituida por una nueva teoría capaz de explicar mejor los hechos y/o predecir otros que la teoría anterior no alcanzaba a considerar. Por tanto, el conocimiento científico es dinámico y evolutivo, pues se va perfeccionando a medida que se sustituyen unas teorías por otras mejores. En consecuencia, la velocidad de avance depende de la actitud crítica de la ciencia consigo misma. Es decir, de los esfuerzos que los científicos desarrollen por falsar las teorías del momento. El valor de la prueba. Si una sola prueba negativa refuta la hipótesis, e incontables pruebas positivas no la verifican, entonces las mejores teorías científicas no son aquellas que siempre se confirman empíricamente, sino aquellas que pueden ser sometidas a riesgo de falsación y continúan sin ser falsadas. La prueba negativa tiene un valor absoluto dado que conduce a la verdad. Pero la ciencia también se conforma con lo verosímil, por lo que acumular pruebas positivas, aunque no conduzca a la verdad, sí nos lleva a lo aparentemente verdadero. Por tanto, las pruebas positivas deben tener algún valor. Veámoslo con un ejemplo. Supongamos que usted gestiona una distribuidora de alimentos balanceados y está preparando un envío de 10.000 kg de soja en sacos de 100 kg. Cuando tiene preparados los 100 sacos, un empleado le informa de que la soja venía contaminada con maíz. Usted en ese momento se alarma y baraja sus opciones. Si el cliente detecta el error en el envío y usted no le ha informado del mismo, muy probablemente no le vuelva a comprar más (además de que le puede denunciar a las autoridades por fraude). Pero si usted determina el porcentaje de contaminación y aplica el correspondiente ajuste en el precio de venta (el maíz es mucho más barato que la soja), puede que el cliente acepte el envío y además, si lo hace, su honestidad quedará reforzada y el cliente, al confiar más en usted, puede que le haga más pedidos. Usted se decanta por la segunda opción. Ahora su objetivo es determinar el porcentaje de maíz que los sacos contienen mezclado con la soja. Abre el primer saco, extrae en torno a 1 kg de grano y lo evalúa, llegando a 4 la conclusión de que hay un 5% de maíz. ¿Puede confiar entonces en que el porcentaje de contaminación de todo el envío es del 5%? Ha evaluado 1 kg de 1 sólo saco, lo que le parece poco en comparación con los 10.000 kg de envío. Confiar en que la verdadera proporción es del 5%, conociendo sólo el 0,0001% de la realidad es muy arriesgado para usted, por lo que se decide a abrir un segundo saco y evaluar un segundo kg. El segundo saco arroja un porcentaje de contaminación del 10%, por lo que usted se alarma un poco. Si con la primera muestra estimó un 5%, y con la segunda un 10%, ¿cuál es la verdadera proporción en todo el envío? Probablemente ninguna de las dos muestras haya estimado correctamente la verdadera proporción poblacional, pero pueden ser consideradas aproximaciones a la misma. El problema podría expresarse del siguiente modo: De modo que tanto en el primer muestreo como en el segundo, usted estima la verdadera proporción poblacional, pero cometiendo un error. Ese error hace que a veces subestime la verdadera proporción poblacional y otras veces la sobreestime. Si usted pudiera cuantificar exactamente el error que comete en cada estimación, tendría certeza de la verdadera proporción poblacional. Lamento informarle de que no es posible, por lo que nunca tendrá certeza de la verdadera proporción (a no ser que examine, uno por uno, todos los sacos hasta los 10.000 kg que completan el envío). La buena noticia es que, aunque no pueda determinar el error que cometió en cada muestra extraída, sí que puede tener una buena aproximación de su tamaño probable. El riesgo, la incertidumbre, el azar y la imprecisión son elementos de la naturaleza de cualquier proceso vital. No podemos huir de ellos, sólo tenemos que manejarlos del modo adecuado. Estoy seguro de que usted usa normalmente el avión como medio de transporte. Debe usted saber que la probabilidad de tener un accidente aéreo es muy baja; si usted volara una vez al día, tendría un accidente aéreo una vez cada 3.800 años (según la asociación internacional de transporte aéreo). Aunque la tasa de mortalidad en accidentes aéreos es superior al 95%. Es decir, aproximadamente 1 de cada 20 pasajeros sobreviven. Ahora que conoce esta información, ¿cambiará de medio de transporte? Apuesto a que no, aunque probablemente siga sintiendo miedo cada vez que sube a un avión si es una persona aprensiva. Parece que la lógica dice que si existe un riesgo lo 5 mejor es evitarlo (especialmente si usted es aprensivo). Este predicado no es del todo cierto. Si existe un riesgo, lo mejor es evaluar el beneficio potencial de asumirlo. Esto es lo que usted hace, consciente o inconscientemente, cada vez que viaja en avión: sube si le compensa ahorrar tiempo o dinero a cambio de una pequeña probabilidad de catástrofe. Lo que realmente nos preocupa son los riesgos que no conocemos bien o de los que no tenemos cierto control. Cuando el riesgo se hace cotidiano, tendemos a no evaluarlo correctamente. Si no está de acuerdo con mi planteamiento, debe usted saber que morir en un accidente de tráfico es 100 veces más probable que en uno de avión; y que tiene 1 posibilidad entre 150 de morir en un accidente doméstico. ¿Evitará ahora conducir o limpiar su casa? ¿Tomará medidas de seguridad adicionales? También apuesto a que no. El conocimiento científico no es ajeno a estos planteamientos. El papel de la ciencia también es determinar cuántas observaciones positivas confirmarían una hipótesis y con qué confianza. Las evidencias se usan para actualizar la probabilidad de que una hipótesis pueda ser cierta, asumiendo condiciones de incertidumbre e imprecisión. Si se admite un rango de variación y la imposibilidad de conocer con certeza la verdad, el conocimiento científico se entiende como un proceso de actualización de las medidas de verosimilitud al conocerse nuevas evidencias. Esta idea sustenta al enfoque bayesiano, denominado así por el uso recursivo del teorema de Bayes en los diferentes modelos de formulación. Todos tienen en común la asignación de una probabilidad como medida de verosimilitud y constituyen la base de razonamiento para el posterior desarrollo de los contrastes de hipótesis. La aplicación de estos modelos de inferencia permite hacer estimaciones precisas en la población a partir de un conjunto finito de evidencias muestrales y, lo más importante, también informan de cuánta confianza podemos tener en las estimaciones. Sigamos con el problema de la contaminación del grano. El gerente no puede cuantificar exactamente el error que comete en cada estimación, por lo que nunca tendrá certeza de la verdadera proporción poblacional en base a evidencias muestrales. Pero mediante la aplicación de modelos de inferencia puede calcular el tamaño probable de ese error, por 6 lo que puede corregir su estimación y obtener un intervalo donde conoce la probabilidad de encontrar la verdadera proporción poblacional. Esto se cumple si el azar ha intervenido en el proceso de muestreo y todos los granos han tenido más o menos la misma probabilidad de formar parte de la muestra. Si la muestra ha sido aleatoria, el error también lo es. Imaginemos las casi infinitas muestras que el gerente puede extraer. Como en todas comete un error y éste es aleatorio, la media de los errores tiende a 0. En una única muestra no sabemos si el error ha sobreestimado o subestimado la verdadera proporción poblacional, pero sí que podemos afirmar que la probabilidad de subestimarlo es la misma que la de sobreestimarlo. Además podemos determinar la probabilidad de ambos sucesos. Por el contrario, si de algún modo los granos de maíz han tenido más o menos probabilidad de ser seleccionados que lo esperado por azar, el error que estamos cometiendo en la estimación está sistemáticamente sobreestimando o subestimando la verdadera proporción poblacional. En ese caso, la media de los errores no es 0. En consecuencia, el intervalo que calculamos está sistemáticamente desplazado, y la probabilidad de que la verdadera proporción poblacional quede dentro del intervalo ya no es cuantificable. Por tanto, la confianza de que la estimación sea cierta se ve alterada de un modo indetectable. Volvamos al ejemplo. Si el gerente estimase la proporción poblacional utilizando la información conjunta de ambas muestras, su seguridad crece porque procede de conocer una evidencia mayor: 1 : 5%; 5% 1 : 10%; 10% 2 : 7,5%; 7,5% Es más probable que la verdadera proporción poblacional se aproxime a 7,5% a que se aproxime a 5% o a 10%, debido a que el tamaño probable del error de la estimación conjunta es menor que en las estimaciones individuales. Es importante resaltar que es posible que el error de la estimación conjunta sea mayor que el error de las estimaciones individuales. No conocemos ninguno de ellos, sólo estamos hablando de su tamaño probable. 7 Puede que el gerente siga sin confiar en que la contaminación real sea del 7,5%. Después de todo, sólo conoce el 0,0002% de su envío. Al considerar que no tiene seguridad suficiente, se decide por examinar 1 kg de todos los sacos. Ahora conocerá el 0,01% de la realidad. El gerente se sorprende de que, en cada nuevo saco que abre, obtiene una estimación diferente de la anterior. En algunos sacos incluso obtiene proporciones de maíz cercanas al 0%, mientras que en otros son superiores al 10%. Esto se debe a que incrementando el número de observaciones aparecen por azar desviaciones mayores. Pero lo importante no es la estimación individual que arroja cada kg de pienso, sino la estimación conjunta. Cada kg adicional que examina incrementa la precisión de la estimación conjunta y disminuye el tamaño probable del error. Esto se encuadra dentro de la ley de los grandes números, que engloba varios teoremas, destacando el de Kolmogórov. El tamaño probable del error disminuye con el incremento del tamaño muestral. Supongamos que el gerente no se conforma con 1 kg de cada saco y añade 1 kg adicional de cada uno. Las estimaciones que va calculando podrían expresarse del siguiente modo: 1 : 5%; 5% 1 : 10%; 10% 2 : 7,5%; 7,5% 50 : 9,3%; 9,3% 100 : 7,9%; 7,9% 150 : 8,3%; 8,3% 200 : 8,6%; 8,6% Para terminar de calcular el tamaño probable del error necesitamos recurrir a un modelo teórico que proporcione la base de razonamiento. Estos modelos de inferencia han ido desarrollándose a lo largo de los dos últimos siglos y permiten calcular el indicador de verosimilitud (la probabilidad de estar en lo cierto), por tanto, el valor de las pruebas positivas. Se trata de variables aleatorias que modelan la probabilidad de ocurrencia de determinados sucesos en experimentos aleatorios estándares. Si el modo en que 8 extraemos evidencias se parece a uno de estos experimentos aleatorios, podemos conocer la probabilidad de ocurrencia de determinados sucesos. Si el resultado del experimento se parece a lo predicho por la variable aleatoria de referencia, entonces tenemos apoyo empírico a favor de la verosimilitud poblacional del resultado experimental. Y lo más importante, podemos calcular la probabilidad de estar equivocados, lo que sustenta la confianza del científico en sus resultados. El problema al que se enfrenta el gerente se parece a un modelo binominal, donde se extraen aleatoriamente n granos de una población incontable de granos (N). En la primera extracción, la probabilidad de obtener 1 grano de maíz puede definirse como p. Por tanto, la probabilidad de obtener 1 grano de soja puede derivarse como 1–p. Dado que tenemos un número incontable de granos, la probabilidad de obtener un grano de maíz en la segunda, tercera o enésima extracción no se modifica sensiblemente por el resultado de la primera, segunda o n–1 extracciones, por lo que sigue siendo p. De este modo, la proporción muestral se centra en p. Si el muestreo ha sido aleatorio, lo más probable es que la estimación muestral coincida con la verdadera proporción poblacional (p). Y si no coindice se debe a que, por azar, hemos extraído más granos de soja (x) que lo esperable según la expresión x = n(1–p); dado que en los sacos sólo hay granos de maíz y de soja. Si se extraen menos granos de soja, entonces es que se han extraído más granos de maíz, y al revés. En consecuencia, el tamaño probable del error también depende del valor de p, según la expresión p(1–p). Teniendo en cuenta todo lo anterior, el tamaño probable del error se determina del siguiente modo y se denomina error estándar. á 1 El gerente puede ahora determinar el error estándar de cada estimación (Tabla 1). Con un sólo kg, el tamaño probable del error es entre 4 y 5 veces superior a la estimación (primera y segunda fila de la Tabla 1). Esto significa que la proporción poblacional probablemente se encuentre en un intervalo entre el 0% y el 26,8% si se considera la primera muestra, y entre el 0% y el 40% si se considera la segunda muestra. Ambas 9 estimaciones son poco útiles para resolver el problema, pues los intervalos son muy amplios. A medida que se incrementa el tamaño muestral, podemos observar cómo el tamaño probable del error cada vez es más pequeño. Esto sucede porque se incrementa la evidencia en que se basa la estimación de la proporción poblacional, con dos repercusiones prácticas. Por una parte, el valor estimado de p cada vez es más preciso con cada nueva observación. Por otra parte, el tamaño probable del error es cada vez menor con cada nueva observación. Tabla 1. Estimaciones de la proporción poblacional a partir de diferentes muestras aleatorias. n (kg) 1 1 2 50 100 150 200 2.000 pmuestral 0,05 0,10 0,075 0,093 0,079 0,083 0,086 0,085 1–pmuestral 0,95 0,90 0,925 0,907 0,921 0,917 0,914 0,915 Pmuestral(1–pmuestral) 0,048 0,090 0,069 0,084 0,073 0,076 0,079 0,078 Error estándar 0,218 0,300 0,186 0,041 0,027 0,023 0,020 0,006 Estimación 5,0% + 21,8% 10,0% + 30,0% 7,5% + 18,6% 9,3% + 4,1% 7,9% + 2,7% 8,3% + 2,3% 8,6% + 2,0% 8,5% + 0,6% Puede que el gerente decida pasar toda la noche examinando grano para conocer 2.000 kg del envío (última fila de la tabla anterior). Ahora conoce el 20% de la población y puede estimar que probablemente la verdadera proporción esté entre el 7,9% y el 9,1%. Este rango de variación le parece suficiente para que su cliente acepte el envío, así que decide no hacer más estimaciones. Después de todo, a no ser que abra todos los sacos y evalué todo el envío, no va a conseguir certeza absoluta. El gerente es buen observador y si usted también lo es, se habrá dado cuenta de que el valor de la prueba positiva cambia con el tamaño muestral. A medida que se incrementa el tamaño muestral, una evidencia extra aporta cada vez una menor parte de certeza. Esto es similar a lo que en economía se conoce como ley de los rendimientos decrecientes. 10 Para ilustrar esto, vamos a considerar las variaciones en el error estándar expresadas en tanto por ciento y la contribución de cada unidad muestral a la reducción del mismo. En la segunda muestra, el error estándar fue del 30%. Incrementar en una unidad el tamaño muestral (n=3), reduce el error estándar a casi la mitad (18,6%). La contribución a la certeza de un kg de balanceado adicional, fue del 11,37%, cuando pasamos de n=1 a n=2. En la cuarta muestra (n=50), con 48 unidades muestrales adicionales, el error estándar cae al 4,1%. La contribución individual de cada unidad muestral es ahora del 0,30%, cuando pasamos de n=2 a n=50. Siguiendo el razonamiento anterior, con n=100 la contribución a la certeza de cada unidad muestral adicional es del 0,028%. Con n=150, el valor unitario es de 0,009%, y con n=200 cae hasta el 0,005%. Si calculásemos la contribución a la certeza de la última unidad muestral que completa la población, su contribución sería prácticamente 0. ¿Podemos confiar en la estimación? Con una muestra del 20% (n=2.000 kg) el gerente ha estimado una proporción poblacional del 8,5%. Teniendo en cuenta el error estándar, sabe que es muy probable que la verdadera proporción se encuentre en el intervalo de 7,9% a 9,1%. Pero esto todavía no es suficiente. Sin una medida de verosimilitud, la expresión “muy probable” carece de sentido. La resolución de este problema requiere que volvamos a considerar un modelo teórico de inferencia. Conociendo el tamaño probable del error y considerando que el modo en que extraemos evidencias se parece a un experimento aleatorio cuyas probabilidades de referencia son conocidas, podemos conocer la probabilidad de ocurrencia de determinados sucesos. En base a esta variable aleatoria, podemos determinar la confianza que el gerente puede tener en sus intervalos. El modelo teórico de inferencia que vamos a utilizar es la distribución normal estándar, variable aleatoria continua que también se conoce como distribución de Gauss. La distribución normal estándar constituye la base de la inferencia moderna y ha permitido modelar numerosos fenómenos en todos los campos científicos. También se denomina campana de Gauss debido a su forma acampanada y su errónea atribución al matemático alemán Karl Gauss. El primero que la desarrolló fue el matemático francés Abraham de Moivre, en un contexto de aproximación de la distribución binomial a la normal; sin 11 embargo su uso es tan crucial en la obra de Gauss que se le suele atribuir su descubrimiento. La variable normal estándar es simétrica respecto al centro, que es cero (media y mediana coinciden), y su desviación típica es 1. A una distancia de la desviación típica respecto a la media, entre -1 y 1, se concentra en torno al 68,3% de los valores que puede tomar la variable. A dos veces esta distancia se encuentra aproximadamente el 95,4% y a tres veces el 99,7%. Es decir, a medida que nos alejamos del centro cada vez es más improbable encontrar un valor. Si el experimento aleatorio que estamos considerando es gaussiano, entonces esperamos que la distribución de sus posibles resultados siga las probabilidades determinadas por la función normal estándar. Por tanto, estandarizando la variable podemos conocer la probabilidad de ocurrencia de cualquiera de sus posibles resultados. ; ~ , , ~ 0,1 El experimento aleatorio que estamos considerando no es gaussiano, sino binomial. Pero sabemos por el teorema central del límite que los experimentos binomiales son aproximadamente normales cuando n y p no son demasiado pequeños. Por tanto, los posibles resultados del experimento aleatorio al que se enfrenta el gerente siguen una distribución normal aproximada con los siguientes parámetros: ~ , ; ; 1 El gerente no conoce el valor poblacional de p ni de np(1–p), pero puede utilizar sus estimaciones muestrales. Si a una desviación típica de p están el 68,3% de los posibles resultados del experimento aleatorio, entonces la probabilidad de que la proporción poblacional quede en el intervalo definido por el error estándar es la misma. La última estimación que hizo el gerente se basó en 2.000 kg de grano (n=2.000) y obtuvo una proporción del 8,5%, con un error estándar del 0,6%. Por tanto, la probabilidad de que la verdadera proporción poblacional se encuentre entre 7,9% y 9,1% es del 68,3%. Si quiere calcular un intervalo en el que la probabilidad de encontrar la proporción poblacional sea 95,4%, simplemente debe multiplicar por 2 el error estándar. 12 Ahora el gerente sabe que en el intervalo 7,3%–9,7% hay una probabilidad del 95,4% de contener a la verdadera proporción poblacional. Ahora el gerente, además de una estimación bastante precisa, dispone de un indicador de verosimilitud. Este indicador define el nivel de confianza o credibilidad que el gerente puede darle al intervalo. Parsimonia verosímil. El primer paso del progreso científico consiste en establecer una hipótesis, es decir, un conjunto de circunstancias y las consecuencias observables que necesariamente ocurrirán si fuera verdadera. La hipótesis, por tanto, es deductiva; se predicen las consecuencias necesarias de la veracidad de la misma. Sin embargo el experimento es inductivo; genera una prueba empírica que da apoyo a la verosimilitud de la hipótesis, si se cumplen las consecuencias necesarias; o demuestra que la hipótesis es falsa, si no se cumplen las consecuencias pronosticadas. Utilizando experimentos o estudios observaciones cuyos posibles resultados pueden modelarse según variables aleatorias estándares, las generalizaciones empíricas se someten a contraste. Aquellas que no se rechacen con una probabilidad inferior al 5%, pasan a considerarse leyes probabilísticas. De este modo se construye el conocimiento científico. En este momento podemos considerar un nuevo problema de la inducción puesto de manifiesto por el filósofo norteamericano Nelson Goodman, conocido como la paradoja de Goodman. Esta idea relativiza aún más el modo en que la ciencia construye el conocimiento. Goodman lo planteó más o menos del siguiente modo. Consideremos el color de las esmeraldas. Todas las esmeraldas que el ser humano ha encontrado hasta el momento son de color verde, por lo que se concluye que “las esmeraldas son de color verde”. Sin embargo, también es posible que algunas esmeraldas no sean verdes, sino verdules; entendiendo como verdul que la esmeralda es de color verde hasta cierto tiempo (pongamos, hasta el 24 de mayo de 2120), y a partir de ese momento, la esmeralda cambia de color, de verde a azul. El problema para la ciencia que introduce la paradoja de Goodman es que la evidencia que sustenta la conclusión “las esmeraldas son verdes” es exactamente la misma que sustenta la conclusión “las esmeraldas son verdules”. Así que la próxima esmeralda verde que se encuentre en el mundo da apoyo inductivo simultáneo a ambas hipótesis. 13 Las observaciones pueden dar lugar a un número casi infinito de generalizaciones, pero la ciencia sólo considera algunas de ellas como válidas (verde frente a verdul, verjo, vergris, etc.). Si el modo de generalizar se encuadra en la ortodoxia académica del momento, entonces es válida. No debemos confundir validez con verosimilitud. Las generalizaciones no consideradas válidas también pueden ser verosímiles; simplemente se descartan porque no son compatibles con alguna de las normas generales aceptadas por la ortodoxia. Desde este punto de vista, sólo son aceptables las hipótesis que generen inferencias que no infrinjan las normas generales aceptadas. Una visión parcial del problema nos lleva a considerar el principio de parsimonia de Ockham, fraile franciscano y filósofo aristotélico inglés del siglo XIV. Su regla también se conoce como “navaja de Ockham” y se suele formular del siguiente modo: cuando dos hipótesis tienen las mismas consecuencias y están en las mismas condiciones, la hipótesis más simple tiene más probabilidades de ser cierta. En un sentido práctico, el principio de parsimonia sirve de ayuda para el desarrollo de teorías, hipótesis e inferencias, aunque no es irrefutable. Un análisis más profundo nos lleva a considerar la validez de las normas, dado que emanan de las propias inferencias. Kuhn, filósofo estadounidense del siglo XX, acuñó el significado actual de paradigma, encuadrándolo como el conjunto de prácticas aceptadas por la ciencia del momento. El paradigma es el hilo conductor del científico, pues delimita cómo se puede observar, qué preguntas debe plantearse, qué hipótesis son aceptables, cómo se buscan las evidencias, etc. El paradigma representa el equilibrio entre las normas válidas del momento y las inferencias aceptables, y está constantemente en revisión, de modo que normas e inferencias van reajustándose unas con otras. Cuando el equilibro se rompe, se produce un cambio de paradigma que hace que inferencias e hipótesis inaceptables en el pasado, ahora tengan sentido. La dictadura de los mediocres. Todo lo anterior lo podemos ejemplificar con el físico alemán Albert Einstein. Parecía que quedaba muy poco por descubrir en física después de la mecánica de Newton. De hecho, la física ha sido uno de los campos más estables desde el siglo XVII hasta la publicación de la teoría de la relatividad. Su publicación ha cambiado por completo las 14 reglas en el área de la física, relegando a la mecánica cuántica de Newton a una simple aproximación en velocidades lentas. El cambio de paradigma no sólo ha supuesto un gran avance para el conocimiento científico, sino que ha modificado sustancialmente el modo en que se generan hipótesis e inferencias en el área. Einstein formuló hipótesis y generalizaciones muy heterodoxas para el paradigma de su momento. Probablemente si las hubiera formulado ahora, muy pocas revistas de investigación las hubiesen publicado. En nuestro contexto actual, la ciencia se encuentra totalmente institucionalizada y se rige por los denominados “índices de impacto”. El único (casi exclusivo) indicador de calidad de la obra de un científico, de un grupo de investigación o de una institución consiste en el número de veces que sus manuscritos son citados por otros artículos académicos durante un corto periodo de tiempo tras cada publicación. El científico tiene una imperiosa necesidad de generar manuscritos y de recibir citas, pues los fondos que recibe para seguir investigando dependen del impacto de su obra. Las revistas de investigación también son categorizadas según las citas que reciben, por lo que los editores intentan publicar artículos que potencialmente reciban mientras más citas y en menos tiempo mejor. En este sentido, los artículos heterodoxos no son bien recibidos por las revistas de investigación, dado que están muy alejados de las tendencias actuales y, en consecuencia, potencialmente serán menos citados o citados más tarde. Sólo hay que revisar la historia de la ciencia para comprender que progresa más y a más velocidad si cambiamos el modo en que se enfoca la realidad; es decir, bajo postulados heterodoxos. Sin embargo, en el paradigma actual se prima la investigación ortodoxa, pues el sistema de recompensas para el científico y su institución se basa en el impacto de la obra; y son las publicaciones que aparecen en el momento preciso las que más citas recibirán. Es más eficiente para el científico producir generalizaciones que maticen o mejoren la precisión de alguna teoría ortodoxa, que trabajar para encontrar una teoría que explique mejor o desde otro punto de vista la realidad. Por este motivo, entre otros que no tocan exponer aquí, algunos se han atrevido a denominar este periodo como “la dictadura de los mediocres”, pues el sistema tiende a excluir las ideas heterodoxas. 15 Diseño de experimentos. En el ejemplo de la distribuidora de alimentos balanceados han ido apareciendo las reglas básicas que rigen el diseño de experimentos; aunque no se trataba de un experimento, sino de un estudio observacional. La diferencia entre estudios observacionales y experimentales es que en los primeros no se pueden aislar las unidades experimentales de las condiciones donde están insertas. Entonces, los efectos causales sólo pueden ser asociados a las respuestas de las unidades de observación y siempre teniendo en cuenta el efecto de las circunstancias particulares del entorno. Por el contrario, en los estudios experimentales es posible establecer las relaciones causales entre las respuestas y los tratamientos. El experimento se diseña con esa finalidad. Los tratamientos emanan directamente de la hipótesis y se definen como las circunstancias que, si la hipótesis fuera cierta, deberían causar variaciones (efectos) en las variables de respuesta medidas sobre las unidades experimentales. Cuando los estudios son comparativos se establecen dos o más tratamientos y se comparan sus efectos sobre las unidades experimentales. Un factor de variación podría ser la dieta, la temperatura o la raza. Se tienen tantos tratamientos como niveles tenga el factor de variación. Así, si se quieren comparar tres dietas, tendremos tres tratamientos, o si se quieren evaluar dos razas, tendremos dos tratamientos. A veces también vamos a necesitar tratamientos de control, positivo o negativo, dependiendo de la naturaleza del problema que estamos evaluando. Un tratamiento de control negativo aplicado a un grupo de unidades experimentales genera las respuestas necesarias para conocer el efecto base. Se trata de someter a las mismas condiciones del experimento (manipulación, manejo, registro de variables, etc.) pero sin recibir tratamiento alguno. De este modo podemos obtener los niveles basales, necesarios para comparar o evaluar los resultados de los tratamientos. Ronald Fisher, quien trabajó en agronomía a principios del siglo XX, es considerado el padre del diseño experimental. Hasta ese momento, los diseños experimentales comúnmente utilizados y considerados más efectivos eran los que evaluaban un solo factor cada vez. Fisher consideraba que era mejor utilizar diseños con múltiples factores, dado que en los sistemas naturales la influencia de unos factores se asocia con las respuestas de otros. Esta visión supuso una mejora sustancial de la inferencia, dado 16 que evaluando simultáneamente el efecto de varios factores y sus interacciones, se ponen de manifiesto nuevas relaciones causales que en diseños con un solo factor nunca se habrían conocido. Supongamos que usted sigue siendo el gerente de la distribuidora de alimentos balanceados (después de todo, el cliente quedó satisfecho con el envío). Usted reflexiona ahora sobre las posibles causas de la contaminación del grano para encontrar un modo de evitarlo en el futuro. Observa que algunos de sus empleados oyen la radio mientras lo descargan. Si prestan atención a la radio puede que se despisten e inicien la descarga sobre el silo equivocado, y aunque lo corrijan rápidamente, van quedando restos que, equivocación tras equivocación, disminuyen la calidad del balanceado. En base a este razonamiento usted formula la siguiente hipótesis: “trabajar oyendo la radio incrementa los errores en la descarga”. Antes de prohibir el uso de auriculares durante el trabajo, usted decide obtener evidencia empírica suficiente. No puede ir restringiendo los derechos de sus trabajadores sin una base sólida. De su hipótesis emana un único factor de variación, el uso de auriculares, con dos niveles: “auriculares” frente a “sin auriculares”. Las unidades experimentales serían los trabajadores que descargan granos y, como variable de respuesta, se decide a evaluar el número de errores diarios de cada trabajador. Si su hipótesis es correcta y tras observar un número suficiente de descargas, los trabajadores con auriculares deberían haber cometido más errores que los trabajadores que no oían la radio. No quitar ojo de las descargas durante dos meses, momento en que decide hacer una evaluación de sus evidencias. Debe plantear un modelo de contraste de hipótesis. De nuevo, Ronald Fisher fue quien sentó las bases. Se trata de una regla de decisión que rechaza o no la verosimilitud poblacional de su hipótesis en base a las evidencias muestrales disponibles. En primer lugar, debe plantear su hipótesis en términos adecuados para la regla de decisión. Si su hipótesis “trabajar oyendo la radio incrementa los errores en la descarga” es cierta, significa que los errores de los trabajadores que oyen la radio son, en promedio, superiores a los errores cometidos por los trabajadores que no usan auriculares; por tanto, su diferencia debería ser mayor que cero. Esta es la primera hipótesis que plantea y se denomina hipótesis alternativa (H1). 17 La hipótesis alternativa se acepta necesariamente cuando la hipótesis nula (H0) se rechaza, y su formulación delimita la región de aceptación del contraste. Sin embargo, la regla de decisión se aplica sobre la hipótesis nula, que es la segunda hipótesis que plantea. En este caso, la hipótesis nula sería que la media de los errores procedentes de trabajadores con auriculares es la misma que la media de los errores procedentes de trabajadores sin auriculares; es decir, su diferencia sería cero, si fuera cierta. : ; 0 : ; 0 A través de la regla de decisión se comprueba si la distribución de sus observaciones es compatible con lo pronosticado por la variable aleatoria de referencia que modela el experimento, si la hipótesis nula fuera cierta, y con una probabilidad de equivocarse determinada. Actualmente se han desarrollado múltiples modelos de contraste de hipótesis. Cada uno de ellos funciona bajo sus condiciones particulares, requieren que los datos cumplan usa seria de premisas y tienen ventajas e inconvenientes. Inicialmente los modelos de contraste de hipótesis se pueden clasificar el paramétricos y no paramétricos, dependiendo de si la regla de decisión se basa en parámetros (media, varianza, etc.) o en rangos u otras transformaciones de las observaciones. Los contrastes no paramétricos son menos poderosos que los paramétricos, pero tienen la ventaja de no necesitar determinadas condiciones muestrales o poblacionales que, a veces, o no tienen sentido o simplemente no se pueden garantizar. Todos los contrastes requieren de una variable aleatoria que modela la distribución de los resultados del experimento. Si la hipótesis nula fuera cierta, los resultados del experimento deberían ser compatibles con lo predicho por la variable aleatoria teórica. Si los resultados del experimento se alejan mucho de lo predicho, entonces tenemos evidencias que apoyan la falsedad de la hipótesis nula y, como consecuencia necesaria, se acepta la hipótesis alternativa. Si por el contrario los resultados experimentales son compatibles con lo predicho por la variable aleatoria, entonces no hay evidencia para rechazar la hipótesis nula, que prevalece sobre la alternativa. 18 Que los resultados sean compatibles con lo predicho, significa que se acepta cierto alejamiento. Este alejamiento corresponde al error experimental y se utiliza para obtener el indicador de verosimilitud. Mientras más alejamiento se tolere, con más seguridad se rechazará la hipótesis nula. La ciencia acepta como alejamiento mínimo aquel que contenga el 95% de los posibles resultados del experimento. Es decir, que la hipótesis nula se rechace con una probabilidad de haber tomado la decisión equivocada sólo del 5%. El resultado de aplicar la regla de decisión es dicotómico, o se acepta la hipótesis nula o se rechaza. Del mismo modo, la hipótesis nula puede ser cierta o falsa. Por tanto, la decisión que tomemos se enmarca en alguno de los siguientes cuadros: Contraste No Rechazar Ho Rechazar Ho Realidad Ho cierta Ho falsa Decisión correcta Error Tipo II p=1–α p=β Error Tipo I Decisión correcta p=α p=1–β El contraste nos induce a tomar la decisión correcta cuando la regla de decisión no rechaza la hipótesis nula y ésta es cierta, y cuando la regla de decisión rechaza la hipótesis nula y ésta es falsa. Aunque nunca vamos a saber si hemos acertado, sólo sabemos si el contraste nos induce a rechazar o no la hipótesis nula y la probabilidad de habernos equivocado, bien por error tipo I (α) o bien por error tipo II (β). Cometemos error tipo I cuando rechazamos algo que es cierto, con una probabilidad de α. Esto es a lo que se llama “nivel de significación”. Para que la comunidad científica acepte generalizaciones empíricas como leyes probabilísticas, el nivel de significación de las evidencias que lo apoyan debe ser inferior al 5%. Cometemos error tipo II cuando no rechazamos algo que es falso, con una probabilidad de β; aunque paradójicamente, en la mayoría de los contrastes no se puede calcular. Esto se debe al modo en que se formula la hipótesis alternativa. Mientras que la hipótesis nula es una afirmación concreta, la hipótesis alternativa suele ser global y contiene un amplio abanico de posibilidades. Volvamos al ejemplo de la distribuidora de alimentos balanceados. El contraste que el gerente quiere aplicar se denomina comúnmente contraste para la diferencia de medias con muestras independientes. El contraste parte de la formulación de una conjetura 19 poblacional, que se verifica a partir de dos muestras independientes y aleatoriamente extraídas. La regla de decisión requiere además que la variable de respuesta siga una distribución normal poblacional y que las varianzas poblacionales sean conocidas. Si los tamaños muestrales son grandes se pueden utilizar las varianzas muestrales, y la normalidad de las distribuciones poblacionales no es tan importante. Se trata de un contraste paramétrico, dado que el indicador utilizado para el contraste (Z) se basa en la media y en la varianza, y además sigue una distribución normal. ̅ : ~ 0,1 El gerente ha observado a sus empleados durante 60 días, obteniendo los siguientes datos: 38; ̅ 5,6; 44; ̅ : : 1,2 1,6; 0,5 Al aplicar el contraste se obtiene que: ̅ ; 5,6 1,2 38 1,6 0,5 44 : ; 19,16 Las observaciones experimentales del gerente han generado un valor de Z, indicador de contraste, de 19,16 (Figura 1). Dado que la variable aleatoria que modela el experimento es la normal estándar (Z), debemos comparar 19,16 con el valor de Z de la distribución normal estándar que deja a su derecha un área del 100·α %. Supongamos que el gerente quiere una significación del 5%, por lo que asigna un valor a α del 0,05. 20 Entonces, el valor de Zα es de 1,645. Si la hipótesis nula fuera cierta (es decir, no hay diferencias entre ambos grupos de trabajadores), el indicador obtenido debería haber alcanzado un valor de cero. Si no fuera cero, aceptamos que por azar el indicador hubiera alcanzado como máximo un valor de 1,645, es decir, estamos dando una confianza del 95%. Por tanto, la hipótesis nula será rechazada si el indicador experimental queda a la derecha del valor de Z que deja a su derecha un área del 5% (Z=1,645). 0,4 100 ∙ (1–α) = 95% fZ(z) 0,3 0,2 100 ∙ α = 5% 0,1 0 -5 -3 -1 1 Z 3 5 Zα=1,645 Figura 1. Regiones de aceptación y rechazo del contraste de hipótesis basado en la normal estándar, cuando la significación es del 5%. Rechazando la hipótesis nula bajo estas condiciones, sólo nos equivocaremos el 5% de las veces, dado que la probabilidad de obtener un valor superior a 1,645 es del 5%. Como se cumple que 19,16>1,645, el gerente puede rechazar la hipótesis nula y aceptar la alternativa (que los empleados con auriculares cometen más errores) con una probabilidad de haber cometido error tipo I del 5%. Como ya habrá percibido, la evidencia empírica que contrasta la hipótesis del gerente no procede de la experimentación, sino de la observación. No puede establecer relación causal, sino asociación. La consecuencia práctica para el gerente es mínima (probablemente habrá prohibido el uso de auriculares en el trabajo), pero, si estuviéramos ante un caso científico, el gerente tendría graves problemas para sostener 21 la generalización “trabajar oyendo la radio incrementa los errores en la descarga”. Por ejemplo, no sabemos si los trabajadores que usan auriculares siempre los usan, son siempre los mismos, los usan siempre o a veces los usan unos y otras otros. En definitiva, no podemos saber si el mayor número de errores responde al uso de auriculares o intervienen otros factores como la mala pericia de los trabajadores que oyen la radio (puede ser que oír la radio sea más frecuente en los trabajadores menos hábiles). Para obtener respuestas claras a los factores, las unidades experimentales deben mantenerse en las mismas condiciones y estar sometidas a la menor cantidad posible de fuentes de variación. Lo ideal sería que los tratamientos fueran la única fuente de variación. En los contrastes basados en estudios observacionales no es posible controlar todas las variables que inciden en las unidades de observación; por tanto, es esperable que las respuestas a los factores no sean tan nítidas como en diseños experimentales. Cuando no es posible evitar alguna fuente de variación ajena al tratamiento, existen técnicas como la bloquización o la medición de covariables que minimizan su efecto. Ejemplos típicos de estas variables podrían ser el uso de animales no homogéneos, las condiciones climáticas o las diferentes salinidades del suelo en experimentos agronómicos. El problema de estas variables es que incrementan el error experimental y causan sesgos. Cuando no se puede evitar su incidencia, se deben establecer mecanismos de control que aseguren que su efecto sea aleatorio, es decir, que afecten a las variables de respuesta incrementando la varianza en todos los tratamientos. La consecuencia es que el error experimental es mayor y, por tanto, es necesario un mayor número de unidades muestrales. Si no se establecen mecanismos de control, existe la posibilidad de que algunos tratamientos sean sistemáticamente favorecidos y otros sistemáticamente perjudicados. Esto no sólo incrementa el error, sino que los hace sistemáticos positivos y/o negativos que ponen en peligro todo el experimento, pues no hay forma de solucionar el problema a posteriori. Hay que tener en cuenta que cualquier tipo de proximidad o sistema es causa de sesgo, por lo que los mejores diseños son los totalmente aleatorios. La ejecución del experimento también debería ser aleatoria. Es decir, que las mediciones se tomen de modo aleatorio, que los tratamientos sean administrados de modo aleatorio, 22 etc. La intervención del azar en todas las operaciones tiende a mejorar la nitidez de los resultados. La belleza de lo aleatorio. Cuando se habla de lo aleatorio rápidamente resuena en nuestra mente la distribución normal. La mayoría de los modelos de inferencia la utilizan como variable aleatoria de referencia, y si además incluimos las distribuciones que derivan de la normal o que se pueden aproximar a ella, estamos considerando prácticamente todos los modelos de inferencia. Si los fenómenos que estamos intentando explicar se comportan como gaussianos, entonces podemos hacer estimaciones válidas de su verosimilitud. La buena noticia es que la mayoría de los fenómenos y de las variables que los describen tienden a comportarse de modo gaussiano; o mejor dicho, no tenemos evidencias de que no lo sean. Pensemos en alguna de las variables que como científicos en agronomía nos pueden interesar, por ejemplo, el rendimiento lechero (kg/lactación). Si estudiásemos el rendimiento lechero en su país, probablemente consideraríamos que la variable debe comportarse de modo gaussiano. Es decir, la mayoría de las vacas tendrían una producción por lactación cercana a la media, y a medida que el rendimiento se aleja del centro de la distribución, la probabilidad de encontrar un individuo es cada vez menor. Supongamos que el rendimiento medio es de 8.000 kg/lactación con una desviación típica de 1.000 kg/lactación. Si la variable fuera gaussiana, ya sabemos que el 68,3% de la población tendría una producción entre los 7.000 y los 9.000 kg/lactación; y el 95,4% estarían en el intervalo 6.000–10.000 kg/lactación. Si de esta población extraemos una muestra aleatoria lo suficientemente grande (500 vacas, por ejemplo) y desarrollamos un contraste que ponga a prueba la verosimilitud de que el rendimiento lechero sigue una distribución normal, muy probablemente las evidencias no permitan rechazar la normalidad de la distribución con una significación muy alta (casi cero). Vamos a centrarnos en los extremos. Sólo 23 de cada 1.000 vacas superarían los 10.000 kg/lactación. Es decir, la probabilidad de encontrar un individuo que supere la producción media en al menos un 25% es del 2,3%. Si consideramos ahora la probabilidad de superar la media en al menos el 30% (10.400 kg/lactación), la 23 probabilidad disminuye a 8 de cada 1.000. Siguiendo con el razonamiento, la probabilidad de encontrar una vaca con un rendimiento superior al 35% (10.800 kg/lactación) desciende a 2 de cada 1.000; superior al 40% (11.200 kg/lactación) vuelve a descender hasta 6 de cada 10.000; superior al 50% (12.000 kg/lactación) baja a 3,6 de cada 1.000.000; y sólo 6,7 de cada 10.000.000.000.000.000 vacas producirían el doble que la media (16.000 kg). Lo que acabamos de comprobar se cumple en todas las variables normales: cuando nos alejamos de la media, la probabilidad de encontrar un valor disminuye cada vez a mayor velocidad, y en los extremos, la velocidad de disminución se acelera exponencialmente. Esto es de interés para hacer inferencia con variables que tienen un techo biológico, como la producción de leche. Los modelos explicativos y predictivos que trabajan bajo la distribución normal funcionan muy bien con este tipo de fenómenos porque se focalizan en lo probable, es decir, en la media y en los valores que quedan en torno a ella, y dan muy poca importancia a los extremos. Después de todo, los valores extremos son tan poco probables que pueden considerarse imposibles en sentido práctico, y además tienen un valor explicativo o predictivo muy bajo en comparación con el centro de la distribución. Consideremos ahora la producción lechera anual de las granjas bovinas de su país. Esta variable también es de interés para usted y para mí, que ambos trabajamos en agronomía. En La Pampa (Argentina), la media anual en 2009 fue de 388.074 kg y su desviación típica de 54.890 kg. Si la variable fuera gaussiana y siguiendo con el ejemplo anterior, podemos calcular la probabilidad de diferentes sucesos (Tabla 2). Tabla 2. Probabilidad de diferentes sucesos según la distribución normal con media 388.074 y desviación típica 54.890. Producción anual (kg/año) Sea superior a la media (388.074 kg/año) 20% superior a la media (465.689 kg/año) 40% superior a la media (543.304 kg/año) 60% superior a la media (620.918 kg/año) 80% superior a la media (698.533 kg/año) Doble que la media (776.148 kg/año) Probabilidad (%) 50,0 (1 de cada 2 granjas) 7,87 (1 de cada 13 granjas) 0,23 (1 de cada 500 granjas) 0,0011 (1 de cada 10.000 granjas) 0,00000078 (1 de cada 1.250.000 granjas) 0,000000000078 (1 de cada 12.500.000.000 granjas) 24 En 2009 en La Pampa no había más de 200 granjas lecheras. Si la variable fuera gaussiana, resultaría prácticamente imposible que tan sólo una de esas 200 granjas produjera el doble que la media (1 de cada 12.500.000.000 es un número bastante pequeño). Sin embargo no sólo una, sino que fueron dos las explotaciones con una producción anual muy superior al doble de la media. La primera mala noticia es que el modelo gaussiano no explica convenientemente esta realidad, pues asigna una verosimilitud teórica (1/12.500.000.000) que en absoluto es compatible con la evidencia empírica (2/200). La segunda mala noticia es que si de esta población (N≈200) extraemos una muestra aleatoria lo suficientemente grande (50 granjas, por ejemplo), la distribución muestral puede considerarse normal si así lo confirman los test de normalidad. Esto va a suceder muy probablemente si por azar no es seleccionada ninguna de estas dos granjas con producciones extremas. Pero también la considerará normal si alguna de ellas formase parte de la muestra, porque lo más probable es que usted siga las recomendaciones de la mayoría de los manuales de estadística y las elimine del estudio al considerarla valores atípicos. La consecuencia de la primera mala noticia es que utilizar modelos gaussianos para explicar variables que no siguen la distribución normal puede generar inferencias erróneas, especialmente en lo referente a la verosimilitud de fenómenos extremos. La consecuencia de la segunda mala noticia es que no podemos confiar en la verosimilitud de las inferencias generadas de este modo. Hoy en día hay una peligrosa generalización de los modelos gaussianos. Se han aplicado y se aplican con regularidad a variables y fenómenos de diverso ámbito como económicos (beneficio de las empresas, trabajadores de las instituciones, movimiento de divisas, etc.) sociales (número de hijos, años de educación formal, etc.) psicológicos, etc. La mayor parte de estas variables no tienen un techo o límite biológico y no existe ningún motivo para que tengan que comportarse como gaussianas, aunque en las muestras sí que lo hagan. La potencia de la inferencia paramétrica gaussiana se ha puesto de moda en casi todos los campos científicos, constituyendo una de las prácticas aceptadas por la ciencia del momento. Es decir, los modelos gaussianos definen en su conjunto una de las normas válidas del paradigma científico que todavía no estamos dispuestos a cambiar. La consecuencia no sólo es que se están generando inferencias 25 potencialmente erróneas, sino que se está dando una verosimilitud a los acontecimientos extremos muy inferior a la que realmente tienen. Pavos inductivistas y cisnes negros. En definitiva, aunque la ciencia se conforme con generalizaciones empíricas aparentemente verdaderas, debe seguir manteniendo una postura crítica y escéptica; pues la verosimilitud de las inferencias también depende de que los fenómenos realmente se comporten del mismo modo que las variables aleatorias utilizadas de referencia. Esto relativiza aún más la confianza en las generalizaciones probabilísticas, especialmente cuando se trata de inferencias cuantitativas. Los modelos probabilísticos de inferencia pueden explicar con bastante precisión el comportamiento de algunos fenómenos sin ni siquiera conocer el diagrama causal de los mismos. Se trata de fenómenos en los que la probabilidad de un evento raro es tan pequeña que podemos descartar su ocurrencia a nivel práctico. Además, las consecuencias del (casi imposible) evento raro no son más importantes que las consecuencias de los eventos normales. Sin embargo, existen fenómenos en los que la probabilidad de eventos raros suele ser subestimada por las variables aleatorias estándares (considere de nuevo la producción lechera en La Pampa). La inferencia paramétrica podría explicar y predecir con cierta precisión el comportamiento de estos fenómenos, pero no así la ocurrencia de eventos raros, que son sistemáticamente subestimados. El problema puede ser grave si además las consecuencias de los eventos raros son más importantes que las consecuencias de los eventos normales. Para profundizar en este concepto vamos a utilizar el ejemplo del pavo inductivista de Chamblers, quien adaptó el ejemplo originario de Bertrand Russell, filósofo y matemático británico del siglo XX. Imagine que usted compra un pavo todos los meses de enero con el objetivo de engordarlo y servirlo en la mesa el día de Navidad. Este año lo compra el 14 de enero, lo coloca en el gallinero de su jardín, y todos los días le da una buena ración de grano en torno a las 8:00 de la mañana, antes de irse al trabajo. Los fines de semana le gusta levantarse temprano, así que repite la rutina junto a sus hijos. 26 Veámoslo desde el punto de vista del pavo. El día 15 de enero a las 8:00 recibe 200 g de grano de buena calidad y pasa el día entretenido por el gallinero. El día 16 de enero vuelve a recibir 200 g del mismo grano a las 8:00 de la mañana. Los siguientes días hasta febrero ocurre exactamente lo mismo, así que el pavo analiza la situación. “A las 8:00 de la mañana durante 15 días he recibido una buena ración de granos, sin faltar ni un día. Pero 15 días constituyen pocas observaciones para extraer conclusiones, así que mejor esperar a tener más evidencias.” Transcurrió el tiempo hasta junio, y al pavo nunca le faltó su ración de grano en torno a las 8:00 de la mañana. El pavo vuelve a considerar las evidencias. “Veamos, he comido siempre a las 8:00 de la mañana y esto ha sido independiente de la estación del año, de las condiciones climáticas e incluso del estado de ánimo del criador. Fines de semana también incluidos.” A pesar de las observaciones, el pavo considera que aún no tiene evidencias suficientes para formular una conclusión, así que decide seguir observando. Llegamos a 23 de diciembre y el pavo vuelve a hacer balance. “Veamos, he comido regularmente durante casi un año a las 8:00 de la mañana. Esto ha sido así durante todas las estaciones del año y todos los días de la semana. Ha dado igual que lloviera, hiciera frío o calentara el sol. No ha importado el humor ni el estado de ánimo del criador. ¡Ahora sí!”. Ahora el pavo considera que tiene evidencia suficiente para concluir “como todos los días 200 g de grano a las 8:00 de la mañana”. Así que a las 7:50 del día siguiente el pavo ya estaba nervioso. Ya había llegado a la conclusión de que siempre comía a las 8:00 y estaba ansioso esperando su ración diaria. Sin embargo ese día, 24 de diciembre, no apareció usted con sus 200 g de grano, sino armado de un cuchillo con el que le cortó el pescuezo al pavo. El evento del día 24 de diciembre era totalmente predecible desde su perspectiva. Usted compró el pavo con ese objetivo y conocía los verdaderos motivos de la administración de grano. Pero desde la óptica del pavo, el evento del día 24 de diciembre era totalmente improbable e impredecible. Además, las consecuencias para el pavo fueron catastróficas. A esto es a lo que Taleb denominó “cisnes negros”: eventos altamente improbables con consecuencias de gran magnitud. La observación por el hombre occidental del primer cisne negro también puede considerarse un “cisne negro”. 27 Pues bien, los cisnes negros no sólo no son predecibles por los modelos clásicos de inferencia, sino que además somos muy vulnerables a ellos precisamente porque no entran dentro de las expectativas probables, y el paradigma actual nos empuja a no focalizarnos en los eventos raros. Incluso muchos de ellos aún no tienen precedentes, por lo que ni tan siquiera tenemos una mínima señal de su existencia. Pensemos en el pavo, ¿qué señal tenía de que el día 24 le iban a cortar el pescuezo? Este problema todavía no ha sido resuelto por la ciencia y, aunque existen otras variables aleatorias que podrían ser de utilidad para predecir efectos improbables, nuestras mejores opciones se enmarcan dentro de la robustez. De acuerdo con Taleb, esto no significa que la ciencia deba conformarse con lo cualitativo, sino que debe construir bases sólidas sobre las que asentar las inferencias y moderar las expectativas. A nivel práctico, la teoría del cisne de negro de Taleb nos lleva a considerar que debemos construir robustez para protegernos del impacto negativo de lo altamente improbable y dejar espacio para su impacto positivo. Como usted sabe, Grecia está sufriendo una de las crisis económicas más duras de su historia. La crisis comenzó a forjarse hace casi diez años y actualmente tiene consecuencias importantes en toda la zona euro. Si usted lee el periódico habrá visto alguno de los profundos análisis de la crisis griega que hacen los economistas; incluso ya hay ensayos sobre ella. Sin embargo, hace 10 años, los mismos economistas que hoy explican con meridiana claridad su diagrama causal, no fueron capaces de predecirla. ¿Es que las evidencias de hoy eran otras que las de hace 10 años? Lo que ocurre es que al analizar la crisis griega en retrospectiva, las evidencias que hoy sirven para fundamentarla son las mismas que en su día sirvieron para descartarla (o que pasaron inadvertidas). Problemas, problemas y más problemas. El gerente de la distribuidora de alimentos balanceados ha resuelto sus problemas aplicando técnicas de inferencia del método científico. A partir de la observación ha construido una hipótesis y diseñado un modo de someterla a contraste. Las evidencias empíricas acumuladas le han servido para dar apoyo inductivo a su hipótesis, con una significación del 5%. Por tanto, ha obtenido generalizaciones empíricas verosímiles. El proceder del gerente no dista mucho de lo que usted puede leer en cualquier trabajo de 28 investigación, sin embargo, ninguna revista científica lo publicará. El problema está en el problema. El gerente ha resuelto un problema que sólo es de interés para él mismo y para su empresa. Si el gerente hubiera resuelto un problema de interés para la comunidad científica, entonces sí que podría publicar sus resultados en cualquier revista de investigación. Si usted está considerando iniciar un proyecto de investigación, debe saber que gran parte de su éxito como científico radica en el problema que va a resolver. Si encuentra un problema que merezca la pena resolver, entonces está de enhorabuena; su resolución será publicada casi con toda seguridad. Lo que diferencia a los buenos investigadores es su capacidad para encontrar buenos problemas de investigación; conjeturas que no sólo le interesen a ellos, sino que también sean de interés para sus colegas. Encontrar un buen problema de investigación requiere de paciencia y lectura. Si tiene libertad para investigar lo que considere (lo que no es probable, pues son los investigadores experimentados quienes delimitan las líneas de investigación), comience por lo que sea de su interés. Seleccione un tema que le motive y haga un plan de lectura. Su objetivo como investigador es publicar la resolución de problemas científicos en revistas de investigación. Y las revistas de investigación contienen las fronteras del conocimiento de cualquier tema considerado (pues en ella se publican las últimas soluciones a los problemas significativos). Por tanto, un plan de lectura eficiente sólo debería considerar revistas de investigación. Ocasionalmente puede acudir a otras fuentes, pero debe tener en cuenta que la información contenida en ellas no tiene por qué ser veraz y, sobre todo, puede que esté anticuada. El proceso de revisión por pares diferencia a los medios de comunicación científica de los demás y garantiza (al menos teóricamente) el rigor académico y metodológico de los artículos publicados en ellos. Puede que encuentre información relevante en otras fuentes, pero debe tomarla con cautela. Por ejemplo, la opinión de un experto, por muy experto que sea, no es conocimiento científico. Si utiliza un buscador académico y unas cuantas palabras clave, encontrará miles de resultados de cualquier tema. No se agobie. No necesita leer todos los artículos, sólo los más relevantes. No tiene que conocer una cantidad inmanejable de información, sólo 29 tiene que utilizar aquella que sea relevante. Un buen plan podría ser redefinir la búsqueda con palabras clave hasta encontrar una cantidad manejable de información (100–200 artículos). Restrinja la búsqueda a los últimos 5 años. Si un tema no ha sido tratado por las revistas de su área en los últimos 5 años, puede que sea un tema cerrado. Cambie de tema, pues le costará encontrar un buen problema que resolver. Una vez que tenga una cantidad manejable de información, comience a leer y a tomar notas. Las notas son importantes porque nos ayudan a recordar y, sobre todo, a recordar en el sentido en que leímos. Con las notas evitamos errores y sirven para poner por escrito nuestros propios argumentos. Inicialmente no lea completamente todos los artículos, céntrese en los resúmenes. A partir del mismo, señale si merece la pena seguir leyendo o no. Con la experiencia desarrollará la habilidad suficiente para discernir qué puede ser clave para su investigación y qué puede pasar sin ser leído. Esa habilidad se adquiere leyendo, así que no se preocupe por cometer errores tipo II y evite cometer errores tipo I. Cuando termine de evaluar todos los resúmenes, comience a leer aquellos artículos marcados como relevantes. Comience de más a menos relevante. Recuerde que más vale una fuente certera que docenas de fuentes mediocres. A medida que vaya leyendo tome notas y reléalas cuando sea necesario. Las notas guiarán su lectura. Cuando encuentre un artículo muy relevante, probablemente encontrará algunos argumentos apoyados en citas que considere de interés. Sígales la pista y no se quede sólo con la cita. Este es un buen modo de ir construyendo su tema de investigación. Al principio los temas son muy amplios. A medida que los va dominando, va centrando su interés en aspectos más concretos del mismo. Simultáneamente, la cantidad de artículos relevantes va disminuyendo con el aumento de la especificidad del tema. Un tema inicial podría ser la economía ganadera. Un tema específico podría ser la construcción de fronteras paramétricas para el análisis de la eficiencia de sistemas bovinos extensivos. Hágase preguntas que guíen su búsqueda. Al principio encontrará fácilmente todas las respuestas a las preguntas formuladas. A medida que vaya dominando el tema, irán apareciendo preguntas de difícil respuesta, e incluso preguntas sin respuesta. Cuando usted sea capaz de plantear las grandes preguntas que aún no han sido resultas en su 30 tema específico, puede considerar que tiene un dominio suficiente del mismo. Estas preguntas son las que buscaba. Ya se habrá dado cuenta de que no puede encontrar preguntas que merezcan la pena responder si no domina su tema en profundidad. Pero eso no es suficiente. Puede que usted trabaje duro y resuelva alguna de ellas, pero en absoluto tiene garantía de publicación. La segunda cualidad que diferencia a los buenos investigadores es que, además de encontrar preguntas que merezcan la pena resolver (primera cualidad), son capaces de convencer a los científicos de su área de conocimiento de que necesitan las respuestas de su pregunta. Si analiza con detalle esos artículos que ha ido leyendo observará que en muy pocas de las preguntas que resuelven (por no decir ninguna) resulta evidente su repercusión para el área en cuestión. De hecho, si se limita a leer los objetivos de los artículos puede que no advierta la importancia que tienen para el conocimiento científico (y eso que usted también puede considerarse un experto en el área). No se alarme, a la mayoría de los científicos de su área les ocurre lo mismo. Por eso, es necesario justificar muy bien por qué se resuelve la pregunta que usted quiere abordar. Debe responder a la pregunte ¿por qué? Encontrar una buena pregunta y justificar el motivo por el cual debe ser respondida todavía no es suficiente. Aún necesita que esa justificación sea significativa no sólo para usted, sino para los demás científicos de su área. Debe responde a la pregunta ¿qué cambia si resuelvo la pregunta?. Si encuentra una justificación significativa a su pregunta, enhorabuena, ya tiene un problema de investigación. En los artículos científicos, el objetivo del estudio suele aparecer como última frase de la introducción y las justificaciones significativas suelen aparecer justo antes. 31