Instrucciones para utilizar fs/QCA (versión 2.0, 2007) Aníbal Pérez Liñán, Universidad de Pittsburgh ([email protected]) Universidad de Salamanca (mayo 2009) I. Datos 1. La base de datos debe ser guardada en formato Excel (datos separados por comas, extensión .csv) o SPSS (en el formato separado por tabulaciones, extensión .dat) 2. Para leer los datos, ir a FileOpenData. II. Selección de las variables en el modelo 3. Los datos aparecerán en una nueva ventana denominada “FS/QCA Data Sheet”. Para analizar los datos, ir a AnalyzeFuzzy SetsTruth Table Algorithm. 4. La lista de variables disponible en la base de datos aparecerá en una nueva ventana denominada “Select Variables”. a. Seleccionar la variable dependiente como “Outcome” (si deseamos explicar la ausencia de este resultado, ¬Y, en lugar de su presencia, debemos marcar “Negate”). b. Seleccionar las variables independientes como “Causal Conditions”. Es conveniente no utilizar más de ocho variables independientes en un modelo. c. Para cambiar la selección, utilizar “Reset”. Para proseguir, utilizar “Run”. III. Identificación de las configuraciones suficientes en la tabla de verdad 5. Una nueva ventana (“Edit Truth Table”) mostrará la tabla de verdad. De izquierda a derecha, las columnas de esta tabla representan: a. Los valores posibles de cada una de las variables independientes (hasta agotar todas las combinaciones posibles para la tabla de verdad). b. El número de casos observado para cada configuración causal (en la columna “number’). Cuando la tabla está ordenada de mayor a menor, lo que ocurre por defecto, un porcentaje junto al número de casos indica qué porcentaje total de los casos en la muestra están incluidos en esa configuración y todas las anteriores a ella en la lista. c. Una columna vacía (“y”) en la que debemos indicar si cada configuración es suficiente para causar el resultado (más detalles sobre esto en el punto 7 más abajo). d. Una columna (“consist”) que reporta el índice de consistencia para cada configuración. Si todas las variables son dicotómicas (0,1) este índice indica la proporción de casos en cada grupo que presentan el resultado de interés 1. 1 En el análisis de lógica difusa, la medida de consistencia es un poco más compleja, pero representa la misma idea. Digamos que X es el grado de pertenencia difusa de cada caso a una configuración causal e Y representa el grado de pertenencia difusa de cada caso a la variable dependiente. El grado de consistencia para la configuración 1 e. Otras dos columnas (“pre” y “product”) con información adicional. 6. El siguiente paso es eliminar todas las configuraciones teóricamente posibles pero sin ejemplos en la base de datos, aquellas para las cuales number=0. (Si la muestra es muy grande, a veces es conveniente eliminar también las configuraciones que presentan un solo caso, para evitar hacer inferencias causales a partir de situaciones excepcionales, pero esto no debe hacerse en los estudios convencionales con una N pequeña). Para eliminar estas filas, uno debe: a. Asegurarse de que la tabla está ordenada por el número de casos, de mayor a menor. (De no ser así, uno puede simplemente ubicarse en cualquier celda correspondiente a la columna “number”, e ir a SortDescending). b. Ubicarse, en la columna “number” en el primer caso (comenzando desde arriba) que tenga un valor de 0 (o quizás de 1 si la N es muy grande). c. Ir a EditDelete current row to last row y todas las filas entre la fila seleccionada y la última fila serán eliminadas de la tabla. 7. Seleccionar cualquier valor en la columna “consist” e ir a SortDescending. Esto reordenará la tabla a partir de los valores de consistencia. En la columna “y” ingresar valores de 1 para todas las filas en el rango superior que tengan niveles de consistencia indicando una relación causal de suficiencia. Con variables dicotómicas y pocos casos, la relación de suficiencia requiere una consistencia de 1.00 (es decir que todos los casos en cierta configuración causal presentan el resultado de interés). Con una N grande, o con conjuntos difusos, se puede utilizar un umbral menor (pero posiblemente no menor a 0.8). Completar la columna “y” con valores de 1 para todas las configuraciones suficientes y de 0 para todas las configuraciones por debajo del umbral de suficiencia. IV. Minimización de las configuraciones causales 8. Cuando la tabla esté completa, seleccionar el botón “Standard Analyses”. 9. Una ventana especial permite establecer si nuestra hipótesis sostiene estrictamente que cada variable independiente debe producir el resultado cuando el factor está presente o cuando está ausente. La tercera columna (preferida) permite que el análisis considere las dos posibilidades. 10. Los resultados del análisis aparecen en la ventana “fs/QCA”. El programa generará tres resultados alternativos. a. El primero, denominado “COMPLEX SOLUTION” ofrece la solución más detallada. Esta solución asume que todas las configuraciones sin casos (es decir, number=0) hubiesen producido la ausencia del resultado de interés, lo que impide la simplificación de las configuraciones suficientes tal como han sido observadas a partir de contrafácticos. b. El segundo, denominado “PARSIMONIOUS SOLUTION” ofrece la solución teórica más simple. Esta solución asume que todas las configuraciones sin casos hubiesen producido el resultado de interés, lo que permite un máximo de simplificación de las configuraciones suficientes a partir de contrafácticos. causal se calcula como la división entre (1) la suma total del valor mínimo de X e Y para todos los casos, y (2) la suma total del valor de X para todos los casos. 2 c. Una tercera solución “INTERMEDIATE SOLUTION” propone una alternativa de complejidad intermedia, asumiendo que sólo algunas configuraciones sin casos hubiesen producido el resultado de interés. En esta tercera sección, la complejidad de las configuraciones causales resultantes es mayor que en la solución parsimoniosa. A veces la solución intermedia resulta más sencilla que la solución más compleja, pero a veces esta alternativa no es posible, y la solución es la misma. d. Todos estos resultados están respaldados por la evidencia empírica disponible. La selección de uno de estos resultados por sobre los otros dependerá de la decisión de aceptar ciertos supuestos simplificadores. Dichos supuestos implican contrafácticos, y por ende deben ser defendidos a partir del conocimiento histórico de otros casos o del marco teórico, en el contexto de investigación concreto (Ragin y Sonnett 2004). 11. En las tres instancias, la estructura del reporte es la misma: ********************** *TRUTH TABLE ANALYSIS* ********************** File: C:/Metodo Comparativo/Ejemplo1.csv Variables en el modelo Número de filas en la tabla de verdad (configuraciones con casos observados) Model: Y = f(X1, X2, X3) Rows: 5 Algoritmo de minimización Algorithm: Quine-McCluskey Valor analizado para la variable dependiente (Y=1) True: 1 Solución más compleja --- COMPLEX SOLUTION -- Frecuencia minima (configuraciones con menos casos fueron eliminadas) frequency cutoff: 1.000000 Consistencia mínima (configuraciones con valores inferiores fueron consideradas como nosuficientes) Base de datos empelada consistency cutoff: 1.000000 raw unique coverage coverage ---------- ---------X1*x3+ 0.833333 0.333333 X1*X2 0.666667 0.166667 solution coverage: 1.000000 solution consistency: 1.000000 consistency ----------1.000000 1.000000 Soluciones (ver punto 12 a continuación) 12. Al final de cada reporte aparece una tabla con las configuraciones suficientes identificadas en el análisis. a. A la izquierda aparecen cada una de las configuraciones identificadas. La tipografía minúscula siempre indica la ausencia del atributo. El signo + indica disyunción (∨) y el signo * indica conjunción (∧). En el ejemplo anterior, las configuraciones identificadas son (X1∧¬X3) ∨ (X1∧X2). b. Nótese que en este ejemplo X1 es un atributo común, y las dos configuraciones pueden resumirse como X1∧(¬X3∨X2). Esto indica que X1 3 es potencialmente una condición necesaria identificada en el análisis (mientras que X2 o ¬X3 son intercambiables). c. La columna “raw coverage” indica que la configuración X1∧¬X3 permite explicar el 83% de los casos positivos (Y=1) en la muestra (en este ejemplo, cinco casos de los seis que presentan el resultado de interés). La configuración X1∧X2 permite explicar el 67% de los casos positivos (cuatro de los seis casos). d. La columna “unique coverage” (en general menos útil) se refiere a la proporción de casos positivos explicados exclusivamente por cada una de las configuraciones (es decir, no cubiertos por las otras explicaciones). e. La columna “consistency” indica el grado de consistencia para cada configuración causal simplificada. El valor de 1.00 indica que todos los casos que presentan la configuración X1∧¬X3 presentan también el resultado de interés (lo mismo ocurre para X1∧X2). f. Al pie de la tabla, el índice “Solution coverage” nos indica la proporción de casos con el resultado de interés que son explicados por el modelo final. En este ejemplo, todos los casos en los que Y=1 (6/6) son explicados por la hipótesis X1∧(¬X3∨X2)→Y (Ragin 2006). g. Por el contrario, el índice “Solution consistency” nos indica la proporción de casos incluidos en la solución—X1∧(¬X3∨X2)—que presentan el resultado de interés. En este ejemplo, dado que cada una de las soluciones parciales tiene una consistencia del 100%, la solución agregada también tiene una consistencia del 100%. Como cada uno de los casos incluidos en alguna de las dos configuraciones parciales presenta también el resultado de interés, todos los casos incluidos en la configuración final presentan este resultado. 13. La diferencia entre los índices de cobertura y de consistencia radica en que el primero refleja la proporción total de casos positivos explicados, mientras que el segundo refleja la proporción de casos con una cierta configuración causal que son positivos. En el cálculo de ambos índices, el numerador está dado por el número de casos positivos que presentan la configuración causal propuesta. Pero en el índice de cobertura, el denominador es el total de casos positivos, mientras que en índice de consistencia, el denominador es el total de casos en la configuración causal. Por ejemplo, supongamos que el resultado final del análisis es X*Z+X*w. Si el índice final de cobertura es de .75 pero el índice final de consistencia es de 1.0, sabemos que todos los casos incluidos en la configuración X∧(Z∨¬W) presentan el resultado de interés, pero los casos explicados por esta configuración suficiente representan solamente el 75% del total de casos positivos (el 25% restante no puede ser explicado por ninguna otra configuración suficiente). En esta situación, no es posible inferir automáticamente que X sea una condición necesaria para Y, porque aunque este elemento esté presente en las dos configuraciones suficientes detectadas, las configuraciones detectadas no cubren todos los casos positivos (y no sabemos, sin analizar los datos, si el 25% restante presenta X o no). 14. Para una explicación detallada del procedimiento, véase el artículo de próxima publicación Qualitative Comparative Analysis Using Fuzzy Sets (Ragin 2008). 4 Referencias Ragin, Charles C. 2006. "Set Relations in Social Research: Evaluating Their Consistency and Coverage". Political Analysis 14 (3):291–310. Ragin, Charles C. 2008. "Qualitative Comparative Analysis Using Fuzzy Sets (fsQCA)." En Comparative Methods, comp. B. Rihoux y C. Ragin. Thousand Oaks, CA: Sage Publications. Ragin, Charles C. y John Sonnett. 2004. "Between Complexity and Parsimony: Limited Diversity, Counterfactual Cases, and Comparative Analysis." En Vergleichen in der Politikwissenschaft, comp. S. Kropp y M. Minkenberg. Wiesbaden: Verlag für Sozialwissenschaften. 5