Instrucciones para utilizar fs/QCA (versión 2

Anuncio
Instrucciones para utilizar fs/QCA (versión 2.0, 2007)
Aníbal Pérez Liñán, Universidad de Pittsburgh ([email protected])
Universidad de Salamanca (mayo 2009)
I. Datos
1. La base de datos debe ser guardada en formato Excel (datos separados por comas,
extensión .csv) o SPSS (en el formato separado por tabulaciones, extensión .dat)
2. Para leer los datos, ir a FileOpenData.
II. Selección de las variables en el modelo
3. Los datos aparecerán en una nueva ventana denominada “FS/QCA Data Sheet”.
Para analizar los datos, ir a AnalyzeFuzzy SetsTruth Table Algorithm.
4. La lista de variables disponible en la base de datos aparecerá en una nueva ventana
denominada “Select Variables”.
a. Seleccionar la variable dependiente como “Outcome” (si deseamos explicar
la ausencia de este resultado, ¬Y, en lugar de su presencia, debemos
marcar “Negate”).
b. Seleccionar las variables independientes como “Causal Conditions”. Es
conveniente no utilizar más de ocho variables independientes en un modelo.
c. Para cambiar la selección, utilizar “Reset”. Para proseguir, utilizar “Run”.
III. Identificación de las configuraciones suficientes en la tabla de verdad
5. Una nueva ventana (“Edit Truth Table”) mostrará la tabla de verdad. De izquierda a
derecha, las columnas de esta tabla representan:
a. Los valores posibles de cada una de las variables independientes (hasta
agotar todas las combinaciones posibles para la tabla de verdad).
b. El número de casos observado para cada configuración causal (en la
columna “number’). Cuando la tabla está ordenada de mayor a menor, lo
que ocurre por defecto, un porcentaje junto al número de casos indica qué
porcentaje total de los casos en la muestra están incluidos en esa
configuración y todas las anteriores a ella en la lista.
c. Una columna vacía (“y”) en la que debemos indicar si cada configuración es
suficiente para causar el resultado (más detalles sobre esto en el punto 7
más abajo).
d. Una columna (“consist”) que reporta el índice de consistencia para cada
configuración. Si todas las variables son dicotómicas (0,1) este índice indica
la proporción de casos en cada grupo que presentan el resultado de interés 1.
1
En el análisis de lógica difusa, la medida de consistencia es un poco más compleja,
pero representa la misma idea. Digamos que X es el grado de pertenencia difusa de
cada caso a una configuración causal e Y representa el grado de pertenencia difusa de
cada caso a la variable dependiente. El grado de consistencia para la configuración
1
e. Otras dos columnas (“pre” y “product”) con información adicional.
6. El siguiente paso es eliminar todas las configuraciones teóricamente posibles pero
sin ejemplos en la base de datos, aquellas para las cuales number=0. (Si la
muestra es muy grande, a veces es conveniente eliminar también las
configuraciones que presentan un solo caso, para evitar hacer inferencias causales
a partir de situaciones excepcionales, pero esto no debe hacerse en los estudios
convencionales con una N pequeña). Para eliminar estas filas, uno debe:
a. Asegurarse de que la tabla está ordenada por el número de casos, de mayor
a menor. (De no ser así, uno puede simplemente ubicarse en cualquier
celda correspondiente a la columna “number”, e ir a SortDescending).
b. Ubicarse, en la columna “number” en el primer caso (comenzando desde
arriba) que tenga un valor de 0 (o quizás de 1 si la N es muy grande).
c. Ir a EditDelete current row to last row y todas las filas entre la fila
seleccionada y la última fila serán eliminadas de la tabla.
7. Seleccionar cualquier valor en la columna “consist” e ir a SortDescending. Esto
reordenará la tabla a partir de los valores de consistencia. En la columna “y”
ingresar valores de 1 para todas las filas en el rango superior que tengan niveles de
consistencia indicando una relación causal de suficiencia. Con variables dicotómicas
y pocos casos, la relación de suficiencia requiere una consistencia de 1.00 (es decir
que todos los casos en cierta configuración causal presentan el resultado de
interés). Con una N grande, o con conjuntos difusos, se puede utilizar un umbral
menor (pero posiblemente no menor a 0.8). Completar la columna “y” con valores
de 1 para todas las configuraciones suficientes y de 0 para todas las configuraciones
por debajo del umbral de suficiencia.
IV. Minimización de las configuraciones causales
8. Cuando la tabla esté completa, seleccionar el botón “Standard Analyses”.
9. Una ventana especial permite establecer si nuestra hipótesis sostiene estrictamente
que cada variable independiente debe producir el resultado cuando el factor está
presente o cuando está ausente. La tercera columna (preferida) permite que el
análisis considere las dos posibilidades.
10. Los resultados del análisis aparecen en la ventana “fs/QCA”. El programa generará
tres resultados alternativos.
a. El primero, denominado “COMPLEX SOLUTION” ofrece la solución más
detallada. Esta solución asume que todas las configuraciones sin casos (es
decir, number=0) hubiesen producido la ausencia del resultado de interés, lo
que impide la simplificación de las configuraciones suficientes tal como han
sido observadas a partir de contrafácticos.
b. El segundo, denominado “PARSIMONIOUS SOLUTION” ofrece la solución
teórica más simple. Esta solución asume que todas las configuraciones sin
casos hubiesen producido el resultado de interés, lo que permite un máximo
de simplificación de las configuraciones suficientes a partir de contrafácticos.
causal se calcula como la división entre (1) la suma total del valor mínimo de X e Y para
todos los casos, y (2) la suma total del valor de X para todos los casos.
2
c. Una tercera solución “INTERMEDIATE SOLUTION” propone una alternativa
de complejidad intermedia, asumiendo que sólo algunas configuraciones sin
casos hubiesen producido el resultado de interés. En esta tercera sección, la
complejidad de las configuraciones causales resultantes es mayor que en la
solución parsimoniosa. A veces la solución intermedia resulta más sencilla
que la solución más compleja, pero a veces esta alternativa no es posible, y
la solución es la misma.
d. Todos estos resultados están respaldados por la evidencia empírica
disponible. La selección de uno de estos resultados por sobre los otros
dependerá de la decisión de aceptar ciertos supuestos simplificadores.
Dichos supuestos implican contrafácticos, y por ende deben ser defendidos a
partir del conocimiento histórico de otros casos o del marco teórico, en el
contexto de investigación concreto (Ragin y Sonnett 2004).
11. En las tres instancias, la estructura del reporte es la misma:
**********************
*TRUTH TABLE ANALYSIS*
**********************
File: C:/Metodo Comparativo/Ejemplo1.csv
Variables en el
modelo 
Número de filas
en la tabla de
verdad
(configuraciones
con casos
observados)
Model: Y = f(X1, X2, X3)
Rows:
5
Algoritmo de
minimización
Algorithm: Quine-McCluskey
 Valor analizado
para la variable
dependiente (Y=1)
True: 1
Solución más
compleja 
--- COMPLEX SOLUTION -- Frecuencia minima
(configuraciones
con menos casos
fueron eliminadas)
frequency cutoff: 1.000000
Consistencia
mínima 
(configuraciones
con valores
inferiores
fueron
consideradas
como nosuficientes)
 Base de datos
empelada
consistency cutoff: 1.000000
raw
unique
coverage
coverage
---------- ---------X1*x3+
0.833333
0.333333
X1*X2
0.666667
0.166667
solution coverage: 1.000000
solution consistency: 1.000000
consistency
----------1.000000
1.000000
 Soluciones (ver
punto 12 a
continuación)
12. Al final de cada reporte aparece una tabla con las configuraciones suficientes
identificadas en el análisis.
a. A la izquierda aparecen cada una de las configuraciones identificadas. La
tipografía minúscula siempre indica la ausencia del atributo. El signo + indica
disyunción (∨) y el signo * indica conjunción (∧). En el ejemplo anterior, las
configuraciones identificadas son (X1∧¬X3) ∨ (X1∧X2).
b. Nótese que en este ejemplo X1 es un atributo común, y las dos
configuraciones pueden resumirse como X1∧(¬X3∨X2). Esto indica que X1
3
es potencialmente una condición necesaria identificada en el análisis
(mientras que X2 o ¬X3 son intercambiables).
c. La columna “raw coverage” indica que la configuración X1∧¬X3 permite
explicar el 83% de los casos positivos (Y=1) en la muestra (en este ejemplo,
cinco casos de los seis que presentan el resultado de interés). La
configuración X1∧X2 permite explicar el 67% de los casos positivos (cuatro
de los seis casos).
d. La columna “unique coverage” (en general menos útil) se refiere a la
proporción de casos positivos explicados exclusivamente por cada una de
las configuraciones (es decir, no cubiertos por las otras explicaciones).
e. La columna “consistency” indica el grado de consistencia para cada
configuración causal simplificada. El valor de 1.00 indica que todos los
casos que presentan la configuración X1∧¬X3 presentan también el
resultado de interés (lo mismo ocurre para X1∧X2).
f.
Al pie de la tabla, el índice “Solution coverage” nos indica la proporción de
casos con el resultado de interés que son explicados por el modelo final. En
este ejemplo, todos los casos en los que Y=1 (6/6) son explicados por la
hipótesis X1∧(¬X3∨X2)→Y (Ragin 2006).
g. Por el contrario, el índice “Solution consistency” nos indica la proporción de
casos incluidos en la solución—X1∧(¬X3∨X2)—que presentan el resultado
de interés. En este ejemplo, dado que cada una de las soluciones parciales
tiene una consistencia del 100%, la solución agregada también tiene una
consistencia del 100%. Como cada uno de los casos incluidos en alguna de
las dos configuraciones parciales presenta también el resultado de interés,
todos los casos incluidos en la configuración final presentan este resultado.
13. La diferencia entre los índices de cobertura y de consistencia radica en que el
primero refleja la proporción total de casos positivos explicados, mientras que el
segundo refleja la proporción de casos con una cierta configuración causal que son
positivos. En el cálculo de ambos índices, el numerador está dado por el número de
casos positivos que presentan la configuración causal propuesta. Pero en el índice
de cobertura, el denominador es el total de casos positivos, mientras que en índice
de consistencia, el denominador es el total de casos en la configuración causal. Por
ejemplo, supongamos que el resultado final del análisis es X*Z+X*w. Si el índice
final de cobertura es de .75 pero el índice final de consistencia es de 1.0, sabemos
que todos los casos incluidos en la configuración X∧(Z∨¬W) presentan el resultado
de interés, pero los casos explicados por esta configuración suficiente representan
solamente el 75% del total de casos positivos (el 25% restante no puede ser
explicado por ninguna otra configuración suficiente). En esta situación, no es
posible inferir automáticamente que X sea una condición necesaria para Y, porque
aunque este elemento esté presente en las dos configuraciones suficientes
detectadas, las configuraciones detectadas no cubren todos los casos positivos (y
no sabemos, sin analizar los datos, si el 25% restante presenta X o no).
14. Para una explicación detallada del procedimiento, véase el artículo de próxima
publicación Qualitative Comparative Analysis Using Fuzzy Sets (Ragin 2008).
4
Referencias
Ragin, Charles C. 2006. "Set Relations in Social Research: Evaluating Their
Consistency and Coverage". Political Analysis 14 (3):291–310.
Ragin, Charles C. 2008. "Qualitative Comparative Analysis Using Fuzzy Sets (fsQCA)."
En Comparative Methods, comp. B. Rihoux y C. Ragin. Thousand Oaks, CA:
Sage Publications.
Ragin, Charles C. y John Sonnett. 2004. "Between Complexity and Parsimony: Limited
Diversity, Counterfactual Cases, and Comparative Analysis." En Vergleichen in
der Politikwissenschaft, comp. S. Kropp y M. Minkenberg. Wiesbaden: Verlag für
Sozialwissenschaften.
5
Descargar