Computers & Geosciences 35 (2009) 475– 486 Contents lists available at ScienceDirect Computers & Geosciences journal homepage: www.elsevier.com/locate/cageo Clustering analysis of the seismic catalog of Iran Anooshiravan Ansari a,×,1, Assadollah Noorzad b, Hamid Zafarani a b b International Institute of Earthquake Engineering and Seismology (IIEES), Tehran, Iran School of Civil Engineering, Faculty of Engineering, University of Tehran, Tehran, Iran article info abst r act Article history: Received 2 August 2007 Received in revised form 26 December 2007 Accepted 14 January 2008 La identificación y clasificación de diferentes provincias sismotectónicas con características similares en una región de interés es uno de los temas más importantes en los estudios de riesgo sísmico. Esta tarea generalmente se realiza a través de interpretaciones subjetivas basadas en información geológica y sismotectónica. Los datos sísmicos son una de las fuentes de información más importantes donde la inspección visual de estos datos es una forma tradicional de identificación de las provincias sismotectónicas. El reconocimiento de patrones de datos sísmicos históricos e instrumentales de una manera no subjetiva proporciona resultados más sólidos y es una herramienta más adecuada para extraer conocimiento útil de una gran cantidad de datos. En este estudio, la aplicabilidad y la utilidad de un algoritmo de agrupamiento difuso no supervisado en la identificación de patrones ocultos entre el catálogo sísmico histórico e instrumental de Irán se examina mediante una comparación entre los resultados de dicho análisis y los modelos propuestos para las provincias sismotectónicas de Irán. El método de agrupamiento utilizado en este estudio se basa en la modificación difusa de la estimación de máxima verosimilitud y tiene la capacidad de detectar grupos elípticos con tamaño variable. Además, los índices difusos de hipervolumen y densidad de partición se utilizan como índices de rendimiento para seleccionar el mejor número de clústeres. La comparación entre los resultados de los análisis de agrupamiento y los modelos sismotectónicos de Irán revela que es posible dividir los epicentros de eventos sísmicos distribuidos espacialmente en distintos. Estas unidades de partición, o grupos, generalmente están en buen acuerdo con las provincias sismotectónicas propuestas de Irán y muestran características sismotectónicas importantes de la meseta iraní, además de cierta información oculta. Este tipo de análisis proporciona una base matemática para las interpretaciones sismológicas de las actividades sísmicas. Además, las comparaciones de los resultados del análisis de agrupamiento entre datos históricos, la combinación de datos históricos e instrumentales y terremotos mayores con una magnitud mayor que 5.0 muestra que los mejores resultados se lograrán mediante el agrupamiento de eventos importantes (es decir, Mw45.0) ( & 2008 Elsevier Ltd. All rights reserved. Keywords: Fuzzy clustering analysis Seismotectonic provinces Seismic catalog Historical events Instrumental events 1. Introducción La minería de datos, a veces denominada descubrimiento de conocimiento en bases de datos, se refiere a la extracción no trivial de información implícita, previamente desconocida y potencialmente útil de los datos (Piatetski-Shaprio y Frawley, 1991). El papel de la minería de datos en la ciencia se destaca más por el hecho de que los avances en la tecnología de medición proporcionan una gran cantidad de datos que no pueden ser interpretados por herramientas simples como la inspección visual. Este problema también es cierto en el campo de la sismología, y como resultado, es necesario utilizar herramientas de minería de datos más robustas y objetivas para las interpretaciones sismológicas basadas en datos sísmicos. A este respecto, el análisis de agrupamiento es una herramienta eficiente para disminuir la dimensionalidad de la información y extraer información y patrones ocultos entre una gran cantidad de observaciones (Berkhin, 2002). La categorización de algoritmos de agrupamiento no es directa ni canónica. Desde un punto de vista, los algoritmos de agrupamiento se pueden dividir en métodos jerárquicos y particionales (Berkhin, 2002; Jain et al., 1999). La agrupación jerárquica crea una jerarquía de agrupación o, en otras palabras, un árbol de agrupaciones, también conocido como dendrograma. Cada nodo del clúster contiene clústeres secundarios. Tal enfoque permite explorar datos en diferentes niveles de granularidad. Zamani y Heshami (2004) proporcionaron agrupaciones jerárquicas de información geofísica y geológica de Irán y representaron diferentes resultados con diferentes resoluciones. El principal inconveniente de los métodos jerárquicos está relacionado con la vaguedad de los criterios de terminación. Otra desventaja de estos métodos es que la mayoría de los algoritmos jerárquicos no vuelven a visitar los clústeres construidos con el fin de mejorarlos. Por el contrario, los métodos de partición mejoran gradualmente los grupos. Con datos apropiados, esto da como resultado grupos de alta calidad (Berkhin, 2002). Desde el punto de vista del etiquetado y la asignación, los algoritmos de agrupamiento se pueden dividir en métodos difíciles y difusos. En el agrupamiento duro, cada dato pertenece a uno y solo un agrupamiento mientras está en agrupamiento difuso; cada dato pertenece a diferentes grupos con diferentes grados de membresía. Desde otro punto de vista, si los algoritmos de agrupamiento no se basan en el conocimiento a priori y en los parámetros definidos por el usuario, se clasifican como métodos no supervisados (Berkhin, 2002; Jain et al.,1999). Dzwinel y col. (2003, 2005) han utilizado diferentes métodos de agrupación y reconocimiento de patrones para extraer información sobre las características dinámicas de las fallas con el propósito general de predicción de terremotos. En este estudio, tenemos la intención de examinar la utilidad de un algoritmo de agrupación poderoso y famoso, que es un método difuso no supervisado y propuesto por Gath y Giva (1989), en el campo de la sismología al agrupar los datos sísmicos de la meseta iraní. La meseta iraní es una de las zonas más propensas a terremotos del mundo. Sin embargo, las características sísmicas de todas las partes de esta meseta no son las mismas. En otras palabras, la distribución espacial y de magnitud de los eventos sísmicos en diferentes regiones de esta meseta no son similares. Como resultado, en el campo de la sismología y con la aplicación de análisis de riesgos, es una tarea esencial dividir esta meseta en diferentes regiones con características sismológicas más o menos similares, que se llaman provincias sismotectónicas (Nowroozi, 1976; Berberian, 1976). En este contexto, la zonificación sísmica de una región es en realidad una búsqueda de identificación de religiones similares. Existen diferentes fuentes de información para este problema de identificación de zonas similares como la información geológica, que es casi cualitativa y depende de la interpretación específica de los individuos. Otra fuente importante de información son las observaciones cuantitativas de eventos sísmicos. Estos datos incluyen la ubicación, la magnitud y otras características numéricas de un evento Se han desarrollado mapas de zonificación tectónica de diferentes formas, cada uno con sus propias características, para Irán. Aunque todos estos mapas muestran algunas de las estructuras tectónicas más básicas, existen diferencias entre ellas, debido principalmente a sus definiciones y evaluaciones cualitativas, que son subjetivas (Zamani y Heshami, 2000, 2004). En esta situación, proporcionar un análisis no subjetivo y robusto entre los datos sísmicos cuantitativos puede tener una gran contribución en la reducción de estas deficiencias. Los datos sísmicos cuantitativos son valiosos porque cada evento es el resultado de la acción de diferentes factores geológicos y sismológicos. Por lo tanto, si los datos sísmicos se utilizan para definir provincias sismotectónicas de una región, los efectos de todos los factores conocidos y desconocidos se tienen en cuenta implícitamente. Así, mediante la identificación de patrones ocultos de estos datos, se construirá un modelo representativo de todos los factores involucrados. La desventaja de este enfoque es que el catálogo sísmico no está completo y no es posible construir un modelo completo basado en datos incompletos. Como resultado, siempre es necesario considerar la información geológica cualitativa para proponer modelos sismológicos más realistas y completos. En este documento, los autores tienen la intención de buscar la respuesta a esta pregunta que es posible proporcionar algunas evidencias no subjetivas entre el catálogo sísmico de Irán, mediante el uso de análisis de agrupamiento, ayudando a mejores interpretaciones sismológicas y zonificación sísmica de esta región ? Los principios del agrupamiento difuso de datos se revisan en la Sección 2 y el marco matemático del algoritmo de agrupamiento no supervisado Gath y Giva (GG) se presenta en la Sección 3. Además, las razones para elegir el método GG para agrupar datos sísmicos de Irán se discuten en la Sección 4. A continuación, se presentan las características del catálogo sísmico de Irán y las provincias sismotectónicas y sismotectónicas correspondientes de Irán se describen brevemente en la Sección 5. Los puntos prácticos sobre el análisis de agrupamiento del catálogo sísmico de Irán se mencionan en la Sección 6, y en la Sección 7, se hace una comparación entre los resultados del análisis de agrupamiento y los modelos de sismotectonc más famosos y documentados de Irán. 2.Principios de agrupamiento difuso de datos El objetivo de los métodos de agrupación es proporcionar, en cierto sentido, particiones óptimas de un conjunto de datos. En general, estos métodos deben buscar clústeres cuyos miembros sean similares y cercanos entre sí. En otras palabras, el análisis de clúster se basa en la partición de una colección de puntos de datos en varios subgrupos, donde los objetos que pertenecen a un clúster muestran un cierto grado de cercanía o similitud. Siempre hay una pregunta sobre la selección de la medida de similitud basada en las características de los datos. En realidad, la medida de similitud controla cómo se forman los grupos. Otro problema en la agrupación es decidir la cantidad óptima de agrupaciones que mejor se adapta a un conjunto de datos. La mayoría de los algoritmos de agrupación producen una partición basada en los parámetros de entrada, como el número de agrupaciones y la posición inicial de los centros de las agrupaciones. Sin embargo, el número de grupos y el carácter y la ubicación de los centroides de grupo no siempre se pueden definir a priori. Una solución a este problema es ejecutar el algoritmo de agrupamiento de forma repetitiva con un número diferente de grupos y conjetura inicial de centroides y luego comparar los resultados con un índice de validez bien definido. Este enfoque de agrupamiento generalmente se conoce como "agrupamiento no supervisado" (Gyenesei, 2000). Desde otro punto de vista, en el agrupamiento no difuso o duro, los puntos de datos, también conocidos como vectores de características, se dividen en grupos nítidos, donde cada punto de datos pertenece exactamente a un grupo. En la agrupación difusa, los puntos de datos pueden pertenecer a más de un grupo y las calificaciones de membresía se asignan a cada punto de datos, lo que indica el grado en que los puntos de datos pertenecen a los diferentes grupos. Como resultado, los métodos de agrupamiento difuso son más adecuados para los casos en que los límites entre las diferentes clases no son nítidos (Bezdek, 1981; Bezdek et al., 1999). Para la minería de datos y el análisis de agrupamiento entre catálogos sísmicos, se deben considerar algunos problemas. Primero, entre un área sísmica activa, hay diferentes regiones con diferentes tasas de sismicidad. Como resultado, la densidad y el número de eventos no son los mismos en diferentes regiones o provincias sismotectónicas. Un algoritmo de agrupamiento apropiado debería ser capaz de manejar este tipo de datos. Segundo, los eventos sísmicos se distribuyen principalmente entre diferentes segmentos de fallas mayores. En consecuencia, no es un enfoque adecuado agrupar los datos sísmicos en particiones circulares y, como resultado, en la selección de la medida de similitud, se debe prestar atención para considerar esta característica no homogénea de los datos sísmicos. En tercer lugar, aunque se percibe que existen diferentes regiones sismo-tectónicas entre la meseta iraní, sin embargo, no existe un acuerdo común entre diferentes investigadores ni sobre el número de estas provincias sismotectónicas ni sobre la ubicación y forma de ellas. Este tema se discutirá más específicamente más adelante durante la revisión de diferentes modelos seimotectónicos de Irán. Como resultado, no es razonable usar métodos de agrupamiento duro, que trazan límites nítidos entre diferentes particiones. Este problema está más respaldado por el hecho de que las características sísmicas en una región varían gradualmente y no hay cambios abruptos en estas características. Berkhin (2002) y Jain et al. (1999) revisaron diferentes métodos de agrupamiento. El algoritmo propuesto por Gath y Giva (1989) tiene algunas ventajas en comparación con otros métodos similares. Este método también se conoce como "descomposición de la mezcla gaussiana" (GMD) (Bezdek et al., 1999; Dumitrescu et al., 2000) y pertenece a métodos no supervisados de agrupación difusa. Este algoritmo tiene en cuenta la variabilidad en las formas del clúster, las densidades del clúster y la cantidad de puntos de datos en cada uno de los subconjuntos. Además, los prototipos de clasificación para el inicio del proceso iterativo se generan a través de un proceso de aprendizaje no supervisado. Este algoritmo es capaz de construir grupos hiper-elipsoidales, que toman la forma de elipse en casos bidimensionales. La formación de grupos elípticos es una gran ventaja del método GG. Como se percibe, la principal causa de La ocurrencia de un terremoto es la ruptura de la corteza terrestre, que se conoce como fallas. La proyección de los planos de fallas mayores en la superficie del suelo es siempre segmentos de línea. La concentración de algunos eventos alrededor de segmentos de línea es una indicación de la existencia de una falla en esa región (Aki, 1979). En este caso, un grupo largo y estrecho puede ajustarse mejor a los datos. Por otro lado, si hay una zona con fallas en una región, hay una distribución dispersa de eventos en esa región. En este caso, los grupos circulares son la mejor opción para la representación de dicha región. Ellipse es una forma geométrica, que es capaz de modelar un rango de formas desde círculos hasta segmentos de línea. Por lo tanto, es la mejor forma geométrica para representar los grupos sismológicos. Dado que el método GG identifica (a) Clúster con método difuso de K-medias (Bezdek, 1981), utilizando el seguimiento no supervisado de los prototipos de clasificación inicial. (b) Grupo con la modificación difusa de la estimación de máxima verosimilitud. (c) Calcule la medida del desempeño. (d) Aumente K (número de subgrupos) y repita los pasos (a) - (c) hasta obtener el valor óptimo de las medidas de rendimiento. El diagrama de flujo de este procedimiento iterativo se proporciona en la Fig. 1. De manera similar, el diagrama de flujo del método K-medias se muestra en la Fig. 2. Debe mencionarse que los pasos computacionales de agrupamiento con la modificación difusa de la probabilidad máxima la estimación es exactamente la misma que el método de K-medias, excepto en el cálculo de la distancia entre dos puntos o vectores de características, donde en el método de Kmedias, el operador de distancia es euclidiano y en la agrupación con la modificación de la estimación de máxima verosimilitud, la distancia se define de la siguiente manera: donde Xj, j = 1, y, N son puntos de datos y Vi, i = 1, y, K son centros de agrupación. N es el número de puntos de datos o vectores de características y K es el número de centros de agrupación o prototipos de agrupación. Pi es una probabilidad a priori de seleccionar el grupo i-ésimo y se define como (i | Xj) es la probabilidad posterior de seleccionar el iésimo grupo dado el j-ésimo vector de característica (punto de datos). Fi es una matriz de covarianza difusa de i-ésimo cluster y se da Comparando la ecuación (9) con la ecuación de calcular el grado de membresía en el segundo paso del diagrama de flujo que se muestra en la Fig. 1 revela que para q = 2, h (i | Xj) es similar a uij. Como resultado, en el algoritmo GG y para el cálculo de d2ðXj; ViÞ en el primer paso, se utilizan los valores de membresía obtenidos del método K-means. En los pasos siguientes, los valores de h (i | Xj) se calculan en cada paso de acuerdo con la distancia exponencial obtenida en el paso anterior. La matriz de covarianza de la ecuación. (10) es en realidad la matriz característica de una forma cuadrática elíptica. Los componentes del diámetro mayor son proporcionales al eje de un elipsoide y los componentes del diámetro menor controlan la dirección del elipsoide en el espacio. El determinante de esta matriz es proporcional al hipervolumen de este elipsoide. Como resultado, cuanto mayor es el valor de este determinante, más dispersos son los puntos de datos. Los criterios para la "partición óptima" de los datos en subgrupos se basan en tres requisitos subyacentes: (1) separación clara entre los grupos resultantes, (2) volumen mínimo de los grupos y (3) número máximo de puntos de datos concentrados en la vecindad de los centros de grupos. Basado en los conceptos de hipervolumen y densidad, Gath y Giva (1989) propusieron el hipervolumen difuso índice de rendimiento FHV como i¼1 donde Fi es una matriz de covarianza difusa del iésimo conglomerado definido en la ecuación. (10) y Kmax es el número máximo de grupos. Kmax 1=2 FHV ¼ ½detðFiÞ] 1 = 2 (11) Determine the maximum F —i 1 ðX j — V i Þ=2] number of clusters, Kmax (7) Compute the average and standard deviation of whole data set prototype at the average location of all feature vectors. Choose an additional classification prototypes equally distant (with a given number of standard deviations) from all data points. Run the K-means algorithm Cluster with the fuzzy modification of the maximum likelihoodestimation Compute performance index Yes K<Kmax No FINISH unsupervised tracking of initial classification prototypes Choose the first initial cluster 6 A. Ansari et al. / Computers & Geosciences 35 (2009) 475 –486 Fig. 2. Flowchart of fuzzy K-means and clustering with fuzzy modification of maximum likelihood estimation. En general, el valor máximo de PD corresponde al número óptimo de grupos, c *. Se puede esperar que una partición difusa tenga un valor FHV bajo si la partición está ajustada. Un mínimo para este índice idealmente indicaría una buena partición. Un programa FORTRAN del método de agrupación GG (Gath_Giva.f90) puede recuperarse mediante una solicitud por correo electrónico al primer auto Gath y Giva (1989) también propusieron el índice de densidad de partición como 2. Seismic catalog of Iran (12) El catálogo sísmico de Irán se puede dividir en partes históricas (anteriores a 1900) e instrumentales (posteriores a 1900). Se realizaron muchos análisis de reubicación en la parte instrumental del catálogo (Niazi y Basford, 1968; Nowroozi, 1976; Ambraseys, 2001; Engdahl et al., 1998, 2006). Engdahl y col. (1998, 2006) se han reubicado y reevaluado K N XX 480 A. Ansari et al. / Computers & Geosciences 35 (2009) 475 –486 más de 2000 terremotos registrados de manera instrumental ocurrieron en la región de Irán durante el período 1918–2004, con especial atención a la profundidad focal, utilizando una técnica avanzada para la reubicación de terremotos 1-D. Estos resultados son más precisos que los reportados por agencias internacionales o locales.. En este estudio, para eventos anteriores a 1900, se han utilizado las ubicaciones del epicentro reportadas por Berberian (1995b). La ubicación, la magnitud y las fallas de todos los eventos preinstrumentales se evaluaron con base en todos los datos macrosísmicos publicados e información de estudios de campo y, como resultado, este catálogo preinstrumental es tan completo y consistente como lo permiten los datos disponibles (Berberian, 1995b). Este catálogo consta de 261 eventos prehistóricos (11,000 a. C. – 550 a. C.) e históricos (550 a. C. – AD 1990). Para seis eventos que ocurrieron entre 1900 y 1918, las ubicaciones del epicentro se han extraído del catálogo reubicado de Nowroozi (1976). Además, para otros 31 eventos en este período, las ubicaciones del epicentro se han extraído del catálogo de Zare (1998), que se basan principalmente en Ambraseys y Melville (1982). Todos los demás eventos entre los períodos 1918–2004 son los mismos que los eventos reubicados de Engdahl et al. (1998, 2006). En resumen, la base de datos utilizada en este estudio contiene 292 eventos anteriores a 1918 y 2117 eventos instrumentales reubicados después de 1918 Desde el punto de vista de la precisión, el catálogo consta de diferentes partes de acuerdo con la incertidumbre de determinar la ubicación del epicentro de diferentes eventos. Para la parte histórica, la magnitud y la ubicación de los terremotos se determinaron con base en documentos descriptivos crónicos, mientras que la ubicación de los eventos del siglo XX se determinó a través de información instrumental. En la Tabla 1, se representa la incertidumbre de las ubicaciones del epicentro para diferentes rangos de magnitud versus diferentes períodos de tiempo. Para eventos históricos, estos valores se obtienen de la precisión de la ubicación informada por Berberian (1995b). Para los terremotos instrumentales, los valores mencionados en esta tabla son el promedio de la desviación estándar de los epicentros reportados por Engdahl et al. (2006) para el período de tiempo especificado y el intervalo de magnitud especificado.. 42 40 38 36 34 32 30 28 26 24 42 64 56 62 50 52 54 60 46 48 58 44 64 56 62 50 52 54 60 46 48 58 44 42 40 38 36 34 32 30 28 26 24 42 Table 1 Uncertainty of the epicenter locations (km) in the seismic catalog of Iran En la Fig. 3 (a), las ubicaciones del epicentro de los eventos históricos se trazan junto con las principales fallas principales de Irán compiladas por Berberian y Yeats (1999). La gráfica similar se representa en la Fig. 3 (b) para eventos instrumentales. Como se indica en estas cifras, los terremotos más pequeños a moderados se concentraron en el oeste y suroeste de Irán, mientras que los eventos severos tuvieron lugar Time period o1800 1800–1918 1918–1964 1964–1980 41980 Magnitude (Mw) 3–4 4–5 5–6 6–7 47 – – – – 13.5 – 50–70 – 9.5 8.5 50–75 30–50 – 6.5 5.0 35–55 25–45 18.0 4.5 4.0 30–50 20–40 12.0 5.5 3.5 A. Ansari et al. de / Computers 35 (2009) 475–486 Fig. 3. (a) Distribución de epicentros sísmicos a partir registros& Geosciences de las provincias sismotectónicas de históricos (11000 a.C.-1918 d.C.) cortesía de Berberian (1995b). La sismicidad está ampliamente limitada a los cinturones de las monta ñas Zagros, Alborz y Kopeh Dagh y a las estrechas zonas N -S que rodean a Dasht-eLut. (b) Distribución de epicentros de terremotos registrados 4. Análisis de agrupamiento del instrumentalmente (1918–2004) del catálogo de Engdahl et al. (1998, Irán 2006). La distribución es similar a la de la Fig. 1a, con sismicidad limitada a regiones montañosas, y con muy pocos epicentros en el centro de Irán y Dasht-e-Lut. casi en el norte y este del país (Masson et al., 2005). 3. Seismicity of Iran and seismotectonic models La meseta iraní es una amplia zona de deformación por compresión. La meseta es un cinturón relativamente débil afectado por varios movimientos orogénicos de colisión y se está comprimiendo entre dos bloques de Arabia y Eurasia con mayor rigidez. En esta meseta, la deformación activa no se distribuye uniformemente, y ninguna falla individual acomoda un gran porcentaje de convergencia de placa (Berberian, 1976). La sismicidad se concentra principalmente debajo del cinturón de empuje activo de piel delgada de Zagros en el suroeste, el cinturón de empuje activo de piel delgada de Kopeh Dagh en el noreste, en parte en Turkmenistán, el cinturón de empuje Alborz que bordea la corteza oceánica de la depresión del Caspio Sur, el Provincia de rango y cuenca de piel gruesa del centro de Irán con terremotos de deslizamiento inverso y deslizamiento de huelga (Berberian y Yeats, 1999) y en el Makran, donde una parte remanente de la litosfera oceánica de Tethys se subduce hacia el norte por debajo del sureste de Irán central (Byrne) et al., 1992). La sismicidad y las características sismotectónicas de Irán han sido discutidas por varios autores, utilizando diferentes métodos. Stocklin (1968), Takin (1972), Berberian (1976) y Mirzaei et al. (1998) han propuesto provincias brutas simplificadas con un pequeño número de divisiones. Nowroozi (1976, 1979) y Tavakoli y Ghafory-Ashtiany (2000) sugirieron zonas más elaboradas. Nowroozi (1976, 1979) presentó 23 provincias sismotectónicas para Irán sobre la base de 638 terremotos reubicados y 24 epicentros de terremotos localizados instrumentalmente que ocurrieron en Irán entre 1920 y 1972 teniendo en cuenta la información geológica, las características fisiográficas, la distribución de las cúpulas de sal, las estructuras tendencias y fallas activas. Este modelo de provincias sismotectónicas fue criticado por Berberian (1979). En este estudio, el modelo sismotectónico de Berberian (1976), que es representativo de modelos simplificados y de zonificación sísmica de Nowroozi (1976) como representante de modelos elaborados, se seleccionan para comparación, verificación y discusión sobre los resultados del análisis de agrupamiento. En realidad, estos modelos son los modelos más documentados y conocidos Irán. 481 catálogo sísmico de En esta sección, se presentan los resultados del análisis de agrupamiento del catálogo sísmico de Irán. Se realizaron más de 40 análisis de agrupamiento utilizando diferentes combinaciones del catálogo disponible. En todos los casos, solo se consideran las distribuciones espaciales de eventos porque este atributo es la única característica completa de los eventos en el catálogo sísmico. En otras palabras, otros atributos como la magnitud y la profundidad no se informan para muchos terremotos, especialmente en la parte histórica del catálogo. Al usar esta información, asumimos implícitamente que existe una correlación entre las características sismotectónicas y la distribución espacial de los eventos en la región (Aki, 1979). Sin embargo, se debe enfatizar que para la determinación de las provincias sismotectónicas en una región, se debe considerar toda la información cuantitativa y cualitativa. En este documento, los autores tienen la intención de mostrar que incluso en el simple caso de agrupar las ubicaciones del epicentro del terremoto, es posible explorar información útil, que puede ayudar a una mejor interpretación de la información y los juicios posteriores sobre la forma y ubicación de provincias sismotectónicas. De todos los resultados de agrupamiento, se consideran tres casos diferentes: (1) los eventos históricos anteriores a 1918 (Caso HE) con 292 puntos de datos, (2) todos los eventos del catálogo que contienen eventos históricos e instrumentales (Caso AE) con 2409 eventos, y (3) todos los eventos del catálogo que contienen eventos históricos e instrumentales con magnitudes superiores a 5.0 (Caso AEG5) con 832 terremotos. La selección de eventos con una magnitud mayor a 5.0 es similar a la de Zamani y Heshami (2004). La agrupación de todos los datos sísmicos y aquellos con una magnitud superior a 5.0 facilita el estudio de los efectos de los terremotos grandes y pequeños en la zonificación sismotectónica de Irán. Entre los eventos históricos, hay muchos eventos con las mismas coordenadas. Como ejemplo, en 1890, hay 51 eventos con 36.62 de latitud y 54.64 de longitud. Tales casos solo se observan en la parte histórica del catálogo porque, de acuerdo con los documentos históricos, no hay suficientes evidencias para discriminar entre choques principales y grandes réplicas de un terremoto. Desde el punto de vista del análisis de agrupación, este tipo de datos impone la formación de agrupaciones muy locales y pequeñas y provoca la matriz de covarianza difusa de la ecuación. (10) volverse singular. Como resultado, no es posible calcular la distancia exponencial de la ecuación. (7) porque requiere calcular el inverso de la matriz de covarianza difusa. Para resolver este problema, solo se eligió un evento representativo de este tipo de datos y se ignoraron otros puntos de datos equivalentes en el análisis. Se supone que el número máximo de grupos en todos los análisis es 18. 482 A. Ansari et al. / Computers & Geosciences 35 (2009) 475 –486 42 42 40 40 38 38 36 36 34 34 32 32 30 30 28 28 26 24 42 26 44 46 48 50 52 54 56 58 60 62 64 24 42 42 42 40 40 38 38 36 36 34 34 32 32 30 30 28 28 26 26 24 42 44 46 48 50 52 54 56 58 60 62 64 Fig. 4. Fuzzy cluster analysis of historical seismic data (HE case) with 7 partitions, (a) comparison with Nowroozi (1976) model, (b) comparison with Berberian (1976) model. Green dashed lines are drawn between center of a specific cluster and those data points whose membership functions are maximum in association with that cluster. compilado de Berberian y Yeats (1999) junto con las provincias sismotectónicas propuestas por Nowroozi (1976) y Berberian (1976). También las elipses de conglomerados dibujadas en base a la matriz de covarianza difusa de cada conglomerado se muestran en estas figuras. Los ejes de cada elipse son iguales a la raíz cuadrada de los valores propios de la matriz de covarianza difusa y las direcciones de los ejes son paralelas a sus vectores propios. En estas figuras, las líneas de puntos verdes se dibujan entre el centro de un grupo específico y aquellos puntos de datos cuyas funciones de membresía son máximas en asociación con 24 42 44 46 48 50 52 44 46 48 50 52 54 54 58 60 62 64 56 58 60 62 64 56 Fig. 5. Fuzzy cluster analysis of all seismic data (AE case) with 16 partitions, (a) comparison with Nowroozi (1976) model, (b) comparison with Berberian (1976) model. Green dashed lines are drawn between center of a specific cluster and those data points whose membership functions are maximum in association with that cluster. ese grupo. La figura 7 muestra la densidad de partículas y los índices de hipervolumen difusos para estos tres casos 4. Comparación de los resultados de los análisis de agrupamiento con los modelos sismotectónicos de Irán En esta sección, se hace una comparación entre los resultados de los análisis de agrupamiento y dos modelos seimotectónicos seleccionados de Nowroozi (1976) y Berberian (1976). Esta comparación solo se realiza con respecto a la correspondencia entre la ubicación del grupo resultante y las provincias sismotectónicas propuestas; aunque es posible representar otras comparaciones desde puntos de vista estructurales y geológicos. En este sentido, las comparaciones se A. Ansari et al. / Computers & Geosciences 35 (2009) 475–486 483 42 40 38 36 34 32 30 28 26 24 42 46 48 50 52 54 56 58 60 62 44 52 56 62 64 50 54 60 46 48 58 44 64 42 40 38 36 34 32 30 28 26 24 42 Fig. 6. Fuzzy cluster analysis of all seismic data with magnitude greater than 5 (AEG5 case) with 17 partitions, (a) comparison with Nowroozi (1976) model, (b) comparison with Berberian (1976) model. Green dashed lines are drawn between center of a specific cluster and those data points whose membership functions are maximum in association with that cluster. realizan en Zagros, Irán central y Alborz El cinturón de montaña Zagros se subdivide en dos partes de "cinturón plegado activo Zagros" y "zona de empuje Zagros" de Berberian (1976) basado en características estructurales-geológicas. Según Berberian (1976) "no existe una relación obvia entre los terremotos y la estructura" debido a la "deficiencia de datos y la relación desconocida sótano-superficie" (véase también Berberian, 1995a). Sin embargo, considerando los resultados de agrupamiento de los casos HE, AE y AEG5 en las Figs. 4–6, es obvio que algunos grupos están claramente formados en el "cinturón plegado activo de Zagros" y en la "zona de empuje de Zagros". Incluso en el caso de agrupar todos los datos sísmicos de Irán (caso AE), el cinturón de Zagros se divide en dos grandes grupos y tres pequeños. Las ubicaciones de los grandes grupos son consistentes con el provincias antes mencionadas. Los autores tienen la intención de resaltar este hecho de que mediante la implementación de una herramienta de minería de datos adecuada, es posible descubrir los patrones ocultos de los datos. En el modelo sismotectónico de Nowroozi (1976), el cinturón de Zagros se dividió en 3 provincias. En comparación con los resultados de los análisis de agrupamiento, existe un buen acuerdo entre la ubicación de las series plegadas de Fars y las series plegadas de Zagros altas. Sin embargo, no hay ningún grupo en la serie plegada de la ladera. Realizando análisis de agrupamiento, en muchos casos como AEG5, se formó un grupo en el norte de la ciudad de Bandar Abbas (281N, 571E). Ni y Barazangi (1986) señalaron que hay una tasa extraordinariamente alta de sismicidad en esta región. Con base en estas evidencias, Khademi y Nayyeri (1997) propuso la provincia de Khurgu en este lugar. La existencia de una región separada en esta área, nombrada como la "Línea de Omán" por Engdahl et al. (2006), también puede confirmarse con base en los trabajos recientes de Molinaro et al. (2004) y Regard et al. (2004, 2005). Sin 484 A. Ansari et al. / Computers & Geosciences 35 (2009) 475 –486 embargo, ni en el modelo sismotectónico de Jackson, 2004). Berberian (1976) ni en las provincias Considerando la sismicidad del centro de Irán, propuestas de Nowroozi (1976), no hay Berberian (1976) subdividió esta región en cuatro provincia en esta área, aunque Nowroozi provincias. Al revisar los resultados del caso de EA, un (1976) mencionó que el sistema de falla de grupo coincide con la ubicación de los rangos del este empuje Zagros se bifurca en la vecindad de de Irán, sin embargo, este grupo se extiende a la este punto. t al. (2004) y Regard et al. (2004, provincia de Makran. También hay tres grupos 2005). Sin embargo, ni en el modelo sismotectónico de Berberian (1976) ni en las formando en los límites de la provincia central de Irán. provincias propuestas de Nowroozi (1976), no Sin embargo, en el caso de AEG5, se forma un grupo en hay provincia en esta área, aunque Nowroozi la ubicación de los rangos del este de Irán y también se (1976) mencionó que el sistema de falla de forma un grupo separado en la región de Makran. En empuje Zagros se bifurca en la vecindad de comparación con el modelo sismotáctico de Nowroozi este punto. . Los resultados de los casos de (1976), la mejor coincidencia observada con los AE y AEG5 representan la formación de un resultados del caso AEG5, donde se forman grupos en grupo en el noroeste del cinturón de Zagros las provincias de Makran, Irán Oriental y Ferdows. que puede abordarse como la subdivisión de Ahvaz representada por Berberian (1976). La ubicación, orientación y tamaño de este grupo es el mismo en los casos AE y AEG5. Otro En la región de Alborz, los casos AE y AEG5 señalan la resultado interesante se obtuvo al considerar formación de un grupo en Kope Dagh, dos grupos casi el caso de AE en la vecindad de la falla de perpendiculares en el sureste y suroeste del Mar Caspio Kazerun. La línea Kazerun es un valle y un grupo vertical en la frontera de Irán y Turquía. transversal de unos 200 km de largo que Nuevamente, existe un buen acuerdo entre la ubicación cruza oblicuamente las líneas anticlinales de estos grupos y las provincias sismotectónicas regulares del cinturón de pliegues de Zagros correspondientes propuestas por Berberian (1976) y en el suroeste de Irán (Baker et al., 1993). Los Nowroozi (1976). vectores de deslizamiento en los terremotos de La similitud entre los resultados de la agrupación de los huelga-deslizamiento en esta región son casos de AE y AEG5 es una indicación sobre la solidez diferentes de los terremotos vecinos de falla del análisis. En otras palabras, en el caso de AE, el inversa, lo que sugiere que la Línea Kazerun análisis de agrupamiento se realizó entre 2409 puntos acomoda parte del acortamiento entre Arabia de datos, mientras que en el AEG5, el número de y el centro de Irán por un alargamiento de las puntos de datos fue de solo 832, que es montañas de Zagros paralelas al ataque ( aproximadamente un tercio del caso de AE. Como Baker et al., 1993). Nowroozi (1976) mencionó resultado, la semejanza entre las características que en las cercanías de Kazerun, la actividad generales obtenidas mediante análisis de sísmica es intensa, pero no aparece una conglomerados de estos dos casos puede interpretarse tendencia clara. Sin embargo, la formación de como la solidez del análisis de conglomerados realizado un grupo separado en la ubicación de la falla en el presente estudiO de Kazerun en el caso de EA es evidencia de la existencia de una tendencia clara en esta región. Con respecto a la sismicidad y la sismotectónica del este de Irán, los análisis de agrupamiento aplicados también pudieron reconocer tres sistemas de fallas activas y zonas tectónicas sísmicamente activas en el este de Irán. (1) el activo sistema de falla de impacto lateral izquierdo Dasht-e-Bayaz, que se rompió a lo largo de 120 km durante dos terremotos importantes en 1968 y 1979 (Walker et al., 2004). Este sistema de falla se detecta más claramente en el caso de AE. (2) el sistema de fallas Nayband-Gowk, que acomoda una gran cantidad de cizalladura entre el centro de Irán y Afganistán que surge debido a la colisión entre Arabia y Eurasia y en la que ha habido una serie de terremotos recientes (Walker y Jackson, 2002, 2004). Este sistema de falla se detecta en los casos AE y AEG5 con la orientación correcta y en el caso HE con orientación girada. (3) Los resultados del caso AEG5 también revelan el existencia del sistema de fallas Neh en la parte oriental de Irán también (Walker y 485 A. Ansari et al. / Computers & Geosciences 35 (2009) 475–486 x 105 3.5 8 x 104 7 6 Particle Density Fuzzy Hypervolume 3 2.5 2 5 4 3 1.5 2 1 1 5 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Cluster No. Cluster No. x 105 3.5 3 Particle Density 4.5 Fuzzy Hypervolume x 103 4 3.5 3 2.5 2 1.5 1 2.5 0.5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Cluster No. Cluster No. 4 5 4.5 x 10 x 10 13 12 11 Particle Density Fuzzy Hypervolume 4 3.5 3 10 9 8 7 2.5 6 5 2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Cluster No. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Cluster No. Fig. 7. Fuzzy hyper-volume and particle density indexes. (a) HE case, (b) AE case and (c) AEG5 case. Horizontal axis indicates number of clusters in each iteration of GG method. Resumen y conclusión En este documento, se examinan las capacidades de un algoritmo de agrupamiento difuso no supervisado, propuesto por Gath y Giva (1989), a través de la minería de datos entre el catálogo sísmico histórico e instrumental de Irán. En este sentido, se presentaron los resultados de los análisis de agrupamiento en eventos históricos, eventos instrumentales e históricos y terremotos mayores con una magnitud mayor a 5.0. Con el fin de verificar y validar los resultados de los análisis de agrupamiento, se hace una comparación entre 486 A. Ansari et al. / Computers & Geosciences 35 (2009) 475 –486 los resultados del estudio actual con dos provincias sismotectónicas bien conocidas y bien documentadas propuestas por Berberian (1976) y Nowroozi (1976). Además, se prestó especial atención en la selección de la base de datos sísmicos de Irán. En consecuencia, el catálogo histórico de Berberian (1995b) además de los eventos instrumentales reubicados reportados por Engdahl et al. (1998, 2006), que son los informes más precisos sobre las ubicaciones del epicentro de los terremotos en Irán, se utilizan para diferentes análisis de agrupamiento. La comparación entre los resultados de los análisis de agrupamiento y los modelos sismotectónicos revela el hecho de que parte de la información oculta puede extraerse mediante análisis de agrupamiento difuso, que no puede identificarse mediante la inspección visual de la distribución espacial de los epicentros de terremotos. De hecho, se descubrió que los resultados de la agrupación basada en la distribución de los principales los terremotos (M45) tienen la mayor correspondencia con los modelos sismotectónicos propuestos. Este problema podría estar respaldado por el hecho de que el catálogo histórico de Irán no está completo (Berberian y Yeats, 2001) y la sismicidad. de una región está dominada por los grandes terremotos. Se debe enfatizar que los análisis de agrupamiento, incluso aquellos que utilizan métodos no supervisados, son herramientas sólidas, que pueden usarse para interpretaciones mejores y más confiables sobre las observaciones, y de ninguna manera son suficientes para la supervisión de expertos y oráculos. Estos métodos solo proporcionan herramientas matemáticas, objetivas, confiables y adecuadas para mejores interpretaciones geológicas y sismológicas. References Aki, K., 1979. Characterization of barriers on an earthquake fault. Journal of Geophysical Research 84, 6140–6148. Ambraseys, N.N., 2001. Reassessment of earthquakes, 1900–1999, in the eastern Mediterranean and the Middle East. Geophysical Journal International 145, 471–485. Ambraseys, N.N., Melville, C.P., 1982. A History of Persian Earthquakes. Cambridge University Press, Cambridge, England, 219pp. Baker, C., Jackson, J., Priestley, K., 1993. Earthquakes on the Kazerun line in the Zagros Mountains of Iran: strike–slip faulting within a fold-and-thrust belt. Geophysical Journal International 115, 41–61. Berberian, M., 1976. Contribution to Seismotectonics of Iran (part II). Geological Survey of Iran, Report no. 39, 518pp. Berberian, M., 1979. Discussion of the paper A. A. Nowroozi, 1976 ‘‘Seismotectonic Provinces of Iran’’. Bulletin of the Seismological Society of America 69, 293–297. Berberian, M., 1995a. Master ‘blind’ thrust faults hidden under the Zagros folds: active basement tectonics and surface morphotectonics. Tectonophysics 241, 193–224. Berberian, M., 1995b. Natural Hazards and the First Earthquake Catalogue of Iran, vol. 1, Historical Hazards in Iran Prior to 1900. International Institute of Earthquake Engineering and Seismo- logy (IIEES), Tehran, Iran, 603+66pp /http://www.najarian.com/ Publications/Berberian%201995%20Catalogue.pdfS. Berberian, M., Yeats, R.S., 1999. Patterns of historical earthquake rupture in the Iranian Plateau. Bulletin of Seismological Society of America 89, 120–139. Berberian, M., Yeats, R.S., 2001. Contribution of archaeological data to studies of earthquake history in the Iranian Plateau. Journal of Structural Geology 23, 563–584. Berkhin, P., 2002. Survey of clustering data mining techniques. Technical report, Accrue Software, San Jose, CA, 56pp. Bezdek, J.C., 1981. Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press, New York, 272pp. Bezdek, J.C., Keller, J.M., Krishnapuram, R., Pal, N.R., 1999. Fuzzy Models and Algorithms for Pattern Recognition and Image Processing. Kluwer Academic Publishers, Norwell, MA, 792pp. Byrne, D.E., Sykes, L.R., Davis, D.M., 1992. Great thrust earthquakes and aseismic slip along the plate boundry of Makran subduction zone. Journal of Geophysical Research 79, 449–478. Dumitrescu, D., Lazzerini, B., Jain, L.C., 2000. Fuzzy Sets and their Application to Clustering and Training. CRC Press, Inc., Boca Raton, FL, 622pp. Dzwinel, W., Yuen, D.A., Kaneko, Y., Boryczko, K., Ben -Zion, Y., 2003. Multi-resolution clustering analysis and 3-D visualization of multitudinous synthetic earthquakes. Visual Geosciences 8, 1–32. Dzwinel, W., Yuen, D.A., Boryczko, K., Ben-Zion, Y., Yoshioka, S., Ito, T., 2005. Cluster analysis, data-mining, multi-dimensional visualization of earthquakes over space, time and feature space. Nonlinear Processes in Geophysics 12, 117–128. Engdahl, E.R., Van der Hilst, R.D., Buland, R.P., 1998. Global teleseismic earthquake relocation with improved travel times and procedures for depth determination. Bulletin of the Seismological Society of America 88, 722–743. Engdahl, E.R., Jackson, J.A., Myers, S.C., Bergman, E.A., Priestley, K., 2006. Relocation and assessment of seismicity in the Iran region. Geophysical Journal International 167, 761–778. Gath, L., Giva, A.B., 1989. Unsupervised optimal fuzzy clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence 11, 773– 781. Gyenesei, A., 2000. Fuzzy partitioning of quantitative attribute domains by cluster goodness index. Turku Center for Computer Science, TUSC Technical Report, no 368, 13pp. Jain, A.K., Murty, M.N., Flynn, P.J., 1999. Data clustering: a review. ACM Computing Surveys 31, 264–323. Khademi, M.R., Nayyeri, A., 1997. Seismotectonic provinces of Iran, Iranian National Committee on Large Dams (IRCOLD), Report 12, 55pp. Masson, F., Chery, J., Hatzfeld, D., Martinod, J., Vernant, P., Tavakoli, F., Ghafory-Ashtiani, M., 2005. Seismic versus aseismic deformation in Iran inferred from earthquakes and geodetic data. Geophysical Journal International 160, 217–226. Mirzaei, N., Gao, M., Chen, Y.-T., 1998. Seismic source regionalization for seismic zoning of Iran: major seismotectonic Provinces. Journal of Earthquake Prediction Research 7, 465–495. Molinaro, M., Guezou, J.C., Leturney, P., Eshaghi, S.A., de Lamotte, D.F., 2004. The origin of changes in structural style across the Bandar A. Ansari et al. / Computers & Geosciences 35 (2009) 475–486 Abbas syntaxis, SE Zagros (Iran). Marine and Petroleum Geology 21, 735–752. Ni, J., Barazangi, M., 1986. Seismotectonics of the Zagros continental collision zone and a comparison with the Himalayas. Journal of Geophysical Research 91, 8205–8218. Niazi, M., Basford, J.R., 1968. Seismicity of Iranian Plateau and Hindu Kush region. Bulletin of the Seismological Society of America 58, 417–426. Nowroozi, A.A., 1976. Seismotectonic provinces of Iran. Bulletin of the Seismological Society of America 66, 1249–1276. Nowroozi, A.A., 1979. Reply to M. Barbarian comporison between instrumental and macroseismic epicenter. Bulletin of the Seismological Society of America 69, 641–649. Piatetski-Shaprio, G., Frawley, W.J. (Eds.), 1991. Knowledge Discovery in Databases. AAAI Press/The MIT Press, Monlo Park, CA, 525pp. Regard, V., Bellier, O., Thomas, J.-C., Abrassi, M.R., Mercier, J., Shabanian, E., Fegghi, K., Soleymani, S., 2004. Accommodation of Arabia–Eurasia convergence in the Zagros–Makran transfer zone, SE Iran: a transition between collision and subduction through a young deforming system. Tectonics 23, TC4007. Regard, V., Bellier, O., Thomas, J.-C., Bourlès, D., Bonnet, S., Abbassi, M.R., Braucher, R., Mercier, J., Shabanian, E., Soleymani, Sh., Feghhi, Kh., 2005. Cumulative right-lateral fault slip rate across the Zagros– Makran transfer zone: role of the Minab–Zendan fault system in accommodating Arabia–Eurasia convergence in southeast Iran. Geophysical Journal International 162, 177–203. Stocklin, J., 1968. Structural history and tectonics of Iran, a review. The American Association of Petroleum Geologists Bulletin 52, 1229–1258. 487 Takin, M., 1972. Iranian geology and continental drift in the Middle East. Nature 235, 147–150. Tavakoli, B., Ghafory-Ashtiany, M., 2000. Seismic Hazard Assessment of Iran. International Institute of Earthquake Engineering and Seismology (IIEES), Tehran, IR Iran /http://www.iiees.ac.ir/english/bank/ report.htmlS. Walker, R., Jackson, J., 2002. Offset and evolution of the Gowk fault, S.E. Iran: a major intra-continental strike–slip system. Journal of Structural Geology 24, 1677–1698. Walker, R., Jackson, J., 2004. Active tectonics and late Tertiary strain distribution in central and eastern Iran. Tectonics 23, TC5010. Walker, R., Jackson, J., Baker, C., 2004. Active faulting and seismicity of the Dasht-e-Bayaz region, eastern Iran. Geophysical Journal International 157, 265–282. Wang, W., Zhang, Y., 2007. On fuzzy clustering validity indices. Fuzzy Sets and Systems 158, 2095–2117. Zamani, A., Heshami, N.A., 2000. Comparison between seismicity, topographic relief and gravity anomalies of the Iranian Plateau. Tectonophysics 327, 25–36. Zamani, A., Heshami, N.A., 2004. Computer-based self-organized tectonic zoning: a tentative pattern recognition for Iran. Computers and Geosciences 30, 705–718. Zare, M., 1998. Contribution a l’etdue des mouvements forts en Iran; du catalogie aux lois d’attenuation (Contribution to the seismotectonic of Iran; from catalog to attenuation law). Ph.D. Dissertation, Universite Joseph Fourier, France, 239pp.