Departamento de Lenguajes y Sistemas Informáticos e Ingeniería del Software Indicadores Formales de Complejidad Esencial de Sistemas de Información: ¿un punto de encuentro entre usuarios y desarrolladores? Dr. Pedro Salvetto 1 Agenda 1. INTRODUCCIÓN Y MOTIVACIÓN 2. PLANTEAMIENTO DEL PROBLEMA 3. DESARROLLO DE LA SOLUCIÓN 4. EVALUACIÓN DE LA PRECISIÓN Y CONSISTENCIA DE LOS MODELOS 5. VALIDACIÓN EMPÍRICA DE LOS INDICADORES DE COMPLEJIDAD DE LOS DATOS Y LOS MODELOS EMPÍRICOS DE ESTIMACIÓN 6. DISCUSIÓN Y CONCLUSIONES 2 El Riesgo y la Estimación 3 EL PROBLEMA (1) Las técnicas de estimación más extendidas actualmente a) se apoyan en la premisa - poco realista - de estabilidad de requisitos y datos b) requieren expertos humanos, y c) se basan en métricas disponibles recién en la fase de diseño temprano del sistema (2) Los modelos de estimación incorporan numerosos parámetros intentando modelar las fuentes de variación (3) Cono de incertidumbre [BOE81, BOE89, SOM01]. (4) No disponemos de modelos de estimación e indicadores de complejidad para sistemas de gestión intensiva de datos (SIGID) independientes del juicio experto y aplicables en etapas muy tempranas del ciclo de vida. 4 DESARROLLO DE LA SOLUCIÓN CÍRCULOS VICIOSOS QUE CONTRIBUYEN A EXPLICAR LA CRISIS DEL SOFTWARE 6 NUESTRA PROPUESTA 7 NUESTRAS PREGUNTAS DE INVESTIGACIÓN P1 MÉTRICAS INDEPENDIENTES DEL JUICIO EXPERTO RECOLECTABLES AUTOMÁTICA Y TEMPRANAMENTE P2 INDICADORES DE COMPLEJIDAD ESENCIAL P3 PREDICCIÓN DE TIEMPO Y ESFUERZO P4 RESTRICCIONES A LOS PROCESOS DE CONSTRUCCIÓN Y ESTIMACIÓN 8 Algunas Fuentes de Variabilidad en los Procesos de Construcción y Estimación HERRAMIENTAS DE ESPECIFICACIÓN FORMAL Y GENERACIÓN AUTOMÁTICA DE CÓDIGO QUE APOYAN UNA METODOLOGÍA ESTÁNDAR y LA OBTENCIÓN AUTOMÁTICA DE MÉTRICAS • Tecnología • Metodología • Métricas no automáticas • Modelos de Estimación MÉTRICAS E INDICADORES DE COMPLEJIDAD OBTENIDOS AUTOMÁTICAMENTE • Expertos en estimación PRESCINDENCIA DEL JUICIO EXPERTO • Grupos de Desarrollo (no comprendemos sus procesos internos) • Producto intangible • Procesos repetibles raros • Proyectos replicables pero no repetibles GRUPOS DE DESARROLLO REDUCIDOS CON USUARIOS INTEGRADOS A ELLOS METODOLOGÍAS ÁGILES NO ACTUAMOS SOBRE ELLOS 9 10 PIRÁMIDE CONCEPTUAL HIPÓTESIS ACERCA DE LOS SISTEMAS OBSERVADOS Hipótesis IV-1: Son SIGIDES (Sistema de Gestión Intensiva de Datos Esencial) Hipótesis IV-2: Fueron desarrollados con una metodología ágil que parte de las visiones de datos de los usuarios apoyada por una Herramienta de Especificación Formal y Desarrollo de SIGID (HEFDS) Hipótesis IV-3: Fueron desarrollados por grupos reducidos (de entre 3 y 5 personas) con usuarios integrados a los mismos basándose exclusivamente en las solicitudes de los usuarios 11 Alcance de la Investigación y Ámbito de Aplicación de sus Resultados Sistemas sujetos a Restricciones en el Tiempo de Respuesta Sistemas que Incluyen Algoritmos de Alta Complejidad Sistemas Desarrollados en torno a Bases de Datos Relacionales Sistemas de Gestión Intensiva en Datos (SIGID) Sistemas de Gestión Intensiva en Datos Esenciales (SIGIDES) SIGIDES Desarrollados mediante Herramientas de Especificación Formal y Desarrollo de SIGID (HEFDS) 12 Análisis de los Resultados del Trabajo de Campo y Depuración de Observaciones Las métricas obtenidas pueden clasificarse en dos categorías: a) tomadas automáticamente a partir de la especificación. b) que involucraban la estimación o recuperación desde registros 13 NUESTRAS HIPÓTESIS DE TRABAJO 14 La Complejidad Esencial ¿Qué semántica tiene? Funcionalidad Potencial de los Datos del Sistema Complejidad de la Estructura de los Datos del Sistema Expresividad de los Datos del Sistema Complejidad Cognitiva de la Estructura de los Datos del Sistema 15 MODELOS DE ESTIMACIÓN MUY TEMPRANA DE TIEMPO Y ESFUERZO e INDICADORES DE COMPLEJIDAD ESENCIAL DE LA ESTRUCTURA DE LOS DATOS NOMENCLATURA MODELOS 17 DESARROLLO DE LOS MODELOS • ANÁLISIS EXPLORATORIO DE LOS DATOS • SELECCIÓN ALEATORIA DE UN 70% DE LAS OBSERVACIONES PARA DESARROLLO • REGRESIÓN LINEAL SOBRE VARIABLES TRANSFORMADAS MEDIANTE LOGARITMO 18 FORMA GENERAL DE LOS MODELOS DE ESTIMACIÓN TEMPRANA g b c d e f VD=a EMI VR DRT RD NA NT INDICADOR DE COMPLEJIDAD ESENCIAL DE LA ESTRUCTURA DE LOS DATOS IC E D = D R T d e f RD NA NT g b c V D = a E M I V R IC E D V D = α IC E D β POST MORTEM b c d e f g h V D = a E M I V R FO R IF FO R A N IFA N IC E D 19 CARACTERÍSTICAS DE LOS MODELOS • ESTÁTICOS Y GLOBALES • NO REQUIEREN JUICIO EXPERTO • LAS MÉTRICAS PUEDEN OBTENERSE AUTOMÁTICA Y MUY TEMPRANAMENTE • COMETEN (PARA LA POBLACIÓN OBSERVADA) ERRORES RELATIVOS MENORES AL 30% • NO SE OBSERVA RELACIÓN ENTRE LOS ERRORES RELATIVOS Y LA MAGNITUD DE LA VARIABLE ESTIMADA O LOS INDICADORES DE COMPLEJIDAD • NO SON PESIMISTAS NI OPTIMISTAS • CALIFICAN COMO EXCELENTES DE ACUERDO A LOS CRITERIOS DE CONTE ET AL (1986) • SE VERIFICÓ EMPÍRICAMENTE QUE CON 99% DE CONFIANZA LAS DIFERENCIAS ENTRE LAS MEDICIONES FINALES, ESTIMACIONES TEMPRANAS Y POST MORTEM PUEDEN SER ATRIBUIDAS AL AZAR Y A EFECTOS PRÁCTICOS NO EXISTE DIFERENCIA PARA LA POBLACIÓN OBSERVADA 20 CONTRIBUCIÓN A LA EXPLICACIÓN DE LA VARIABLE DEPENDIENTE (ESTIMACIÓN TEMPRANA) • ICED EXPLICA CASI LA TOTALIDAD DE LA VARIACIÓN • VR CONTRIBUYE DE FORMA IMPORTANTE • EMI REALIZA UNA CONTRIBUCIÓN MENOR 21 CONTRIBUCIÓN A LA EXPLICACIÓN DE LA VARIABLE DEPENDIENTE (ESTIMACIÓN POST MORTEM) • ICED EXPLICA CASI LA TOTALIDAD DE LA VARIACIÓN • VR CONTRIBUYE DE FORMA IMPORTANTE • EMI REALIZA UNA CONTRIBUCIÓN MENOR • LAS MÉTRICAS POST MORTEM CASI NO CONTRIBUYEN 22 CARACTERÍSTICAS DE LOS ICED • NO CONTIENEN INFORMACIÓN AJENA AL NEGOCIO • SON MUY TEMPRANOS • CORRELACIONAN MUY BIEN CON TIEMPO Y ESFUERZO • NO REQUIEREN JUICIO EXPERTO • NO DEPENDEN DEL CONJUNTO DE VISIONES DE DATOS DE USUARIO DEL QUE SE PARTA 23 CORRELACIONAN CON TIEMPO Y ESFUERZO 12 20 4 1 1 15 4 17 3 8 20 2 10 3 7 2 3 6 16 2 18 R2 lineal = 0,919 14 13 5 11 LNTIEMPO LNESFUERZO 4 15 4 2 8 2 5 2 7 19 1 9 17 12 14 6 R2 lineal = 0,897 3 10 13 18 9 16 11 19 0 1 4 5 6 LNICEDE 7 4 5 LNICEDT 6 7 24 DOMINA NA ICEDE ≅ ICEDT ≅ NA DRT 2 2 NT NA DRT 2,5 RD 2 0,2 NT 0,3 25 ESTIMACIÓN DE ESFUERZO 27 TODA LA POBLACIÓN Error Relativo en Valor Absoluto 10,62% 11,39% 7,03% R2 0,966 0,25<e<=0,3 METEICEDE 0,13% 25,61% MEDIANA DESV EST 0,2<e<=0,25 MMRE 0,15<e<=0,2 MAX 0,1<e<=0,15 MIN 0,05<e<=0,1 EX MODELO e<=0,05 CAL CONTE 6 3 5 4 1 1 30% 45% 70% 90% EX MEPMEICEDE 0,10% 21,12% 7,42% 4,13% 6,90% 0,968 11 3 1 4 95% 100% 1 NÚMERO DE OBSERVACIONES PORCENTAJE ACUMULADO NÚMERO DE OBSERVACIONES 55% 70% 75% 95% 100% PORCENTAJE ACUMULADO CASOS DE CONTRASTE Error Relativo en Valor Absoluto 12,06% 8,61% R2 0,25<e<=0,3 12,18% MEDIANA DESV EST 0,2<e<=0,25 METEICEDE 2,54% 25,61% MMRE 0,15<e<=0,2 MAX 0,1<e<=0,15 MIN 0,05<e<=0,1 EX MODELO e<=0,05 CAL CONTE 2 1 0 2 0 1 NÚMERO DE OBSERVACIONES 0,968 33% 50% 50% 83% EX MEPMEICEDE 3,62% 21,12% 12,97% 14,26% 6,65% 0,934 1 0 1 2 83% 100% 1 20% 20% 40% 80% 100% PORCENTAJE ACUMULADO NÚMERO DE OBSERVACIONES PORCENTAJE ACUMULADO 28 ESTIMACIÓN DE TIEMPO 30 TODA LA POBLACIÓN Error Relativo en Valor Absoluto 8,42% 6,96% 6,35% R2 0,986 0,25<e<=0,3 1,60% 27,64% MEDIANA DESV EST 0,2<e<=0,25 MMRE 0,15<e<=0,2 METTICEDT MAX 0,1<e<=0,15 EX MIN 0,05<e<=0,1 MODELO e<=0,05 CAL CONTE 9 5 4 1 0 1 45% 70% 90% 95% EX MEPMTICEDT 0,14% 17,27% 6,53% 4,58% 5,32% 0,992 11 5 1 95% 100% 3 NÚMERO DE OBSERVACIONES PORCENTAJE ACUMULADO NÚMERO DE OBSERVACIONES 55% 80% 85% 100% PORCENTAJE ACUMULADO CASOS DE CONTRASTE Error Relativo en Valor Absoluto 8,33% 8,99% R2 0,25<e<=0,3 10,09% MEDIANA DESV EST 0,2<e<=0,25 2,97% 27,64% MMRE 0,15<e<=0,2 MAX 0,1<e<=0,15 METTICEDT MIN 0,05<e<=0,1 EX MODELO e<=0,05 CAL CONTE 2 3 0 0 0 1 NÚMERO DE OBSERVACIONES 0.977 33% 83% 83% 83% 4 EX MEPMTICEDT 0,67% 17,27% 5,57% 3,60% 5,91% 1 0 1 83% 100% PORCENTAJE ACUMULADO NÚMERO DE OBSERVACIONES 0,976 67% 83% 83% 100% PORCENTAJE ACUMULADO 31 DISCUSIÓN Y CONCLUSIONES CONCLUSIONES 1. ACERCA DE LOS INDICADORES DE COMPLEJIDAD ESENCIAL 2. ACERCA DE LOS MODELOS DE ESTIMACIÓN 3. LINEAS DE TRABAJO FUTURAS a) GENERALIZACIÓN DE LOS RESULTADOS a) SISTEMAS DESARROLLADOS CON OTRAS HERRAMIENTAS b) SISTEMAS DESARROLLADOS BAJO LAS MISMAS CONDICIONES b) MODELOS DETALLADOS c) MODELOS FORMALES DE ESTIMACIÓN DE RIESGO FORTALEZAS Y DEBILIDADES FORTALEZAS a) b) c) d) e) f) g) h) i) RELEVANCIA DEL TEMA ENFOQUE EMPÍRICO OBSERVACIÓN DE PROYECTOS DE LA INDUSTRIA PLANTEAR RESTRICCIONES A LOS PROCESOS DE CONSTRUCCIÓN Y ESTIMACIÓN PARA RESULTAR PREDECIBLE ACOTACIÓN DEL ÁMBITO DE PROYECTOS A TRATAR Y ALCANCE ORIGINALIDAD ESTIMACIÓN POST MORTEM COMPROMISO CON LA CALIDAD DE LA INFORMACIÓN RIGUROSIDAD METODOLÓGICA PUBLICACIONES DEBILIDADES a) b) TAMAÑO DE LA MUESTRA TESIS EXTENSA Y POSIBLEMENTE ABURRIDA PUBLICACIONES INTERNATIONAL CONFERENCE ON COMPUTER SCIENDE SOFTWARE ENGINEERING, INFORMATION TECHNOLOGY, E-BUSINESS AND APPLICATIONS (CSITeA’03) SAL03 Salvetto, Pedro, Nogueira Juan C Size Estimation for Management Information Systems Based on Early Metrics :An Automatic Metric Tool Based in Formal Specifications. Proceedings of the International Conference on Computer Sience, Software Engineering,Information Technology, e-Business and Applications (CSITeA’03), june 5-7, 2003 Rio de Janeiro, Brazil in Cooperation with the International Society for Computers and Their Applications (ISCA), USA Winona State University (WSU), USA Universidad Nacional de San Luis (UNSL), Argentina Net of National Universities with Computer Science Careers (RedUNCI), Argentina. Pags 72-77.ISBN 0-9742059-0-7. IX CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIÓN 2003 (CACIC03) LAT03 Latorres, Enrique, Salvetto, Pedro, Larre Borges Uruguay, Nogueira Juan C, Una herramienta de apoyo a la gestión del proceso de desarrollo de software. CACIC 2003 6-10 octubre 2003 La Plata, Argentina XXX CONFERENCIA LATINOAMERICANA DE CIENCIAS DE LA COMPUTACIÓN (CLEI 2004) SAL04a Salvetto, Pedro, Nogueira Juan C, Segovia, Javier Modelos Automatizables de Estimación muy Temprana del Tiempo y Esfuerzo de Desarrollo de Software de Gestión (CLEI2004) 27 de septiembre – 1 de octubre 2004. Arequipa Perú. IV JORNADAS IBEROAMERICANAS DE INGENIERÍA DE SOFTWARE E INGENIERÍA DEL CONOCIMIENTO JIISIC’04 SAL04b Salvetto, Pedro, Nogueira Juan C, Segovia, Javier. Gestión de Cambios Apoyada por Modelos Formales de Estimación de Tiempo y Esfuerzo. Facultad de Informática Universidad Politécnica de Madrid. 3-5 de noviembre de 2004. SAL04c Salvetto, Pedro, Nogueira Juan C, Fernández, Julio, Segovia Javier. Una Verificación Empírica de ModelosAutomatizables de Estimación muy Temprana de Proyectos de Desarrollo de Sistemas de Gestión. Facultad de Informática Universidad Politécnica de Madrid. 3-5 de noviembre de 2004. X CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIÓN 2004 (CACIC04) SAL04d Salvetto , Pedro, Martínez ,Milton, Luna Carlos, Segovia, Javier. A Very Early Estimation of Software Development Time and Effort Using Neural Networks. San Justo, Buenos Aires. Argentina, octubre de 2004. 35 PUBLICACIONES II INTERNATIONAL CONFERENCE ON SOFTWARE PROCESS SOFTWARE AND SOFTWARE METRICS SPSM´05 II CONFERENCIA INTERNACIONAL ENCUENTRO ISBSG-AEMES VI CONFERENCIA ANUAL DE LA ASOCIACIÓN ESPAÑOLA DE MÉTRICAS DE SISTEMAS INFORMÁTICOS SAL05 Salvetto, Pedro, Marbán, Óscar, Carrillo, José, Fernández, Julio, Nogueira, Juan C. Segovia, Javier. Indicadores Empíricos Formales y muy Tempranos de Complejidad Esencial de Sistemas de Gestión Intensiva de Datos: un modelo conceptual. Madrid, 4-5 de octubre de 2005. (Publicado en la Revista de Procesos y Métricas de la Asociación Española de Métricas de Software Volumen 3 número 7, marzo de 2006). JOURNAL OF THE BRAZILIAN COMPUTER SOCIETY ESPECIAL ISSUE ON EXPERIMENTATION IN SOFTWARE ENGINEERING (2006) (JBCS-ESE) (submitted, under review) Salvetto, Pedro, Fernández Julio, Nogueira, Juan C., Carrillo, José, Marbán, Óscar, Segovia, Javier. Very Early Formal Essential Complexity Indicators for Intensive Data Management Systems: an Empirical Research CONFERENCIAS DICTADAS Salvetto, Pedro, Modelos Automatizables de Estimación muy temprana de Tiempo Y Esfuerzo de Desarrollo. XIV encuentro internacional Genexus. Montevideo, Uruguay 16/05/04.Transmitida en vivo por internet. La conferencia y transparencias pueden descargarse de http://www.gxtechnical.com/main/hevviewsession.aspx?8,60,581,19%3a569 SE Salvetto, Pedro, Modelos Automatizables de Estimación muy temprana de Tiempo Y Esfuerzo de Desarrollo. XVI encuentro internacional Genexus. Montevideo, Uruguay 20/09/06.Transmitida en vivo por internet. La conferencia y transparencias pueden descargarse de http://www.genexus.com/portal/hgxpp001.aspx?2,27,480,O,S,0,MNU;E;105;13;MNU;, 36 Gracias por su atención RECONOCIMIENTOS LAS VISITAS DEL AUTOR A UPM FUERON FINANCIADAS POR EL PROGRAMA DE DESARROLLO TECNOLÓGICO FINANCIADO POR EL BID BID Y POR UPM (BANCO SANTANDER) AÑO LECTIVO 2004-2005 LA ASISTENCIA A CONGRESOS DEL AUTOR FUE FINANCIADA POR EL PDT, LA FACULTAD DE INFORMÁTICA DE UPM Y EL FONDO DE INVESTIGACIÓN DE UNIVERSIDAD ORT URUGUAY ESTE TRABAJO NO HABRÍA SIDO POSIBLE SIN EL APOYO DE NICOLÁS JODAL, KARINA SANTO, JOSÉ LUIS CHALAR, GUSTAVO CARRIQUIRY Y CLAUDIA ARAUJO DE ARTECH CONSULTING ENRIQUE LATORRES Y JOSÉ LUIS SUBELZÚ DEL DPTO DE INFORMÁTICA DEL MINISTERIO DE TRANSPORTE Y OBRAS PÚBLICAS DE URUGUAY JUAN ANDRÉS LEIRAS DEL DPTO DE INFORMÁTICA DE SANIDAD POLICIAL GONZALO PÉREZ Y JOAQUÍN GONZÁLEZ DE CONEX CONSULTING ÓSCAR CAMARGO DE UNIVERSIDAD DEL TRABAJO Y UNIVERSIDAD ORT FUERON MUY IMPORTANTES LAS SUGERENCIAS RECIBIDAS DE ERNESTINA MENASALVAS, ANA MARÍA MORENO Y SIRA VEGAS DE UPM LUIS OLSINA DE UNLP KARINA SANTO, JOSÉ LUIS CHALAR Y NICOLÁS JODAL DE ARTECH CONSULTING REGINA MOTZ Y JULIO FERNÁNDEZ DE UNIVERSIDAD ORT LAS HERRAMIENTAS DE RECOLECCIÓN AUTOMÁTICA DE MÉTRICAS FUERON DESARROLLADAS EN TRABAJOS DE FINAL DE CARRERA DIRIGIDOS POR EL AUTOR EN EL LISI DE FACULTAD DE INGENIERÍA UNIVERSIDAD ORT URUGUAY DE ACUERDO AL SIGUIENTE DETALLE: HERRAMIENTA DE RECOLECCIÓN AUTOMÁTICA DE MÉTRICAS VERSIÓN 1 GABRIELA CAMACHO, XIMENA GARCÍA Y PABLO REBAGLIATTI IDE INTEGRADO DE RECOLECCIÓN DE MÉTRICAS SUSANA ABULAFIA, JOSÉ CARDOZO LIMA Y RODRIGO PORTUGAL VIDAL SEGUNDA VERSIÓN DE LA HERRAMIENTA DE RECOLECCIÓN AUTOMÁTICA DE MÉTRICAS ILIANA IBARRA, MARTÍN LORENZO Y FERNANDO PINTOS TERCERA VERSIÓN DE LA HERRAMIENTA DE RECOLECCIÓN AUTOMÁTICA DE MÉTRICAS Y LA HERRAMIENTA DE INGRESO DE VISTAS DE DATOS DE USUARIOS Y GENERACIÓN DE ESQUEMA RELACIONAL EN 3FN LUIS ÁLVAREZ, ADRIÁN ARREDONDO, MARTÍN CAMPS Y SERGIO CORA CUARTA VERSIÓN DE LA HERRAMIENTA DE RECOLECCIÓN AUTOMÁTICA DE MÉTRICAS Y LA HERRAMIENTA DE INGRESO DE VISTAS DE DATOS DE USUARIOS Y GENERACIÓN DE ESQUEMA RELACIONAL EN 3FN RODRIGO GÓMEZ Y JAVIER PAZ 38