Indicadores Formales de Complejidad Esencial de Sistemas de

Anuncio
Departamento de Lenguajes y
Sistemas Informáticos e
Ingeniería del Software
Indicadores Formales de Complejidad Esencial de
Sistemas de Información: ¿un punto de
encuentro entre usuarios y desarrolladores?
Dr. Pedro Salvetto
1
Agenda
1.
INTRODUCCIÓN Y MOTIVACIÓN
2.
PLANTEAMIENTO DEL PROBLEMA
3.
DESARROLLO DE LA SOLUCIÓN
4.
EVALUACIÓN DE LA PRECISIÓN Y CONSISTENCIA DE LOS MODELOS
5.
VALIDACIÓN EMPÍRICA DE LOS INDICADORES DE COMPLEJIDAD DE LOS
DATOS Y LOS MODELOS EMPÍRICOS DE ESTIMACIÓN
6.
DISCUSIÓN Y CONCLUSIONES
2
El Riesgo y la Estimación
3
EL PROBLEMA
(1)
Las técnicas de estimación más extendidas actualmente
a)
se apoyan en la premisa - poco realista - de estabilidad de requisitos y datos
b)
requieren expertos humanos, y
c)
se basan en métricas disponibles recién en la fase de diseño temprano del sistema
(2)
Los modelos de estimación incorporan numerosos parámetros intentando
modelar las fuentes de variación
(3)
Cono de incertidumbre [BOE81, BOE89, SOM01].
(4)
No disponemos de modelos de estimación e indicadores de
complejidad para sistemas de gestión intensiva de datos (SIGID)
independientes del juicio experto y aplicables en etapas muy tempranas del
ciclo de vida.
4
DESARROLLO DE LA SOLUCIÓN
CÍRCULOS VICIOSOS QUE CONTRIBUYEN A EXPLICAR LA CRISIS DEL SOFTWARE
6
NUESTRA PROPUESTA
7
NUESTRAS PREGUNTAS DE INVESTIGACIÓN
P1 MÉTRICAS INDEPENDIENTES DEL JUICIO EXPERTO
RECOLECTABLES AUTOMÁTICA Y TEMPRANAMENTE
P2 INDICADORES DE COMPLEJIDAD ESENCIAL
P3 PREDICCIÓN DE TIEMPO Y ESFUERZO
P4 RESTRICCIONES A LOS PROCESOS DE CONSTRUCCIÓN Y
ESTIMACIÓN
8
Algunas Fuentes de Variabilidad en los
Procesos de Construcción y Estimación
HERRAMIENTAS DE ESPECIFICACIÓN FORMAL Y
GENERACIÓN AUTOMÁTICA DE CÓDIGO
QUE APOYAN UNA METODOLOGÍA
ESTÁNDAR y LA OBTENCIÓN AUTOMÁTICA DE
MÉTRICAS
•
Tecnología
•
Metodología
•
Métricas no automáticas
•
Modelos de Estimación
MÉTRICAS E INDICADORES DE COMPLEJIDAD
OBTENIDOS AUTOMÁTICAMENTE
•
Expertos en estimación
PRESCINDENCIA DEL JUICIO EXPERTO
•
Grupos de Desarrollo (no comprendemos
sus procesos internos)
•
Producto intangible
•
Procesos repetibles raros
•
Proyectos replicables pero no repetibles
GRUPOS DE DESARROLLO REDUCIDOS CON
USUARIOS INTEGRADOS A ELLOS
METODOLOGÍAS ÁGILES
NO ACTUAMOS SOBRE ELLOS
9
10
PIRÁMIDE CONCEPTUAL
HIPÓTESIS ACERCA DE LOS SISTEMAS
OBSERVADOS
Hipótesis IV-1: Son SIGIDES (Sistema de Gestión Intensiva
de Datos Esencial)
Hipótesis IV-2: Fueron desarrollados con una metodología
ágil que parte de las visiones de datos de los
usuarios apoyada por una Herramienta de
Especificación Formal y Desarrollo de SIGID (HEFDS)
Hipótesis IV-3: Fueron desarrollados por grupos reducidos
(de entre 3 y 5 personas) con usuarios integrados a los
mismos basándose exclusivamente en las
solicitudes de los usuarios
11
Alcance de la Investigación y Ámbito
de Aplicación de sus Resultados
Sistemas sujetos a
Restricciones en el Tiempo de
Respuesta
Sistemas que Incluyen Algoritmos de Alta Complejidad
Sistemas Desarrollados en torno a Bases de Datos
Relacionales
Sistemas de Gestión Intensiva en Datos (SIGID)
Sistemas de Gestión Intensiva en Datos
Esenciales (SIGIDES)
SIGIDES Desarrollados mediante
Herramientas de Especificación
Formal y Desarrollo de SIGID
(HEFDS)
12
Análisis de los Resultados del Trabajo de Campo y
Depuración de Observaciones
Las métricas obtenidas pueden clasificarse en dos
categorías:
a) tomadas automáticamente a partir de la
especificación.
b) que involucraban la estimación o recuperación
desde registros
13
NUESTRAS HIPÓTESIS DE TRABAJO
14
La Complejidad Esencial
¿Qué semántica tiene?
Funcionalidad Potencial de los Datos del Sistema
Complejidad de la Estructura de los Datos del
Sistema
Expresividad de los Datos del Sistema
Complejidad Cognitiva de la Estructura de los Datos
del Sistema
15
MODELOS DE ESTIMACIÓN MUY
TEMPRANA DE TIEMPO Y ESFUERZO e
INDICADORES DE COMPLEJIDAD
ESENCIAL DE LA ESTRUCTURA DE LOS
DATOS
NOMENCLATURA MODELOS
17
DESARROLLO DE LOS MODELOS
• ANÁLISIS EXPLORATORIO DE LOS DATOS
• SELECCIÓN ALEATORIA DE UN 70% DE LAS
OBSERVACIONES PARA DESARROLLO
• REGRESIÓN LINEAL SOBRE VARIABLES
TRANSFORMADAS MEDIANTE LOGARITMO
18
FORMA GENERAL DE LOS MODELOS DE
ESTIMACIÓN
TEMPRANA
g
b
c
d
e
f
VD=a EMI VR DRT RD NA NT
INDICADOR DE COMPLEJIDAD ESENCIAL DE LA ESTRUCTURA DE LOS DATOS
IC E D = D R T
d
e
f
RD NA NT
g
b
c
V D = a E M I V R IC E D
V D = α IC E D
β
POST MORTEM
b
c
d
e
f
g
h
V D = a E M I V R FO R IF FO R A N IFA N IC E D
19
CARACTERÍSTICAS DE LOS MODELOS
•
ESTÁTICOS Y GLOBALES
•
NO REQUIEREN JUICIO EXPERTO
•
LAS MÉTRICAS PUEDEN OBTENERSE AUTOMÁTICA Y MUY TEMPRANAMENTE
•
COMETEN (PARA LA POBLACIÓN OBSERVADA) ERRORES RELATIVOS MENORES AL 30%
•
NO SE OBSERVA RELACIÓN ENTRE LOS ERRORES RELATIVOS Y LA MAGNITUD DE LA VARIABLE
ESTIMADA O LOS INDICADORES DE COMPLEJIDAD
•
NO SON PESIMISTAS NI OPTIMISTAS
•
CALIFICAN COMO EXCELENTES DE ACUERDO A LOS CRITERIOS DE CONTE ET AL (1986)
•
SE VERIFICÓ EMPÍRICAMENTE QUE CON 99% DE CONFIANZA LAS DIFERENCIAS ENTRE LAS MEDICIONES
FINALES, ESTIMACIONES TEMPRANAS Y POST MORTEM PUEDEN SER ATRIBUIDAS AL AZAR Y A
EFECTOS PRÁCTICOS NO EXISTE DIFERENCIA PARA LA POBLACIÓN OBSERVADA
20
CONTRIBUCIÓN A LA EXPLICACIÓN DE LA VARIABLE
DEPENDIENTE (ESTIMACIÓN TEMPRANA)
• ICED EXPLICA CASI LA TOTALIDAD DE LA VARIACIÓN
• VR CONTRIBUYE DE FORMA IMPORTANTE
• EMI REALIZA UNA CONTRIBUCIÓN MENOR
21
CONTRIBUCIÓN A LA EXPLICACIÓN DE LA VARIABLE
DEPENDIENTE (ESTIMACIÓN POST MORTEM)
• ICED EXPLICA CASI LA TOTALIDAD DE LA VARIACIÓN
• VR CONTRIBUYE DE FORMA IMPORTANTE
• EMI REALIZA UNA CONTRIBUCIÓN MENOR
• LAS MÉTRICAS POST MORTEM CASI NO CONTRIBUYEN
22
CARACTERÍSTICAS DE LOS ICED
•
NO CONTIENEN INFORMACIÓN AJENA AL NEGOCIO
•
SON MUY TEMPRANOS
•
CORRELACIONAN MUY BIEN CON TIEMPO Y ESFUERZO
•
NO REQUIEREN JUICIO EXPERTO
•
NO DEPENDEN DEL CONJUNTO DE VISIONES DE DATOS DE USUARIO DEL QUE
SE PARTA
23
CORRELACIONAN CON TIEMPO Y ESFUERZO
12
20
4
1
1
15
4
17
3
8
20
2
10
3
7 2
3
6
16
2
18
R2 lineal = 0,919
14
13
5
11
LNTIEMPO
LNESFUERZO
4
15
4
2
8
2
5
2
7
19
1
9
17
12
14
6
R2 lineal = 0,897
3
10
13 18
9
16
11
19
0
1
4
5
6
LNICEDE
7
4
5
LNICEDT
6
7
24
DOMINA NA
ICEDE ≅
ICEDT ≅
NA
DRT
2
2
NT
NA
DRT
2,5
RD
2
0,2
NT
0,3
25
ESTIMACIÓN DE ESFUERZO
27
TODA LA POBLACIÓN
Error Relativo en Valor Absoluto
10,62%
11,39%
7,03%
R2
0,966
0,25<e<=0,3
METEICEDE 0,13% 25,61%
MEDIANA DESV EST
0,2<e<=0,25
MMRE
0,15<e<=0,2
MAX
0,1<e<=0,15
MIN
0,05<e<=0,1
EX
MODELO
e<=0,05
CAL CONTE
6
3
5
4
1
1
30% 45% 70% 90%
EX
MEPMEICEDE 0,10% 21,12%
7,42%
4,13%
6,90%
0,968
11
3
1
4
95% 100%
1
NÚMERO DE OBSERVACIONES
PORCENTAJE ACUMULADO
NÚMERO DE OBSERVACIONES
55% 70% 75% 95% 100%
PORCENTAJE ACUMULADO
CASOS DE CONTRASTE
Error Relativo en Valor Absoluto
12,06%
8,61%
R2
0,25<e<=0,3
12,18%
MEDIANA DESV EST
0,2<e<=0,25
METEICEDE 2,54% 25,61%
MMRE
0,15<e<=0,2
MAX
0,1<e<=0,15
MIN
0,05<e<=0,1
EX
MODELO
e<=0,05
CAL CONTE
2
1
0
2
0
1
NÚMERO DE OBSERVACIONES
0,968
33% 50% 50% 83%
EX
MEPMEICEDE 3,62% 21,12%
12,97%
14,26%
6,65%
0,934
1
0
1
2
83% 100%
1
20% 20% 40% 80% 100%
PORCENTAJE ACUMULADO
NÚMERO DE OBSERVACIONES
PORCENTAJE ACUMULADO
28
ESTIMACIÓN DE TIEMPO
30
TODA LA POBLACIÓN
Error Relativo en Valor Absoluto
8,42%
6,96%
6,35%
R2
0,986
0,25<e<=0,3
1,60% 27,64%
MEDIANA DESV EST
0,2<e<=0,25
MMRE
0,15<e<=0,2
METTICEDT
MAX
0,1<e<=0,15
EX
MIN
0,05<e<=0,1
MODELO
e<=0,05
CAL CONTE
9
5
4
1
0
1
45% 70% 90% 95%
EX
MEPMTICEDT 0,14% 17,27%
6,53%
4,58%
5,32%
0,992
11
5
1
95% 100%
3
NÚMERO DE OBSERVACIONES
PORCENTAJE ACUMULADO
NÚMERO DE OBSERVACIONES
55% 80% 85% 100%
PORCENTAJE ACUMULADO
CASOS DE CONTRASTE
Error Relativo en Valor Absoluto
8,33%
8,99%
R2
0,25<e<=0,3
10,09%
MEDIANA DESV EST
0,2<e<=0,25
2,97% 27,64%
MMRE
0,15<e<=0,2
MAX
0,1<e<=0,15
METTICEDT
MIN
0,05<e<=0,1
EX
MODELO
e<=0,05
CAL CONTE
2
3
0
0
0
1
NÚMERO DE OBSERVACIONES
0.977
33% 83% 83% 83%
4
EX
MEPMTICEDT 0,67% 17,27%
5,57%
3,60%
5,91%
1
0
1
83% 100%
PORCENTAJE ACUMULADO
NÚMERO DE OBSERVACIONES
0,976
67% 83% 83% 100%
PORCENTAJE ACUMULADO
31
DISCUSIÓN Y CONCLUSIONES
CONCLUSIONES
1. ACERCA DE LOS INDICADORES DE
COMPLEJIDAD ESENCIAL
2. ACERCA DE LOS MODELOS DE
ESTIMACIÓN
3.
LINEAS DE TRABAJO FUTURAS
a) GENERALIZACIÓN DE LOS RESULTADOS
a) SISTEMAS DESARROLLADOS CON OTRAS
HERRAMIENTAS
b) SISTEMAS DESARROLLADOS BAJO LAS
MISMAS CONDICIONES
b) MODELOS DETALLADOS
c) MODELOS FORMALES DE ESTIMACIÓN DE
RIESGO
FORTALEZAS Y DEBILIDADES
FORTALEZAS
a)
b)
c)
d)
e)
f)
g)
h)
i)
RELEVANCIA DEL TEMA
ENFOQUE EMPÍRICO
OBSERVACIÓN DE PROYECTOS DE LA
INDUSTRIA
PLANTEAR RESTRICCIONES A LOS
PROCESOS DE CONSTRUCCIÓN Y
ESTIMACIÓN PARA RESULTAR PREDECIBLE
ACOTACIÓN DEL ÁMBITO DE PROYECTOS A
TRATAR Y ALCANCE
ORIGINALIDAD ESTIMACIÓN POST MORTEM
COMPROMISO CON LA CALIDAD DE LA
INFORMACIÓN
RIGUROSIDAD METODOLÓGICA
PUBLICACIONES
DEBILIDADES
a)
b)
TAMAÑO DE LA MUESTRA
TESIS EXTENSA Y
POSIBLEMENTE ABURRIDA
PUBLICACIONES
INTERNATIONAL CONFERENCE ON COMPUTER SCIENDE SOFTWARE ENGINEERING, INFORMATION TECHNOLOGY, E-BUSINESS AND
APPLICATIONS (CSITeA’03)
SAL03 Salvetto, Pedro, Nogueira Juan C Size Estimation for Management Information Systems Based on Early Metrics :An Automatic Metric Tool Based in
Formal Specifications. Proceedings of the International Conference on Computer Sience, Software Engineering,Information Technology, e-Business and
Applications (CSITeA’03), june 5-7, 2003 Rio de Janeiro, Brazil in Cooperation with the International Society for Computers and Their Applications (ISCA),
USA Winona State University (WSU), USA Universidad Nacional de San Luis (UNSL), Argentina Net of National Universities with Computer Science
Careers (RedUNCI), Argentina. Pags 72-77.ISBN 0-9742059-0-7.
IX CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIÓN 2003 (CACIC03)
LAT03 Latorres, Enrique, Salvetto, Pedro, Larre Borges Uruguay, Nogueira Juan C, Una herramienta de apoyo a la gestión del proceso de desarrollo de software.
CACIC 2003 6-10 octubre 2003 La Plata, Argentina
XXX CONFERENCIA LATINOAMERICANA DE CIENCIAS DE LA COMPUTACIÓN (CLEI 2004)
SAL04a Salvetto, Pedro, Nogueira Juan C, Segovia, Javier Modelos Automatizables de Estimación muy Temprana del Tiempo y Esfuerzo de Desarrollo de
Software de Gestión (CLEI2004) 27 de septiembre – 1 de octubre 2004. Arequipa Perú.
IV JORNADAS IBEROAMERICANAS DE INGENIERÍA DE SOFTWARE E INGENIERÍA DEL CONOCIMIENTO JIISIC’04
SAL04b Salvetto, Pedro, Nogueira Juan C, Segovia, Javier. Gestión de Cambios Apoyada por Modelos Formales de Estimación de Tiempo y Esfuerzo. Facultad
de Informática Universidad Politécnica de Madrid. 3-5 de noviembre de 2004.
SAL04c Salvetto, Pedro, Nogueira Juan C, Fernández, Julio, Segovia Javier. Una Verificación Empírica de ModelosAutomatizables de Estimación muy Temprana
de Proyectos de Desarrollo de Sistemas de Gestión. Facultad de Informática Universidad Politécnica de Madrid. 3-5 de noviembre de 2004.
X CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIÓN 2004 (CACIC04)
SAL04d Salvetto , Pedro, Martínez ,Milton, Luna Carlos, Segovia, Javier. A Very Early Estimation of Software Development Time and Effort Using Neural
Networks. San Justo, Buenos Aires. Argentina, octubre de 2004.
35
PUBLICACIONES
II INTERNATIONAL CONFERENCE ON SOFTWARE PROCESS SOFTWARE AND SOFTWARE METRICS SPSM´05
II CONFERENCIA INTERNACIONAL ENCUENTRO ISBSG-AEMES
VI CONFERENCIA ANUAL DE LA ASOCIACIÓN ESPAÑOLA DE MÉTRICAS DE SISTEMAS INFORMÁTICOS
SAL05 Salvetto, Pedro, Marbán, Óscar, Carrillo, José, Fernández, Julio, Nogueira, Juan C. Segovia, Javier.
Indicadores Empíricos Formales y muy Tempranos de Complejidad Esencial de Sistemas de Gestión Intensiva de Datos: un modelo
conceptual. Madrid, 4-5 de octubre de 2005. (Publicado en la Revista de Procesos y Métricas de la Asociación Española de Métricas de
Software Volumen 3 número 7, marzo de 2006).
JOURNAL OF THE BRAZILIAN COMPUTER SOCIETY ESPECIAL ISSUE ON EXPERIMENTATION IN SOFTWARE ENGINEERING
(2006) (JBCS-ESE) (submitted, under review)
Salvetto, Pedro, Fernández Julio, Nogueira, Juan C., Carrillo, José, Marbán, Óscar, Segovia, Javier. Very Early Formal Essential
Complexity Indicators for Intensive Data Management Systems: an Empirical Research
CONFERENCIAS DICTADAS
Salvetto, Pedro, Modelos Automatizables de Estimación muy temprana de Tiempo Y Esfuerzo de Desarrollo. XIV encuentro internacional
Genexus. Montevideo, Uruguay 16/05/04.Transmitida en vivo por internet. La conferencia y transparencias pueden descargarse de
http://www.gxtechnical.com/main/hevviewsession.aspx?8,60,581,19%3a569 SE
Salvetto, Pedro, Modelos Automatizables de Estimación muy temprana de Tiempo Y Esfuerzo de Desarrollo. XVI encuentro internacional
Genexus. Montevideo, Uruguay 20/09/06.Transmitida en vivo por internet. La conferencia y transparencias pueden descargarse de
http://www.genexus.com/portal/hgxpp001.aspx?2,27,480,O,S,0,MNU;E;105;13;MNU;,
36
Gracias por su atención
RECONOCIMIENTOS
LAS VISITAS DEL AUTOR A UPM FUERON FINANCIADAS POR EL PROGRAMA DE DESARROLLO TECNOLÓGICO FINANCIADO POR EL BID BID Y POR UPM (BANCO
SANTANDER) AÑO LECTIVO 2004-2005
LA ASISTENCIA A CONGRESOS DEL AUTOR FUE FINANCIADA POR EL PDT, LA FACULTAD DE INFORMÁTICA DE UPM Y EL FONDO DE INVESTIGACIÓN DE UNIVERSIDAD
ORT URUGUAY
ESTE TRABAJO NO HABRÍA SIDO POSIBLE SIN EL APOYO DE
NICOLÁS JODAL, KARINA SANTO, JOSÉ LUIS CHALAR, GUSTAVO CARRIQUIRY Y CLAUDIA ARAUJO
DE ARTECH CONSULTING
ENRIQUE LATORRES Y JOSÉ LUIS SUBELZÚ
DEL DPTO DE INFORMÁTICA DEL MINISTERIO DE TRANSPORTE Y OBRAS PÚBLICAS DE URUGUAY
JUAN ANDRÉS LEIRAS
DEL DPTO DE INFORMÁTICA DE SANIDAD POLICIAL
GONZALO PÉREZ Y JOAQUÍN GONZÁLEZ
DE CONEX CONSULTING
ÓSCAR CAMARGO
DE UNIVERSIDAD DEL TRABAJO Y UNIVERSIDAD ORT
FUERON MUY IMPORTANTES LAS SUGERENCIAS RECIBIDAS DE
ERNESTINA MENASALVAS, ANA MARÍA MORENO Y SIRA VEGAS DE UPM
LUIS OLSINA DE UNLP
KARINA SANTO, JOSÉ LUIS CHALAR Y NICOLÁS JODAL DE ARTECH CONSULTING
REGINA MOTZ Y JULIO FERNÁNDEZ DE UNIVERSIDAD ORT
LAS HERRAMIENTAS DE RECOLECCIÓN AUTOMÁTICA DE MÉTRICAS FUERON DESARROLLADAS EN TRABAJOS DE FINAL DE CARRERA DIRIGIDOS POR EL AUTOR EN
EL LISI DE FACULTAD DE INGENIERÍA UNIVERSIDAD ORT URUGUAY DE ACUERDO AL SIGUIENTE DETALLE:
HERRAMIENTA DE RECOLECCIÓN AUTOMÁTICA DE MÉTRICAS VERSIÓN 1
GABRIELA CAMACHO, XIMENA GARCÍA Y PABLO REBAGLIATTI
IDE INTEGRADO DE RECOLECCIÓN DE MÉTRICAS
SUSANA ABULAFIA, JOSÉ CARDOZO LIMA Y RODRIGO PORTUGAL VIDAL
SEGUNDA VERSIÓN DE LA HERRAMIENTA DE RECOLECCIÓN AUTOMÁTICA DE MÉTRICAS
ILIANA IBARRA, MARTÍN LORENZO Y FERNANDO PINTOS
TERCERA VERSIÓN DE LA HERRAMIENTA DE RECOLECCIÓN AUTOMÁTICA DE MÉTRICAS Y LA HERRAMIENTA DE INGRESO DE VISTAS DE DATOS DE USUARIOS Y
GENERACIÓN DE ESQUEMA RELACIONAL EN 3FN
LUIS ÁLVAREZ, ADRIÁN ARREDONDO, MARTÍN CAMPS Y SERGIO CORA
CUARTA VERSIÓN DE LA HERRAMIENTA DE RECOLECCIÓN AUTOMÁTICA DE MÉTRICAS Y LA HERRAMIENTA DE INGRESO DE VISTAS DE DATOS DE USUARIOS Y
GENERACIÓN DE ESQUEMA RELACIONAL EN 3FN
RODRIGO GÓMEZ Y JAVIER PAZ
38
Descargar