Plan de gestión de datos de investigación en Horizon 2020 Juan Pavón Director Oficina de Apoyo a la Investigación UCM [email protected] www.ucm.es/oai Plan de gestión de datos de investigación en Horizon 2020, by Juan Pavón Mestras is licensed under a Creative Commons Reconocimiento‐CompartirIgual 3.0 Unported License. ¿Qué es el acceso abierto? Acceso en línea a información científica sin cargo para el usuario de forma reutilizable sujeto a términos y condiciones indicados en el acuerdo de uso Información científica: Artículos de investigación científica publicados en revistas académicas Datos de investigación: Datos subyacentes a las publicaciones, datos procesados y datos en bruto Estadísticas Resultados de experimentos Medidas Observaciones de trabajos de campo Resultados de encuestas Grabaciones de entrevistas e imágenes Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 Estos datos deberán estar disponibles en formato digital 2 Política de acceso abierto en H2020 Obligatoriedad de publicaciones open access Piloto para datos de investigación abiertos (7 áreas) De forma experimental se propone el depósito en abierto de datos resultados de investigación producidos en los proyectos 7 áreas Future and Emerging Technologies (FET) Research infrastructures – part e‐Infrastructures LEIT – Information and Communication Technologies Secure, Clean and Efficient Energy – part Smart cities and communities retos Climate Action, Environment, Resource Efficiency and Raw materials sociales Europe in a changing world – inclusive, innovative and reflective Societies Science with and for Society Excepciones: Protección IPR, datos personales, por razones de seguridad, Compromete seriamente el resultado final del proyecto No se generan datos Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 3 Características de los datos de investigación científicos Según el Anexo 2 de Guidelines on Data Management in Horizon 2020, los datos de la investigación científica deberán ser fácilmente: 1. Descubribles/Encontrables 2. Accesibles 3. Evaluables e inteligibles 4. Utilizables más allá del propósito original para el cual fueron recogidos 5. Interoperables conforme a estándares de calidad específicos Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 4 Otros términos http://www.winshuttle.es/big‐data‐historia‐cronologica/ Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 5 Glosario Big data Open data Datos que se pueden usar, reutilizar y redistribuir Requisitos de atribución o compartir similarmente Muchos de instancias gubernamentales Linked data Datos masivos Las 3 Vs: Volumen‐Velocidad‐Variedad Método de publicación de datos estructurados para que puedan ser interconectados y más útiles Usando estándares de W3C (HTTP, RDF, URI) Metadatos Datos que describen datos http://en.wikipedia.org/wiki/Metadata_standards Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 6 Glosario Base de datos Colección estructurada de datos Gestor de base de datos (DBMS): software que almacena y da acceso a datos de forma estructurada Vista o recuperación de datos almacenados Data analytics ACID: atomicity, consistency, isolation, and durability Data access SQL / noSQL Uso de algoritmos software para dar un significado a los datos Data mining Proceso de derivar patrones o conocimiento de grandes conjuntos de datos Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 7 Plan de gestión de datos (PGD) Los proyectos que participan en el Piloto de Datos de Investigación Abiertos deberán proporcionar una primera versión del PGD en los seis primeros meses del proyecto Documento que describe el tratamiento que van a recibir los datos de investigación recopilados o generados en el curso de un proyecto de investigación y después de que se haya terminado Se evaluará dentro del criterio “Impacto” Los proyectos financiados por Horizonte 2020 que no participan en el piloto pueden presentar un PGD si lo consideran importante para la investigación pero no es obligatorio Si se pone se puede valorar positivamente Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 8 Plan de Gestión de Datos (PGD) Qué datos se van a recoger o generar Qué metodología y normas se van a emplear Cómo y si se van a compartir y poner en abierto Cómo se van a preservar Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 9 Tipos de datos a incluir en un PGD El Piloto de datos de Investigación en abierto (H2020) se aplica a dos tipos de datos: Datos para validar resultados presentados en publicaciones científicas Otros datos derivados de los proyectos Los datos deben estar acompañados de meta‐datos Deben especificarse en el plan de gestión de datos Descripción formal de los datos Se definirá un PGD por cada conjunto de datos (data set) Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 10 Datos que no se incluyen en un PGD Por razones de ética, privacidad u oportunidad Análisis preliminares, borradores de artículos científicos, planes para futuras investigaciones Secretos comerciales, información comercial, materiales confidenciales hasta el momento de su publicación, o información similar que esté protegida por la Ley Información médica o personal así como información cuya divulgación constituya una clara invasión injustificada de la privacidad personal Datos que puedan ser utilizados para identificar a una persona en un estudio de investigación Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 11 Ventajas de un PGD para los investigadores Una correcta gestión de datos es fundamental para el éxito de la investigación Según el Informe preliminar para la conservación y reutilización de datos científicos en España (FECYT, RECOLECTA) los beneficios son: Posibilidad de encontrar y comprender los datos cuando se necesite utilizarlos Evitar duplicaciones y labores innecesarias Validación de resultados Los datos en abierto tendrán mayor visibilidad Los datos utilizados y citados por otros investigadores darán más prestigio a la investigación Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 12 Ventajas de un PGD para los investigadores Un PGD también permite al investigador: Cumplir con los requisitos de la agencia de financiación Proyectos piloto en H2020 Plan nacional I+D+i: obligatoriedad de depositar datos de estudios sociológicos cuantitativos en Banco de Datos Específico de Estudios Sociales, en el Centro de Investigaciones Sociológicas Garantizar la integridad de la investigación y la reproducibilidad Aumentar la eficiencia y la calidad de la investigación, tiempo y recursos a largo plazo Mejorar la protección de datos y minimizar el riesgo de pérdida de datos Cumplir con los requisitos de la agencia de financiación Asegurar que los datos de la investigación son precisos, completos, auténticos y fidedignos Ahorrar tiempo y recursos a largo plazo Garantizar la conservación y preservación de los datos de la investigación Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 13 Directrices H2020 para gestión de datos En Horizonte 2020 se realizará una acción piloto para el acceso abierto para la búsqueda de datos Los proyectos participantes deberán desarrollar un PGD (Data Management Plan, DMP) en el cual se especifique qué datos estarán abiertos Este documento aporta las líneas a seguir en la gestión de datos en Horizonte 2020 Está dirigido a solicitantes y beneficiarios de proyectos H2020 El objetivo es dar instrucciones sobre cómo cumplir con las responsabilidades relacionadas con la investigación de datos de calidad, colaboración y seguridad Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 14 Directrices H2020 para gestión de datos Presentación y evaluación de propuestas La política de gestión de datos indicará: Las propuestas tipo Research & Innovation Actions (RIA) e Innovation Actions (IA), incluirán un apartado sobre gestión de datos Será evaluado bajo el criterio “Impacto”. Qué tipo de datos generará el proyecto Qué estándares se utilizarán Cómo se utilizarán, compartirán/serán accesibles para su comprobación y reutilización Cómo se conservarán y protegerán esos datos El Portal del Participante ofrece una descripción detallada de los requisitos de la Open Research Data Pilot Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 15 Directrices H2020 para gestión de datos Revisiones en el proyecto La primera versión del PGD deberá entregarse durante los primeros 6 meses de marcha del proyecto (como un deliverable) EL PGD describe el ciclo vital de la gestión de datos para todo el conjunto de datos que será recogido, procesado o generado por el proyecto de investigación. El PGD no es un documento fijo: evolucionará adquiriendo más precisión y entidad durante el período de vigencia del proyecto Plantilla proporcionada por la Comisión En fases sucesivas del proyecto se podrán suministrar versiones más elaboradas y completas EL PGD deberá actualizarse por lo menos una vez hacia la mitad del transcurso del proyecto y otra al final para realizar los ajustes necesarios sobre los datos generados y los usos potenciales por el consorcio Adaptarse a las necesidades que se vayan observando en su uso Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 16 Cómo elaborar un plan de gestión de datos Seguir una plantilla Ejemplo: ICPSR Data Management and Curation http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/dmp/framework.html Data Description Access and Sharing Metadata Intellectual Property Rights Ethics and Privacy Format Archiving and Preservation Storage and Backup Juan Pavón, UCM 2014 Security Responsibility Existing Data Selection and Retention Periods Audience Data Organization Quality Assurance Legal requirements Plan de Gestión de Datos ‐ H2020 17 Guía para elaboración de PGD en H2020 Anexo 1 de Guidelines on Data Management in Horizon 2020 Referencia y nombre del Data set Descripción del conjunto de datos a generar o recoger Referencia a estándares en la disciplina (si existen) Compartición de datos Origen (si son recogidos), naturaleza y escala A quién le pueden ser de utilidad Publicaciones científicas relacionadas Información sobre la existencia de datos similares o relacionados y cómo integrarlos y reutilizarlos Estándares y metadatos Identificación del conjunto de datos a producir Procedimientos de acceso, mecanismos técnicos para su difusión, herramientas software que faciliten su reutilización Acceso completamente abierto o restringido a grupos específicos Identificación del repositorio y tipo (institucional, estándar en la disciplina, etc.) Si no será compartido, indicar las razones Para cada data set Archivo y conservación (incluido el almacenamiento y copias de seguridad) Cómo y por cuanto tiempo, y volumen estimado Costes asociados y cómo se cubrirán Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 18 Cómo elaborar un plan de gestión de datos Usar herramienta de generación de planes de gestión de datos DMPTool, desarrollada por el DCC (Digital Curation Center, UK) https://dmponline.dcc.ac.uk/ Herramienta en línea que ayuda en el proceso de creación de un PGD La herramienta permite crear un PGD con una serie de pasos guiados Darse de alta en el portal, cumplimentando email y password (en sign up, my organization is not listed) Crear un plan: seleccionar “Create plan” Seleccionar las opciones de los menús desplegables y casillas de verificación para decidir qué preguntas y orientaciones se desean (p.ej. H2020 project) La interfaz con pestañas permite navegar a través de diferentes funciones al editar el PGD Opciones para Compartir un plan con otros usuarios Exportar el plan en varios formatos Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 19 Más información H2020 Participant Portal: http://ec.europa.eu/research/participants/portal Guidelines on Data Management in Horizon 2020 http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020‐hi‐oa‐data‐mgt_en.pdf Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020‐hi‐oa‐pilot‐guide_en.pdf Guías para creación de planes de gestión de datos How to Develop a Data Management and Sharing Plan. DCC http://www.dcc.ac.uk/resources/how‐guides/develop‐data‐plan Herramienta DMPOnline: https://dmponline.dcc.ac.uk/ Creating a data management plan. University of Minnesota https://www.lib.umn.edu/datamanagement/DMP Data management plans. Standford University http://library.stanford.edu/research/data‐management‐services/data‐management‐plans G. Copeiro et al. Informe preliminar para la conservación y reutilización de los datos científicos en España. Fecyt 2012 Juan Pavón, UCM 2014 Plan de Gestión de Datos ‐ H2020 20