Bases de Datos No Redundantes de Secuencias procedentes de Patentes OEPM (Madrid) Irina Benediktovich 4 de Noviembre de 2010 Ana Richart de la Torre The SLING project is funded by the European Commission within Research Infrastructures of the FP7 Capacities Specific Programme, grant agreement number 226073 (Integrating Activity) Situación Actual: Es necesario acelerar el proceso de búsqueda 500 resultados idénticos. Mucho por analizar!! Por qué hay 500 resultados a analizar? Familia Simple Invención A Invención B EP WO EP US JP GM671154 ADA42650 CS017585 ACQ13114 DI603183 HB492658 AAR79155 DD649656 Secuencias 100% idénticas La misma secuencia puede aparecer varias veces en la base de datos, debido a: 1) Depósito de la misma invención en diversas oficinas de patentes 2) Inventores diferentes, usan la misma secuencia en contextos distintos Cooperación Internacional Las Oficinas de Patentes Trilaterales intercambian y publican secuencias biológicas, a través de los Proveedores Públicos de Bases de Datos (INSDC) USPTO JPO EPO ON ON ON ON KIPO Esperamos más redundancia en un futuro, ya que otras Oficinas de Patentes participarán en el intercambio de datos VISIÓN GENERAL DEL PROYECTO CAPTURA DE DATOS Arquitectura de la Aplicación para la Adquisición de secuencias CAPTURA DE DATOS Algoritmo para detectar secuencias: Evita la mis-deteccíon Flujos de Gestión de Datos: Aumentan la covertura de las Bases de Datos, sin crear redundancia Detecta la presencia de secuencias en todas las solicitudes entrantes en la EPO, usando diversos niveles de detección. VISIÓN GENERAL DEL PROYECTO Bases de Datos No redundantes 2 types of NR databases NR Databases Statistics Sept 2010 Abbreviation Coverage Number of entries Redundancy before NR Patent Nucleotides Level1 NRNL1 EMBL-Bank patents (17,526,371 entries ) 10,077,547 1.74 NR Patent Nucleotides Level2 NRNL2 EMBL-Bank patents (17,526,371 entries ) 14,612,812 1.2 NR Patent Proteins Level1 NRPL1 EPO+JPO+KIPO+USPTO (4,947,423 entries) 2,124,798 2,33 NR Patent Proteins Level2 NRPL2 EPO+JPO+KIPO+USPTO (4,947,423 entries) 3,372,114 1,47 1. caggc .... gatcc 2. caggc .... gatcc 3. caggc .... gatcc .... 500. caggc .... gatcc 00003f38f0619583f4 a536583d92c240 00003f38f0619583f 4a536583d92c240 A) caggc .... gatcc B) caggc .... gatcc C) caggc .... gatcc 1) Calculamos la "Huella dactilar" de cada secuencia (checksum), porque es más rápido comparar checksums que secuencias from Umbrella Corp. from SuperGen Ltd. from GeneTech S.A. 2) Se unen en la misma entrada, todas las secuencias con el mismo checksum y que pertenezcan a la misma invención Earliest PD in all Families L1 Cluster Members (from SEQ-DB) L2 Links to Family members Earliest Priority in Family Earliest PD in Family VISIÓN GENERAL DEL PROYECTO Corrección de Números de Publicación y tipos de documento Secuencias idénticas procedentes de la misma invención (Familia), a menudo no presentan las mismas anotaciones biológicas En las entradas de esta base de datos a nivel 2 (L2), se han unido todas las anotaciones, preservando los enlaces a las entradas en las Bases de Datos originales PR más antigüa Resultado Final Primera publicación en la Base de Datos de secuencias 5 miembros del cluster con correcciones de Publicación Anotaciones Biológicas Secuencia y checksum MD5 Ejemplo: El usuario tendría que analizar 5 entradas Sólo se necesita analizar una entrada con esta Base de datos No Redundante!! Las Bases de Datos No redundantes están accesibles al público a través del entorno de búsqueda de EBI CONCLUSIONES • Las búsquedas de similaridad y homología de Sequencias en una base de datos no redundante, son más sensibles y rápidas, puesto que hay que escanear menos entradas. •Estas bases de datos no redundantes, son la primera colección de este tipo, basada no sólo en las secuencias, pero introduciendo también el concepto de familia. •Las correcciones de datos de publicación, aumentan significativamente la calidad de los datos. La disponibilidad de la primera fecha de publicación en cada caso, ofrece un enlace directo a el historial de la patente en cuestión. •La unión en una sóla entrada de todas las anotaciones biológicas, proporciona una mejora en el entendimiento del contexto biológico en el que se ha utilizado la secuencia. •La colaboración conjunta (oficinas de patentes, y solicitantes) en proporcionar datos e invertir en la calidad de anotaciones de los mismos, es beneficiosa para todos los usuarios de los servicios públicos Muchas Gracias Irina Benediktovich: [email protected] Ana Richart de la Torre [email protected]