Bases de Datos No Redundantes de Secuencias procedentes de

Anuncio
Bases de Datos No Redundantes de
Secuencias procedentes de Patentes
OEPM (Madrid)
Irina Benediktovich
4 de Noviembre de 2010
Ana Richart de la Torre
The SLING project is funded by the European Commission within Research Infrastructures of the FP7 Capacities Specific Programme, grant agreement number 226073 (Integrating Activity)
Situación Actual: Es necesario acelerar el proceso de búsqueda
500 resultados
idénticos. Mucho
por analizar!!
Por qué hay 500 resultados a analizar?
Familia
Simple
Invención A
Invención B
EP WO EP
US
JP
GM671154
ADA42650
CS017585
ACQ13114
DI603183
HB492658
AAR79155
DD649656
Secuencias 100% idénticas
La misma secuencia puede aparecer varias veces en la base de datos, debido a:
1) Depósito de la misma invención en diversas oficinas de patentes
2) Inventores diferentes, usan la misma secuencia en contextos distintos
Cooperación Internacional
Las Oficinas de Patentes Trilaterales intercambian y publican
secuencias biológicas, a través de los Proveedores Públicos de
Bases de Datos (INSDC)
USPTO
JPO
EPO
ON
ON
ON
ON
KIPO
Esperamos más redundancia en un futuro, ya que otras Oficinas de
Patentes participarán en el intercambio de datos
VISIÓN GENERAL DEL PROYECTO
CAPTURA DE DATOS
Arquitectura de la
Aplicación para la
Adquisición de
secuencias
CAPTURA DE DATOS
Algoritmo para detectar
secuencias:
Evita la
mis-deteccíon
Flujos de Gestión de Datos:
Aumentan la covertura de las
Bases de Datos, sin crear
redundancia
Detecta la presencia de secuencias en
todas las solicitudes entrantes en la
EPO, usando diversos niveles de
detección.
VISIÓN GENERAL DEL PROYECTO
Bases de Datos No redundantes
2 types of
NR databases
NR Databases
Statistics
Sept 2010
Abbreviation
Coverage
Number of
entries
Redundancy
before
NR Patent Nucleotides
Level1
NRNL1
EMBL-Bank patents
(17,526,371 entries )
10,077,547
1.74
NR Patent Nucleotides
Level2
NRNL2
EMBL-Bank patents
(17,526,371 entries )
14,612,812
1.2
NR Patent Proteins
Level1
NRPL1
EPO+JPO+KIPO+USPTO
(4,947,423 entries)
2,124,798
2,33
NR Patent Proteins
Level2
NRPL2
EPO+JPO+KIPO+USPTO
(4,947,423 entries)
3,372,114
1,47
1. caggc .... gatcc
2. caggc .... gatcc
3. caggc .... gatcc
....
500. caggc .... gatcc
00003f38f0619583f4
a536583d92c240
00003f38f0619583f
4a536583d92c240
A) caggc .... gatcc
B) caggc .... gatcc
C) caggc .... gatcc
1) Calculamos la "Huella dactilar" de
cada secuencia (checksum), porque
es más rápido comparar checksums
que secuencias
from Umbrella Corp.
from SuperGen Ltd.
from GeneTech S.A.
2) Se unen en la misma
entrada, todas las
secuencias con el mismo
checksum y que
pertenezcan a la misma
invención
Earliest PD in
all Families
L1
Cluster Members
(from SEQ-DB)
L2
Links to Family
members
Earliest
Priority in Family
Earliest PD in
Family
VISIÓN GENERAL DEL PROYECTO
Corrección de Números de
Publicación y tipos de documento
Secuencias idénticas procedentes de la misma invención (Familia), a menudo no presentan
las mismas anotaciones biológicas
En las entradas de esta base de datos a nivel 2 (L2), se han unido todas las anotaciones,
preservando los enlaces a las entradas en las Bases de Datos originales
PR más antigüa
Resultado
Final
Primera
publicación
en la Base de
Datos de
secuencias
5 miembros del
cluster con
correcciones de
Publicación
Anotaciones Biológicas
Secuencia y
checksum MD5
Ejemplo: El usuario tendría que analizar 5 entradas
Sólo se necesita analizar una entrada con esta Base de datos No Redundante!!
Las Bases de Datos No redundantes están accesibles al público
a través del entorno de búsqueda de EBI
CONCLUSIONES
• Las búsquedas de similaridad y homología de Sequencias en una base de
datos no redundante, son más sensibles y rápidas, puesto que hay que
escanear menos entradas.
•Estas bases de datos no redundantes, son la primera colección de este tipo,
basada no sólo en las secuencias, pero introduciendo también el concepto de
familia.
•Las correcciones de datos de publicación, aumentan significativamente la
calidad de los datos. La disponibilidad de la primera fecha de publicación en
cada caso, ofrece un enlace directo a el historial de la patente en cuestión.
•La unión en una sóla entrada de todas las anotaciones biológicas,
proporciona una mejora en el entendimiento del contexto biológico en el que
se ha utilizado la secuencia.
•La colaboración conjunta (oficinas de patentes, y solicitantes) en proporcionar
datos e invertir en la calidad de anotaciones de los mismos, es beneficiosa
para todos los usuarios de los servicios públicos
Muchas Gracias
Irina Benediktovich:
[email protected]
Ana Richart de la Torre
[email protected]
Descargar