Evaluación comparativa de herramientas de análisis de número de

Anuncio
Evaluación comparativa de herramientas de
análisis de número de copia a partir de datos NGS
Estudiante: Felipe Were Eduardo
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III
2013-2015
Centro Nacional de Investigaciones Oncológicas (CNIO)
Unidad de Bioinformática
Directores: David G. Pisano y Gonzalo Gómez
Tutores: David G. Pisano y Gonzalo Gómez
Fecha: 15/09/2014
AGRADECIMIENTOS:
Me gustaría agradecer a las siguientes personas, sin las cuales no habría sido posible la realización
de estas prácticas:
En primer lugar a Gonzalo Gómez y a David Pisano por ofrecerme la posibilidad de hacer las
prácticas del máster en su laboratorio y por su asesoramiento durante todo el proceso.
Agradecerle a Ángel Carro por toda su ayuda con el clúster de Ahsoka, incluida la instalación de
muchos de los programas que he utilizado.
A Miriam Rubio su ayuda en la primera etapa del Máster, principalmente con el pipeline de
RuBioSeq.
A Fátima Al-Sharour y a Elena Piñeiro por haberme proporcionado los “datasets reales”,
fundamentales para la realización del proyecto.
A Federico Abascal y a Enrique Carrillo por todos los consejos útiles que me han proporcionado a
lo largo de estos meses de prácticas.
A Juan y a José Manuel por su ayuda en la parte informática.
A Jon y a Fernando, a quienes he acribillado a preguntas.
Y en general a todo el equipo que trabaja al final del ala oeste de la planta 0 del CNIO.
OBJETIVOS:
– Revisión bibliográfica de los métodos de análisis de variaciones de número de copia sobre
datos NGS disponibles hasta la fecha.
– Selección de un subconjunto manejable de entre los métodos encontrados e implementación
en el laboratorio.
– Evaluación de la sensibilidad, especificidad y precisión en la asignación de los números de
copia de los métodos seleccionados utilizando datos sintéticos y reales.
– Visualización mediante circos.plot de los resultados de la ejecución de los métodos
seleccionados sobre datos reales.
INTRODUCCION :
Variaciones de número de copia, definición y clasificación: Las variaciones de número de copia
(en adelante, CNVs, “Copy Number Variations”) se definen como deleciones o amplificaciones de
segmentos del genoma con un tamaño mínimo de entre 50bp y 1kb (Alkan et al., 2011 , Banerjee et
al., 2011; Stranger et al., 2007; Feuk et al., 2006). Forman parte del grupo de mutaciones
denominado variaciones estructurales (SV), que incluye también trasposiciones e inversiones. El
tamaño mínimo de segmento que define una CNVs no está consensuado del todo, pues disminuye a
medida que se va incrementando la resolución de los métodos de detección de CNVs (Liu et al.,
2013).
Las CNVs se pueden clasificar de distintas formas según el criterio utilizado:
-Según origen:
Germinales (CNVs propiamente dichas). Se originan en la línea germinal y por tanto se transmiten a
la descendencia.
Somáticas (SCNA, Somatic Copy Number Alterations). Se originan en células somáticas. Son
particularmente frecuentes en tumores.
-Según tamaño (Brosens et al., 2010; Koboldt et al., 2012): Grandes, (”Broad”): Afectan a más del
25% del tamaño de uno de los brazos de un cromosoma. Focales: Más pequeñas, típicamente de
tamaño menor a 5 Mb
-Según el tipo de modificación:
Las variaciones de número de copia se definen por comparación con el número de copia normal de
2 de los autosomas de un genoma diploide y se clasifican en:
a) Pérdidas
Deleciones Heterocigotas (se pierde una de las dos copias)
Deleciones Homocigotas (se pierden las dos copias)
b)Ganancias
Amplificaciones (ganancias de 1 o 2 copias)
Grandes Amplificaciones (ganancias de más de 2 copias)
Importancia de los CNVs:
Tanto si afectan directamente a regiones codificantes como si afectan a regiones reguladoras, los
CNVs pueden cambiar los niveles de expresión génica. Gran número de CNVs se han relacionado o
implicado directamente en enfermedades, con una gran incidencia en trastornos neuropsiquiátricos
y en cáncer.
-CNVs en cáncer:
Una de las características más comunes de los procesos tumorales es la presencia de reordenaciones
estructurales en el genoma de las células tumorales. Las alteraciones somáticas de número de copia
(SCNAs) son ubicuas en células tumorales (Futreal et al., 2004; Negrini et al., 2010; Kim et al.,
2013, Albertson et al., 2003; Diskin et al., 2009; Shlien et al, 2009; Beroukhim et al., 2010; Frank et
al., 2007) y pueden afectar de forma crítica los patrones de expresión de determinados genes
(Stratton et al., 2009; Zack et al., 2013). Una prueba de la importancia de los SCNAs en cáncer es la
existencia de patrones de SCNA que permiten diferenciar entre tipos de cáncer (Stratton et al.,
2009;, Beroukhim et al) y analizar la progresión del cáncer y su complejidad (Liu et al., 2013). Los
análisis de SCNA pueden llevar a la identificación de genes “directores” del cáncer (Louhimo et
al ) y pueden incluso ayudar a establecer criterios sobre el tratamiento (Curtis et al, Dancey et al).
Actualmente, la detección de CNVs se ha convertido en una parte esencial del análisis de los
genomas de pacientes con cáncer.
-CNVs en trastornos del sistema nervioso
Se han relacionado diversas CNVs con la susceptibilidad de desarrollar diversos trastornos del
sistema nervioso (Merikangas et al), como la enfermedad de ALzheimer (Rovelet-Lecruz et al,), la
enfermedad de Parkinson (Ibanez et al, Singleton et al), la epilepsia (Helbig et al) y diversos
trastornos psiquiátricos, incluyendo la esquizofrenia (Xu et al, Stefansson et al), el retraso mental
(McMullan et al, Edelmann et al, Bijlsma et al), el autismo (Weiss et al, Szatmari et al, Paterson et
al, Zwaigenbaum et al, Marshall et al, Kumar et al) y el trastorno depresivo (major depressive
disorder, Glessner et al). Mediante la generación de mapas de morbilidad de CNVs, un estudio
reciente ha logrado identificar 10 genes presuntamente implicados en el desarrollo de trastornos
neurocognitivos y del desarrollo (Coe et al).
Además del cáncer y los trastornos del sistema nervioso, se han implicado CNVs en enfermedades
autoinmunes (McKinney et al, Yang et al, Fellermann et al, Hollox et al) y en la susceptibilidad a la
infección por HIV-1 (Gonzalez et al).
Tecnologías aplicadas al estudio de CNVs:
La necesidad de establecer una identificación precisa de los eventos de modificación de número de
copia ha llevado al desarrollo de numerosas técnicas para el análisis de CNVs.
Tradicionalmente se utilizaban técnicas citogenéticas para la identificación de CNVs, como por
ejemplo la hibridación de fluorescencia “in situ” (FISH)(Speicher et al, Schaaf et al).
Posteriormente, y hasta la llegada de las tecnologías de NGS, las plataformas más utilizadas para el
análisis de CNVs eran los arrays de hibridación genómica comparada (aCGH, Pinkel et al ) y los
SNParrays (Bignell et al). En la actualidad, se está produciendo una gran proliferación de
herramientas de análisis de número de copia basadas en datos NGS.
El análisis de las variaciones de número de copia mediante NGS presenta numerosas ventajas
potenciales frente al análisis mediante arrays (Klambauer et al):
1) La estimación del número de copia a partir de datos NGS es más precisa para números de copia
grandes, ya que la profundidad de lectura escala de forma aproximadamente lineal con el
número de copia (Alkan et al., 2011).
2) Los breakpoints de los segmentos de número de copia determinado pueden ser estimados con
mayor precisión, ya que no dependen de sondas predefinidas.
3) Se pueden estimar números de copia correspondientes a alelos específicos, mientras que las
técnicas basadas en arrays están restringidas a alelos predefinidos. Esto puede ser interesante
para la identificación de mutaciones implicadas en el desarrollo de cáncer (Stratton et al., 2009;)
Estrategias de análisis de CNVs a partir de datos NGS:
Se han descrito 4 métodos para la detección de CNVs a partir de datos NGS, resumidas en la fig1:
a) Pair-End Mapping o “mapeo de lecturas pareadas” (PEM).
Este método requiere del uso de lecturas pareadas (”paired-end”) y se basa en que los fragmentos de
DNA secuenciados mediante NGS tienen un tamaño que sigue una determinada distribución (Chen
et al., 2010; Hormozdiari et al., 2009; Xi et al. (b), 2011). De manera que si las lecturas
secuenciadas, que corresponden a los extremos de estos fragmentos, mapean a la referencia a una
distancia mayor de la esperada, significa que hubo una deleción en el genoma estudiado. Por el
contrario, si la distancia entre las lecturas es más pequeña que la esperada, se entiende que se ha
producido una inserción en el genoma estudiado, por ejemplo una duplicación.
b) Split Read o “lecturas interrumpidas” (SR).
Este método también requiere del uso de lecturas pareadas (”paired-end”) y se basa la idea de que
una lectura no mapeada en el genoma de referencia puede estar localizando un extremo o
“breakpoint” de un CNVs (Ye et al., 2009).
c) Assembly-Based o “métodos basados en ensamblaje” (AS).
Este método, que se basa en el ensamblaje “de novo” del genoma, se utiliza de forma casi exclusiva
en genomas bacterianos, ya que da problemas con genomas grandes como los humanos (Ye et al.,
2009), asi que no nos vamos a extender más sobre él.
d) Depth Of Coverage o “Profundidad de lectura” (DOC).
Este método asume una correlación lineal entre la profundidad de lectura y el número de copia
(Abyzov et al., 2011, Yoon et al., 2009). Una profundidad menor a la esperada representará una
pérdida o deleción y una profundidad mayor que la esperada representará una ganancia o
amplificación. En realidad esta relación no es tan directa porque el proceso de secuenciación no es
uniforme, sino que existen distintos biases como los asociados a contenido GC y la mapeabilidad
del genoma. Sin embargo, se han desarrollado mecanismos para corregir algunos de estos biases de
forma eficiente (ver apartado “Importancia del pre-procesamiento de los datos”). Además, los
métodos basados en DOC permiten la asignación precisa de número de copia, mientras que los
anteriores solo permiten la asignación de breakpoints. Por todo lo anterior, los métodos basados en
DOC son los más utilizados en la actualidad en los estudios de CNVs (Zhao et al., 2013). La
profundidad de lectura suele ser procesada para obtener la LRR (Log of Read depth/count Ratio),
calculada como el logaritmo en base dos de las lecturas encontradas, relativas a algún valor
utilizado como referencia (Liu et al., 2013). Las herramientas de análisis de CNV que usan datos
provenientes de un par de muestras normal/tumor, buscan identificar aquellos intervalos para los
que el (log) del número de lecturas (corregidas) entre la muestra tumoral y la muestra normal se
desvía significativamente de 1.
-Análisis de exomas vs análisis de genoma completo:
Una de las primeras características distintivas de los algoritmos de detección de alteraciones de
número de copia basada en datos de NGS es el tipo de secuenciación utilizado: secuenciación
masiva de exomas (WES) o de genomas completos (WGS). El análisis de CNVs a partir de datos
procedentes de WGS presenta numerosas ventajas frente al de datos procedentes de WES:
a) Los procesos de alteración de número copia se pueden dar en cualquier parte del genoma y no
solo en las regiones exónicas. Además, las alteraciones en regiones no exónicas pueden tener
efectos fundamentales en la expresión génica, caso ocurran en regiones promotoras o reguladoras de
los genes, o en regiones implicadas en la regulación de la estructura de la cromatina.
b) Se ha hecho una evaluación comparada de algoritmos de análisis de número de copia con datos
de WGS y WES, encontrándose que las herramientas que usan datos de WGS tienen un rendimiento
muy superior al de las herramientas que usan datos WES (Alkodsi et al, 2014). Esto se debe en gran
parte a que los algoritmos WES presentan lo que se ha denominado como el “bias exónico”,
derivado de la distribución no uniforme de los exones a lo largo del genoma. Esta es una limitación
tecnológica, que no puede ser solucionada mediante algoritmos. Además, la identificación de los
breakpoints está sujeta a un error derivado de las distancias inter-exónicas, error que puede ser muy
grande (Alkodsi et al., 2014).
c) El abaratamiento de los costes de la secuenciación masiva hará con que cada vez predomine más
la secuenciación de genomas completos, frente a la secuenciación limitada a exomas.
Esquema del funcionamiento de una herramienta de análisis CNVs:
En la fig 2 se resume el mecanismo general de funcionamiento de las herramientas de análisis de
CNVs , en la que se pueden identificar los siguientes pasos:
a) Recogida de los datos. La profundidad de lecturas a lo largo del genoma (RC o RD), se suele
obtener mediante la división del genoma completo en ventanas no solapantes de un tamaño
determinado, en las que se cuenta el número de lecturas. Los datos de profundidad de lectura se
pueden complementar con datos de frecuencia de alelo B (ver descripción más adelante en el texto)
y, en ocasiones, alguna otra información adicional, como la de lecturas discordantes (lecturas
paired-end que alinean al genoma de referencia de forma anómala (ver sección métodos de análisis
de CNVs, apartado de métodos basados en PEM).
b) Preprocesamiento de los datos crudos y, cuando posible, normalización (mediante la utilización
de una muestra normal). El preprocesamiento permite corregir problemas técnicos o biológicos, por
ejemplo mediante el filtrado de lecturas de baja calidad y la corrección del bias por contenido GC
(ver sección “importancia del pre-procesamiento de los datos”)
c) Segmentación: Se particiona la señal generada en segmentos. Estos segmentos se generan
mediante la agrupación de ventanas consecutivas que presentan números de copia
suficientemente similares como para asumir que son idénticos. Existen diversos métodos de
segmentación, como por ejemplo el método de segmentación circular binario (CBS, Olshen et
al., 2004; Popova et al., 2009; Olshen et al (b), 2011), métodos basados en modelos ocultos de
Markov (HMM, Yau et al., 2010; Sun et al., 2009) y métodos basados en criterios de
información Bayesiana (BIC, Xi et al (a), 2011), entre otros.
d) Interpretación: Se interpretan los datos procedentes del proceso de segmentación, a partir de los
cuales se asignan números de copia o estados a los segmentos identificados. Este paso no es
necesario en los programas basados en HMM, ya que éstos procesan de forma simultánea la
clasificación de ventanas en estados y la agrupación de ventanas consecutivas en segmentos.
Además de la asignación de números de copia o de estados, algunos algoritmos diseñados para
el análisis de muestras tumorales pueden llegar a identificar el nivel de pureza, el grado de
poliploidia y la heterogeneidad tumoral de dichas muestras.
e) Output: Presentación de los resultados obtenidos.
Importancia del pre-procesamiento de los datos:
Corrección por contenido GC y por “mapeabilidad”:
Como ya se ha mencionado, el proceso de secuenciación no es uniforme a lo largo del genoma, sino
que presenta “biases”. Los dos “biases” más estudiados son la mappbilidad y el contenido GC (Liu
et al., 2013).
-mapeabilidad:
La mapeabilidad de una región de un genoma de referencia se define como la probabilidad de que
una lectura procedente de esa región se vuelva a mapear sobre ella sin ambigüedades (Teo et al.,
2012). Algunas herramientas de análisis de CNVs disponen de programas que calculan los valores
de mapeabilidad a lo largo de un genoma, y los utilizan para implementar una corrección asociada a
la mapeabilidad (Lai et al., 2012).
-Corrección por contenido GC
La profundidad de lectura suele presentar una distribución unimodal respecto de su contenido en
nucleótidos GC, que es independiente del tamaño de la región o ventana considerada y de la
profundidad media de lecturas (Abyzov et al., 2011; Benjamini et al., 2012; Yoon et al., 2009).
Regiones con un contenido GC medio (40 a 55% GC) tienen una profundidad de lectura media
mayor que las de contenido GC más alto o más bajo. Al igual que las correcciones de mapeabilidad,
algunas herramientas de análisis de CNVs han inlcuido en su software algoritmos de corrección del
bias asociado al contenido GC (Teo et al., 2012; Yoon et al., 2009)
Importancia de la inclusión de un control normal (“matched normal”) cuando se analizan
muestras procedentes de tumores:
El uso de un control normal diploide permite asegurar que cualquier artefacto que aparezca
simultáneamente en tumor y normal, como por ejemplo biases específicos de la plataforma de
secuenciación utilizada, regiones no secuenciables, etc, sean corregidas o eliminadas de forma
eficiente ( Xi R (a), 2011). Se facilita también la corrección de los efectos de bias que provienen del
contenido GC o de mapeabilidad del genoma, ya que se pueden comparar directamente las
profundidades de lectura de tumor y normal. La presencia de matched normal también permite la
identificación de locus de SNPs heterocigotos para calcular el valor BAF o de imbalance alélico
(ver apartado “información sobre frecuencia del alelo B” (BAF)) y filtrar los CNVs benignos del
paciente (Liu et al., 2013)
Problemas asociados al análisis de muestras tumorales:
El análisis de CNVs en tumores presenta sus propias complicaciones, derivadas de la presencia de
contaminación en las muestras y de anomalias genómicas difíciles de identificar. Es frecuente
encontrar que las muestras de tejidos tumorales presentan infiltraciones de estroma normal (notumoral), lo que resulta en una inevitable contaminación con DNA normal y la dilución de las
señales correspondientes a aberraciones somáticas (Boeva et al., 2011, 2012; Gusnanto et al., 2012;
Ha et al., 2012; Mayrhofer et al., 2013). La presencia de impurezas en muestras tumorales puede
alterar significativamente los datos WGS, particularmente cuando las células normales dominan
sobe las tumorales. Sin embargo, muy pocas herramientas de análisis de CNVs tienen la capacidad
de abordar este problema. Entre los que sí lo hacen se incluyen FREEC (Boeva et al., 2011, 2012),
APOLLOH (Ha et al., 2012), CLImAT (Yu et al., 2014) y Patchwork (Mayrhofer et al., 2013). Un
problema similar surge cuando se utilizan modelos de xenotransplantes en ratón, es decir,
transplantes de muestras de tumores humanos en ratones. En estos casos el problema deriva de la
contaminación de las muestras tumorales con tejido de ratón (Huynh et al., 2011). WaveCNVs es
una herramienta de análisis de número de copia de genomas secuenciados mediante NGS que se ha
desarrollado para el análisis de muestras de tumores incluyendo modelos de xenotransplantes (Holt
et al). Además de la presencia de impurezas en los tumores, éstos presentan con frecuencia
fenómenos de aneuploidia, derivados de las anomalias estructurales y numéricas que con frecuencia
se presentan en los cromosomas de genomas tumorales (Carter et al., 2012). La interpretación de los
datos procedentes de NGS se hace especialmente complicada en muestras tumorales con presencia
de impurezas y de aneuploidia (Oesper et al., 2013). La herramientas Patchwork y CLImAT, de
análisis de número de copia en tumores, toman en consideración tanto la presencia de impurezas
como el fenómeno de aneuploidia (Mayrhofer et al., 2013, Yu et al., 2014). A todos estos problemas
técnicos hay que añadir el hecho de que los propios tumores pueden ser internamente heterogéneos,
subdividiéndose en subclones con propiedades diferentes (Liu et al., 2013).
Información sobre frecuencia del alelo B (BAF) o “imbalance” alélico: El análisis de las
alteraciones de número de copia basado exclusivamente en la profundidad de lectura puede
presentar problemas, debido a los diversos biases que pueden presentar los datos, a las
características intrínsecas de las muestras analizadas y a variaciones experimentales (Liu et al.,
2013). Muchos algoritmos añaden la información de frecuencia del alelo B “BAF” o “imbalance”
alélico, basada en la fracción alélica presente en el locus de cada SNP. Si llamamos 'alelo A' al alelo
que se corresponde con el mismo nucleótido que se encuentra en el genoma de referencia, y 'alelo
B' al que presenta un nucleótido diferente, el valor de “imbalance” alélico se calcula como b/(a+b).
En un genoma normal diploide, los valores de “imbalance” alélico correspondientes a los genotipos
AA, AB, BA y BB son 0, 0.5, 0.5 y 1 respectivamente. Como se puede ver, solo se consideran las
proporciones alélicas, de forma que los genotipos AB y BA son indistinguibles. Si un evento CNV
altera el número de copias, el valor de “imbalance” alélico puede variar, dependiendo del número de
copias. Por ejemplo, si hay m copias del homólogo 1 y n copias del homólogo 2 en una región de un
genoma tumoral, el valor de BAF puede ser alguno de los siguientes, 0, m/(m+n), n/(m+n) y 1.
Diversos factores, como la contaminación de muestras tumorales por células normales, puede
alterar estos valores teóricos. El análisis de estas variaciones sobre el valor teórico puede aportar
información sobre el grado de contaminación de una muestra tumoral con células normales (Liu et
al., 2013, Boeva et al 2012). La ploidia también se puede revelar mediante información procedente
de BAF. Por ejemplo, la diploidia admite las posibilidades 0, 0.5 y 1, y la tetraploidia añade las
posibilidades 0.25 y 0.75.
Principales características de los algoritmos Patchwork y HMMcopy:
En el presente trabajo se ha hecho una recopilación de las herramientas de análisis de CNVs
descritas en la literatura hasta la fecha. Se seleccionó un subconjunto para su implementación en el
laboratorio. Dos de ellas, “BIC-seq” y “seqCNA”, dieron diversos errores durante el proceso de
implementación y ejecución, por lo que tuvieron que ser descartadas. Las otras dos herramientas
seleccionadas, “Patchwork” y “HMMcopy”, fueron implementadas con éxito, y a continuación se
procedió a la evaluación de su capacidad de detección de CNVs, con datos simulados y reales.
HMMcopy
HMMcopy es una colección de herramientas para la detección de CNVs o SCNAs a partir de datos
de secuenciación de genoma completo (WGS)(Ha et al., 2012; Dempster et al., 1977; Lai et al.,
2012). El algoritmo empieza computando el número de lecturas en muestras tumoral y normal,
utilizando ventanas con un tamaño fijo, que puede ser especificado por el usuario. Sobre esas
mismas ventanas de tumor y control, HMMcopy obtiene un perfil de contenido GC y mapeabilidad.
Tras filtrar las ventanas con contenido GC extremo y las de baja mapeabilidad, el algoritmo
normaliza el contenido GC y la mapeabilidad de las muestras tumor y normal por separado.
Finalmente, se normalizan las lecturas de tumor frente a las normales y empieza el proceso de
segmentación. El proceso de segmentación usa un modelo oculto de Markov (HMM) de 6 estados
donde en el primer paso se estiman los parámetros óptimos de segmentación mediante un algoritmo
EM (”Expectation-Maximization”) y en el segundo paso ejecuta la segmentación propiamente dicha
mediante el algoritmo Viterbi (Forney et al., 1973), el cual asigna uno de seis posibles estados de
número de copia a cada segmento (0, 1, 2, 3, 4 y 5 o más copias, para los estados 1 a 6,
respectivamente).
En resumen:
-Input de HMMcopy: Ficheros BAM de lecturas Tumor/Normal y fichero fasta del genoma
utilizado para el alineamiento.
-Parámetros de HMMcopy:
a) Tamaño de ventana con la que dividir el genoma (default: 1 kb).
b) Parámetros de segmentación:
Los Parámetros de segmentación se dividen en 2 categorias: • Parámetros iniciales: e, mu, lambda,
un, kappa
• Parámetros de flexibilidad: strength, m, eta, gamma, S Los parámetros iniciales fijan los
parámetros de partida para el algoritmo de optimización y los parámetros de flexibilidad definen el
grado de variación que se admite sobre los parámetros iniciales durante el proceso de optimización.
La modulación de estos parámetros por el usuario permite controlar tanto el proceso de
segmentación como el de asignación de número de copia a los segmentos generados. Todos los
parámetros de HMMcopy tienen un valor asignado por defecto.
-Output de HMMcopy: HMMcopy genera un fichero excel que entre su información incluye las
coordenadas de los segmentos no solapantes identificados, el cromosoma al que pertenecen y el
estado asignado a cada segmento.
Patchwork:
La herramienta Patchwork ha sido diseñada para el análisis de variaciones de número de copia en
tejido tumoral. Su principal característica es la incorporación de información sobre el “imbalance”
alélico o BAF, que complementa la información basada en profundidad de lectura.
En la fig 3 se representa el diagrama de flujo correspondiente al funcionamiento de Patchwork, que
consta de los siguientes pasos:
1) Se alinean las lecturas al genoma de referencia.
2) Se extraen las variantes de copia única (o, de forma opcional, los Indels) que no coincidan con
el genoma de referencia.
3) Se normaliza por contenido GC y otros efectos de posición de naturaleza desconocida. Para
llevar a cabo este proceso, se dividen los datos de lecturas alineadas en ventanas con un tamaño
fijo de 200pb. La normalización por contenido GC se efectúa mediante la generación de grupos
de ventanas con contenido GC similar y posterior normalización de la profundidad de lectura en
cada ventana según contenido GC del grupo al que pertenece. Para la normalización de otros
efectos de posición se utiliza la información de profundidad de lectura de muestras que hayan
sido secuenciadas con el mismo método que el utilizado para la muestra tumoral.
4) Se segmenta el genoma en base a la profundidad de lectura normalizada y resumida en ventanas
de 10kb. La segmentación se lleva a cabo por el método de segmentación circular binario
(CBS).
5) Se identifican las variantes heterozigotas informativas.
6) Se calcula el ratio de imbalance alélico para cada segmento, de acuerdo con la siguiente
fórmula: (∑ mayor - ∑ menor)/(∑ mayor), donde ∑ mayor y ∑ menor representan el número de
lecturas correspondientes a los alelos mayoritarios y minoritarios, respectivamente, sumados
para todos los SNPs heterocigotos que cubren ese segmento.
7) Se visualiza en un plot el ratio de imbalance alélico vs profundidad de lectura normalizada en
los segmentos genómicos.
8) El usuario interpreta el plot anterior y determina los parámetros/argumentos a utilizar en el
siguiente paso (más adelante se explica el procedimiento).
9) Se calcula el número de copia específico de alelo para cada segmento genómico. Los pasos 3 a 7
y el paso 9 se llevan a cabo con los módulos Patchwork.plot() y Patchwork.copynumbers()
respectivamente.
En la fig 4 se muestra un ejemplo del procedimiento a emplear para la asignación de parámetros al
módulo Patchwork.copynumbers(). El plot de la izquierda muestra como a cada nº de copia,
posicionada sobre el eje horizontal según su profundidad de lectura, le corresponde una distribución
concreta de estados de imbalance alélico, siendo mayor el número de estados posibles a mayor
número de copia. A partir de estos datos, se pueden establecer los argumentos a utilizar en el
módulo Patchwork.copynumbers y que son los siguientes:
El argumento cn2 es la posición del número de copia 2 en el eje profundidad de lectura. En este
ejemplo, cn2 es ~0.8.
El argumento delta es la diferencia entre dos números de copia consecutivos en el eje de
profundidad de lectura. En este ejemplo se toman los números de copia 2 y 3. En este ejemplo es
~0.28.
El argumento het es la posición del número de copia 2 heterozigoto en el eje de “imbalance” de
alelos. En este ejemplo het es ~0.21.
El argumento hom es la posición del número de copia 2 homocigoto en el eje de “imbalance” de
alelos. En este ejemplo hom es ~0.79.
Aunque el plot de la fig 4 muestra una situación ideal, la presencia conjunta de impurezas,
aneuploidia y heterogeneidad tumoral, entre otros, pueden dificultar la interpretación de este tipo de
plots, como se discutirá en la sección de resultados.
Además del análisis de números de copia, Patchwork también permite calcular la ploidia media
(definida como el número de copia medio de todos los segmentos genómicos, ponderado por el
tamaño de segmento) y el grado de pureza de las muestras tumorales. La ploidia y la pureza se
calculan mediante fórmulas basadas en variaciones entre las profundidades de lectura normalizadas
encontradas y las que se esperan para muestras tumorales puras de células diploides.
En resumen:
-Input de Patchwork: Fichero BAM de lecturas y ficheros mpileup y VCF con información de SNPs
e Indels, de Tumor y Normal
-Output de Patchwork: se genera un fichero excel que entre su información incluye las coordenadas
de los segmentos no solapantes identificados, el cromosoma al que pertenecen, el número de copia
asignado a cada segmento y porcentaje de células tumorales presente en la muestra
-Parámetros de Patchwork: Los dos módulos de Patchwork, Patchwork.plot y
Patchwork.copynumbers, admiten parámetros que se pueden utilizar para modular el proceso de
segmentación y la asignación de número de copias.
Figura 1: Aproximaciones metodológicas para la detección de CNVs a partir de lecturas procedentes de NGS
(figura tomada de Min Zao et al).
Figura 2: Diagrama de flujo que muestra el mecanismo de funcionamiento de los métodos de
análisis de variaciones de número de copia a partir de datos NGS (figura tomada de Liu et al.,
2013. )
Figura 3: Diagrama de flujo del mecanismo de funcionamiento de Patchwork
(Figura tomada de Mayrhofer et al., 2013).
Figura 4: Representación esquemática del típico plot de “imbalance” de alelos vs profundidad de lectura
generado por el módulo Patchwork.plot() de Patchwork.
A) Se representan sobre las manchas del plot las posibles combinaciones de dos alelos (verde y morado) que les
pueden corresponder. CN = número de copia.
B) Se representan sobre el plot los valores de los argumentos a utilizar durante la ejecutación del módulo
Patchwork.copynumbers.
Figura procedente del tutorial online de Patchwork.
MATERIALES Y METODOS
En el presente estudio, se evaluaron los algroritmos de análisis de número de copia “Patchwork” y
“HMMcopy” utilizando datasets artificiales y reales.
Generación y análisis de datasets artificales:
En la fig5 se resume el proceso utilizado para crear los genomas artificiales y la introducción de
CNVs, mientras que en la fig 6 se presenta esquemáticamente el pipeline completo de generación de
los datasets artificiales. El proceso completo consta de los siguientes pasos:
1) Generación de “minigenomas artificiales”
En un principio, se había planeado partir exclusivamente del cromosoma 22 para la generación de
genomas artificiales, ya que es el autosoma más pequeño del genoma humano y por tanto, el más
manejable. Sin embargo, Patchwork no permite el análisis de cromosomas individuales, y utiliza
como input ficheros que contienen información procedente del genoma completo. Con el objetivo
de construir un genoma mínimo capaz de ser procesado por Patchwork, se generó un genoma
artificial que consta del cromosoma 22 completo, flanqueado por una concatenación ordenada de
pequeños segmentos procedentes de la región 3' de cada uno de los cromosomas que componen el
genoma humano (Ver fig5). El genoma artificial resultante tiene un tamaño aproximado de 80Mb,
frente a los 3000Mb del genoma completo.
2) Introducción de SNPs
Para reproducir de forma fidedigna las propiedades de los genomas reales se han introducido
SNPs e indels en el genoma. Para ello se ha utilizado la herramienta Genome-simulator (CovalSimulate), que incorpora SNPs e Indels de 1 a 6 pb de tamaño de forma aleatoria en genomas de
referencia, siguiendo una distribución uniforme. Este programa introduce las mutaciones respetando
las frecuencias naturales que ocurren en el genoma humano (en el caso de SNPs, 4 veces más
transiciones que transversiones (Zhao et al., 2013) y en el caso de los indels, frecuencias de 66%,
17%, 7%, 7%, 2%, 1% para los indels de 1pb, 2pb, 3pb, 4pb, 5pb y 6pb respectivamente (Fujimoto
A)). El programa permite que el usuario controle la cantidad total de SNPs y de Indels introducidos.
En nuestro caso, se introdujeron los valores default del programa, 0.1% de SNPs y 0.01% de Indels,
valores que coinciden con los predichos por algunos autores para el genoma humano (Pang et al.,
2010).
3) Generación de las variaciones de número de copia:
El siguiente paso consistió en la generación de las variaciones de número de copia en el genoma
tumoral. Para simplificar el modelo, se decidió no introducir CNVs en el control, no alterando así el
sistema de coordenadas del genoma de tumor relativo al del genoma de referencia.
Los CNVs se introdujeron mediante la función “simulateSV” del paquete RSVSim de
R/Bioconductor (version 1.6.1, Bartenhagen C, 2014).
Esta función permite la introducción de variaciones estructurales en genomas de referencia, con
tamaño de segmento fijado por el usuario. Aplicando esta función sobre los ficheros fasta generados
en el paso anterior, se introdujeron deleciones y amplificaciones de segmentos de 3 tamaños (20kb,
200kb y 1Mb), en coordenadas aleatorias del genoma.
Las deleciones heterocigotas y las ganancias de una sola copia se produjeron mediante la
introducción de las modificaciones correspondientes en uno solo de los dos genomas artificiales
utilizados como referencia para la generación de lecturas. Las deleciones homocigotas se
obtuvieron mediante la introducción de pérdidas de segmentos en la misma posición (es decir,
utilizando la misma semilla en la función simulateSV) en los dos genomas artificiales.
Se ha visto que muchas veces las variaciones estrucurales co-ocurren con mutaciones mucho más
pequeñas (Bartenhagen C, 2014). Para simular esta situación en nuestros datasets, se han
introducido SNPs e Indels de hasta 10pb de tamaño en la regiones flanqueantes proximales (hasta
una distancia de 50pb) de los breakpoints de los CNVs introducidos.
Para dar valor estadístico al estudio, se realizaron 10 copias de cada genoma artificial, cada uno
con una colección de CNVs situadas en coordenadas distintas. En total, se generaron 20 genomas
artificiales simulando genomas tumorales, divididos en 2 grupos. El primero incluye deleciones y
pequeñas amplificaciones (3 y 4 copias) y el segundo incluye grandes amplificaciones (6, 8 y 10
copias). En cada grupo las coordenadas de los segmentos con número de copia alterado se variaron
mediante la asignación de un número de semilla diferente en la función simulateSV.
4) Generación de las lecturas simuladas:
Para las primeras pruebas, se utilizó el software Sherman Artificial Dataset Generator, un simulador
de lecturas cortas. Sin embargo, para los análisis definitivos se seleccionó el software
ArtificialFastqGenerator (Frampton et al). Este software permite la generación de lecturas pairedend con una profundidad de lectura que simula el bias por contenido GC del genoma (ver apartado
“Corrección por contenido GC” en introducción). Esto es particularmente importante en nuestro
caso porque permite evaluar la capacidad de corrección por contenido GC de las herramientas de
análisis de NGS que hemos evaluado. Utilizando los ficheros fasta procedentes del paso anterior, se
generaron lecturas de 90 pb, paired-end, con un tamaño medio de fragmento de 210 pb y una
desviación típica sobre la media de 60pb (los dos últimos valores son valores default del programa).
El número de lecturas se ajustó para generar una profundidad media de lecturas de
aproximadamente 6x. La elección de un valor de profundidad relativamente bajo se justifica porque
las lecturas artificiales generadas presentan características muy optimizadas respecto de las lecturas
que se generan por las plataformas NGS, como por ejemplo la ausencia en ellas de errores de
secuenciación.
5) Procesamiento de los ficheros FASTQ de lecturas. Las lecturas se alinearon al genoma de
referencia humano correspondiente al ensamblaje “hg19” de UCSC. Para el alineamiento, la
ordenación e indexación de las lecturas se utilizaron los softwares BWA y Samtools.
La generación de ficheros mpileup y VCF a partir de los ficheros BAM, requeridos por el
algoritmo Patchwork, se ha llevado a cabo con el software bcftools y el programa de Perl
“vcfutils.pl”.
El funcionamiento de HMMcopy empieza mediante la subdivisión del genoma en ventanas que
contendrán información de número de lecturas, asi como el perfil GC y la mapeabilidad del genoma
(ver introducción). En este proceso, se utilizó un tamaño de ventana de 1kb, que es el valor default
del programa.
7) Evaluación de los Algoritmos:
Los segmentos estimados por HMMcopy y Patchwork se compararon con los segmentos reales,
cuyo tamaño y número de copia se había definido durante la generación de los datos simulados. La
sensibilidad y especificidad de los algoritmos se calculó en base al grado de solapamiento de las
lecturas, a una resolución de 1pb. Aunque en algunos estudios previos no se habían impuesto
restricciones en cuanto al grado mínimo de solapamiento entre los segmentos estimados y reales
para el cálculo de los valores de sensibilidad y especificidad (Alkodsi et al., 2014; Duan et al.,
2013), nosotros hemos pensado que sería más correcto preseleccionar como positivos aquellos
segmentos estimados para los que el solapamiento con los reales fuese mayor del 70%. Para ser
considerados positivos, los segmentos estimados también tenían que compartir el “estado de
número de copia”, deleción o amplificación, con los correspondientes segmentos reales. Las
intersecciones se generaron utilizando la función “bedtools intersect” del software bedtools. Una
vez obtenidas las intersecciones se calcularon los siguientes parámetros:
TP: número total de pb solapantes entre los segmentos estimados y los reales (70% de solapamiento
mínimo entre segmentos) .
FP: número total de pb en los segmentos estimados que no solapan con los segmentos reales.
FN: número total de pb en los segmentos reales que no solapan con los segmentos estimados.
La sensibilidad y especificidad de los algritmos HMMcopy y Patchwork se calculó utilizando las
siguientes fórmulas:
Sensibilidad: TP/TP+FN
Especificidad: TP/TP+FP
Procesamiento y evaluación de datasets reales:
Para evaluar los algoritmos de análisis de número de copia sobre datasets reales, se utilizaron datos
de secuenciación WGS de dos muestras de tumores primarios procedentes de dos pacientes varones
con Carcinoma Adenoide Cístico (Adenoid cystic carcinoma (ACC)). Se utilizó una de las dos
muestras tumorales para simular la correspondiente muestra normal en los algoritmos de análisis de
CNVs, ya que no disponíamos de muestras de tejido normal de estos pacientes. Las muestras fueron
secuenciadas en una plataforma Illumina, generańdose lecturas paired-end de 100 bases, con un
tamaño medio de fragmento de 324 bases y una desviación estándar de 65 bases. Las lecturas
fueron alineadas al genoma Humano de referencia NCBI37 de UCSC. Los ficheros BAM de
lecturas procesadas nos fueron generosamente cedidos por Elena Piñeiro y Fátima Al-Sharour. Al
igual que en el caso de los datasests simulados, se generaron ficheros mpileup y VCF a partir de los
ficheros BAM, utilizados como input por el algoritmo Patchwork.
Para la comparación entre los resultados obtenidos por Patchwork y HMMcopy se estudió el
número de pb solapantes entre los segmentos identificados por ambos algoritmos. Para ello se
utilizó la función “bedtools.intersect” del software de Bedtools.
Parámetros elegidos durante la ejecución de los algoritmos Patchwork y HMMcopy:
El óptimo funcionamiento de los algoritmos de CNVs depende en gran medida del valor de los
parámetros utilizados. Cuando posible, se han utilizado los parámetros “default” o recomendados.
Sin embargo, como se ha descrito en la introducción, el comando responsable de la asignación de
número de copia a los segmentos generados por Patchwork depende de argumentos que tienen que
ser asignados manualmente por el usuario. En la sección “resultados” se detalla el proceso de
selección de los argumentos elegidos en cada caso.
Recursos computacionales:
Se ha utilizado un cluster de computadores, con 24 núcleos gestionados por el sistema operativo
Darwin, Version 11.4.0.
Todos los algoritmos utilizados en este proyecto se han lanzado en este cluster, para asegurar
resultados comparables entre las diversas ejecuciones.
Figura 5. Representación esquemática del proceso de generación
partir del ensamblaje hg19 del genoma humano. Las cajas de
representadas sobre el cromosoma 22 indican segmentos sujetos
heterocigota y amplificación, respectivamente. Los símbolos (|) y
en los genomas normal y tumor respectivamente)
de los genomas tumor y normal a
color rojo, naranja y azul
a deleción homocigota, deleción
(0) representan los SNPs introducidos
Introducción de
las alteraciones
(Coval, RVSim)
FASTA
Generación de las
lecturas simuladas
(FastqArtificial
Generator)
FASTQ
Alineamiento, ordenación
e indexación
(Bwa, Samtools)
Evaluación de
mappabilidad y contenido
GC por ventanas del
genoma
BAM
Identificación de SNPs
e Indels
(Bcftools, vcfutils)
(Map.Counter)
(GC.Counter)
map.WIG
gc.WIG
Generar fichero de
lecturas por ventanas
del genoma
mpileup
VCF
(Read.Counter)
Reads.WIG
HMMcopy
CNVs
detectados
Patchwork
CNVs
detectados
Evaluación comparativa
de los resultados
Figura 6: Diagrama de flujo del pipeline de análisis por HMMcopy y Patchwork de los
datasets simulados
RESULTADOS y DISCUSIÓN
Herramientas de análisis de CNVs en la literatura :
Se ha llevado a cabo una revisión exhaustiva en la literatura sobre algoritmos de análisis de CNVs a
partir de datos procedentes de WGS (secuenciación masiva de genomas completos). La tabla 1
presenta una lista, ordenada por fechas, de los algoritmos de análisis de número de copia
encontrados, junto con un resumen de algunas de sus principales características. Se han recogido un
total de 51 herramientas distintas de análisis de variaciones de número de copia, tanto somáticas
como de línea germinal. Estas herramientas presentan numerosas diferencias entre sí, como por
ejemplo en cuanto al modelo estadístico utilizado, sus parámetros, el lenguaje de programación con
el que han sido implementados, el sistema operativo, o los requisitos de input y el formato de
output, entre otros. La gran proliferación de algoritmos de análisis de CNVs en los últimos años
pone de manifiesto la complejidad del problema del análisis de CNVs a partir de datos NGS, una
tecnología que a día de hoy todavía no está estandarizada.
Criterios de selección de métodos:
El primer objetivo de este trabajo ha consistido en la selección de un conjunto de herramientas de
análisis de CNVs, para su implementación en el laboratorio y posterior evaluación.
Se han utilizado los siguientes criterios de selección:
a) Se seleccionaron métodos que permitían el análisis de datos procedentes de muestras tumorales.
Estos métodos, que identifican SCNAs, utilizan algunas estrategias y algoritmos que no están
presentes en los métodos de análisis de CNVs de línea germinal (Biao Liu et al., 2013.) .
b) El software con el que se han implementado los algoritmos tenía que ser de libre acceso (por
ejemplo, algunos algoritmos, como WaveCNV, incluyen Matlab entre los lenguajes utilizados para
su implementación, por lo que tuvieron que ser descartados).
c) Por diversas razones, ya comentadas en la introducción, se descartaron los métodos que solo
utilizan estrategias de análisis basadas en mapeo de lecturas pareadas, en lecturas interrumpidas, o
en ensamblaje “de novo”,
d) Se dio preferencia a los algoritmos más recientes y a los métodos que habían recibido las
evaluaciones más favorables en estudios previos (Duan et al., 2013; Pabinger et al., 2014; Alkosi et
al., 2014).
f) Se seleccionaron métodos que fueran sencillos de implementar en el laboratorio, bien
documentados y citados en la literatura, y que admitieran ficheros de tipo BAM o SAM como input.
Selección y primeras pruebas:
Basados en estos criterios, se eligieron los siguientes 4 métodos para su implementación en el
laboratorio, HMMcopy, Patchwork, BIC-seq y seqCNA, todos ellos desarrollados para la
evaluación de variaciones de número de copia en tumores, utilizando como input datasets
procedentes de parejas de muestras tumor/normal. En un estudio previo en el que se han comparado
diversas herramientas de análisis de variaciones de número de copia sobre tumores, HMMcopy y
BIC-seq han sido las herramientas mejor evaluadas sobre datasets reales, mostrando una gran
concordancia entre los SCNAs encontrados por estos algoritmos y los datos proporcionados por
SNP arrays (Alkosi et al., 2014). Patchwork es una herramienta desarrollada recientemente para el
análisis específico de muestras tumorales, con mecanismos que permiten averiguar contaminación
de las muestras tumorales por células normales, el número de copia específico de alelo o la
presencia de aneuploidias (Mayrhofer et al., 2013), y seqCNA es una de las herramientas de análisis
en tumores más reciente descrito hasta la fecha e incluye un método de filtrado de ventanas propio
que, según los desarrolladores, reduce el número de falsos positivos (Mosen-Ansorena et al., 2014).
Tras la instalación del software correspondiente a estos 4 algoritmos, se comprobó el
funcionamiento de los 3 primeros mediante la ejecución sobre pares de pequeños datasets de prueba
tumor/normal, cuyas lecturas proceden de cromosomas individuales, e incluidos en los propios
paquetes de instalación de algunos de los algoritmos utilizados. En un primer intento, se obtuvieron
errores de ejecución en Patchwork y BIC-seq, mientras que HMMcopy funcionó correctamente. En
el caso de Patchwork, los desarrolladores nos informaron de que este algoritmo sólo funciona con
datasets procedentes de genomas completos. Por otro lado BIC-seq dio un error de segmentación
(“segmentation fault”) que no fué posible resolver, presumiblemente por alguna incompatibilidad de
BIC-seq con el sistema operativo Darwin del cluster de computadores sobre el que se ejecutaron los
algoritmos, lo que nos obligó a descartar esta herramienta en estudios posteriores.
Seq-CNA se ejecutó con datasets de prueba artificiales cuyas lecturas paired-end fueron generadas
por el algoritmo “FastqArtificialGenerator”, que se ha descrito con detalle en la sección de
Materiales y Métodos. Un primer error durante la ejecución de Seq-CNA se corrigió mediante la
utilización de una versión actualizada del algoritmo “FastqArtificialGenerator”, que permitía la
generación de lecturas paired-end con orientación invertida en vez de orientación directa. Sin
embargo, un segundo problema durante la ejecución resultó derivar de un error de software (“bug”).
Aunque los desarrolladores proporcionaron después una versión actualizada del programa, el error
no se solucionó y finalmente se descartó la herramienta Seq-CNA.
En el siguiente paso, y tras descartar los algoritmos BIC-seq y Seq-CNA , se procedió a la
evaluación de los algoritmos Patchwork y HMMcopy.
Evaluación los algoritmos seleccionados:
a) Datastes artificiales
La evaluación de las herramientas Patchwork y HMMcopy empezó mediante el análisis de
su funcionamiento sobre datasets simulados. El proceso de generación de los datasets se describe
con detalle en la sección de Materiales y Métodos y se ha esquematizado en las figs. 5 y 6. Se
obtuvieron un total 21 genomas artificiales, 20 de ellos simulando genomas tumorales y uno
simulando un genoma normal. 10 de los genomas tumorales contenían deleciones homocigotas,
deleciones heterocigotas, y amplificaciones de 1 y 2 copias y los otros 10 contenían amplificaciones
de más de 2 copias. Las variaciones de número de copia se introdujeron en segmentos de 20kb,
200kb y 1Mb de tamaño. Tras la generación de lecturas a partir de los genomas artificiales y su
alineamiento al genoma humano (hg19) se obtuvieron los ficheros BAM correspondientes. Para
verificar que los datasets artificiales habían sido correctamente generados, se tomó al azar el fichero
BAM correspondiente a uno de los 10 datasets que contenían tanto deleciones como
amplificaciones y se visualizó mediante IGV. En la fig. 7 se puede ver como las modificaciones de
número de copia de los segmentos de 20kb se habían introducido en las coordenadas previstas. La
comprobación se extendió al conjunto de todos los segmentos modificados, verificándose en todos
los casos que las coordenadas eran correctas (datos no mostrados).
-Ejecución de HMMcopy y Patchwork:
Los datastets artificiales generados se analizaron con los algoritmos HMMcopy y
Patchwork, utilizando los parámetros default.
HMMcopy genera un plot en el que se visualiza el proceso de corrección por contenido GC
y mapeabilidad llevado a cabo durante el pre-procesamiento de las muestras (fig. 8A). Se puede
apreciar la notable corrección llevada a cabo por HMMcopy sobre el bias por contenido GC
introducido por el algoritmo FastqArtificialGenerator sobre la profundidad de lectura a lo largo del
genoma. HMMcopy genera otro plot que permite visualizar la influencia que tienen dichos procesos
de corrección sobre las estimaciones de número de copia (fig. 8B). Además, se genera un plot que
permite visualizar en cada cromosoma los segmentos estimados y los estados de número de copia
asociados a cada segmento, mediante un código cromático (fig. 8C).
El primer módulo de Patchwork, patchwork.plot (), genera un plot por cromosoma, que
representa el valor de imbalance alélico frente a la profundidad de lectura. Como se ha descrito en
la introducción, la interpretación de dicho plot permite al usuario estimar los argumentos necesarios
para la ejecución del segundo módulo de Patchwork, Patchwork.copynumbers (). La fig. 9 muestra
la estimación de parámetros realizada a partir del plot correspondiente al cromosoma 22, obtenido
tras la ejecución de patchwork.plot () sobre uno de los datasets artificales. Comparando con el plot
modelo discutido en la introducción (fig. 4), se puede ver que la calidad de los plots obtenidos con
nuestros datasets fué muy baja, hecho que ha dificultado enormemente la adecuada estimación de
los argumentos de Patchwork.copynumbers (). La baja calidad de los plots podría deberse a un error
de planteamiento en la generación de los datasets artificiales, ya que solo se introdujeron SNPs
homocigotos (ver sección Materiales y Métodos). Un segundo problema podría derivar del tamaño
relativamente pequeño de las alteraciones de número de copia introducidas. El escaso número de
SNPs incluidos en los segmentos alterados podría explicar el hecho de que no se visualicen en el
plot puntos de imbalance alélico correspondientes a segmentos con número de copia distinto a 2.
El valor de delta, la distancia en el eje X entre dos números de copia sucesivos, fué el argumento de
Patchwork.copynumbers más difícil de estimar, ya que casi todos los puntos del plot se
correspondían con un valor de profundidad de lecturas correspondiente a un número de copia 2. Por
ello se decidieron probar dos valores distintos de delta, 0.15 y 0.3, elegidos tras una serie de pruebas
preliminares con Patchwork.copynumbers. En la fig. 10 se puede ver el conjunto de plots generado
por Patchwork.copynumbers con argumento delta 0.3, para el cromosoma 22. Se incluye el número
de copia específico de alelo y los valores de imbalance alélico a los largo del cromosoma, nótese en
este último la escasa densidad de puntos, derivada de la escasez de SNPs informativos en los
datasets.
-Evaluación de sensibilidad y especificidad:
En la sección de Materiales y Métodos se describe cómo se calcularon los valores de
sensibilidad y especificidad con los que se ha evaluado el funcionamiento de HMMcopy y
Patchwork sobre datasets artificiales. La fig. 11 muestra los valores medios de sensibilidad y
especificidad calculados para las 10 muestras estudiadas de cada tipo. Tanto Patchwork como
HMMcopy presentan valores superiores al 80% de sensibilidad, bastante altos si se tiene en cuenta
la baja profundidad media de lecturas (aproximadamente 6x) de los datasets utilizados. En cambio,
la especificidad en la detección de CNVs por parte de HMMcopy y Patchwork ha sido
relativamente baja, rondando el 50%. En términos generales, HMMcopy presenta unos niveles de
sensibilidad global algo mayores que los de Patchwork, mientras que Patchwork presenta una
especificidad global ligeramente superior. Se ha calculado la sensibilidad de forma separada para
los 3 tamaños de segmento utliizados en este estudio, 20 kb, 200 kb y 1 Mb. La fig. 12 muestra los
valores medios de sensibilidad en 10 muestras para los distintos tamaños de segmento. Patchwork
fué incapaz de detectar los segmentos de 20 kb, mientras que HMMcopy los ha detectado con una
sensibilidad similar a la de detección de los segmentos más grandes, cercana al 90%. La
sensibilidad no se ha medido en función del número de segmentos detectados correctamente sino a
nivel del número total de nucleótidos que solapaban entre los segmentos predichos y los reales (ver
materiales y métodos). Esto explica el hecho de que Patchwork no mostrase una caída más notable
respecto de HMMcopy en sus valores de sensibilidad global (fig. 11), ya que los segmentos de 20
kb son los más pequeños que se han estudiado, y por lo tanto los que menos aportan al valor de
sensibilidad global.
Se ha calculado también la sensibilidad de forma separada para los CNVs de las distintas
clases de estado de número de copia estudiadas (deleciones homocigotas, deleciones heterocigotas,
amplificaciones (ganancias de 1 y 2 copias) y grandes amplificaciones (ganancias de 3 copias o
más). La fig. 13 muestra las medias de los valores de sensibilidad de detección de CNVs de
distintas clases de estado de número de copia. Es notable el hecho de que ni HMMcopy ni
Patchwork han detectado las deleciones homocigotas. Aunque inesperado, este resultado ya se había
descrito en el caso de HMMcopy (Alkosi et al., 2014) y podría deberse a que, a diferencia de lo que
ocurre en el caso de datasets reales, absolutamente ninguna lectura de los datasets artificiales
realinea al genoma de referencia en aquellos segmentos que se corresponden con deleciones
homocigotas. Para comprobar el efecto de esta situación en Patchwork y HMMcopy se rastrearon
los objetos que contienen la información de profundidad de lecturas por ventana del genoma y la
interpretación correspondiente de número de copias. En el caso de HMMcopy el objeto
“tumor_corrected_copy” recoge el número corregido de lecturas por ventana del genoma y les
asocia la columna “copy”, con el valor de LRR normalizado. HMMcopy asocia un valor “NA” a la
columna “copy” cuando el número de lecturas de la ventana asociada es 0 y este “valor” es
traducido a “estado 3, número de copia 2” durante el proceso de segmentación, situación que se
refleja en el output grafico de HMMcopy (fig 14, nótese la asignación de estado 3 a la región entre
las coordendas 4.35 exp7 y 5.35 exp7, correspondiente a una deleción homocigota). Para comprobar
si se podía corregir esta situación se decidió modificar el fichero wig de lecturas procedente de uno
de los datastets artificiales para los que HMMcopy no había identificado ninguna de las deleciones
homocigotas introducidas. Se modificó de 0 a 1 el número de lecturas correspondiente a las
ventanas que cubrían los segmentos que habían sufrido una deleción homocigota y se volvió a
ejecutar HMMcopy con el nuevo input, dejando todas las demás condiciones iguales. Cuando se
analizaron los segmentos identificados se encontró que todas las deleciones homocigotas eran
detectadas correctamente (datos no mostrados).
En el caso de Patchwork, el problema parece ser muy similar. Patchwork también genera un
objeto que recoge el número de lecturas por ventana, pero considera como outliers las ventanas en
las que no se encuentra ninguna lectura mapeada, excluyéndolas de los análisis posteriores.
Si se eliminan los datos correspondientes a las deleciones homocigotas del cómputo global
de sensibilidad, su valor pasa a superar el 95% en el caso de Patchwork y el 98% en el caso de
HMMcopy (datos no mostrados).
Al estar en dos grupos de genomas distintos, se ha podido estudiar por separado la
especificidad de detección de grandes amplificaciones frente a la de las restantes modificaciones
(ver Materiales y Métodos). Sorprendentemente, se vio que la especificidad en la detección de las
grandes amplificaciones era sensiblemente inferior a la de detección de las otras modificaciones,
tanto en el caso de HMMcopy como en el de Patchwork (fig. 15). De hecho, casi todos los falsos
positivos detectados por HMMcopy y Patchwork se correspondían con segmentos situados en el
grupo de genomas que contenía las grandes amplificaciones, lo que sugiere que los parámetros de
segmentación no estaban bien ajustados en este caso. En los tutoriales de estos algoritmos se
subraya la importancia de que los usuarios evalúen los outputs gráficos obtenidos tras la ejecución
y ajusten los parámetros de segmentación y asignación de número de copia en función de los
resultados obtenidos (ver sección “Prinicipales características de los algoritmos Patchwork y
HMMcopy” en introducción).
-Evaluación de la precisión en la detección de breakpoints:
Se ha comparado a máxima resolución (1 pb) la precisión en la asignación de las posiciones
de los breakpoints predichos por Patchwork y HMMcopy. La precisión se ha determinado como la
distancia en bases entre las coordenadas de los segmentos reales y la de los segmentos detectados,
considerándose solo como positivos los segmentos con más del 70% de solapamiento. La fig. 16
muestra los boxplots de distancias para los 2 algoritmos evaluados. Se ha encontrado una
importante diferencia entre la precisión de estimación de breakpoints por ambos métodos, que
superaba el orden de magnitud (mediana de las distancias de 260 pb en el caso de HMMcopy y de
5049 pb en el caso de Patchwork).
Una posible razón para explicar la baja precisión de Patchwork podría ser la baja
profundidad de lectura de los datastets artificiales utilizados (6x de media). Sería interesante hacer
una prueba comparativa de HMMcopy y Patchwork utilizando datasets con una profundidad de
lectura más cercana a la que se obtiene en las plataformas actuales de secuenciación (30-60x), para
la comprobación de este punto.
-Evaluacion de la precisión en la determinación de número de copias:
La fig 17 muestra los valores de número de copia (o de estados de número de copia, en el
caso de HMMcopy) asignados a los segmentos encontrados, comparada con los valores reales
(segmentos de colores). El código de colores de los segmentos permite establecer una equivalencia
entre números de copia (output de Patchwork) y estados de número de copia (output de HMMcopy,
ver Introducción).
Un primer examen de esta figura sugiere que HMMcopy es más preciso que Patchwork en la
asignación de números de copia. Sin embargo es importante recordar que, debido a problemas
técnicos, no fué posible la asignación de parámetros óptimos al módulo Patchwork.copynumbers ()
de Patchwork, responsable de la asignación de números de copia a los segmentos identificados.
Probablemente sea ésta la causa de que Patchwork haya identificado como homocigotas las
deleciones heterocigotas. Más sorprendente es que el software HMMcopy también haya cometido el
mismo error (fig. 17). Como se explica en el correspondiente tutorial, el ajuste de los parámetros de
HMMcopy podría permitir la corrección de este tipo de asignaciones incorrectas.
Los datos de Patchwork y HMMcopy correspondientes a las deleciones homocigotas
carecen de valor estadístico, ya que, como se ha mencionado, la identificación de estos segmentos
fue extremadamente ineficiente.
Ambos algoritmos tendieron a asignar un número de copia superior al real en el caso de las
amplificaciones débiles, de 3 o 4 copias. La asignación por Patchwork de 8 copias a los segmentos
de 10 copias se debe probablemente a que no se asignó el valor de 10 al parámetro “maxCn” de
Patchwork.copynumbers, en vez del valor 8 que tiene por defecto. Este parámetro le indica al
algoritmo el máximo valor de número de copia que se quiere estimar.
-Conclusiones:
Nuestros resultados con datasets artificiales sugieren que HMMcopy es más eficiente que
Patchwork, tanto en la localización de CNVs como en la asignación de números de copia. Sin
embargo, es importante recordar que no hemos testado algunas de las propiedades más relevantes
de Patchwork, como su capacidad de evaluar número de copias en muestras tumorales que
presentan contaminación con tejido normal o ejemplos de aneuploidia.
b) Datastes reales:
Puesto que los datasets artificiales carecen de muchos de los niveles de complejidad que
caracterizan los procesos de secuenciación masiva de muestras tumorales, se procedió a la
evaluación del funcionamiento de HMMcopy y Patchwork con datasets reales.
-Elección del dataset:
El proceso de obtención de estos datasets no fué fácil. Nosotros estábamos interesados en obtener
datasets con las siguientes características:
-Que procediesen de estudios de secuenciación masiva de genoma completo de muestras tumorales,
o de líneas celulares derivadas de tumores.
-Que estuviese disponible el correspondiente control de muestras de tejido normal del mismo
paciente. Como ya se ha mencionado en la introducción, la mayoría de las herramientas de análisis
SCNAs a partir de muestras tumorales requieren de este control, o es muy recomendable.
-Que se dispuesiese de datos de SCNAs procedentes de estudios de arrays sobre las mismas
muestras, para utilizarlos como “gold Standard” de control sobre los SCNAs identificados por los
algoritmos evaluados.
El acceso a datos de secuenciación masiva procedentes de muestras de pacientes con tumores se
encuentra bastante restringido hoy en día, por lo que nos hemos centrado en datasets procedentes de
líneas celulares. En un principio se pensó utilizar datasets procedentes de la secuenciación WGS (de
genoma completo) de la línea celular de cáncer de mama HCC1954 (profundidad de lectura
aproximada de 4x) y de la correspondiente línea celular normal HCC1954BL (profundidad de
lectura aproximada de 5x). Estos datasets habían sido utilizados en la evaluación del algoritmo
Patchwork por sus desarrolladores (Mayrhofer et al., 2013), los cuales nos proporcionaron
generosamente una lista completa de las variaciones de número de copia encontradas por la
herramienta TAPS, desarrollada por ellos, a partir de datos de SNP arrays. Esta lista podía ser
utilizada por nosotros como control “gold standard”. Se descargaron de SRA (“sequence read
archive”, [SRA:SRA001246] ) los ficheros fastq correspondientes a un total de 4 parejas de
muestras tumor/normal, con lecturas de 32pb y 36 pb de tamaño. Un análisis mediante Fastqc de la
calidad de las lecturas contenidas en los ficheros fastq (fig suplementaria 1, incluida en anexos),
mostró que la calidad de las lecturas, tanto de 32pb como de 36pb, era demasiado baja como para
garantizar un alineamiento correcto a un genoma de referencia, por lo que fueron descartadas.
En un segundo intento de obtener los datasets reales para la evaluación de Patchwork y
HMMcopy, se solicitó a “Cancer Genome Project” acceso a los datos de secuenciación de genoma
completo de las líneas celulares COLO-829 y COLO-829BL, depositados en “EGA” (European
Genome-Phenome Archive, EGAS00000000052). Estas líneas celulares derivan de un melanoma
maligno y de linfoblastos normales, respectivamente (Pleasance et al, 2010), y fueron secuenciadas
en una plataforma Illumina GAII, obteniéndose lecturas pareadas de 75pb de tamaño, con una
profundidad de lectura aproximada de 40x. Se disponían además de datos de número de copia
obtenidos mediante arrays, para ser utilizados como “gold standard” en la evaluación de nuestros
algoritmos.
Una vez concedido el citado permiso, se comprobó que los datastes a los que habíamos
tenido acceso no se correspondian con los que se habían solicitado, y no incluían datasets de NGS.
Se recurrió pues a una tercera opción (la que finalmente fue válida), en la que se utilizaron
datos de secuenciación de genoma completo de dos muestras tumorales procedentes de dos
pacientes varones con Carcinoma Adenoide Cístico (Adenoid cystic carcinoma (ACC)).
En
materiales y métodos se ha descrito el proceso de secuenciación y posterior procesamiento de las
lecturas para la generación de los ficheros input de HMMcopy y Patchwork. Una de las dos
muestras tumorales se utilizó para simular la correspondiente muestra normal, ya que no
disponíamos de muestras de tejido normal de estos pacientes.
-Ejecución y evaluación de HMMcopy y Patchwork sobre datasets reales:
La ejecución de HMMcopy y Patchwork sobre los datastets procedentes de los pacientes con
Carcinoma Adenoide Cístico se llevó a cabo utilizando los parámetros default.
La fig. 18 muestra el output gráfico correspondiente al cromosoma 1 generado por
HMMcopy durante su ejecución, incluyendo el proceso de corrección por contenido GC y
mapeabilidad (nótese la importante corrección por mapeabilidad llevada a cabo por el algoritmo), la
visualización de los segmentos generados y el estado de número de copia asignado a cada uno.
En la fig 19 se visualiza el output gráfico correspondiente al cromosoma 1 del módulo
Patchwork.plot de Patchwork y en la fig 20 se muestra la asignación de los argumentos requeridos
por el módulo Patchwork.copynumbers, que determina la interpretación por dicho módulo del
“cariotipo del genoma” (número de copias y distribución de alelos, fig. 20B). El output gráfico del
módulo Patchwork.copynumbers es básicamente idéntico al de Patchwork.plot, excepto por la
inclusión adicional de un plot que representa la distribución en el cromosoma de los valores de
número de copia total y del alelo minoritario (fig 21).
Se incluyen en el anexo las tablas “segmentosHMMcopy.csv” y “segmentosPatchwork”,
generadas por HMMcopy y Patchwork respectivamente, y que incluyen la lista de eventos de CNV
encontrados. Se han identificado un total de 799 y 293 segmentos con el número de copia alterado
en las muestras tumorales analizadas con HMMcopy y Patchwork respectivamente. Los tamaños de
los segmentos identficados fué muy variable (de 7 kb a 55 Mb en el caso de HMMcopy y de 20kb a
38Mb en el caso de Patchwork). La fig 22 muestra la distribución de tamaños encontrada. En
general, el tamaño medio de los segmentos identficados por Patchwork ha sido sensiblemente
mayor que el de los identficados por HMMcopy. Además, HMMcopy ha identificado un gran
número de segmentos de tamaño inferior a 20kb. La fig 23 muestra un circos.plot con la
dsitribución en el genoma de los segmentos identificados por HMMcopy y Patchwork. Se ve una
importante coincidencia entre los segmentos identificados por ambos algrotimos, sobretodo en el
caso de los segmentos de mayor tamaño. La principal incongruencia se ha encontrado en los
cromosomas sexuales, donde por ejemplo HMMcopy y Patchwork han predicho respectivamente
una importante ganacia y pérdida de material genético del cromosoma Y. Patchwork admite el
parámetro Male = True en su módulo Patchwork.copynumbers, pensado para el correcto
procesamiento de los cromosomas sexuales de muestras procedentes de varones. La ausencia de un
parámetro equivalente en HMMcopy sugiere que este algoritmo podría ser menos preciso a la hora
de determinar variaciones de número de copia en los cromosomas sexuales.
Muchas de las CNVs encontradas por los dos algoritmos se corresponden con deleciones
(fig. 23). Curiosamente, casi todas estas deleciones han sido interpretadas como deleciones
homocigotas por HMMcopy, mientras que Patchwork las ha interpretado como deleciones
heterocigotas. Asimismo, el número de copia asignado por HMMcopy a las amplificaciones fue en
general mayor que el asignado por Patchwork. HMMcopy había mostrado mayor precisión en la
asignación de número de copias en el caso de los datatets artificiales, pero estos resultados no
fueron definitivos debido a los problemas técnicos encontrados en el proceso de asignación de
argumentos al módulo que estima los números de copia, de forma que no es posible extraer
conclusiones definitivas a este respecto.
El circos.plot de la fig. 23 también muestra el gran número de segmentos pequeños que han
sido identificados exclusivamente por HMMcopy. Para conocer con más precisión la diferencia
entre los resultados obtenidos por HMMcopy y Patchwork, se determinó el número exacto de bases
identificados por ambos algoritmos, así como el número de pares de bases identificados
exclusivamente por cada uno de ellos. Los resultados se muestran en el diagrama de Venn de la fig.
24. Más de un 90% de los pb correspondientes a segmentos con alteraciones de número de copia
identificados por Patchwork han sido también identificados por HMMcopy. Sin embargo, un 18%
de los pares de bases correspondientes a segmentos identificados por HMMcopy no fueron
identificados por Patchwork. El análisis del tamaño de los segmentos solo identificados por
HMMcopy muestra que en general se corresponden con los más pequeños, como se puede ver en
los boxplots representados en la fig24. Al carecer de un “gold standard” para establecer cuáles de
las variaciones de número de copia encontradas por cada algoritmo son reales, no se puede deducir
si los pequeños segmentos identificados sólo por HMMcopy reflejan una mayor sensibilidad de este
algoritmo o por el contrario, indican que su especificidad en la detección de CNVs es menor. Sin
embargo, los estudios previos realizados sobre datastets artificiales mostraron que sólo HMMcopy
era capaz de detectar los CNVs más pequeños, en el orden de 20kb de tamaño, hecho que apoya
fuertemente la hipótesis de que las pequeñas variaciones de número de copia identificadas por
HMMcopy son reales y reflejan la mayor sensibilidad de este algoritmo.
Es importante resaltar que para establecer definitivamente la sensibilidad y especificidad de
los dos algoritmos evaluados utilizando datastets reales, sería necesario ejecutarlos con una
verdadera pareja de datastets tumor/normal y comparar los resultados con un “gold standard”, como
el que se podría obtener mediante un análisis de CNVs sobre las mismas muestras utilizando arrays.
-Problemas en la ejecución de Patchwork con muestras tumorales procedentes de pacientes de
sexo femenino
Además de las muestras procedentes de pacientes varones con Carcinoma Adenoide Cístico que se
han utilizado en el análisis descrito arriba, también disponíamos de dos muestras procedentes de dos
pacientes de sexo femenino. Sorprendentemente, la ejecución de Patchwork sobre estas muestras se
vió interrumpida por el error “referencia del cromosoma Y inválida”. Se averiguó posteriormente
que el error parece haberse debido a que las muestras se habían alineado a una referencia de la que
se había retirado el cromosoma Y, para evitar la producción de alineamientos ambiguos. Este error
refleja la falta de flexibilidad de Patchwork a la hora de analizar muestras en las que pueda faltar
información de algún cromosoma, así como la imposibilidad de estudiar cromosomas individuales
con este algoritmo.
-Ejecución de Patchwork con un control normal
Para los casos en los que no se dispone de un control normal, los desarrolladores de Patchwork han
puesto a disposición del usuario un fichero de referencia estándar, que se puede utilizar como
alternativa cuando el genoma de referencia al que se han alineado las lecturas de la muestra tumoral
es UCSC hg19. Se ha ejecutado Patchwork utilizando dicha referencia control junto con la muestra
que se había asignado como tumor en el experimento anterior, descrito arriba. La fig. 25 muestra el
plot de los valores de imbalance alélico versus profundidad de lecturas generado por el módulo
Patchwork.plot, y los valores asignados para los argumentos de Patchwork.copynumbers. La tabla
“segmentosPatchwork_refNormal.csv”, incluida en Anexos, contiene los datos generados por
Patchwork sobre la muestra tumoral analizada, y en la fig26 se puede ver, mediante circos.plot, la
distribución a lo largo del genoma de los segmentos identificados por Patchwork así como los
estados de número de copia asignados. Comparando la fig. 23 con el anillo interior de la fig 26 se
puede ver que el patrón de variaciones de número de copia a lo largo del genoma fué muy similar al
que se había encontrado cuando se utilizó como control una segunda muestra tumoral del mismo
paciente. El análisis de Patchwork sobre la pareja tumor/normal también ha revelado la ausencia
total
de
contaminación
de
la
muestra
tumoral
por
células
normales
(tabla
“segmentosPatchwork_refNormal.csv”, en anexos).
-Recursos computacionales:
En general, el tiempo de ejecución de Patchwork es sensiblemente más elevado que el de
HMMcopy. Patchwork requiere para su funcionamiento de la generación previa de ficheros mpileup
y VCF con información sobre SNPs e Indels, necesarios para el proceso de segmentación y de
asignación de números de copia por Patchwork. La generación de estos ficheros, a partir de ficheros
BAM de alrededor de 300Gb - que es el tamaño aproximado de los datasets reales que se han
utilizado en nuestro estudio - ha tardado entre 30 y 35 horas. A estos tiempos hay que sumar otras
40 horas para ejecutar los comandos “patchwork.plot” y “patchwork.copynumbers” de Patchwork.
Por el contrario, la ejecución completa de HMMcopy sobre los mismos datasets ha tardado del
orden de 4 a 5 horas, a las que hay que añadir, eso sí, otras 30 horas aproximadamente para la
generación del fichero de mapeabilidad del genoma, requerido como input de HMMcopy.
a
b
c
Figura 7: Visualización por IGV de la
densidad de lecturas en regiones del
cromosoma 22 que incluyen segmentos
de 20 kb con las siguientes
modificaciones del número de copia: a)
deleción homocigota b) deleción
heterocigota c) amplificación. Las rayas
horizontales indican las coordenadas de
los punto de corte (breakpoints) de los 3
segmentos modificados.
Herramienta
Revista
Metodo
Input
Lenguaje Evaluaciones Previas Comentarios
BreakDancer Max
Chen et al, 2009
PEM
BAM/SAM
Perl, C++
PEMer
Korbel et al, 2009
PEM
FASTA
Perl, Python
Pindel
Ye et al, 2011
SR
BAM /FASTQ
C++
RDXplorer
Yoon et al, 2009
RD
BAM
Duan et al(2013)
Python, Shell Pabinger et al(2014)
CNV-seq
Xie et al, 2009
RD
BAM/SAM
Perl, R
SegSeq
mrCaNaVar
GASV
Chiang et al, 2009
Alkan et al, 2009
Sindi et al, 2009
RD
RD
PEM
BAM/SAM
SAM
BAM
Matlab
C
Java
VariationHunter
Hormozdiari et al, 2010
PEM
DIVET (específico)
C
SLOPE
RSW-seq a
Abel et al, 2010
Kim et al, 2010
SR
RD
SAM/FASTQ/MAQ
PLA**
C++
C
CNAseg
CMDS b
Ivakhno et al, 2010
Zhang et al, 2010
RD
RD
BAM
PLA**
R
C, R
SVDetect
CNVer
NovelSeq
Zeitouni et al, 2010
Medvedev et al, 2010
Hajirasouliha et al, 2010
PEM+RD
PEM+RD
PEM+AS
SAM/BAM/ELAND
BAM/PLA**
FASTA/SAM
Perl
Perl, C++
C
HYDRA
Quinlan et al, 2010
PEM+AS
ALD*
Python
SOAPdenovo
Li et al, 2010
AS
N/A
CopySeq
CnD
Waszak et al, 2010
Simpson et al, 2010
RD
RD
RCM***
SAM/BAM
N/A
Java
R
D
SVmerge
commonLAW
Wong et al, 2010
Hormozdiari et al, 2011
RD
PEM
N/A
BAM/SAM
N/A
C++
AGE
SRiC
Abyzov et al, 2011
Zhang et al, 2011
PEM
SR
FASTA
BLAT output
C++
N/A
ReadDepth
Miller et al, 2011
RD
BED files
R
CNVnator
Abyzov et al, 2011
RD
BAM
C++
Duan et al(2013)
Duan et al(2013)
Pabinger et al(2014)
BIC-seq
JointSLM
Xi et al, 2012
Magi et al, 2011
RD + BAF
RD
BAM
SAM/BAM
Perl, R, C
R, Fortran
Alkodsi et al(2014)
Duan et al(2013)
Spanner
Mills et al, 2011
PEM
N/A
N/A
Genome STRiP
inGAP-sv
Handsaker et al, 2011
Qi et al, 2011
PEM+RD
PEM+RD
BAM
SAM
Java, R
Java
SVseq
Zhang et al, 2011
PEM+SR
FASTQ/BAM
CNVnorm a
CNVeM
cn.MOPS
Gusnanto et al, 2012
Wang et al, 2012
Klambauer et al, 2012
RD
RD
RD
BAM
N/A
BAM/
C
R
Perl
N/A
R
Cortex assembler
Iqbal et al, 2012
AS
FASTQ/FASTA
C
Magnolya
GASVPro
SeqCBS
ControlFREEC
Nijkamp et al, 2012
Sindi et al, 2012
Shen et al, 2012
AS
PEM+RD
RD
Python
C++
N/A
Boeva et al, 2012
RD
FASTA
BAM
N/A
SAM,BAM, PileUp,
Eland, BED y otros
C++, R
Alkodsi et al(2014)
Duan et al(2013)
HMMCopy
Ha et al, 2012
RD
BAM
R, Perl
Alkodsi et al(2014)
COPS
CONSERTING
Golden Helix
Krishnan et al, 2012
Chen et al, 2012
Golden Helix Inc. (2012)
RD
RD
RD
SAM/BAM
N/A
N/A
Perl, Bash
R
N/A
Alkodsi et al(2014)
OncoSNP-SEQ
Yau C (2013)
RD + BAF
N/A
Patchwork
Mayrhofer et al, 2013
RD + BAF
N/A
BAM (patchwork)
CompleteGenomics
(patchworkCG)
CNV-TV
Duan J et al, 2013
RD
N/A
WaveCNV
m-HMM
Holt et al, 2014
RD
N/A
Fichero pileup
estándar generado a
partir de ficheros
SAM/BAM
Wang et al, 2014
RD
N/A
N/A
RD + PEM
SAM/BAM
R
RD + BAF
BAM
Matlab
C++
seqCNA
CLImAT
Mosen-Ansorena
et al, 2014
Yu et al, 2014
N/A
Matlab
Pabinger et al(2014)
Usado en el proyecto 1000 Genomas.
Solo detecta CNVs de línea germinal.
Usado en el proyecto 1000 Genomas.
Solo detecta CNVs de línea germinal.
Usado en el proyecto 1000 Genomas.
Solo detecta CNVs de línea germinal
Usado en el proyecto 1000 Genomas.
Solo detecta CNVs de línea germinal.
Duan et al(2013)
Alkodsi et al(2014)
Duan et al(2013)
Solo detecta CNVs de línea germinal.
Detecta SCNAs. Solo admite lecturas
Single-end como input.
Pabinger et al(2014)
Solo detecta CNVs de línea germinal.
Usado en el proyecto 1000 Genomas.
Solo detecta CNVs de línea germinal
Duan et al(2013)
Alkodsi et al(2014)
Duan et al(2013)
Detecta SCNAs
Duan et al(2013)
Solo detecta CNVs de línea germinal.
Detecta SCNAs.
Usado en el proyecto 1000 Genomas.
Solo detecta CNVs de línea germinal.
Duan et al(2013)
Duan et al(2013)
Pabinger et al(2014)
Alkodsi et al(2014)
Duan et al(2013)
Solo detecta CNVs de línea germinal.
Solo detecta CNVs de línea germinal
Pipeline con varias herramientas.
Da problemas en la instalación
(Pabinger et al(2013).
Solo detecta CNVs de línea germinal
Usado en el proyecto 1000 Genomas.
Solo detecta CNVs de línea germinal.
Detecta SCNAs. Junto con HMMcopy,
El mejor evaluado sobre datasets reales y
Muy preciso en la detección de breakpoints
(Alkodsi et al, 2014).
Solo detecta CNVs de línea germinal.
Usado en el proyecto 1000 Genomas.
Solo detecta CNVs de línea germinal.
Usado en el proyecto 1000 Genomas.
Solo detecta CNVs de línea germinal.
Detecta SCNAs.
Duan et al(2013)
Usado en el proyecto 1000 Genomas.
Solo detecta CNVs de línea germinal.
Detecta SCNAs.
Detecta SCNAs. Junto con HMMcopy,
El mejor evaluado sobre datasets reales
(Alkodsi et al et al).
Detecta SCNAs.
Detecta SCNAs.
Pipeline con varias herramientas.
Detecta SCNAs.
Detecta SCNAs y estima el grado de ploidia,
el porcentaje de células tumorales en
Tumores primarios.
No se ha encotntrado el software asociado
A esta publicación.
Detecta SCNAs y estima el grado de ploidia,
el porcentaje de células tumorales en
tumores primarios y la contaminación por
Células de ratón en xenotransplantes.
Utilizado fundamentalmente con
Genomas de plantas
Detecta SCNAs. Su novedoso método de
filtrado de ventanas reduce el número de falsos
positivos, respecto de métodos anteriores.
Detecta SCNAs y estima el grado de ploidia, el
porcentaje de células tumorales en tumores
primarios. No requiere de pareja normal.
Tabla1: Resumen de las herramientas de anaĺisis de número de copia a partir de datos WGS (secuenciación de genoma completo)
disponibles en la literatura. RD: Método basado en profundidad de lecturas; PEM: Método basado en mapeo de lecturas pareadas SR:
Método basado en lecturas interrumpidas ; AS: Método basado en ensamblaje “de novo”; BAF: Frecuencia del alelo B; * ALD:
Alineamientos de lecturas paired-end discordantes; **PLA: Posiciones de lecturas alineadas; N/A: Información no disponible o no
encontrada.
Figura 8: Output gráfico de HMMcopy correspondiente al cromosoma 22. Resultados obtenidos del procesamiento de
uno de los datasets artificiales utilizados en la evaluación de Patchwork y HMMcopy.
A: Efecto de la corrección por mapeabilidad y contenido GC del genoma sobre la distribución de lecturas.
B: Evolución en las estimaciones del número de copias en cada ventana del cromosoma tras la corrección por
mapeabilidad y contenido GC.
C:Visualización de los segmentos generados por HMMcopy y de los estados asignados a cada segmento. HOMD:
Deleción homocigota; HETD: Deleción heterocigota; NEUT: 2 copias; GAIN: 3 copias; AMPL: 4 copias; HLAMP:
más de 4 copias.
Figura 9: Ejemplo de selección de argumentos para el módulo Patchwork.copynumbers de Patchwork.
Se muestra en la figura el plot de imbalance alélico vs profundidad de lectura correspondiente al cromosoma 22,
generado por el módulo Patchwork.plot tras el procesamiento de uno de los datasets artificiales utilizados en la
evaluación de Patchwork y HMMcopy. Se han indicado sobre el plot los argumentos seleccionados para la ejecución
de Patchwork.copynumbers.
Figura 10: Output gráfico del comando Patchwork.copynumbers de Patchwork correspondiente al cromosoma 22.
A. Representación del genoma de tumor completo con las correspondientes etiquetas de número de copia y contenido
de alelos que han sido asignadas.
2m1: el nº de copias es 2, heterocigoto; 2m0: el nº de copias es 2, homocigoto, 4m1: el nº de copias es 4,
heterocigoto; 4m0: el nº de copias es 4, homocigoto.
B. Panel Superior: Valores estimados de número de copia total y número de copia asociado al alelo minoritario para el
cromosoma 22.; Panel Intermedio: Plot de profundidad de lectura a lo largo del cromosoma; Panel Inferior: Valores de
imbalance alélico a lo largo del cromosoma.
0,8
0,6
HMMcopy
PATCHWORK
0,4
0,2
0
Sensibilidad
Valor de sensibilidad
Valor de
sensibilidad/especificidad
1
Figura 11:
Valores globales
de sensibilidad y
especificidad de
HMMcopy y
Patchwork.
Especificidad
Figura 12:
Sensibilidad de
detección por
HMMcopy y
Patchwork de
CNVs con distinto
HMMcopy
tamaño de
PATCHWORK segmento.
1
0,8
0,6
0,4
0,2
0
20000
200000
1000000
TamañoDeSegmento
Figura 13: Sensibilidad de
detección por HMMcopy y
Patchwork de CNVs con
distintos números de copia.
Valor de sensibilidad
1,2
1
0,8
0,6
HMMcopy
PATCHWORK
0,4
0,2
0
0
1
'3-4'
'>4'
Nº De Copia
Figura 14:
Ampliación de las
coordenadas 4.1exp7
a 4.5 exp7 del
cromosoma 22 de la
figura 8C, que
incluyen una deleción
homocigota.
1,2
Valor de especificidad
1
0,8
0,6
HMMcopy
PATCHWORK
0,4
0,2
0
grupo”A”
grupo”B”
Figura 15: Valores de especificidad de HMMcopy y Patchwork para los CNVs
incluidos en los 2 grupos de genomas artificiales utilizados.
Grupo A: incluye segmentos con nº de copias: 0, 1, 3 y 4.
Grupo B: incluye segmentos con nº de copias: >4
Figura16: Boxplots de la precisión en la asignación de las posiciones
de los breakpoints de los CNVs estimados por HMMcopy y
Patchwork . En el eje Y se representa la distancia entre las
coordenadas de los breakpoints estimado y real.
Figura 17: Histogramas de precisión en la evaluación del número de copias por HMMcopy (panel de arriba) y por
Patchwork, ejecutado con dos argumentos distintos de delta (ver sección Resultados). La altura de las cajas representa
la posición de los números de copia estimados. Los segmentos coloreados representan la posición de los números de
copia reales y sus colores representan los estados de número de copia, según clasificación por HMMcopy (no se
representa el estado 2, de 2 copias). Rojo oscuro: estado1 (deleción homocigota); Rojo claro: estado2 (deleción
heterocigota); Azul claro: Estado 4 (3 copias); Azul intermedio: Estado 5 (4 copias); Azul oscuro: Estado 6 (más de 4
copias).
Figura 18: Output gráfico correspondiente al cromosoma 1 del procesamiento por HMMcopy de datasets reales procedentes de
pacientes con Carcinoma Adenoide Cístico.
A: Corrección por mapeabilidad y contenido GC
B: Efecto de la corrección por mapeabilidad y contenido GC sobre la estimación del número de copias.
C: Segmentos generados y estado de número de copias asignado a cada segmento
Figura 19: Output gráfico del comando Patchwork.plot de Patchwork correspondiente al cromosoma 1. Comando
ejecutado sobre datasets reales procedentes de pacientes con Carcinoma Adenoide Cístico.
Panel Superior:Plot de Imbalance Alélico frente a profundidad de lectura
Panel Intermedio: Plot de profundidad de lectura a lo largo del cromosoma
Panel Inferior: Valores de imbalance alélico a lo largo del cromosoma.
Figura 20: Selección de argumentos para el módulo Patchwork.copynumbers de Patchwork.
A: Se muestra el plot de imbalance alélico vs profundidad de lectura correspondiente al cromosoma 1, generado por el
módulo Patchwork.plot tras el procesamiento de datasets reales procedentes de pacientes con Carcinoma Adenoide
Cístico. Se han indicado sobre el plot los argumentos seleccionados para la ejecución de Patchwork.copynumbers.
B:Plot generado por Patchwork.copynumbers que muestra el genoma de tumor completo con las correspondientes
etiquetas de número de copia y contenido de alelos que han sido asignadas.
1m0: el nº de copias es 1, homocigoto; 2m1: el nº de copias es 2, heterocigoto; 2m0: el nº de copias es 2, homocigoto,
y asi sucesivamente.
Figura 21: Plot generado por el módulo Patchwork.Copynumbers que muestra los valores estimados de número de
copia total y número de copia asociado al alelo minoritario para el cromosoma 1.
Figura 22: Histograma de distribución de tamaños de los segmentos generados por Patchwork
y HMMcopy en el procesamiento de datastets reales. En el panel inferior se muestra ampliada
la región correspondiente a tamaños inferiores a 20 kb. Density: Proporción del total de
segmentos presente en cada clase de tamaño de segmento.
Figura 23: Resumen de los resultados obtenidos por HMMcopy y Patchwork sobre los datasets
procedentes de tumores. En este “Circos plot” se resumen todos los CNVs detectados por
HMMcopy (exterior) y Patchwork (interior). Los segmentos CNVs se distinguen por color como
deleciones homocigotas (naranja intenso), deleciones heterocigotas (naranja claro),
amplificaciones de una o dos copias (azul claro) y amplificaciones de más de dos copias (azul
oscuro).
Figura 24: Diagrama de Venn de la detección por HMMcopy y Patchwork de variaciones del
número de copia tras el procesamiento de datasets reales. Los valores numéricos en cada
sector indican pares de bases. Se representan también los boxplots de distribución de tamaños
de los segmentos correspondientes a cada sector del diagrama de Venn.
HMM_NI: Segmentos identificados exclusivamente por HMMcopy.
HMM_I:Segmentos identificados por HMMcopy y Patchwork.
PatchW: Segmentos identificados por Patchwork.
Hom = 1
Delta =
5
Het =
0.3
Cn2 =
1.05
Figura 25: Selección de argumentos para el módulo Patchwork.copynumbers de Patchwork.
A: Se muestra en la figura el plot de imbalance alélico vs profundidad de lectura correspondiente al
cromosoma 1, generado por el módulo Patchwork.plot tras el procesamiento del dataset tumoral
procedente de paciente con Carcinoma Adenoide Cístico y usando una referencia estándar de Patchwork
como control normal. Se han indicado sobre el plot los argumentos seleccionados para la ejecución de
Patchwork.copynumbers.
B:Plot generado por Patchwork.copynumbers que muestra el genoma de tumor completo con las
correspondientes etiquetas de número de copia y contenido de alelos que han sido asignadas.1m0: el nº
de copias es 1, homocigoto; 2m1: el nº de copias es 2, heterocigoto; 2m0: el nº de copias es 2,
homocigoto, y así sucesivamente.
figura 26: Resumen de los resultados obtenidos por Patchwork sobre los datasets procedentes de
tumor versus referencia normal de Patchwork. En este “Circos plot” se resumen todos los CNVs
detectados por Patchwork. Los segmentos CNVs se distinguen por color como deleciones
homocigotas (naranja intenso), deleciones heterocigotas (naranja claro), amplificaciones de una o
dos copias (azul claro) y amplificaciones de más de dos copias (azul oscuro),
CONCLUSIONES:
- Se han recogido de la literatura más de 50 herramientas de análisis de variaciones de número de
copia a partir de datos de secuenciación de genoma completo. Estas herramientas presentan
numerosas diferencias entre sí, como por ejemplo en cuanto al modelo estadístico utilizado, sus
parámetros, el lenguaje de programación con el que han sido implementados, los requisitos de input
o el formato de output.
- La ejecución de las herramientas HMMcopy y Patchwork con datasets artificiales ha mostrado que
HMMcopy presenta una mayor sensibilidad de detección de CNVs que Patchwork, particularmente
para aquellos segmentos de tamaño más pequeño.
- La identificación de los CNVs introducidos en los genomas artificales fué algo más específica por
parte de Patchwork que por HMMcopy. La especificidad de ambos algoritmos mostró ser muy
dependiente del tipo de CNVs introducido en el genoma estudiado.
- HMMcopy fué mucho más preciso que Patchwork en la identificación de los breakpoints de los
segmentos con número de copia alterado en los genomas artificiales, con una diferencia de
precisión que ha superado el orden de magnitud.
- La precisión en la asignación de número de copias a los CNVs identificados por Patchwork
depende en gran medida que el usuario pueda introducir correctamente los argumentos que requiere
la función del programa que lleva a cabo dicha interpretación.
- Mediante la utilización de datasets reales se confirma que HMMcopy presenta una mayor
sensibilidad que Patchwork para la deteccción de CNVs de pequeño tamaño.
-Patchwork utilliza más recursos computacionales y requiere más tiempo para su ejecución que
HMMcopy, aunque por otro lado proporciona una información más completa sobre las muestras
utilizadas, incluyendo la pureza de la muestra tumoral y la presencia de aneuploidias.
BIBLIOGRAFIA
Abel HJ, Duncavage EJ, Becker N, Armstrong JR, Magrini VJ, Pfeifer JD (2010) SLOPE: a quick and accurate method for locating non-SNP
structural variation from targeted next-generation sequence data.
Bioinformatics, 26:2684-2688.
Abyzov A, Urban AE, Snyder M, Gerstein M. (2011) CNVsnator: an approach to discover, genotype, and characterize typical and atypical CNVs
from family and population genome sequencing. Genome research; 21(6):974–984.
Abyzov A, Gerstein M (2011) AGE: defining breakpoints of genomic structural variants at single-nucleotide resolution, through optimal alignments
with gap excision. Bioinformatics, 27:595-603.
Albertson DG, Collins C, McCormick F and Gray JW. (2003) Chromosome aberrations in solid tumors. Nature genetics; 34(4):369-376.
Alkan C, Coe BP, Eichler EE. (2011) Genome structural variation discovery and genotyping. Nature reviews Genetics;12(5):363–376.
Alkan C, Kidd JM, Marques-Bonet T, Aksay G, Antonacci F, Hormozdiari F, Kitzman JO, Baker C, Malig M, Mutlu O, et al. (2009) Personalized
copy number and segmental duplication maps using next-generation sequencing. Nat Genet, 41:1061-1067.
Alkodsi A, Louhimo R, Hautaniemi S. (2014) Comparative analysis of methods for identifying somatic copy number alterations from deep
sequencing data. Briefings in Bioinformatics, 5.
Bartenhagen C (2014). RSVSim: RSVSim: an R/Bioconductor package for the simulation of structural variations.
Banerjee S, Oldridge D, Poptsova M, Hussain WM, Chakravarty D, Demichelis F (2011) A computational framework discovers new copy number
variants with functional importance.PLoS ONE, 6:3.
Beroukhim R, Mermel CH, Porter D, Wei G, Raychaudhuri S, Donovan J, Barretina J, Boehm JS, Dobson J, Urashima M, Mc Henry KT, Pinchback
RM, et al. (2010) The landscape of somatic copy-number alteration across human cancers. Nature, 463(7283):899-905.
Benjamini Y, Speed TP. (2012) Summarizing and correcting the GC content bias in high-throughput sequencing. Nucleic acids research;40(10):e72.
Bignell GR, Huang J, Greshock J, et al. (2004) High-resolution analysis of DNA copy number using oligonucleotide microarrays. Genome
Res;14(2):287–95 .
Bijlsma EK, Gijsbers ACJ, Schuurs-Hoeijmakers JHM, van Haeringen A, van de Putte DEF, et al. (2009) Extending the phenotype of recurrent
rearrangements of 16p11.2: Deletions in mentally retarded patients without autism and in normal individuals. European Journal of Medical Genetics
52: 77–87.
Boeva V, Zinovyev A, Bleakley K, Vert JP, Janoueix-Lerosey I, Delattre O, Barillot E. (2011) Control-free calling of copy number alterations in deepsequencing data using GC-content normalization. Bioinformatics; 27(2):268-9.
Boeva V, Popova T, Bleakley K, Chiche P, Cappo J, Schleiermacher G, Janoueix-Lerosey I, Delattre O, Barillot E. (2012) Control-FREEC: a tool for
assessing copy number and allelic content using next generation sequencing data. Bioinformatics. 28:423-5.
Brosens RP, Haan JC, Carvalho B, Rustenburg F et al, (2010). Candidate driver genes in focal chromosomal aberrations of stage II colon cancer. The
Journal of Pathology 221, 4, 411–424.
Coe BP, Witherspoon K, Rosenfeld JA, van Bon BW, Vulto-van Silfhout AT, Bosco P, Friend KL, Baker C, Buono S, Vissers LE, SchuursHoeijmakers JH, et al (2014). Refining analyses of copy number variation identifies specific genes associated with developmental delay. Nature
Genetics 46, 1063–1071 .
Carter SL, et al. (2012) Absolute quantification of somatic DNA alterations in human cancer. Nat. Biotechnol.30:413–421.
Chen K, Wallis JW, McLellan MD, Larson DE, Kalicki JM, Pohl CS, McGrath SD, Wendl MC, Zhang QY, Locke DP, et al. (2009) BreakDancer: an
algorithm for high resolution mapping of genomic structural variation. Nat. Methods 6:677-681.
Chen X, Wang J, Roberts K, Pounds S, Dyer M, Mullighan C , Downing J, and Zhang J (2012) CONSERTING: an accurate method for detecting
focal and gross somatic copy number alterations in cancer genome by next generation sequencing Cancer Res 72; 2487.
Chiang DY, Getz G, Jaffe DB, O'Kelly MJ, Zhao X, Carter SL, Russ C, Nusbaum C, Meyerson M, Lander ES (2009) High-resolution mapping of
copy-number alterations with massively parallel sequencing. Nat Methods, 6:99-103.
Curtis C, Shah SP, Chin SF, Turashvili G, Rueda OM, Dunning MJ, Speed D, Lynch AG, Samarajiwa S, Yuan Y, Graf S, Ha G, Haffari G, Bashashati
A, Russell R, McKinney S, et al.(2012) The genomic and transcriptomic architecture of 2,000 breast tumours reveals novel subgroups. Nature.
486(7403):346–352.
Dancey JE, Bedard PL, Onetto N, Hudson TJ. (2012) The genetic basis for cancer treatment decisions. Cell;148(3):409–420
Dempster AP, Laird NM, Rubin DB. (1977) Maximum likelihood from incomplete data via the EM algorithm. J R Stat Soc Series B Stat Methodol;
pages 1–38.
Diskin SJ, Hou C, Glessner JT, Attiyeh EF, Laudenslager M, Bosse K, Cole K, Mosse YP, Wood A, Lynch JE, Pecor K, Diamond M, Winter C, Wang
K, Kim C, Geiger EA, et al. (2009) Copy number variation at 1q21.1 associated with neuroblastoma. Nature.; 459(7249):987-991.
Duan J, Zhang J-G, Deng H-W, Wang Y-P (2013) Comparative Studies of Copy Number Variation Detection Methods for Next-Generation
Sequencing Technologies. PLoS ONE 8(3): e59128.
Duan J, Zhang J, Deng H and Wang Y (2013) CNV-TV: A robust method to discover copy number variation from short sequencing reads BMC
Bioinformatics, 14:150.
Eddie SR. (2004) What is a hidden Markov model? Nature biotechnology;22(10):1315–1316.
Edelmann L, Hirschhorn K (2009) Clinical Utility of Array CGH for the Detection of Chromosomal Imbalances Associated with Mental Retardation
and Multiple Congenital Anomalies. Year in Human and Medical Genetics 1151: 157–166.
Fellermann K, Stange DE, Schaeffeler E, Schmalzl H, Wehkamp J, et al. (2006) A chromosome 8 gene-cluster polymorphism with low human betadefensin 2 gene copy number predisposes to Crohn disease of the colon. American Journal of Human Genetics 79: 439–448.
Feuk L, Carson AR, Scherer SW. (2006) Structural variation in the human genome. Nature reviews Genetics;7(2):85–97.
Forney Jr GD. (1973). The viterbi algorithm. Proceedings of the IEEE; 61(3):268–278.
Frampton M, Houlston R (2012) Generation of Artificial FASTQ Files to Evaluate the Performance of Next-Generation Sequencing Pipelines. PLoS
ONE 7(11): e49110.
Frank B, Hemminki K, Meindl A, Wappenschmidt B, Sutter C et al.. (2007) BRIP1 (BACH1) variants and familial breast cancer risk: a case-control
study. Bmc Cancer 7
Fujimoto A, Nakagawa H, Hosono N, Nakano K, Abe T, et al. (2010) Whole-genome sequencing and comprehensive variant analysis of a Japanese
individual using massively parallel sequencing. Nat Genet 42: 931–936.
Futreal PA, Coin L, Marshall M, et al. (2004) A census of human cancer genes. Nat. Rev. Cancer;4(3):177–83.
Glessner JT, Wang K, Sleiman PMA, Zhang H, Kim CE et al.. (2010) Duplication of the SLIT3 Locus on 5q35.1 Predisposes to Major Depressive
Disorder. PLOS ONE 5.
Gonzalez E, Kulkarni H, Bolivar H, Mangano A, Sanchez R, et al. (2005) The influence of CCL3L1 gene-containing segmental duplications on HIV1/AIDS susceptibility. Science 307: 1434–1440.
Gusnanto A, et al. (2012) Correcting for cancer genome size and tumour cell content enables better estimation of copy number alterations from nextgeneration sequence data. Bioinformatics;28:40–47.
Ha G, Roth A, Lai D, et al. (2012). Integrative analysis of genome-wide loss of heterozygosity and monoallelic expression at nucleotide resolution
reveals disrupted pathways in triple-negative breast cancer. Genome Res;22(10):1995–2007.
Hajirasouliha I, Hormozdiari F, Alkan C, Kidd JM, Birol I, Eichler EE, Sahinalp SC (2010). Detection and characterization of novel sequence
insertions using paired-end next-generation sequencing. Bioinformatics , 26:1277-1283.
Handsaker RE, Korn JM, Nemesh J, McCarroll SA (2011) Discovery and genotyping of genome structural polymorphism by sequencing on a
population scale. Nat Genet, 43:269-276.
Helbig I, Mefford HC, Sharp AJ, Guipponi M, Fichera M, et al. (2009) 15q13.3 microdeletions increase risk of idiopathic generalized epilepsy. Nature
Genetics 41: 160–162. doi: 10.1038/ng.292
Hollox EJ, Huffmeier U, Zeeuwen PLJM, Palla R, Lascorz J, et al. (2008) Psoriasis is associated with increased beta-defensin genomic copy number.
Nature Genetics 40: 23–25.
Holt C, Losic B, Pai D, Zhao Z, Trinh Q, Syam S, Arshadi N, Jang GH, Ali J, Beck T, McPherson J, Muthuswamy LB. (2013). Wave CNVs: Allele
specificCopy Number Alterations in primarytumors and xenograft modelsfromnext-generation sequencing. Bioinformatics. 32:1–7
Huynh, A.S., et al. (2011) Development of an orthotopic human pancreatic cancer xenograft model using ultrasound guided injection of cells, PLoS
One, 6, e20330.
Hormozdiari F, et al. (2009). Combinatorial algorithms for structural variation detection in high-throughput sequenced genomes. Genome
Res.19:1270-1278.
Hormozdiari F, Hajirasouliha I, Dao P, Hach F, Yorukoglu D, Alkan C, Eichler EE, Sahinalp SC (2010) Next-generation VariationHunter:
combinatorial algorithms for transposon insertion discovery. Bioinformatics, 26:i350-357.
Hormozdiari F, Hajirasouliha I, McPherson A, Eichler EE, Sahinalp SC (2011) Simultaneous structural variation discovery among multiple pairedend sequenced genomes. Genome Res, 21:2203-2212.
Ibanez P, Bonnet AM, Debarges B, Lohmann E, Tison F, et al. (2004) Causal relation between alpha-synuclein gene duplication and familial
Parkinson's disease. Lancet 364: 1169–1171.
Iqbal Z, Caccamo M, Turner I, Flicek P, McVean G (2012) De novo assembly and genotyping of variants using colored de Bruijn graphs. Nat Genet,
44:226-232.
Ivakhno S, Royce T, Cox AJ, Evers DJ, Cheetham RK, Tavare S (2010) CNAseg--a novel framework for identification of copy number changes in
cancer from second-generation sequencing data.
Bioinformatics, 26:3051-3058.
Kim TM, Luquette LJ, Xi R, Park PJ (2010) rSW-seq: algorithm for detection of copy number alterations in deep sequencing data. BMC
Bioinformatics, 11:432.
Kim TM, Xi R, Luquette LJ, et al (2013). Functional genomic analysis of chromosomal aberrations in a compendium of 8000 cancer genomes.
Genome Res.;23(2):217–27.
Klambauer G, Schwarzbauer K, Mayr A, Clevert DA, Mitterecker A, Bodenhofer U, Hochreiter S (2012). cn.MOPS: mixture of Poissons for
discovering copy number variations in next-generation sequencing data with a low false discovery rate. Nucleic Acids Res, 40:e69
Koboldt DC, Zhang Q, Larson DE, Shen D, McLellan MD, Lin L, Miller CA, Mardis ER, Ding L, Wilson RK. (2012). VarScan 2: Somatic mutation
and copy number alteration discovery in cancer by exome sequencing. Genome Res. 22: 568-576.
Korbel JO, Abyzov A, Mu XJ, Carriero N, Cayting P, Zhang ZD, Snyder M, Gerstein MB (2009) PEMer: a computational framework with
simulation-based error models for inferring genomic structural variants from massive paired-end sequencing data. Genome Biol, 10:R23.
Kosugi S, Natsume S, Yoshida K, MacLean D, Cano L, et al. (2013). Coval: Improving Alignment Quality and Variant Calling Accuracy for NextGeneration Sequencing Data. PLoS ONE 8(10): e75402.
Krishnan NM, Gaur P, Chaudhary R, Rao AA, Panda B. (2012) COPS: a sensitive and accurate tool for detecting somatic CopyNumber Alterations
using short-read sequence data from paired samples. PLoS One. 7(10)
Kumar RA, KaraMohamed S, Sudi J, Conrad DF, Brune C, et al. (2008). Recurrent 16p11.2 microdeletions in autism. Human Molecular Genetics 17:
628–638.
Lai D, Ha G, Shah S. (2012). HMMcopy, Copy number prediction with correction for GC and mappability bias for HTS data. R package version
1.2.0.
Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z, Li Y, Li S, Shan G, Kristiansen K, Li S, Yang H, Wang J, Wang J. (2010 ) De novo assembly of human
genomes with massively parallel short read sequencing. Genome Res. Feb;20(2):265-72.
Liu B, Morrison CD, Johnson CS, Trump DL, Qin M, Conroy JC, Wang J, Liu S. (2013) Computational methods for detecting copy number
variations in cancer genome using next generation sequencing: principles and challenges.Oncotarget; 4(11):1868-81.
Liu P, Lacaria M, Zhang F, Withers M, Hastings P, Lupski JR. (2011). Frequency of nonallelic homologous recombination is correlated with length of
homology: evidence that ectopic synapsis precedes ectopic crossing-over. Am J Hum Genet, 89(4):580-588.
Louhimo R, Lepikhova T, Monni O, et al. (2012). Comparative analysis of algorithms for integration of copy number and expression data. Nat.
Methods;9(4):351–5.
Magi A, Benelli M, Yoon S, Roviello F, Torricelli F (2011) Detecting common copy number variants in high-throughput sequencing data by using
JointSLM algorithm. Nucleic Acids Res 39:e65.
Marshall CR, Noor A, Vincent JB, Lionel AC, Feuk L, et al. (2008). Structural variation of chromosomes in autism spectrum disorder. American
Journal of Human Genetics 82: 477–488.
Mayrhofer M, et al. (2013). Patchwork: allele-specific copy number analysis of whole genome sequenced tumor tissue. Genome Biol. 2013;14:R24.
McKinney C, Merriman ME, Chapman PT, Gow PJ, Harrison AA, et al. (2008). Evidence for an influence of chemokine ligand 3-like 1 (CCL3L1)
gene copy number on susceptibility to rheumatoid arthritis. Annals of the Rheumatic Diseases 67: 409–413.
McMullan DJ, Bonin M, Hehir-Kwa JY, de Vries BBA, Dufke A, et al. (2009). Molecular Karyotyping of Patients with Unexplained Mental
Retardation by SNP Arrays: A Multicenter Study. Human Mutation 30: 1082–1092.
Merikangas AK, Corvin AP, Gallagher L (2009). Copy-number variants in neurodevelopmental disorders: promises and challenges. Trends in
Genetics 25: 536–544.
Medvedev P, Fiume M, Dzamba M, Smith T, Brudno M (2010) Detecting copy number variation with mated short reads. Genome Res, 20:1613-1622.
Miller CA, Hampton O, Coarfa C, Milosavljevic A (2011) ReadDepth: a parallel R package for detecting copy number alterations from short
sequencing reads. PLoS One, 6:e16327.
Mills RE, Walter K, Stewart C, Handsaker RE, Chen K, Alkan C, Abyzov A, Yoon SC, Ye K, Cheetham RK, et al. (2011) Mapping copy number
variation by population-scale genome sequencing. Nature, 470:59-65.
Negrini S, Gorgoulis VG, Halazonetis TD (2010). Genomic in-stability–an evolving hallmark of cancer. Nat. Rev. Mol. Cell. Biol. 11(3):220–8.
Nijkamp JF, van den Broek MA, Geertman JM, Reinders MJ, Daran JM, de Ridder D (2012) De novo detection of copy number variation by coassembly. Bioinformatics.
Mosen-Ansorena D, Telleria N, Veganzones S, De la Orden V, Maestro M and Aransay A (2014). “seqCNA: an R package for DNA copy number
analysis in cancer using high-throughput sequencing.”BMC Genomics, 15(1), pp. 178.
Olshen AB, Venkatraman ES, Lucito R, Wigler M. (2004). Circular binary segmentation for the analysis of array-based DNA copy number data.
Biostatistics. 5(4):557–572.
Olshen AB (b), Bengtsson H, Neuvial P, Spellman PT, Olshen RA, Seshan VE. (2011) Parent-specific copy number in paired tumor-normal studies
using circular binary segmentation. Bioinformatics;27(15):2038–2046.
Qi J, Zhao F (2011) inGAP-sv: a novel scheme to identify and visualize structural variation from paired end mapping data. Nucleic Acids Res,
39:W567-575
Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. (2014) A survey of tools
for variant analysis of next-generation genome sequencing data. Brief Bioinform. 15(2):256-78.
Pang, A., MacDonald, J., Pinto, D., Wei, J., Rafiq, M. et al. (2010) Towards a comprehensive structural variation map of an individual human genome.
Genome Biology, 11:R52
Pinkel D, Segraves R, Sudar D, et al. (1998) High resolution analysis of DNA copy number variation using comparative genomic hybridization to
microarrays. Nat. Genet; 20(2):207–11.
Pleasance ED, Cheetham RK, Stephens PJ, McBride DJ , Humphray SJ, Greenman CD ,Varela I, et al (2010).
A comprehensive catalogue of
somatic mutations from a human cancer genome. Nature 463, 191-196.
Popova T, Manie E, Stoppa-Lyonnet D, Rigaill G, Barillot E, Stern MH. (2009) Genome Alteration Print (GAP): a tool to visualize and mine complex
cancer genomic profiles obtained by SNP arrays. Genome biology;10(11):R128.
Quinlan AR, Clark RA, Sokolova S, Leibowitz ML, Zhang Y, Hurles ME, Mell JC, Hall IM (2010) Genome-wide mapping and assembly of structural
variant breakpoints in the mouse genome.Genome Res, 20:623-635.
Rovelet-Lecruz A, Hannequin D, Raux G, Le Meur N, Laquerriere A, et al. (2006) APP locus duplication causes autosomal dominant early-onset
Alzheimer disease with cerebral amyloid angiopathy. Nature Genetics 38: 24–26.
Schaaf CP, Wiszniewska J, Beaudet AL. (2011) Copy number and SNP arrays in clinical diagnostics. Annual review of genomics and human
genetics;12:25–51.
Shen J, Zhang N. (2012) Change-point model on nonhomogeneous Poisson processes with application in copy number profiling by next-generation
DNA sequencing. 6:476-496.
Shlien A and Malkin D. (2009) Copy number variations and cancer. Genome medicine; 1(6):62.
Simpson JT, McIntyre RE, Adams DJ, Durbin R. (2010) Copy number variant detection in inbred strains from short read sequence data.
Bioinformatics. Feb 15;26(4):565-7.
Sindi S, Helman E, Bashir A, Raphael BJ (2009) A geometric approach for classification and comparison of structural
variants.Bioinformatics,25:i222-230.
Sindi SS, Onal S, Peng LC, Wu HT, Raphael BJ (2012) An integrative probabilistic model for identification of structural variation in sequencing data.
Genome Biol, 13:R22.
Singleton AB, Farrer M, Johnson J, Singleton A, Hague S, et al. (2003) alpha-synuclein locus triplication causes Parkinson's disease. Science 302:
841.
Speicher MR, Carter NP. (2005) The new cytogenetics: blurring the boundaries with molecular biology. Nature reviews Genetics;6(10):782–792.
Stefansson H, Rujescu D, Cichon S, Pietilainen OPH, Ingason A, et al. (2008) Large recurrent microdeletions associated with schizophrenia. Nature
455: 232–U61.
Stranger BE, Forrest MS, Dunning M, Ingle CE, Beazley C, Thorne N, Redon R, Bird CP, de Grassi Grassi, Lee C, Tyler-Smith C, Carter N, Scherer
SW, Tavare S, Deloukas P, Hurles ME, et al. (2007) Relative impact of nucleotide and copy number variation on gene expression phenotypes.
Science;315(5813):848–853.
Stratton MR, Campbell PJ, Futreal PA (2009): The cancer genome. Nature, 458(7239):719-724.
Sun W, Wright FA, Tang Z, Nordgard SH, Van Loo Loo, Yu T, Kristensen VN, Perou CM. (2009) Integrated study of copy number states and
genotype calls using high-density SNP arrays. Nucleic acids research;37(16):5365–5377.
Szatmari P, Paterson AD, Zwaigenbaum L, Roberts W, Brian J, et al. (2007) Mapping autism risk loci using genetic linkage and chromosomal
rearrangements. Nature Genetics 39: 319–328.
Teo SM, Pawitan Y, Ku CS, Chia KS, Salim A. (2012) Statistical challenges associated with detecting copy number variations with next-generation
sequencing. Bioinformatics;28(21):2711–2718.
Wang H, Nettleton D and Ying K (2014). Copy Number Variation Detection Using Next Generation Sequencing Read Counts, BMC Bioinformatics
2014, 15:109.
Wang Z, Hormozdiari F, Yang W-Y, Halperin E, Eskin E (2012) CNVeM: Copy Number Variation Detection Using Uncertainty of Read Mapping. In
Research in Computational Molecular Biology Edited by Chor B: Springer Berlin/Heidelberg., 7262:326-340. Lecture Notes in Computer Science.
Waszak SM, Hasin Y, Zichner T, Olender T, Keydar I, Khen M, Stütz AM, Schlattl A, Lancet D, Korbel JO. (2010) Systematic inference of copynumber genotypes from personal genome sequencing data reveals extensive olfactory receptor gene content diversity. PLoS Comput Biol. Nov
11;6(11).
Weiss LA, Shen YP, Korn JM, Arking DE, Miller DT, et al. (2008) Association between microdeletion and microduplication at 16p11.2 and autism.
New England Journal of Medicine 358: 667–675.
Wong K, Keane TM, Stalker J, Adams DJ. (2010) Enhanced structural variant and breakpoint detection using SVMerge by integration of multiple
detection methods and local assembly. Genome Biol.;11(12):R128.
Xi R (a), Hadjipanayis AG, Luquette LJ, Kim TM, Lee E, Zhang J, Johnson MD, Muzny DM, Wheeler DA, Gibbs RA, Kucherlapati R, Park PJ.
(2011) Copy number variation detection in whole-genome sequencing data using the Bayesian information criterion. Proceedings of the National
Academy of Sciences of the United States of America;108(46):E1128–1136
Xi R (b), et al. (2011) Detecting structural variations in the human genome using next generation sequencing. Brief. Funct. Genomics;9:405-415.
Xie C, Tammi MT (2009) CNV-seq, a new method to detect copy number variation using high-throughput sequencing. BMC Bioinformatics, 10:80.
Xu B, Roos JL, Levy S, Van Rensburg EJ, Gogos JA, et al. (2008) Strong association of de novo copy number mutations with sporadic schizophrenia.
Nature Genetics 40: 880–885.
Yang Y, Chung EK, Wu YL, Nagaraja HN, Zhou B, et al. (2007) Complement C4 gene copy number variation in human autoimmune disease systemic
lupus erythematosus (SLE). Molecular Immunology 44: 261.
Yau C, Mouradov D, Jorissen RN, Colella S, Mirza G, Steers G, Harris A, Ragoussis J, Sieber O, Holmes CC. (2010) A statistical approach for
detecting genomic aberrations in heterogeneous tumor samples from single nucleotide polymorphism genotyping data. Genome biology;11(9):R92.
Yau C (2013) OncoSNP-SEQ: a statistical approach for the identification of somatic copy number alterations from next-generation sequencing of
cancer genomes. Bioinformatics 29(19):2482-4.
Ye K, et al. (2009) Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short
reads. Bioinformatics;25:2865-2871.
Yoon S, Xuan Z, Makarov V, Ye K, Sebat J. (2009) Sensitive and accurate detection of copy number variants using read depth of coverage. Genome
research;19(9):1586–1592.
Yu Z, Liu Y, Shen Y, Wang M, Li A. (2014) CLImAT: accurate detection of copy number alteration and loss of heterozygosity in impure and
aneuploid tumor samples using whole-genome sequencing data. Bioinformatics. 30(18):2576-83.
Zack TI, Schumacher SE, Carter SL, Cherniack AD, Saksena G, Tabak B, Lawrence MS, Zhang C-Z, Wala J, Mermel CH, Sougnez C, Gabriel SB,
Hernandez B, Shen H, Laird PW, Getz G, Meyerson M, Beroukhim R (2013) Pan-cancer patterns of somatic copy number alteration. Nat Genet,
45(10):1134-1140.
Zhang J, Wu Y (2011). SVseq: an approach for detecting exact breakpoints of deletions with low-coverage sequence data.Bioinformatics, 27:32283234.
Zhang Q, Ding L, Larson DE, Koboldt DC, McLellan MD, Chen K, Shi X, Kraja A, Mardis ER, Wilson RK, et al. (2010) CMDS: a population-based
method for identifying recurrent DNA copy number aberrations in cancer from high-resolution data. Bioinformatics, 26:464-469.
Zhang ZD, Du J, Lam H, Abyzov A, Urban AE, Snyder M, Gerstein M (2011) Identification of genomic indels and structural variations using split
reads. BMC Genomics, 12:375.
Zeitouni B, Boeva V, Janoueix-Lerosey I, Loeillet S, Legoix-ne P, Nicolas A, Delattre O, Barillot E (2010). SVDetect: a tool to identify genomic
structural variations from paired-end and mate-pair sequencing data. Bioinformatics, 26:1895-1896.
Zhao M, Wang Q, Wang Q, Jia P, Zhao Z (2013) Computational tools for copy number variation (CNV) detection using next-generation sequencing
data: features and perspectives. BMC Bioinformatics, 14(Suppl 11):S1
Zhao Z, Boerwinkle E (2002) Neighboring-nucleotide effects on single nucleotide polymorphisms: a study of 2.6 million polymorphisms across the
human genome. Genome Res 12: 1679–1686.
Zhenhua Yu, Yuanning Liu, Yi Shen,1 Minghui Wang, and Ao Li (2014) CLImAT: accurate detection of copy number alteration and loss of
heterozygosity in impure and aneuploid tumor samples using whole-genome sequencing data. Bioinformatics. Sep 15;30(18):2576-83.
Descargar