Paradigmas de Computación Paralela, Concurrente y Distribuida

Anuncio
Paradigmas de Computación
Paralela, Concurrente y
Distribuida
Dra. Veronica Gil-Costa
e-mail: [email protected]
[email protected]
Bibliografía
•
O. Bonorden et all - PUB library, Release 6.0 - User guide and function reference. 1998.
•
O. Bonorden et all - The Puderborn University BSP (PUB) Library- Desing, Implementation and
performance. 1999.
•
M. Goudreau et all - Towards Efficiency and Portability: Programming with the BSP model. 1996.
•
J. Keller et all - Practical PRAM programming. John Wiley & Sons inc.. 2001.
•
C. Leopold - Parallel and Distributed Computing: A survey of models, paradigms, and approaches.
2001.
•
W.F. Mccoll - BSP Programming. 1994.
•
M. Quinn - Parallel Computing. Theory and Practice. Second Edition. McGraw-Hill. Inc. 1994.
•
L.G. Valiant - A Bridging Model for Parallel Computation. 1990.
•
General Purpose parallel Architectures. 1990.
•
B. Wilkinson, et all - Parallel Programming: Tecniques and Aplications using Networked
Workstations and Parallel Computers. 1999.
Modelo de Computación Secuencial
Computadora von Neumann
Clock
CPU
Memoria de
Programa
Cómo se escriben los programas?
Memoria
RAM
..
Mi
..
M1
M0
ALU
Registros
Contador de Programa
Qué es la computación paralela?
Tradicionalmente el soft. se escribe
en forma serial
Es el uso simultáneo de múltiples
recursos de cómputos para resolver un
problema
Línea Temporal
Sist. Paralelos
Sist. Distribuidos
Sist. Hibridos
ARPANET
1969
1976 1987
1990
1993
1995
1999
2005
2007
tiempo
ARPANET
Primera red de computadoras
básico
Experimento militar
Comienzo de la Internet
Línea Temporal
Sist. Paralelos
Sist. Distribuidos
Sist. Hibridos
ARPANET
Cray-1
1969
1976 1987
1990
1993
1995
1999
2005
2007
tiempo
Cray-1
Procesamiento vectorial: Usa la misma instrucción
para realizar la misma operación sobre varios
argumentos
150millones de operaciones por segundo de punto
flotante
Computadores grandes, costosos
Dueños: Universidades, gobierno, grandes
industrias.
Usuarios experimentados (tarjetas perforadas)
Línea Temporal
Sist. Paralelos
Sist. Distribuidos
Sist. Hibridos
prototipo Parallel
Inference Machine
(PIM)
ARPANET
Cray-1
1969
1976 1987
1990
1993
1995
1999
2005
2007
tiempo
Computación Paralela
Popular a fines de los ’80 principios
de los ’90
Primera Crisis
Problema: el software limitado a la
investigación y la milicia
Los lenguajes de alto nivel para el
modelo de Von- Neumann: C y
Fortran
Línea Temporal
Sist. Paralelos
Sist. Distribuidos
Sist. Hibridos
prototipo Parallel
Inference Machine
(PIM)
Redes de Comp.
ARPANET
Cray-1
1969
1976 1987
NOW
1990
1993
Beowulf
1995
1999
2005
2007
tiempo
Redes de Computadoras
NOW: proyecto de la Universidad de Bekeley
Primer cluster de computadoras más poderoso del
mundo
Beowulf: es un estilo de cluster diseñado para
realizar cálculos paralelos HPC
Tenía 16 computadores personales Intel 200MHz
conectados por medio de un switch Ethernet
Línea Temporal
Sist. Paralelos
Sist. Distribuidos
Sist. Hibridos
prototipo Parallel
Inference Machine
(PIM)
Redes de Comp.
ARPANET
Cray-1
1969
1976 1987
NOW
1990
1993
GRID
Beowulf
1995
1999
2005
2007
Hacer del poder computacional tan fácil como la red eléctrica
Proyecto SETI: Globus Toolkit
tiempo
Línea Temporal
Sist. Paralelos
Sist. Distribuidos
Sist. Hibridos
prototipo Parallel
Inference Machine
(PIM)
Redes de Comp.
ARPANET
PVM
Cray-1
1969
1976 1987
MPI
NOW
1990
1993
GRID
Beowulf
1995
1999
OpenMP
Multi-core
2005
2007
tiempo
Línea Temporal
Línea Temporal
Top 500 http://www.top500.org/lists/2010/11
229376 GB
186368 Cores
Intel EM64T Xeon X56xx
(Westmere-EP) 2930 MHz (11.72
GFlops)
Noviembre 2010
Línea Temporal
Sist. Paralelos
Sist. Distribuidos
Sist. Hibridos
prototipo Parallel
Inference Machine
(PIM)
Redes de Comp.
ARPANET
PVM
Cray-1
1969
1976 1987
MPI
NOW
1990
1993
GRID
Beowulf
1995
1999
OpenMP
Cloud
Multi-core Comp.
2005
2007
tiempo
Cloud Computing
Es un paradigma que ofrece servicios a través de
internet.
Los usuarios acceden sin conocimiento de la
gestión de internet
Utilizan cachés temporales de clientes (equipos de
escritorio, portátiles, etc.).
A pesar de que las capacidades de las PC han
mejorado, gran parte de su potencial se
desperdicia
Línea Temporal
Sist. Paralelos
Sist. Distribuidos
Sist. Hibridos
prototipo Parallel
Inference Machine
(PIM)
Redes de Comp.
ARPANET
PVM
Cray-1
1969
1976 1987
MPI
NOW
1990
1993
GRID
Beowulf
1995
1999
GPU
OpenMP
Cloud
Multi-core Comp.
2005
2007
tiempo
GPU
Descienden de los chips gráficos de finales de los
’80.
Usualmente no tenían soporte para dibujo de
figuras.
La velocidad de las CPU de la década del ’90 no
permitieron implementar GPUs más avanzados
Popularidad reciente: alta especialización de las
GPU para cáclulo con valores de punto flotantes
(gráficos 3D)
Computación Paralela
Características del problema
Aplicaciones
Por qué usar computación Paralela?
Computación Paralela:
Características del problema
Se puede dividir en partes discretas de trabajo
que se pueden resolver simultáneamente
Ejecutar múltiples instrucciones de programa en
cualquier instante de tiempo
Se resuelve en menos tiempo con múltiples
recursos que con uno sólo
Aplicaciones
Sistema de predicción del tiempo
Superficie de USA + Candada = 20.000.000 Km2
Altitud de 20 km
20 M Km2 * 20 Km = 400 M km3
….
4 * 1013 cálculos computacionales para predecir 1 hs.
Si queremos saber la predicción de 2 días y con un procesador
se ejecuta 1 billón de cálculos por seg
4 * 1013 * 48 horas = 2 * 1015 cálculos
2 * 1015 cal./ 109 calc. por seg. = 2 * 106 seg. = 23 días!!!
Aplicaciones
Calcular las orbitas planetarias y
galácticas
Movimiento de las placas tectónicas
¿Qué tienen estas aplicaciones en común?
Tráfico de vehículos en horas extremas
Operaciones de mercado (bancos,
Se
caracterizan por requerir el procesamiento de una
economía)
gran cantidad de información en forma rápida
Explotación de petróleo
Por qué usar Computación Paralela?
Razones principales:
Ahorrar tiempo
Resolver grandes problemas
OtrasParalela
razones:
LaComp.
es la evolución de la computación
secuencial
que intenta
emular
lo que sucede
en el
Aprovechar
el uso
de recursos
no locales
mundo real, donde varios eventos
Ahorrar costos: usar varias computadoras
complejos e interrelacionados suceden simultáneamente
económicas
Evitar problemas de memoria
Paradigmas de Computación
Paralela, Concurrente y
Distribuida
Introducción a los Sistemas Paralelos
Terminología
Tarea: programa o un conjunto de
instrucciones (tipo-programa) que
se ejecuta en un procesador.
Paradigmas de computación Paralelas
Computación Concurrente
Es la simultaneidad en la ejecución de múltiples
tareas interactivas. Es la base de la Comp. Paralela.
Son tareas que se ejecutan en el mismo instante.
Es una colección de procesos o hilos secuenciales
que se ejecutan (lógicamente) en paralelo.
Pseudo-paralelismo: cuando las tareas se ejecutan
en una máquina secuencial.
Como se puede implementar la
concurrencia?
Multiprogramación:
Multiprocesamiento:
Los threads multiplexan su ejecución sobre
una máquina secuencial
Los threads multiplexan su ejecución sobre
multicores o multiprocesadores
Procesamiento distribuido:
Los procesos multiplexan su ejecución sobre
diferentes máquinas
Coherencia y seguridad
Si los threads acceden a recursos
compartidos se logra seguridad si:
Todos los accesos no tienen efecto
sobre los recursos (ej. variables)
Sólo un acceso a la vez
(exclusión mutua)
Problema de “Too much milk”
Tiempo
Tu
3:00
Llegas a casa
3:05
Miras en la heladera
no hay leche
Vas al mercado
3:10
3:15
compañero de cuarto
Llega a casa
3:20
Llegas al mercado
Mira la heladera, no hay leche
Hay que SINCRONIZAR y actualizar datos correctamente
3:25
Compras la leche
Va al mercado
3:30
3:35
3:45
Llegas a casa
Pones en la heladera
Llega al mercado
Compra la leche
Llega a casa, Oh! No!!!
Problema: “filósofos cenando”
Hay 5 filósofos sentados en una mesa
redonda
Entre cada filósofo hay un chopstick.
Cada filósofo hace dos cosas: pensar y
comer
El filósofo piensa por un rato
Cuando tiene hambre
Agarra el chopstick derecho e izquierdo
No puede comer sin los 2 chopstick, sino espera
Cuando termina de comer libera los chopstick.
Problemas: Competencia, coherencia y seguridad por los recursos
semáforos, mutex, etc.
Paradigmas de computación Paralelas
Computación Paralela vs.
Computación Distribuida
Divide una aplicación en tareas que se
ejecutan al mismo tiempo
Divide una aplicación en tareas que se
ejecutan usando diferentes recursos
Paradigmas de computación Paralelas
Computación Paralela
vs.
Computación Distribuida
diferentes
recursos
Divide una aplicación en tareas Utiliza
físicamente separados
que se ejecutan simultáneamente
(fuertemente acoplado)
Se consideran varias aplicaciones
Se considera una aplicación por a la vez (pueden pertenecer a
diferentes usuarios).
vez.
Objetivo: acelerar la ejecución de Objetivo: permitir que varios
usuarios
trabajen
en
forma
una aplicación
cooperativa
Se ejecutan sobre arquitecturas Se ejecutan sobre arquitecturas
abiertas
y
homogéneas
con
memoria heterogéneas,
dinámicas
compartida
Sistema Distribuido
Cada procesador tiene su propia memoria: La
dirección de memoria de un procesador no mapea
en otro procesador (no hay direcciones globales a
través de los procesadores).
Cada procesador opera independientemente
El acceso a los datos de otro procesador lo define
explícitamente el usuario (pasaje de mjes, sync.,
etc.)
Sistema Distribuido
Ventajas:
Memoria escala con el número de procesadores
Cada procesador accede a su propia memoria
sin interferencia ni overhead causado por
mantener la coherencia de la memoria
Desventajas:
El programador es responsable de la
comunicación
Difícil mapear datos basados en memoria
global
Paradigmas de computación Paralelas
Sin embargo tienen muchas características en común:
Múltiples procesadores
Los procesadores están interconectados por alguna
red
Múltiples procesos están en progreso al mismo
tiempo y cooperan unos con otros
Paradigmas de computación Paralelas
Multiplicación de un vector por una
matriz un procesador
0
1
0
x
1
2
3
2
Si para cada resultado 5 t. 4
5
6
5
7
8
9
8
Total 15 t. en 1 procesador
Multiplicación de un vector por una
matriz varios procesadores
0
1
0
x
0*1+1*2+0*3
Proc0
1
2
3
4
5
6
0*4+1*5+0*6
Proc1
7
8
9
0*7+1*8+0*9
Proc2
Si para cada resultado 5 t. Total 5 t. en 3 procesadores
Terminología
Tarea Paralela: se ejecuta en varios
procesadores en forma segura
(resultados correctos).
Terminología
Comunicación:
A través de pasaje de mensajes
A través de memoria compartida
Acceso a memoria remota
Sincronización:
Coordinación de tareas paralelas en tiempo
real.
Terminología
El tamaño de un proceso puede ser
descrito por su granularidad
TAMAÑO DE COMPUTACIÓN ENTRE DOS
PUNTOS CONSECUTIVOS DE
COMUNIACIÓN Y SINCRONIZACIÓN
Terminología
Granularidad gruesa:
Comunicación y sincronización
Cómputo
Comunicación y sincronización
Mucho computo. Mas oportunidad para mejorar la performance.
Terminología
Granularidad fina:
Comunicación y sincronización
Cómputo
Comunicación y sincronización
Cómputo
Comunicación y sincronización
Cómputo
Comunicación y sincronización
Más overhead de comunicación.
Menos oportunidad para mejorar la performance.
Granularidad
Como métrica de granularidad se
puede utilizar una relación entre
computación y comunicación:
Granularidad = Tcomp/Tcomm
Aumentar la granularidad:
• Reduce los costos de creación de procesos y
comunicación entre procesos
• Reduce el número de procesos concurrentes y la
cantidad de paralelismo
Terminología
Speed-up: aceleración del código paralelo respecto
del código secuencial
speed-up( P ) T1/ T(P)
Speed-up
Super-lineal
Speed-up lineal
Speed-up típico
Numero de procesadores P
Eficiencia: se define como el ratio entre el speed-up
y el número de procesadores
Ef( P ) = speed-up(P)/P
Limites del Paralelismo
No todos los programas son
fácilmente paralelizables
Los programas tienen una parte
secuencial y una parte paralelizable
Parte secuencial
Dependencia de datos?
Parte paralela
a = b + c;
d = a + 1;
e = d + a;
for (i=0; i < e; i++)
M[i] = 1;
Ley Amadahl’s
Todo cómputo posee una porción
serial “s” que no puede ser
paralelizable. Sin importar la
cantidad de procesadores P que se
utilicen, el tiempo de ejecución no
puede ser menor que “s”.
Tpo secuencial
f
No se puede paralelizar:
Límite de la mejora que se
puede obtener
Ley Amadahl’s
tiempo
Usando 5 procesadores para el
trabajo paralelo
25 seg.
+
50 seg.
+
25 seg.
100 seg.
secuencial
paralelo
25 seg.
secuencial
+
10 seg.
25 seg.
secuencial
secuencial
60 seg.
Speed- up = Tsec/Tpar
= 100 seg./ 60 seg. = 1.67
Administración de tareas
Overhead agregado por la
administración de un conjunto de tareas
Overhead: Tiempo requerido para
coordinar las tareas paralelas (opuesto al
hacer trabajo útil)
Tiempo de Start-up
Sincronización
Comunicación de datos
Software overhead, threads,
Tiempo de finalización de las tareas
Balance de carga
Es difícil dividir el trabajo uniformemente
entre los P procesadores
No basta con asignar el mismo trabajo a
todos los procesadores porque el tamaño
de las tareas puede variar dependiendo
de los datos que use.
Ejemplo: guía telefónica
Cómputo - Comunicación
Balance de Carga
Los procesos que terminan antes
deben esperar al proceso que más
se demora
Tiempo ocioso
Menor utilización
Balance de Carga Estática
El programador decide a priori la cantidad
de trabajo que se le asigna a cada
proceso
Funciona bien en sistemas homogéneos
Todos los procesadores tienen las mismas
características
Cada proceso tiene la misma cantidad de
trabajo
No funciona bien en sistemas
heterogéneos
Balance de Carga Dinámica
Cuando un proceso finaliza su tarea,
saca más trabajo del proceso más
cargado
Ideal para sistemas heterogéneos
con carga de trabajo no uniforme
No funciona bien
en sistemas
distribuidos
Terminología
Escalabilidad: Habilidad de demostrar
un incremento en el speed-up
paralelo
Término impreciso: se puede usar
para describir el hardware o el
software.
Escalabilidad
Hardware
Al incrementar el número máquinas
mejora la performance del sistema
Escalabilidad con tamaño de problema fijo
Analizar cómo varía el tiempo paralelo y la eficiencia al aumentar P
¿Cuántos P necesito para obtener una eficiencia del 50%?
Escalabilidad
Software
Al aumentar el tamaño del
problema no decrece la
performance del sistema
Tamaño del problema: Tamaño del
input o número de pasos en el
mejor algoritmo secuencial
Terminología
Latencia: tiempo que toma en transmitir
un mensaje de un lugar a otro. (Demora)
Bandwidth: cantidad de bits que pueden
ser transferidos por segundo. Costo alto
en sistemas heterogéneos.
Costo de comunicación =
Latencia + Bandwith
Terminología
Portabilidad
Características de ciertos programas
que les permite ser utilizados en
distintas arquitecturas sin que precise
Modificaciones de importancia
Clasificación de las
Computadoras Paralelas
Aspectos del Hardware
Clasificación de Flynn (1972)
SISD: único flujo de instrucciones
aplicado a un único flujo de datos
SIMD: único flujo de instrucciones
aplicado a múltiples flujos de datos
MIMD: múltiplo flujo de instrucciones
aplicado a múltiple flujo de datos
SISD
Todas las computadoras con un único
procesador, desde computadoras personales
hasta supercomputadoras
PC, Workstations
Programa
IS
CU
Procesador
Datos
DS
PU
MM
SIMD
PU1
DS1
DS2
PU2
CU
PUN
IS
load Ai
Load Bi
Ci = Ai*Ci
MM2
IS
DSN
Ejemplo:
MM1
SINCRONISMO
MMN
MIMD
IS1
CU
IS2
CU
CU
ISN
PU1
DS1
DS2
PU2
DSN
PUN
ISN
ASINCRONO
MM1
MM2
MMN
IS1
MIMD
MIMD
C. Distribuidas
y Paralelas
Memoria
Distribuida (privada)
Memoria
Compartida
Multiprocesador
BUS
Switch
Multicomputador
BUS
Switch
Paradigmas de computación Paralelas
Memoria Compartida
Memoria Distribuida
Mecanismos de locks y
Sincronización.
Responsabilidad del
programador
Mecanismos de
comunicación
Todos los procesadores
ven los mismos datos
Cada procesador ve
datos diferentes
Distribución de datos
M. Compartida vs. M. Distribuida
M.Compartida
Se puede compartir datos rápidamente entre las
tareas
Acceso a datos en forma amigable para el
programador
Escalabilidad pobre entre CPUs y memoria.
Son caras
M.Distribuida
Escalable
No
existe problemas de coherencia de memoria.
Costo bajo.
Puede ser difícil mapear estructuras de datos en
diferentes procesadores (SAT-tree).
MIMD- Hardware
Topologías de M. Compartida
Arquitectura basada en BUS
Existe saturación del bus
Coherencia de cache
Performace limitada al bandwidth del bus
Arquitecturas basadas en Switch
Puede ser visualizada como una grilla de
cables con SW en las intersecciones y memoria
y procesadores en las terminales.
Muy cara
MIMD- Hardware
Topologías de M. Distribuida
Redes basadas en BUS
Muy sencillas
No escalables
Redes basadas en SW
Rápidas
Jerarquía de SW: Fat-tree
Fat-Tree
Como programar en M. Compartida?
Los procesadores 1.. N
requieren la variable x
Sólo hay un lugar donde
buscar
Condiciones de competencia:
Usar Sync. Para evitar conflictos
Como programar en M. Compartida?
Un único proceso puede crear
múltiples threads concurrentes
Cada thread encapsula su propia ruta de ejecución
Cada thread tiene estados locales y recursos compartidos
Los threads se comunican a través de recursos compartidos como
la memoria
Como programar en M. Distribuida?
Los procesadores 1.. N requieren la
variable x
Hay n lugares donde buscar
Cada procesador tiene su
propia X
El valor de X puede variar
Para que el P1 busque X en P2:
P1 envía una petición de X a P2
P2 envía una copia de X a P1
P1 recibe la copia
P1 la almacena en su memoria
Pasaje de Mensajes
Y
Creación de Procesos
Creación de procesos
Estática:
Todos los procesos se especifican antes
de la ejecución
El sistema ejecutará un número fijo de
procesos
El programador lo determina por línea
de comando
SPMD y MPMD(Master-Slave)
Creación de procesos
Dinámica:
Un proceso puede ser creado e inicializado
durante la ejecución de otro proceso
También pueden ser destruidos
La creación y destrucción puede realizarse en
forma condicional (varía el número de procesos)
MPMD
tiempo
spawn()
Proceso 1
Proceso 2
Pasaje de mensajes
Las arquitecturas con memoria distribuida
usan comunicación explícita para
intercambiar datos
El intercambio de datos requiere sincronización
(cooperación) entre los senders-receivers
Cómo se describen los datos?
Cómo se identifican los procesos?
Qué significa que se complete un envío o recepción?
Ejemplo
Se quiere calcular la distancia entre cada punto de
A[1..4] y B[1..4] y guardar los resultados en
C[1..4][1..4]
Ejemplo
Se quiere calcular la distancia entre cada punto de
A[1..4] y B[1..4] y guardar los resultados en
C[1..4][1..4]
Podemos dividir el
Trabajo entre dos
procesadores
P1 envía datos a P2
P1 y P2 computan
P2 envía datos a P1
Ejemplo
Patrones de comunicación
Al usar pasaje de mensajes los programas
deben entender el cómputo y organizar la
comunicación correctamente
Punto a Punto
Broadcast (1 a todos) Reduce (todos a 1)
All to all
Scatter (1 a varios) Gather (varios a 1)
Point-to-Point
Método básico de comunicación entre 2
procesos
El procesador origen envía un mensaje al
procesador destino
El procesador destino recibe el mensaje y lo
procesa
El mensaje generalmente incluye
Datos
Longitud del mensaje
Dirección destino y posiblemente un tag
Synchronous vs. Asynchronous
Synchronous
No utiliza buffers
El receptor notifica cuando
recibe el mensaje
El proceso que envía espera
a que el destino reciba todo el
mensaje
tiempo
tiempo
send()
Solicita envío
Acknowledgement
send()
Mensaje
recv()
recv()
Synchronous vs. Asynchronous
Asynchronous
No existe confirmación
Un usa buffers
Blocking vs. Non-Blocking
Blocking = Sync && Non-Blocking = Async
MPI son diferentes
tiempo
send()
recv()
Blocking vs. Non-Blocking
No Bloqueante
Permite ejecutar la próxima instrucción sin importar
que la rutina send() haya sido localmente completada
Es responsabilidad del programador que los datos que
se envían no sean modificados en las próximas
instrucciones
Fuente de Deadlock - Bloqueante
Si no hay suficiente capacidad en el buffer,
las operaciones send esperan hasta que
haya suficiente espacio disponible
Qué sucede con este código:
Depende del
tamaño del
buffer
Soluciones
Incrementar el tamaño del buffer
Ordenar las operaciones send y recv en
forma más cuidadosa
Broadcast
Un
proceso envía la misma
información a otros
procesadores
Se identifican los procesos que van a participar
en el broadcast
Mediante un nombre de grupo que es usado
como parámetro por la función de broadcast
El proceso que hace broadcast también puede
recibir el mensaje
Incluye send+sync
Broadcast
Si queremos paralelizar:
Scatter
Envía un conjunto de elementos de un
arreglo desde el procesador origen a un
conjunto de procesos
Process 0
Process 1
dato
dato
Process N
dato
Acción
buf
Código
scatter
scatter
scatter
Gather
Un procesador recolecta los valores de
otros procesadores
Se utiliza luego de realizar cómputos en
forma paralela
Process 0
Process 1
dato
dato
Process N
dato
Acción
buf
Código
scatter
scatter
scatter
Gather - Ejemplo
Processor 0..N
{
…
int r = rand();
int k = 0;
int buff[N];
Gatther( 0, &buff, r, pid );
for (i=0;i<N;i++)
k+=buff[i];
…
}
P0
P1
P2 P3 P4
4
7
8
19
30
11
K= 433
27
8
3
P5
3
r
Reduction
Cada procesador comienza con un valor y
necesita conocer la suma de los valores
almacenados en otros procesadores
Un “reduction” combina datos de todos los
procesadores y los retorna a través de una
operación
Algunas operaciones que se pueden aplicar son:
ADD, OR, AND, MAX, MIN, etc.
Ningún procesador puede finalizar un “reduction”
antes que los otros procesadores hayan
contribuido con sus valores
Ejemplo
Ejemplo en Paralelo
Paralelismo de datos
Paralelismo de tareas
y
Diseño de software paralelo
Paralelismo de Datos
Se caracteriza por la ejecución paralela de
las mismas operaciones sobre diferentes
partes de un conjunto de datos
suficientemente grande
Tipos de paralelismo de datos:
SPMD y MPMD
Paralelismo de Datos
Es simple de programar
Existe una única estructura de control o
ejecución
El paralelismo aparece via pasos de
paralelismo de datos
Forma de particionar los datos
Paralelismo de Datos
for all i: A[i]=2*A[i]
P0
4
2
P1
8
7
1
P2
0
4
5
3
4
8
1
Paralelismo de datos
8
4
16 14 2
0
8
10 6
8
16 2
for all i>0: A[i]=A[i]+A[i-1]
8
12 20 30 16 2
8
Suma = 0….
18 16 14 24 18
Paralelismo de datos
secuencial
Paralelismo de Tareas o funcional
Ejecuta diferentes operaciones sobre
los mismos o diferentes datos
Se enfoca en la división
de tareas
Paralelismo de Tareas
v = alpha();
w = beta();
x = gamma(v, w);
y = delta();
printf ("%6.2f\n", epsilon(x,y));
alpha
Se puede ejecutar
alpha, beta, Y gamma, delta
en paralelo.
beta
gamma
delta
INDEPENDENCIA DE DATOS
epsilon
Ejemplo 2
Procesamiento de Señales: Un conjunto signal-data de
audio se transmite a través de tres filtros computacionales
distintos.
Cada filtro es un proceso independiente. El primer
segmento de datos debe pasar por el primer filtro antes
de pasar al segundo.
Cuando lo hace, el segundo segmento de datos pasa por
el primer filtro.
En el momento en el tercer segmento de datos se
encuentra en el primer filtro, las tres tareas están
ocupadas.
Divide y Vencerás
Es un método elegante para resolver problemas
Se divide el problema en problemas más pequeños,
luego se resuelven las partes en forma separada y
se combinan los resultados parciales para obtener
el resultado final
Se utiliza recursivamente para dividir el problema
hasta alcanzar un punto en el que el problema es
trivial
X0 …. Xn/m-1 xn/m…. X2n/m-1
….
suma
x(m-1)n/m-1….. Xn-1
Divide y Vencerás
MASTER
s = n/m;
//cantidad de elementos para los slaves
for ( i=0, x=0; i<m; i++, x = x+s )
send( &numbers[x], s, Pi );
//envía s números al slave Pi
result = 0;
for( i=0;i<m; i++ )
recv( &part_sum, Pany);
sum += part_sum;
//Espera resultados de los slaves
//Acumula suma parciales
SLAVE
recv( numbers, s, Pmaster );
part_sum = numbers[0];
for( i=0; i< s; i++ )
part_sum += numbers[i];
send( &part_sum, Pmaster );
//Recibe s números del master
//Realiza la suma
//Envía resultados
Con broadcast?
Divide y Vencerás: Análisis
El algoritmo secuencial requiere n sumas, con
una complejidad de O(n).
El algoritmo paralelo utiliza m+1 procesos.
Dividimos el análisis en etapa de cómputo y
comunicación
Etapa 1: Comunicación:
m slaves leen n/m números con un costo de
tcomm1=m*(tstartup+(n/m)tdata)
Etapa 2: Cómputo:
Los procesos esclavos suman n/m números
requiriendo n/m sumas.
tcomp1 = n/m
Divide y Vencerás: Análisis
Etapa 3: Comunicación:
Se envían los resultados parciales de las sumas
tcomm2 = m(tstartup+tdata)
Etapa 4: Cómputo:
Suma final de m sumas parciales
tcomp2 = m;
Costo total
tp = tcomm1 + tcomm2 + tcomp1 + tcomp2
= m(tstartup+(n/m)tdata)+m(tstartup+tdata) + n/m + m
= 2mtstartup+(n+m) tdata + n/m + m
Divide y Vencerás: Recursivo
Esta formulación crea un árbol binario de
procesos
Al inicio, el problema raíz del árbol toma un
problema y lo divide en dos partes más chicas
La división del problema continúa hasta que las
hojas del árbol han recibido los problemas más
básicos
Cada hoja retorna la solución de su problema al
nodo padre
Cada proceso padre combina y/o aplica alguna
operación a la solución entregada por los nodos
hijos
Eventualmente la raíz genera la solución al
problema original
Divide y Vencerás: Recursivo
add( int *s)
{
if( numbers(s)<= 2 ) return (s[0] + s[1]);
else
{
Divide (s, s1, s2 ); //Divide s en dos grupos
part_sum1 = add(s1);
part_sum2 = add(s2);
return( part_sum1 + part_sum2);
}
Problema inicial
}
Divide el problema
Tareas finales
Divide y Vencerás: Implementación
Paralela
En una implementación secuencial
se visita un nodo del árbol por vez
Una implementación paralela
permite visitar varios nodos
simultáneamente
Si se asigna un proceso a cada nodo
P0
Cada proceso solo
P1
estará activo
en un nivel del árbol
P3
2m sub-tareas
2m+1-1 procesos
P2
P4
P5
P6
Divide y Vencerás: Implementación
Paralela
una solución mas eficiente es re-usar los procesos existentes
P0
P0
P4
P0
P0
P2
P1
P2
P4
P3
P4
P6
P5
P6
P7
También se puede aplicar a tareas que son divididas en más de dos
partes
Bucket sort: Secuencial
La mayoría de los algoritmos de ordenación
secuencial se basan en las operaciones de
“comparar” e “intercambiar”
Bucket sort:
Es un algoritmo de partición
Funciona bien si los números se distribuyen
uniformemente en un intervalo [0..a-1]
El intervalo se divide en m regiones denominadas
buckets
Para ubicar un número en un bucket, i/m y usar el
resultados para identificar el bucket
--------------------------------------------
buckets
sort
merge
Bucket sort: Secuencial
Algoritmo secuencial:
Se divide el número i por el número de buckets y me
da el identificador del bucket donde lo debería ubicar.
Es decir los números se distribuyen uniformemente en
buckets. Si los números están uniformemente
distribuidos, en cada bucket hay n/m números.
Eso permite balancear la carga de trabajo asignada a
cada bucket.
luego se ordenan en forma secuencial los números de
cada buckets y finalmente se aplica una función de
merge
--------------------------------------------
buckets
sort
merge
Bucket sort: Paralelo
Alternativa 1: Asignar un bucket a cada
procesador (todos los procesadores mantienen
el arreglo de números desordenados)
Números desordenados
--------------------------------------------
Buckets
grandes
sort
merge
Bucket sort: Paralelo
Alternativa 2:
Se divide la secuencia en m regiones, una para cada procesador.
Cada procesador genera buckets más pequeños y distribuye los
números en esos buckets.
Estos buckets pequeños se vacían en P buckets mas grandes para
ser ordenados.
Para ello c/procesador envía un bucket chico a c/u de los otros
procesadores (bucket i al procesador i)
Números desordenados
-------------------------------------------procesadores
Buckets mas pequeños
Buckets
grandes
sort
merge
D&V Paralelo
Tipos de Algoritmos (Input-Output)
Los problemas se pueden clasificar según sus
datos de entrada y salida
Común-Común (CC): las variables paralelas de
entrada y salida son comunes (replicadas) a todos
los procesadores del grupo
Común-Privado (CP): las variables paralelas de
entrada son comunes (replicadas) pero las
variables resultado quedan privadas en cada
procesador
Privada-Común (PC): las variables paralelas de
entrada son privadas de cada procesador y las
variables resultado son replicadas
Privada-Privada (PP): las variables de entrada y
salida son privadas
Caso de estudio:
Algoritmo shortest path
Un grafo G(V,E), donde V es el conjunto
de vértices y E es el conjunto de arcos
conectando vértices en V.
En un grafo dirigido cada arco tiene una
dirección
Un grafo puede ser representado como
una matriz de adyacencia
Aij = 0 si no hay un arco que une i con j
Aij = 1 si hay un arco que une i con j
Caso de estudio:
Algoritmo shortest path
Es un problema importante en la teoría de grafos
y tiene gran aplicación en problemas de
comunicación y otros problemas computacionales
El problema involucra encontrar el paso más corto
entre todos los pares de vértices
0
3
1
2
0
1
2
3
0 1 2 3
0 1 0 0
0 0 1 1
0 0 0 0
1 0 1 0
Matriz de Adyacencia:
dice si hay un arco que une 2 vértices
Algoritmo shortest path
La idea es determinar si el paso
desde el vértice vi al vértice vj vía
vk, es más corto que el menor paso
conocido
vk
vi
vj
Algoritmo shortest path
El paso desde el vértice vi la vértice vj es la
secuencia de arcos que los une y ningún arco se
repite 2 veces.
El problema requiere que encontremos el camino
mas corto
El algoritmo toma como entrada una matriz de
adyacencia A (NxN) y computa una matriz S(NxN)
Sij tendrá la longitud del paso más corto entre vi y
vj, o -1
Algoritmo shortest path
El algoritmo obtiene la matriz S en N pasos,
construyendo en cada paso k una matriz
intermedia I(k) que contiene el paso más corto
conocido entre cada par de vértices.
Inicialmente I(0) contiene la longitud entre (vi,vj),
si existe un arco, de lo contrario será 0.
Durante el k-ésimo paso se evalúa nuevamente Iij
para determinar si:
El mejor paso conocido entre vi, vj es más largo que
las longitudes combinadas desde vi a vk y desde vk
a vj. De ser así se actualiza Iij
Algoritmo shortest path
Algoritmo shortest path: Paralelo
Repartir las filas en P procesadores
en forma consecutiva
J=0;
for (i=0;i<P;i++)
{
for (;j< (N/P); j++)
send(i, fila j);
if(i==(P-1))
send(i, fila j+1)
}
Asigna un bloque contiguo a
cada procesador
Г
Cada tarea es root de al menos un broadcast
Los datos requeridos en el késimo paso no le pertenecen
al procesador
Computación
Pipelined
Pipelined
T0
T1
T2
T3
El problema se divide en tareas que se
completan una después de otra.
En la programación paralela cada tarea se
ejecuta en un procesador diferente
Cada etapa contribuye a resolver el
problema y pasa información necesaria
para la siguiente etapa
Pipelined
Es posible incrementar la velocidad
de ejecución:
1.
2.
3.
Si se ejecuta mas de una instancia del
problema
Si una serie de datos se procesan con
múltiples operaciones
Si los datos pueden ser enviados a las
siguientes etapas antes que la etapa
actual finalice
Pipelined
Si se ejecuta mas de una instancia
del problema
procesos
1.
P4
Inst.1 Inst.2
P3
Inst.1 Inst.2 Inst.3
P2
Inst.1 Inst.2 Inst.3 Inst.4
P1 Inst.1 Inst.2 Inst.3 Inst.4 Inst.5
tiempo
Se utiliza para ejecutar simulaciones con diferentes parametros para
obtener resultados comparativos.
Pipelined
1.
Si una serie de datos se procesan
con múltiples operaciones
Elementos de vector
2.
d4
P0
P1
P0
P1
P2
P1
P2
P3
P1
P2
tiempo
P3
P4
d3
d2
d1
P0
P0
Cada proceso realiza una operación diferente sobre los elementos
Se utiliza para cálculos aritméticos, como multiplicar elementos de vectores
1.
2.
3.
Pipelined
Si los datos pueden ser enviados a
las siguientes etapas antes que la
etapa actual finalice
P4
Se transfiere
suficiente inf.
para comenzar
la siguiente etapa
P4
P3
P3
P2
P2
P1
P1
P0
P0
tiempo
tiempo
Ejemplo
Problema: Sumar una lista de
números almacenados en diferentes
procesadores
∑
P1
∑
∑
P2
P3
∑
P4
recv( Pi-1, acumulation );
accumulation += number;
send( Pi+1, accumulation)
P5
Tipos de Paralelismos
Threads
La estructura más común para
especificar procesos concurrentes es
FORK-JOIN
Programa principal
FORK
FORK
FORK
JOIN
JOIN
JOIN
Sistema de memoria compartida.
Threads
IP
Son rutinas livianas que comparten la misma zona
de memoria y las variables globales
code
Heap
IP
code
Heap
stack
threads
Rutinas de
Interrupción
stack
IP
Files
Files
stack
Proceso
Rutinas de
Interrupción
Threads
La creación de threads es 3 ordenes
de magnitud menor a la creación de
un proceso
La sync de los threads se puede
realizar más eficientemente que la
sincronización de procesos
Threads: Ejemplo
Threads: memoria compartida
Instrucción
x = x+1;
Proceso 1
read x
compute x+1
write x
tiempo
Proceso 2
read x
compute x+1
write x
Variable x
write
write
read
read
+1
+1
Proceso 1
Proceso 2
Secciones Críticas
- Locks
El problema de variable compartida puede ser generalizada a cualquier recurso.
Por ej. I/O dispositivos
Locks
Locks: son variables de 1 bit que se
coloca en 1 para indicar que el proceso
ha ingresado a la sección critica. Y se
coloca en 0 para indicar que no hay
procesos en la sección critica.
Estos mecanismos generalmente se
implementan por hardware.
Pthread
El programa principal es un thread.
Un thread separado puede ser creado y destruido
utilizando:
pthread_t thread1;
pthread_create( &thread1, NULL, (void*)proc1, (void*) &arg);
pthread_join( thread1, void *status);
thread1
Main program
pthread_create( &thread1, NULL, (void*)proc1, (void*) &arg);
pthread_join( thread1, void *status);
proc1(&arg)
{
….
return(*status);
}
Pthread
#include <pthread.h>
pthread_cancel(&thread1)
for (j=0;j<NUM_THREADS;j++)
Detached
thread: threads que se crean y se terminan sin la necesidad de
usarifun(threads[j]
join se llaman!=
thread
tid)detached
pthread_cancel(threads[j]);
pthread_self
pthread_mutex_t mutex1;
void
print_it(void *arg)
pthread_mutex_init(&mutex1,NULL);
{
pthread_mutex_destroy(&mutex1);
pthread_t tid; /* get the calling thread's ID */
tid = pthread_self();
pthread_mutex_lock(
mutex1 );
printf("Thread %d \n", tid);
pthread_mutex_unlock( mutex1 );
}
Pthread
Destroying Mutexes
struct obj
thread_mutex_t
foo_mutex;
{
void foo()
pthread_mutex_t om;
{
int refcnt; ...
pthread_mutex_init(&foo_mutex,NULL);
};
obj_done(struct obj *op)
pthread_mutex_lock(&foo_mutex);
/* Do{work. */
pthread_mutex_lock(&op->om);
x = x+1;
if (--op->refcnt == 0)
pthread_mutex_unlock(&foo_mutex);
{
}
pthread_mutex_unlock(&op->om);
pthread_mutex_destroy(&op->om);
free(op);
}
else
pthread_mutex_unlock(&op->om);
}
Hardware?
Todas las computadoras modernas
tienen cache
Hyperthreading. Cada núcleo
dispone ahora de dos hilos de
procesamiento, con lo que el
sistema ve el microprocesador
como si tuviera ocho núcleos en
vez de cuatro
L2: 8Mb
Hardware
• Si un therad en un core requiere un dato se trasfiere
desde la memoria hasta la cache del core (se hace una
copia).
• Posteriormente cuando el thread quiere obtener el
dato accede a su cache.
• Si otro thread ubicado en otro core quiere el mismo
dato, se hace una nueva copia del dato en la cache del
nuevo core que lo requiere. (hay 2 copias).
• El problema surge cuando un thread modifica el
contenido del dato. Luego se debe usar un protocolo
de coherencia para asegurar la correctitud de los
datos.
Hardware
Protocolo de coherencia de cache
Política de actualización: se actualiza todas
las copias del dato en todas las cachés
Política de invalidar (más común): cuando
se modifica una copia en una caché, las
otras copias son invalidadas utilizando un bit
de validación.
Hardware
La caché se organiza en bloques de
direcciones continuas
caché
Code:
a+=2;
b+=2;
c+=a+b;
bloques
ab
c
RAM
False sharing: un bloque puede ser pedido por varios threads, pero
cada thread accede a datos diferentes. Cuando se actualiza un dato
partes de las copias del bloque en otros cores deben ser actualizados
o invalidados
False-sharing
RAM
bloque
Address
tag
7
6
5
4
3
2
1
0
cache
cache
Core 1
Bloque en cache
Core 2
Ejemplo
sum
int sum, a[1000];
sum = 0;
for( i=0;i<1000; i++)
sum += a[i];
a
------------
Solución 1
Proceso 1
sum1 = 0;
for( i=0; i<1000; i+=2 )
sum1 += a[i];
sum += sum1
Proceso 2
sum2 = 0;
for( i=1; i<1000; i+=2 )
sum2 += a[i];
sum += sum2
Ejemplo
sum
N procesos tomando
números de a[]
a
------------
global_index
int a[array_size];
int global_index;
int sum = 0;
pthread_mutex_t mutex1;
Int nth = 10;
main()
{
int i;
pthread_t thread[nth];
for( i=0; i<array_size; i++ )
a[i] = i+1;
for(i=0;i< nth; i++ )
pthread_create(&thread[i],NULL,
slave, NULL);
for(i=0; i<nth; i++ )
pthread_join(thread[i],NULL);
}
Void *slave( void *ignorado)
{
int local_index, partial_sum = 0;
do {
pthread_mutex_lock(&mutex1);
local_index = global_index;
global_index++;
pthread_mutex_unlock(&mutex1);
if (local_index < array_size)
partial_sum += a[local_index];
}while(local_index < array_size )
pthread_mutex_lock(&mutex1);
sum += partial_sum;
pthread_mutex_unlock(&mutex1);
}
OpenMP
#include <omp.h>
g++-4.2 main.cc -o main.out –fopenmp
Las directivas se especifican con #pragma
#pragma omp directive-name[clause[,] clause]...
Al final de una región paralela hay una
sincronización implícita. Solo el thread master
continúa la ejecución.
Cuando un thread encuentra un constructor
paralelo, un grupo de threads es creado
OpenMP: clausuras
Private (lista de variables) En esta la lista de variables puede ser
separada por ",“ y para cada una de ellas se genera una copia en
cada thread, esta copia no tiene relación con la original y no es
inicializada a menos que se utilice firstprivate.
Shared (lista de variables) En esta las variables de la lista son
comunes a todos los threads y cada uno de ellos puede modificarla
afectándola en forma global.
Threadprivate (lista de variables) Hace que la lista sea privada a
cada thread pero globales dentro de un thread.
Reduction (operador:lista de variables) Realiza una operación de
reducción sobre las variables que aparecen en la lista utilizando el
operador/intrínseco especificado. El operador puede ser: +, *, -,
&(and), |(or), ^(eqv), &&(neqv). El intrínseco puede ser: || (max),
(min), (and), (or).
if(expresión escalar): los threads se crean si al evaluar la expresión
es verdadera.
OpenMP
int omp_get_threads_num(void) Devuelve el
identificador del thread.
int omp_get_num_threads(void) Devuelve cuántos
threads se están utilizando
int omp_get_num_procs(void) Devuelve el número
de procesadores accesibles
void omp_set_num_threads(int) Indica el número
de threads a utilizar
int omp_get_max_threads(void) Devuelve el
máximo posible de threads
OpenMP: Variables de entorno
OMP_NUM_THREADS Indica el
número de threads a usar.
export OMP_NUM_THREADS=4
setenv OMP_NUM_THREADS 4
set OMP_NUM_THREADS=4
OpenMP: Ejemplo
Si no quieren usar variables de
entorno pueden tener el mismo
efecto usando
omp_set_num_threads(NT);
OpenMP: Tipos de constructores
DO / for – Comparten las
iteraciones de un loop.
Representa el “paralelismo
de datos"
SECTIONS – Divide el trabajo
en secciones discretas. Cada
sección se ejecuta por un thread.
Paralelismo de tareas
Ejemplo
#pragma omp for[clause[,] clause]...
{
ciclo for
}
FOR
SCHEDULE(type, chunck): Describe cómo se dividen las iteraciones
de un loop entre los threads.
STATIC: Las iteraciones se dividen en chunks y asignados
estáticamente a los threads
DYNAMIC: Las iteraciones se dividen en chunks y asignados
dinámicamente a los threads. Cuando un thread termina un chunk
se le asigna otro
Ejemplo static
#include <opm.h>
#define SIZE 4
#define N 8
int main( )
{
int i,chunk;
float a[N], b[N], c[N];
for( i=0;i<N ;i++)
a[i] = b[i] = i*1.0;
chunck = SIZE;
#pragma opm parallel shared(a,b,c) private(i)
{
#pragma opm schedule( static, chunk )
for( i=0;i<N;i++)
c[i] = a[i]+ b[i];
}
}
Ejemplo
SECTIONS
SECTIONS / END SECTIONS
Debe incluirse en una región paralela.
Las secciones se dividen entre los “threads”.
Cada “thread” ejecuta una sección diferente.
Es posible realizar paralelismo a nivel de tarea.
SECTION define cada una de las secciones.
OpenMP
SECTION
OpenMP: Directivas
#pragma omp single: sólo un thread
ejecuta el código
#pragma opm parallel shared(a,b,c) private(i)
{
BLOCK1
#pragma opm single
{
BLOCK2
}
BLOCK3
}
OpenMP: Directivas
#pragma omp master: el código a
continuación lo ejecuta solo el
thread master
#pragma opm parallel shared(a,b,c)
private(i)
{
BLOCK1
#pragma opm master
{
BLOCK2
}
BLOCK3
}
OpenMP: Directivas
#pragma omp barrier: barrera de
sync.
#pragma opm parallel shared(a,b,c)
private(i)
{
BLOCK1
#pragma opm barrier
BLOCK3
}
OpenMP: Directivas
#pragma omp critical: regiones
críticas
#pragma opm parallel shared(a,b,c)
private(i)
{
BLOCK1
#pragma opm critical (zona1)
{
x = x+1;
}
BLOCK2
}
Descargar