Computer - Oscar Plata

Anuncio
Red SyeC – Primer Workshop
26-27 enero 2016
Aceleración de Aplicaciones
Intensivas en Datos
Grupo de Arquitectura de Computadores
Universidad de Málaga
1
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Application/Architecture Context
• Data-intensive, big-data applications
§ Large amount of “random” memory accesses across “large” memory regions
(“low” spatial, temporal memory locality)
§ “Small” amount of computation per data item (“small” arithmetic intensity)
§ “Large” amount of exploitable parallelism
2
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Application/Architecture Context
• Data-intensive, big-data applications
§ Large amount of “random” memory accesses across “large” memory regions
(“low” spatial, temporal memory locality)
§ “Small” amount of computation per data item (“small” arithmetic intensity)
§ “Large” amount of exploitable parallelism
• How to efficiently process such workloads?
§ Storage perspective: Big-data processing is based mostly on secondary
storage
§ However, improvements in capacity/cost of main memory allows to have a
large amount of data in main memory
3
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Application/Architecture Context
• Data-intensive, big-data applications
§ Large amount of “random” memory accesses across “large” memory regions
(“low” spatial, temporal data locality)
§ “Small” amount of computation per data item (“small” arithmetic intensity)
§ “Large” amount of exploitable parallelism
• How to efficiently process such workloads?
§ Storage perspective: Big-data processing is based mostly on secondary
storage
§ However, improvements in capacity/cost of main memory allows to have a
large amount of data in main memory
• Multi-core, many-core architectures
§ Compute-centric paradigm
§ “Large” amount of parallel computational power
§ “Many” cores partially sharing a complex, large, “deep” on-chip cache
hierarchy
§ “Limited” off-chip main memory bandwidth (pin count limitation)
Oscar Plata
4
Grupo de Arquitectura de Computadores, Universidad de Málaga
Aceleración de Aplicaciones Intensivas en Datos
Red SyeC – Primer Workshop, 26-27 enero 2016
Application/Architecture Context
• Challenging to scale up such workloads on such architectures
§ “Low” data locality leads to “limited” cache efficiency
5
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Aceleración de Aplicaciones Intensivas en Datos
Red SyeC – Primer Workshop, 26-27 enero 2016
Application/Architecture Context
• Challenging to scale up such workloads on such architectures
§ “Low” locality leads to “limited” cache efficiency
§ “Random” memory accesses leads to “limited” data prefetching efficiency
6
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Aceleración de Aplicaciones Intensivas en Datos
Red SyeC – Primer Workshop, 26-27 enero 2016
Application/Architecture Context
• Challenging to scale up such workloads on such architectures
§ “Low” locality leads to “limited” cache efficiency
§ “Random” memory accesses leads to “limited” data prefetching efficiency
§ “Small” arithmetic intensity leads to “limited” ability to hide memory latency
7
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Aceleración de Aplicaciones Intensivas en Datos
Red SyeC – Primer Workshop, 26-27 enero 2016
Application/Architecture Context
• Challenging to scale up such workloads on such architectures
§
§
§
§
“Low” locality leads to “limited” cache efficiency
“Random” memory accesses leads to “limited” data prefetching efficiency
“Small” arithmetic intensity leads to “limited” ability to hide memory latency
“Large” amount of parallelism allows to hide memory latency by “fast”
multithreading but at the cost of “high“ requirements of memory bandwidth
8
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Application/Architecture Context
• Challenging to scale up such workloads on such architectures
§
§
§
§
“Low” locality leads to “limited” cache efficiency
“Random” memory accesses leads to “limited” data prefetching efficiency
“Small” arithmetic intensity leads to “limited” ability to hide memory latency
“Large” amount of parallelism allows to hide memory latency by “fast”
multithreading but at the cost of “high“ requirements of memory bandwidth
• Performance/energy challenges
§ Memory bandwidth
§ Frequent data transfers across the memory hierarchy
§ Moving data around consumes a lot of energy
35
30
25
20
15
10
5
0
16b carry-select
16b multiplier
8x128x16 SRAM (R)
8x128x16 SRAM (W)
External IO access
Relative energy per operation
16b Memory transfer
9
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Data-Centric Computing
• Change computing paradigm
Compute-centric system ➠ Data-centric system
§ Distribute computation across the memory hierarchy
10
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Data-Centric Computing
• Change computing paradigm
Compute-centric system ➠ Data-centric system
§ Distribute computation across the memory hierarchy
§ Minimizes data motion
§ Reduces energy consumption
NDP: Near Data Processing
PNM: Processing Near Memory
11
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Data-Centric Computing
• Change computing paradigm
Compute-centric system ➠ Data-centric system
§ Distribute computation across the memory hierarchy
§ Minimizes data motion
§ Reduces energy consumption
NDP: Near Data Processing
PNM: Processing Near Memory
PIM
⇒
12
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Processing in Memory
• Not a new idea
§ Smart memories in the 90’s
§ No interest in industry due to fabrication costs (focus on capacity/costs)
13
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Processing in Memory
• Not a new idea
§ Smart memories in the 90’s
§ No interest in industry due to fabrication costs (focus on capacity/costs)
• New memory technologies
§ Die stacked (3D) memory: 3D-DRAM
14
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Processing in Memory
• Not a new idea
§ Smart memories in the 90’s
§ No interest in industry due to fabrication costs (focus on capacity/costs)
• New memory technologies
§ Die stacked (3D) memory: 3D-DRAM
§ Hybrid Memory Cube (HMC): Micron
§ High Bandwidth Memory (HBM): AMD, Hynix (NVIDIA)
15
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Processing in Memory
• Not a new idea
§ Smart memories in the 90’s
§ No interest in industry due to fabrication costs (focus on capacity/costs)
• New memory technologies
§ Die stacked (3D) memory: 3D-DRAM
§ Hybrid Memory Cube (HMC): Micron
§ High Bandwidth Memory (HBM): AMD, Hynix (NVIDIA)
• HMC Consortium
§ High performance memory architecture
§ Consortium: Micron, Altera, ARM, IBM, Samsung, Xilinx …
16
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Aceleración de Aplicaciones Intensivas en Datos
Red SyeC – Primer Workshop, 26-27 enero 2016
HMC: Hybrid Memory Cube
• What does this technology offer?
§ Better performance-power rate than conventional DRAM
17
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Aceleración de Aplicaciones Intensivas en Datos
Red SyeC – Primer Workshop, 26-27 enero 2016
HMC: Hybrid Memory Cube
• Architecture
§ Memory vaults instead of DRAM arrays + TSVs (Through-Silicon Vias)
18
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Aceleración de Aplicaciones Intensivas en Datos
Red SyeC – Primer Workshop, 26-27 enero 2016
HMC: Hybrid Memory Cube
• Architecture
§ Memory vaults instead of DRAM arrays + TSVs (Through-Silicon Vias)
§ Processor - Memory
19
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
HMC: Hybrid Memory Cube
• Processing in memory using HMC
PIM
⇒
20
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Processing in Memory
• Memory accelerator
• Design alternatives
§ General-purpose architecture
§ Specific-purpose architecture
21
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Processing in Memory
• General-purpose architecture
§ IBM AMC (Active Memory Cube) [IBM J. Res.&Dev., 59, 2/3, March/May 2015]
22
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Red SyeC – Primer Workshop, 26-27 enero 2016
Aceleración de Aplicaciones Intensivas en Datos
Processing in Memory
• Specific-purpose architecture
§ Tesseract: Graph processing [ISCA 2015]
23
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Aceleración de Aplicaciones Intensivas en Datos
Red SyeC – Primer Workshop, 26-27 enero 2016
Accelerating Architectures
• Memory accelerator vs GPU accelerator with stacked DRAM
24
Oscar Plata
Grupo de Arquitectura de Computadores, Universidad de Málaga
Descargar