DISEÑO PARA BAJO CONSUMO Tema 16

Anuncio
DISEÑO PARA BAJO
CONSUMO
Tema 16
Eduardo Daniel Cohen –
[email protected]
http://www.herrera.unt.edu.ar/arqcom
D. Cohen – Bajo Consumo
UNT Arq de Computadoras - 2014
1
Factor 1: Energía de Conmutación
Repaso: Cada transición lógica disipa energía!
Vdd
V
dd
E0-1=
1 C. V 2
dd
2
2
1
C
V
E1->0= 2
dd
Resultado: siempre ocurre.!
Además hay una corriente de cortocircuito que se
debe a que los flancos se superponen, en total un
15% aprox de esta energía.!
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
2
Repaso: ¿Cómo Reducir la Energía?
Cálculo de la Potencia.
E = V2dd.C por cada pulso (transición).
P = N . V2dd .C . f . A
A=Factor de Actividad. N=cantidad de transistores. f=frecuencia de clock.
1. 
Menor frecuencia (menos pulsos)
• 
2. 
• 
• 
3. 
Bajar Vdd
Pero baja la frecuencia.
Menor tolerancia a ruido.
Menos Transistores.
• 
4. 
Pero más transistores permiten más trabajo.
Reducir C – con mayor miniaturización
• 
5. 
Pero se desea velocidad. Además un trabajo más rápido o más lento
consume lo mismo.
Se hace constantemente – depende de la tecnología
Menor A – trabaja menos – menor performance, a menos que se
trabaje de más.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
3
Fabricación y Diseño!
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
4
Achicar las Distancias
Ley de Moore
Se duplica N°
Transistores cada
2 años.
Debida a la
reducción de V
yC
La pendiente
se redujo
porque no se
puede reducir
tanto V.
From: “Facing the Hot Chips Challenge Again”, Bill Holt, Intel, presented at Hot Chips 17, 2005."
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
5
Factor 2: Corrientes de Pérdida
Aún sin conmutación pasa corriente
Isub: Aunque el nFet
está cerrado, pasa una
corriente de pérdida Ioff
0V =
Se puede bajar Ioff pero una
Ioff baja resulta en una menor
Ion, y baja la frecuencia de
reloj.
Igate: Compuertas de
transistores modernos tienen
un ancho de unos cuantos
atomos, y no son ideales.
2014 - Bajo Consumo
Estadísticas de Intel: Pérdidas
vs Potencia de Conmutación.
Se trabajó
muchísimo para
obtener este
Bill Holt, Intel, Hot Chips 17." porcentaje, suele ser
50/50
UNT - Arq de Computadoras – D. Cohen
6
Adaptar la fabricación al producto
From: “Facing the Hot Chips Challenge Again”, Bill Holt, Intel, presented at Hot Chips 17, 2005."
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
7
Intel: 2 generaciones de CPU
Con un mejor
diseño se puede
levantar un
poco Vdd y
mejorar la
frecuencia de
reloj!!
Sin cambiar la
Frec de reloj…
2014 - Bajo Consumo
Diseño eficiente en
Arquitectura y Circuitos
Bajar Vdd y C…
.
UNT - Arq de Computadoras – D. Cohen
8
!
Cambio: Más Hardware en Paralelo
por Menos Potencia!
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
Se podría transformar esto:
Retardo de la
compuerta
casi lineal
Ej: un bloque procesa stereo todos
los pulsos de sonido.
El bloque de arriba
procesa canal L, el de
abajo el canal R,
mitad de trabajo c/u
à1/2 f à bajo V.
¿En esto?
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
Múltiples Núcleos Vs Potencia!
Cambiar más Hw por menos
Potencia en gran escala
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
Cell: The PS3 chip (PlayStation 3)!
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
12
Cell: CPU Convencional + 8 “SPUs”
Cache L2!
512 KB !
PowerPC!
8!
Synergistic
Processing
Units!
(SPUs)!
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
13
Synergistic Processing Unit (SPU) - Coprocesador
•  Cell – “Cell Broadband Engine”
•  Power PC + 8 SPU
•  Cada SPU
• 
• 
• 
• 
• 
Arquitectura SIMD. Op. Vectoriales FP.
256 KB Memoria Local (SRAM) – I+D
128 Registros de 128-bit.
Acceso individual a Memoria (DRAM).
Cada SPU emite 2 inst/ciclo (en orden) a 7 unidades
de ejecución.
•  Cada SPU tiene Memoria Propia y se comunica
con Power PC y otros SPUs en el mismo chip.
•  Aplicaciones específicas – gran performance
•  Supercomputadoras à Repsol, por ej.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
14
Graficando una Celda de SPU
A Menor Vdd menor Consumo
2014 - Bajo Consumo
A menor Vdd, menor f. No
puede funcionar a estas
frecuencias.
UNT - Arq de Computadoras – D. Cohen
15
Baja de frecuencia sóla no funciona
Pero si se baja la frecuencia manteniendo la tensión constante
distribuye el mismo trabajo en más tiempo, y el chip no se calienta ...
Potencia de 11 a 4W (menor performance)
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
16
Reducir V y f baja el consumo
1 W para 2.2 GHz.
26°C temp.
7W para lograr 4.4 GHz
47°C temp.
Si un programa que necesita un SPU
de 4.4 Ghz se cambia para usar 2
CPUs de 2,2 Ghz. ¡éxito!
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
17
Análisis del Intel Dual-Core
Solo si las aplicaciones pueden emplear los dos núcleos para compensar
y mejorar la reducción en frecuencia
From: “Facing the Hot Chips Challenge Again”, Bill Holt, Intel, presented at Hot Chips 17, 2005."
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
18
Cómo usa el IPOD sus dos núcleos
Dos Núcleos de 80
MHz c/u. Este chip
se usa en la mayoría
de los iPods, un CPU
decodifica el audio,
el otro video.
¿Cache chico?
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
19
Otras Técnicas de Baja Potencia!
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
Transistores para “apagar” la lógica
Ej: Lógica de Punto Flotante.
Cuando corran instrucciones de
punto fijo, ponerla a dormir.
+++ Cuando “duerme”, la
corriente de pérdida cae fuerte.
2014 - Bajo Consumo
--- Los transistores para
dormir provocan que el clock
sea más lento cuando se usa la
lógica.
UNT - Arq de Computadoras – D. Cohen
21
Ej. de Intel: Bloques de Cache duermen
From: “Facing the Hot Chips Challenge Again”, Bill Holt, Intel, presented at Hot Chips 17, 2005."
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
22
Hay muchos caminos no críticos
Camino Crítico!
La mayoría de los caminos
tienen mucho tiempo para
gastar!
From “The circuit and physical design of the POWER4 microprocessor”, IBM J
Res and Dev, 46:1, Jan 2002, J.D. Warnock et al.!
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
23
Distintas tensiones en el mismo chip
Y… distintas frecuencias
¿Por qué? Podríamos usar la tensión más baja
para alimentar lógica que está lejos del camino
crítico.
“Dynamic Voltage Scaling / Dynamic Frequency Scaling”
From: “Facing the Hot Chips Challenge Again”, Bill Holt, Intel, presented at Hot Chips 17, 2005."
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
24
Dynamic Overclocking
•  “Turbo Boost” – Intel I7.
•  Aplicaciones que requieren performance.
–  DVS y DFS pensadas para reducir potencia.
•  Otra forma de pensar:
–  ¡Para incrementar performance!
–  Cuando el objetivo es performance.
•  Cuando hay menos exigencia
–  Levantar Frecuencia y mejorar performance.
–  Caso contrario dejar como estaba.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
25
¿Dónde va el calor en un CPU?
La mitad de la
potencia va a
(Flip-Flops).
La mayoría del
tiempo los latchs
no cambian.
Usar Clocks selectivos (que llegan cuando se
carga el latch). “Clock Gating”.
Se usan herramientas CAD.
From: Bose, Martonosi, Brooks: Sigmetrics-2001 Tutorial"
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
26
Clocks en mallas resonantes
•  Clocks se distribuyen en árboles en los Ics
•  Ello causa retardos variables – “Skews”.
•  Se debe guardar un factor de seguridad en
las señales de clock
–  Achicando la frecuencia de trabajo.
•  Se usa una malla de metal que junta todas
las hojas del arbol de distribución.
•  Se reduce el “Skew”.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
27
Pero…
•  La malla de metal crea Capacidad.
•  Y pérdida de energía (hasta 30% del total).
•  Solución
–  Resonancia.
–  Poca potencia para que resuene.
•  Se incorpora una “bobina” inductora.
•  Solución problema de energía y de skews.
•  A costa de un poco más de área en el chip.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
28
Big-LITTLE ARM
• 
• 
• 
• 
Energía es crítica para Móviles.
Hay dos núcleos: Cortex A15 y A7.
A15 consume más pero más performance.
Cuando no se necesita performance
–  Funciona A15
–  Caso contrario funciona A7.
•  ¿Pero el pase no toma mucho tiempo?
•  Hay un mecanismo de “snooping” antes de
pasar.
–  Se espera a tener todo en el otro núcleo antes de
hacer el pase.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
29
Resumiendo
1.  Adaptar la fabricación al producto
• 
(performance Vs portabilidad).
2.  Achicar las distancias (tecnología)
3.  Más procesadores más simples y más lentos.
• 
CPUs dedicados pueden dormir si no se usan.
4.  Partes no usadas… duermen.
5.  Caminos no críticos, menor f, menor V.
6.  Pulsos de reloj sólo a latches que cambian.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
30
Cambio de Paradigmas
• 
Más transistores en el CPU à más
performance.
–  Pero hay un límite por la potencia a disipar.
–  Y la energía a gastar…
–  No tanta mejora en performance.
• 
• 
Perfil de la tarea en general no los aprovecha.
Menos transistores y varios núcleos más
chicos à mejor performance/energía.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
31
Cambio de Paradigmas
•  Mayor frecuencia à más Performance.
•  Mayor tensión à más Performance.
–  A costa de mucha Potencia.
•  Menor frecuencia en más de un CPU.
–  Performance se conserva con más CPUs.
•  Menor tensión gracias a menor frecuencia.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
32
Cambio de Paradigmas
•  CPU con una única alimentación.
•  CPU con una única frecuencia
•  Diversas alimentaciones,
–  menor tensión fuera del camino crítico.
–  Menor frecuencia fuera del camino crítico.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
33
Cambio de Paradigmas
•  La tecnología provee recursos.
–  Si no se aprovechan todos, no importa
(Itanium - predicados, por ej.)
•  Todos los recursos consumen potencia
–  si alguno no se usa hay que “dormirlo”.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
34
Cambio de Paradigmas
•  Un CPU de alta performance es lo mejor.
–  Alta complejidad
•  Varios CPU’s simples, más lentos y más
baratos, trabajando coordinadamente.
–  Podrían mantener o mejorar Performance.
–  Mejoran Consumo.
•  ¿Nos recuerda a RISC Vs. CISC?
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
35
Algo no cambia
•  El Diseño (circuitos y arquitectura) hace
maravillas más allá de las limitaciones de
la tecnología pura.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
36
Reconocimiento
•  Diapositivas tomadas del curso CS 194-6
de Universidad de Berkeley, John
Lazzaro, 2008.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
37
Intel Core I7 – “Haswell” (Jun 2014)
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
38
I7
• 
• 
• 
• 
• 
• 
• 
• 
• 
Integra North Bridge.
Integra Placa Gráfica.
Tamaño L1 – 64 KB.
L3 de 8 MB.
U$S 300 a U$S 340 modelos Haswell.
Mejora performance 15% vs i7 anterior.
50% respecto último dual core.
Consumo Haswell – de 34 a 85 W.
177 mm2 – 1600 millones transistores
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
39
3 gate – 3D transistor
Objetivo: Disminuir Ioff . (2011)
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
40
Descripción
•  El Haswell es fabricado mediante un proceso
de 22 nanómetros,
•  aumenta el tamaño de los buffers y
estructuras de datos en cada núcleo del CPU
•  mejora de la predicción de saltos en el
pipeline frontal
•  La ventana de ejecución out-of-order se
amplía, permitiendo más ejecución en
paralelo. (ILP)
•  Ventana (cuántas Instruc. se ven)
•  Incorpora el North Bridge y tarj gráfica.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
41
II
•  AVX2 – Instr Avanzadas Vectoriales Extend.
•  FMA – Operación mult y suma fusionadas,
vectoriales y por tanto muy anchas
•  Se suman dos puertos de ejecución
pasando a 8 ya que desde 2006 fueron
siempre 6.
•  se suma soporte para AVX2, aumentando la
capacidad de punto flotante con FMA.
Mejora procesamiento de punto Flotante.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
42
Segmentos Críticos para Sincronizar
•  Venta de Pasajes – n agencias.
–  Pasajero 1 consulta en Argentina: 1 único lugar.
–  Pasajero 2 consulta en Rusia. 1 único lugar.
–  Ambos compran.
–  En base de datos queda vendido un lugar.
•  Solución: la actualización es crítica, sólo un proceso
puede revisar y actualizar si hay lugar.
•  Los otros procesos esperan hasta que se libere esta
sección crítica.
•  Sin esta solución: Vuelos sobrevendidos.
•  Tema de Sistemas Operativos.
•  ¡¡Segmento crítico es muy caro para la arquitectura!!
Multiprocesamiento – D.
UNT Arq de Computadoras - 2014
43
III
•  Memoria Transaccional – para hacer
múltiples operaciones Indivisibles LMS.
•  LMS = Load Modify Store.
•  El ancho de banda de la caché L1 se duplica
para poder hacer uso de esta nueva
instrucción FMA, se suma soporte para
instrucciones de memoria transaccional
(TSX), se suma una caché L3 con control
propio de frecuencia y voltaje aunque por lo
general vaya a la par del CPU.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
44
IV
•  Dentro del procesador está lo que se llama
FIVR o "Fully Integrated Voltage Regulator"
de Intel que controla cada aspecto eléctrico
del procesador y por esta razón aumentaron
la cantidad de líneas de voltaje dentro del
mismo.
•  En vez de alimentar todos los circuitos a
partir de una fuente como se hacía en los
viejos CPUs, el FIVR controla cada
alimentación por separado
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
45
Reconocimiento
•  Gabriel Parodi (2014) posteó este tema en
el sitio Facebook de la Cátedra.
2014 - Bajo Consumo
UNT - Arq de Computadoras – D. Cohen
46
Descargar