DISEÑO PARA BAJO CONSUMO Tema 16 Eduardo Daniel Cohen – [email protected] http://www.herrera.unt.edu.ar/arqcom D. Cohen – Bajo Consumo UNT Arq de Computadoras - 2014 1 Factor 1: Energía de Conmutación Repaso: Cada transición lógica disipa energía! Vdd V dd E0-1= 1 C. V 2 dd 2 2 1 C V E1->0= 2 dd Resultado: siempre ocurre.! Además hay una corriente de cortocircuito que se debe a que los flancos se superponen, en total un 15% aprox de esta energía.! 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 2 Repaso: ¿Cómo Reducir la Energía? Cálculo de la Potencia. E = V2dd.C por cada pulso (transición). P = N . V2dd .C . f . A A=Factor de Actividad. N=cantidad de transistores. f=frecuencia de clock. 1. Menor frecuencia (menos pulsos) • 2. • • 3. Bajar Vdd Pero baja la frecuencia. Menor tolerancia a ruido. Menos Transistores. • 4. Pero más transistores permiten más trabajo. Reducir C – con mayor miniaturización • 5. Pero se desea velocidad. Además un trabajo más rápido o más lento consume lo mismo. Se hace constantemente – depende de la tecnología Menor A – trabaja menos – menor performance, a menos que se trabaje de más. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 3 Fabricación y Diseño! 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 4 Achicar las Distancias Ley de Moore Se duplica N° Transistores cada 2 años. Debida a la reducción de V yC La pendiente se redujo porque no se puede reducir tanto V. From: “Facing the Hot Chips Challenge Again”, Bill Holt, Intel, presented at Hot Chips 17, 2005." 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 5 Factor 2: Corrientes de Pérdida Aún sin conmutación pasa corriente Isub: Aunque el nFet está cerrado, pasa una corriente de pérdida Ioff 0V = Se puede bajar Ioff pero una Ioff baja resulta en una menor Ion, y baja la frecuencia de reloj. Igate: Compuertas de transistores modernos tienen un ancho de unos cuantos atomos, y no son ideales. 2014 - Bajo Consumo Estadísticas de Intel: Pérdidas vs Potencia de Conmutación. Se trabajó muchísimo para obtener este Bill Holt, Intel, Hot Chips 17." porcentaje, suele ser 50/50 UNT - Arq de Computadoras – D. Cohen 6 Adaptar la fabricación al producto From: “Facing the Hot Chips Challenge Again”, Bill Holt, Intel, presented at Hot Chips 17, 2005." 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 7 Intel: 2 generaciones de CPU Con un mejor diseño se puede levantar un poco Vdd y mejorar la frecuencia de reloj!! Sin cambiar la Frec de reloj… 2014 - Bajo Consumo Diseño eficiente en Arquitectura y Circuitos Bajar Vdd y C… . UNT - Arq de Computadoras – D. Cohen 8 ! Cambio: Más Hardware en Paralelo por Menos Potencia! 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen Se podría transformar esto: Retardo de la compuerta casi lineal Ej: un bloque procesa stereo todos los pulsos de sonido. El bloque de arriba procesa canal L, el de abajo el canal R, mitad de trabajo c/u à1/2 f à bajo V. ¿En esto? 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen Múltiples Núcleos Vs Potencia! Cambiar más Hw por menos Potencia en gran escala 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen Cell: The PS3 chip (PlayStation 3)! 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 12 Cell: CPU Convencional + 8 “SPUs” Cache L2! 512 KB ! PowerPC! 8! Synergistic Processing Units! (SPUs)! 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 13 Synergistic Processing Unit (SPU) - Coprocesador • Cell – “Cell Broadband Engine” • Power PC + 8 SPU • Cada SPU • • • • • Arquitectura SIMD. Op. Vectoriales FP. 256 KB Memoria Local (SRAM) – I+D 128 Registros de 128-bit. Acceso individual a Memoria (DRAM). Cada SPU emite 2 inst/ciclo (en orden) a 7 unidades de ejecución. • Cada SPU tiene Memoria Propia y se comunica con Power PC y otros SPUs en el mismo chip. • Aplicaciones específicas – gran performance • Supercomputadoras à Repsol, por ej. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 14 Graficando una Celda de SPU A Menor Vdd menor Consumo 2014 - Bajo Consumo A menor Vdd, menor f. No puede funcionar a estas frecuencias. UNT - Arq de Computadoras – D. Cohen 15 Baja de frecuencia sóla no funciona Pero si se baja la frecuencia manteniendo la tensión constante distribuye el mismo trabajo en más tiempo, y el chip no se calienta ... Potencia de 11 a 4W (menor performance) 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 16 Reducir V y f baja el consumo 1 W para 2.2 GHz. 26°C temp. 7W para lograr 4.4 GHz 47°C temp. Si un programa que necesita un SPU de 4.4 Ghz se cambia para usar 2 CPUs de 2,2 Ghz. ¡éxito! 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 17 Análisis del Intel Dual-Core Solo si las aplicaciones pueden emplear los dos núcleos para compensar y mejorar la reducción en frecuencia From: “Facing the Hot Chips Challenge Again”, Bill Holt, Intel, presented at Hot Chips 17, 2005." 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 18 Cómo usa el IPOD sus dos núcleos Dos Núcleos de 80 MHz c/u. Este chip se usa en la mayoría de los iPods, un CPU decodifica el audio, el otro video. ¿Cache chico? 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 19 Otras Técnicas de Baja Potencia! 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen Transistores para “apagar” la lógica Ej: Lógica de Punto Flotante. Cuando corran instrucciones de punto fijo, ponerla a dormir. +++ Cuando “duerme”, la corriente de pérdida cae fuerte. 2014 - Bajo Consumo --- Los transistores para dormir provocan que el clock sea más lento cuando se usa la lógica. UNT - Arq de Computadoras – D. Cohen 21 Ej. de Intel: Bloques de Cache duermen From: “Facing the Hot Chips Challenge Again”, Bill Holt, Intel, presented at Hot Chips 17, 2005." 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 22 Hay muchos caminos no críticos Camino Crítico! La mayoría de los caminos tienen mucho tiempo para gastar! From “The circuit and physical design of the POWER4 microprocessor”, IBM J Res and Dev, 46:1, Jan 2002, J.D. Warnock et al.! 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 23 Distintas tensiones en el mismo chip Y… distintas frecuencias ¿Por qué? Podríamos usar la tensión más baja para alimentar lógica que está lejos del camino crítico. “Dynamic Voltage Scaling / Dynamic Frequency Scaling” From: “Facing the Hot Chips Challenge Again”, Bill Holt, Intel, presented at Hot Chips 17, 2005." 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 24 Dynamic Overclocking • “Turbo Boost” – Intel I7. • Aplicaciones que requieren performance. – DVS y DFS pensadas para reducir potencia. • Otra forma de pensar: – ¡Para incrementar performance! – Cuando el objetivo es performance. • Cuando hay menos exigencia – Levantar Frecuencia y mejorar performance. – Caso contrario dejar como estaba. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 25 ¿Dónde va el calor en un CPU? La mitad de la potencia va a (Flip-Flops). La mayoría del tiempo los latchs no cambian. Usar Clocks selectivos (que llegan cuando se carga el latch). “Clock Gating”. Se usan herramientas CAD. From: Bose, Martonosi, Brooks: Sigmetrics-2001 Tutorial" 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 26 Clocks en mallas resonantes • Clocks se distribuyen en árboles en los Ics • Ello causa retardos variables – “Skews”. • Se debe guardar un factor de seguridad en las señales de clock – Achicando la frecuencia de trabajo. • Se usa una malla de metal que junta todas las hojas del arbol de distribución. • Se reduce el “Skew”. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 27 Pero… • La malla de metal crea Capacidad. • Y pérdida de energía (hasta 30% del total). • Solución – Resonancia. – Poca potencia para que resuene. • Se incorpora una “bobina” inductora. • Solución problema de energía y de skews. • A costa de un poco más de área en el chip. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 28 Big-LITTLE ARM • • • • Energía es crítica para Móviles. Hay dos núcleos: Cortex A15 y A7. A15 consume más pero más performance. Cuando no se necesita performance – Funciona A15 – Caso contrario funciona A7. • ¿Pero el pase no toma mucho tiempo? • Hay un mecanismo de “snooping” antes de pasar. – Se espera a tener todo en el otro núcleo antes de hacer el pase. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 29 Resumiendo 1. Adaptar la fabricación al producto • (performance Vs portabilidad). 2. Achicar las distancias (tecnología) 3. Más procesadores más simples y más lentos. • CPUs dedicados pueden dormir si no se usan. 4. Partes no usadas… duermen. 5. Caminos no críticos, menor f, menor V. 6. Pulsos de reloj sólo a latches que cambian. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 30 Cambio de Paradigmas • Más transistores en el CPU à más performance. – Pero hay un límite por la potencia a disipar. – Y la energía a gastar… – No tanta mejora en performance. • • Perfil de la tarea en general no los aprovecha. Menos transistores y varios núcleos más chicos à mejor performance/energía. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 31 Cambio de Paradigmas • Mayor frecuencia à más Performance. • Mayor tensión à más Performance. – A costa de mucha Potencia. • Menor frecuencia en más de un CPU. – Performance se conserva con más CPUs. • Menor tensión gracias a menor frecuencia. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 32 Cambio de Paradigmas • CPU con una única alimentación. • CPU con una única frecuencia • Diversas alimentaciones, – menor tensión fuera del camino crítico. – Menor frecuencia fuera del camino crítico. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 33 Cambio de Paradigmas • La tecnología provee recursos. – Si no se aprovechan todos, no importa (Itanium - predicados, por ej.) • Todos los recursos consumen potencia – si alguno no se usa hay que “dormirlo”. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 34 Cambio de Paradigmas • Un CPU de alta performance es lo mejor. – Alta complejidad • Varios CPU’s simples, más lentos y más baratos, trabajando coordinadamente. – Podrían mantener o mejorar Performance. – Mejoran Consumo. • ¿Nos recuerda a RISC Vs. CISC? 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 35 Algo no cambia • El Diseño (circuitos y arquitectura) hace maravillas más allá de las limitaciones de la tecnología pura. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 36 Reconocimiento • Diapositivas tomadas del curso CS 194-6 de Universidad de Berkeley, John Lazzaro, 2008. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 37 Intel Core I7 – “Haswell” (Jun 2014) 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 38 I7 • • • • • • • • • Integra North Bridge. Integra Placa Gráfica. Tamaño L1 – 64 KB. L3 de 8 MB. U$S 300 a U$S 340 modelos Haswell. Mejora performance 15% vs i7 anterior. 50% respecto último dual core. Consumo Haswell – de 34 a 85 W. 177 mm2 – 1600 millones transistores 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 39 3 gate – 3D transistor Objetivo: Disminuir Ioff . (2011) 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 40 Descripción • El Haswell es fabricado mediante un proceso de 22 nanómetros, • aumenta el tamaño de los buffers y estructuras de datos en cada núcleo del CPU • mejora de la predicción de saltos en el pipeline frontal • La ventana de ejecución out-of-order se amplía, permitiendo más ejecución en paralelo. (ILP) • Ventana (cuántas Instruc. se ven) • Incorpora el North Bridge y tarj gráfica. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 41 II • AVX2 – Instr Avanzadas Vectoriales Extend. • FMA – Operación mult y suma fusionadas, vectoriales y por tanto muy anchas • Se suman dos puertos de ejecución pasando a 8 ya que desde 2006 fueron siempre 6. • se suma soporte para AVX2, aumentando la capacidad de punto flotante con FMA. Mejora procesamiento de punto Flotante. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 42 Segmentos Críticos para Sincronizar • Venta de Pasajes – n agencias. – Pasajero 1 consulta en Argentina: 1 único lugar. – Pasajero 2 consulta en Rusia. 1 único lugar. – Ambos compran. – En base de datos queda vendido un lugar. • Solución: la actualización es crítica, sólo un proceso puede revisar y actualizar si hay lugar. • Los otros procesos esperan hasta que se libere esta sección crítica. • Sin esta solución: Vuelos sobrevendidos. • Tema de Sistemas Operativos. • ¡¡Segmento crítico es muy caro para la arquitectura!! Multiprocesamiento – D. UNT Arq de Computadoras - 2014 43 III • Memoria Transaccional – para hacer múltiples operaciones Indivisibles LMS. • LMS = Load Modify Store. • El ancho de banda de la caché L1 se duplica para poder hacer uso de esta nueva instrucción FMA, se suma soporte para instrucciones de memoria transaccional (TSX), se suma una caché L3 con control propio de frecuencia y voltaje aunque por lo general vaya a la par del CPU. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 44 IV • Dentro del procesador está lo que se llama FIVR o "Fully Integrated Voltage Regulator" de Intel que controla cada aspecto eléctrico del procesador y por esta razón aumentaron la cantidad de líneas de voltaje dentro del mismo. • En vez de alimentar todos los circuitos a partir de una fuente como se hacía en los viejos CPUs, el FIVR controla cada alimentación por separado 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 45 Reconocimiento • Gabriel Parodi (2014) posteó este tema en el sitio Facebook de la Cátedra. 2014 - Bajo Consumo UNT - Arq de Computadoras – D. Cohen 46