You Are Reading

Micro arquitectura de Sandy Bridge, la próxima generación

Rafa Daza
Presentación

En esta semana de "Intel Developer Fórum", en San Francisco, Intel no perdió el tiempo previsto para revelar la tecnología en la mayoría de los días de conferencia: su próxima generación de micro arquitectura, cuyo nombre en código es "Sandy Bridge". La cual va a usarse tanto para PC escritorio, como portátiles, con liberación prevista en la primera parte del 2011. El microprocesador ha venido generando rumores durante meses con pequeños y tentadores detalles que poco a poco se fueron filtrando en la red. Y ahora que llegó el momento de mostrar la tan esperada "Sandy Bridge", sólo se que quería saber dos cosas: ¿Qué es exactamente, y si valió la pena toda la fanfarria desplegada por encima de las especulaciones? La primera pregunta ha tenido una respuesta definitiva y pensamos que se a hecho una buena salida para la segunda.

En su forma más básica, Sandy Bridge es el último "tock" para el "Plan de desarrollo de la estrategia tick-tock" de Intel: la última iteración del Westmere basado en 32 nm "in-die" de retración a la micro arquitectura Nehalem de Intel que lanzó a principios de año. Éste no encajará en el socket LGA1156 de los actuales chips, así que se necesitará de una nueva plataforma, LGA1155, el cual será lanzado en los próximosa motherboard con el nuevo chipset de la Serie 6, al mismo tiempo que los CPUs Sandy Bridge son puestos en libertad.

Pero más allá de todo esto, Sandy Bridge lo realmente importante acerca de la unidad. son las nuevas funciones que trae. Entonces se puede decir que sí, por fin trae el controlador de memoria, PCI Express y las funciones de vídeo en el chip del procesador, que de por sí es un cambio enorme que tendrá repercusiones importantes en el rendimiento. Pero también comienza una clara paridad con el mundo de la computación moderna: la búsqueda de nuevas formas, por ejemplo, para tomar ventaja de un gran número de núcleos de procesamiento (como el primer procesador de seis núcleos orientado a los consumidores para desktop a principio de año), y utilizando menos energía para hacerlo todo.

La mayoría de los usuarios no notarán estos cambios, pero muchos de ellos son los verdaderos personajes que podrían estar preparando el terreno para los acontecimientos más emocionantes a venir. Siga leyendo para conocer nuestra lo que está pasando en Sandy Bridge, y los beneficios que puede tener para los usuarios y desarrolladores a partir de 2011.

Desarrollo de la estrategia "tick-tock" de Intel



Frente a las Características

Dos de los principales cambios que introduce Sandy Bridge;(mirar la imagen de arriba) a la derecha en la parte delantera: un nuevo decodificador con micro-operación (UOP) de caché y renovada "rama de predicción" (Branch Prediction).

Micro-operaciones y AVX

Sandy Bridge ahora maneja a dónde y cómo almacenar los datos y cómo desea guardar esos datos, como funciones separadas. (Intel comenzó a implementar esta idea en Nehalem.) Cuando una instrucción se decodifica, los controles de caché UOP trabajan para ver si ya está en caché. Si la instrucción está en la memoria caché apaga el resto de la fuente de información. Si no es así, la instrucción se almacena en caché; la memoria caché puede almacenar hasta 1.500 instrucciones, la cual está estrategicamente mapeada para facilitar el acceso. Si una instrucción no se ha utilizado, es descartada una vez que se necesita más espacio. Debido a que el caché de UOP es marginalmente superior y más consistente que el ancho de banda de caché de instrucción, este doble golpe tiene un impacto significativo en la potencia y el rendimiento.


Además, el uso de un registro físico de nuevo archivo en lugar de un archivo de registro centralizado de jubilación reduce la necesidad de grandes y complejos ejecuciones fuera del hardware para los pedidos. El registro almacena operativos físicos, de modo que uop´s sólo lleva los punteros a los operativos que necesitan una carga mucha más ligera. Los ahorros aquí permiten el uso de las instrucciones de extensiones vectoriales avanzados (Advanced Vector Extensions, AVX), que pueden utilizar operandos de hasta 256 bits de tamaño y préstamo, mientras que antes era de 128 bits enteros en ruta SIMD, logrando el doble de rendimiento del punto flotante. (Un vistazo a las especificaciones del archivo de registro físico en la imagen de abajo.)



Debido a este aumento de rendimiento del punto flotante, introduce nuevas exigencias, el clúster de memoria se ha cambiado también. Ahora hay dos de carga y puertos de almacenamiento, y la simétrica de Sandy Bridge utiliza los puertos de direcciones para que cada puerto pueda dar servicio a una carga o almacenar direcciones, dando como resultado el doble de ancho de banda de carga. Según una presentación celebrada el lunes en el IDF, este es el cambio, en Sandy Bridge, da más aumento en el rendimiento: El resultado es un total de 48 bytes por ciclo de ancho de banda de memoria interna.


Predicciones de salto.(Branch Prediction*)

De acuerdo a Intel, la predicción de saltos (Branch Prediction*, se manejara la definición en español para entender el concepto de funcionamiento y por qué del nombre) es una de las maneras más efectivas para aumentar el rendimiento del procesador, que es una de las razones de ajuste en casi todos los CPU de la nueva generación. Sandy Bridge introduce algunos cambios que mejoran su precisión, incluso por encima del 5 por ciento que el habitual.

En primer lugar, ofrece más objetivos. En una predicción de saltos estándar, las ramas se marcan como "tomar" o "no tomar" en confianza a la acción, ahora lo maneja como "débil" o "fuerte". Representantes de Intel dicen que descubrieron que la mayoría de las ramas predijeron a partir de ese método, sin embargo, fueron marcados como "fuerte" de confianza, que disminuyó la exactitud de estas predicciones. Con Sandy Bridge, Intel se está moviendo para usar un "golpe" de confianza para múltiples ramas, lo que aumenta la precisión potencial.


En segundo lugar, los objetivos de la rama se han cambiado también, de modo que ya no es una "situación de talla única". En su lugar hay un apoyo para las dimensiones de objetivos múltiples para que se desperdicie menos espacio, la CPU puede realizar un seguimiento más objetivo, y la velocidad de predicción puede aumentar.

La tercera es el aumento de bits en el uso del historial, por lo que las "ramas" mirarán a los largo de los patrones de instrucciones y buscaran solamente la "rama" más corta, para que de esa manera no se agrupen.

 Innovaciones

Observando desde afuera, es mucho más fácil ver una de las mayores innovaciones de Sandy Bridge: unir a casi todos los principales subsistemas dentro del chip del procesador entre si. Ahí es donde se encuentra el controlador de memoria, el controlador de PCIe y el controlador de gráficos (que también utilizan transistores de 32 nm, pero sobre ellos más adelante). Porque todo está enclavado muy estrechamente, el procesador necesita una manera de hacer que todo se adelante, utilizando los recursos disponibles sin utilizar demasiada energía.


En Nehalem y Westmere, todos los conductores tenían su propio camino privado a la caché L3. Sandy Bridge utiliza una base de interconexión de llamada, similar a la utilizada en Nehalem-EX y Westmere-EX, para vincular los núcleos, gráficos, memoria caché de último nivel (ver abajo) y el Agente del Sistema. En total, contiene cuatro anillos: anillo de datos de 32 bit, el anillo de solicitud, el reconocimiento de llamada, y el anillo de snoop. Son todos de segmentación, de manera que el número de núcleo y aumento de tamaño de la caché, serán el ancho de banda de la memoria caché. (Esto significa que también puede escalar a servidores que utilizan un gran número de procesadores.) Ya que al pasar por alrededor del anillo, los datos siempre tendrá el camino más corto para minimizar la latencia. En la que hay un arbitraje distribuido y un protocolo de anillo sofisticados para manejar coherencias, órdenes, y la interfaz de cuestiones fundamentales.



Caché de Ultimo nivel

La caché de último nivel (LLC) es compartida por la GPU y un motor de video especial para la trans-codificación, y tiene menos latencia qué el que vimos en Westmere. También funciona a la velocidad de reloj del núcleo, lo que significa que va a ser mucho más rápido de lo que ha sido anteriormente. (Por lo menos en la mayoría de las circunstancias.(Si a los núcleos del procesador se le baja la frecuencia por cualquier razón, la LLC bajará también.)

Cada núcleo recibe su propia parte de la LLC (aunque cada núcleo es capaz de hacer frente a toda la caché también), y cada parte tiene su propio lugar en el anillo y una fuente de información de caché completa. Esto es diferente de Westmere, en el que se compartió un paralelismo del caché para todos los núcleos. Según Intel, el caché LLC multi-banco puede entregar hasta 384 Gbps en un sistema de cuatro núcleos o 192 Gbps con dos núcleos, con una corta latencia de acceso.

La LLC es lógicamente compartida entre los núcleos, las gráficas y los medios de comunicación, con el controlador de gráficos que se almacenan en caché. Debido a que esto reduce los accesos a DRAM, se libera ancho de banda de la memoria DRAM para los núcleos y deja que la DRAM utilice menos energía.



Agente del sistema

El Agente de sistema (antes conocido como el uncore) ofrece una serie de características y proporciona un amplio poder de administración térmica para el PCIe y controladores de DDR. El PCIe x16 se puede dividir en dos x8, si lo desea. Hay un nuevo diseño para el "Double Channel" en el controlador de memoria DDR3. Y el Agente de sistema contiene, también, una Unidad de Control de Potencia (PCU), un uController programable que controla toda la gestión de energía y las funciones de restauración dentro del chip. El Agente del sistema está completamente integrado con el "anillo", y ayuda a proporcionar a los núcleos, video y procesamiento de medios de comunicación con un mayor ancho de banda y menor latencia. También maneja la coherencia de caché de E / S, y funciona con un voltaje y frecuencia independiente del anillo, los núcleos y la "pantalla".



Mejora de gráficos integrado

Uno de los cambios de Sandy Bridge que recibió la mayor parte del debate en el IDF, fue su hardware de gráficos. Intel dice que su meta era aumentar el rendimiento de los gráficos, mantenido por el poder del socket, y para que esto suceda la empresa tuvo que hacer un "cambio radical" de lo que estaba haciendo antes. Un representante de Intel llegó a decir que el cambio en los gráficos fue responsable de la mayor potencia de ahorro en cualquier parte de Sandy Bridge.

La mayoría de los cambios de Intel vienen de la filosofía de que cualquier cosa que podría hacerse como una función fija se hará más eficiente. Así que en cada punto de encademiente en 3D donde se asumió la función fijada, no es una función explícita -esto mejora el rendimiento por vatio, reduce la latencia, reduce la complejidad en el modelo de programación para el conductor. Y que "permite hacer shaders a los shaders" ('lets the shaders do shaders' de la propia boca de Intel). Intel dice que ha encontrado el equilibrio óptimo de la función fijada para el calculo en el GPU.

Todo está en el mismo chip, que ha hecho posible cambiar dinamicamente el poder en torno a cómo es requerido y también en beneficio de los gráficos. (Esto ayuda a lidiar con el problema de algunos programas para ejecutar ciclos sobre el CPU, y otros vinculados a gráfico.)

La GPU se construye en el mismo proceso de 32 nm como los núcleos del CPU, lo que le da un aumento de rendimiento de inmediato. Esta Puede ser controlada de manera independiente de la GPU, dependiendo de las exigencias de la carga de trabajo, y puede acceder al Turbo Boost por su cuenta también. Tal vez lo más importante es que el video tiene el mismo acceso a la LLC, y está todo controlado por el controlador de vídeo. (Un representante de Intel, dijo que la introducción del sistema de video detrás de la LLC fue el cambio más grande en Sandy Bridge.) Esto reduce el número de viajes a la memoria principal del sistema, que puso una mayor presión sobre el poder y el rendimiento.

El conductor de hardware programable "Hardware shaders programmables" (shaders, núcleos y unidades de ejecución) se componen de unidades ejecutoras (USE). Contienen registro de archivos mas grande para incrementar el paralelismo y ser eficiente para la ejecución de conductores "shaders" complejos, y nuevas instrucciones para llegar a 1-on-1 con la API ISA (CISC) y tener un mayor rendimiento en la misma velocidad de reloj.

La EU's también realizar cálculos matemáticos trascendentales utilizando el hardware que ha sido actualizado para un rendimiento mejorado en la última generación de gráficos HD de Intel. Así mismo, mientras que los gráficos con anteriores arquitecturas reparticionan el registro de archivos según sea necesario para sacar el máximo provecho de un número menor de registros, En la GPU de Sandy Bridge se ha fijado 120 registros por hilo. Intel estima que con todos estos cambios, cada unidad conductora será capaz de ofrecer el doble del rendimiento de los utilizados actualmente.

La sobrecarga del controlador se ha reducido también. Todos los estados ortogonales y la gestión de conductores se han eliminado mediante el uso de las funciones fijas. Todo esto tiene el beneficio adicional de liberar carga de la CPU, al poder redirigir hacia el controlador gráfico.

Dos versiones de controlador gráfico en Sandy Bridge estará disponible cuando el hardware sea lanzado el próximo año: una con 12 EUS (para todos los portátiles y de escritorio de alto rendimiento), y uno con 6 EUS (para los modelos de gama baja). Los gráficos en Sandy Bridge serán compatibles con OpenGL 3.1 y DirectX 10.1-no DX11.



Medios orientados al futuro del procesamiento

En reconocimiento de la importancia de separar el consumo de medios se ha convertido, incluso (o tal vez en especial a) aquellos en el mercado mainstream a quien se dirige Sandy Bridge, Intel fabricará los procesadores con una variedad de capacidades para los nuevos medios a cabo de lo que la compañía llama "una arquitectura más fácilmente programable y flexible".

Estos incluyen aceleradores de hardware dedicado para tareas como high-quality video scaling, denoise filtering, deinterlacing, and film-mode detecting, la capacidad de tomar más procesamiento de cargas de trabajo para cálculos de alta definición, las técnicas de mejora de alta calidad y filtros para detalles, adaptación de contraste de equipamiento y para el control total de los colores, soporte nativo de codecs comunes como MPEG-2, VC1 y AVC, y tecnologías como stereoscopic 3D Blu-ray, y los motores en paralelo que proporcionan el renderizado de vídeo de alto rendimiento.

La UE's (Shaders Units) van a estar optimizados para los tipos de medios de comunicación que se espera para manejar la próxima generación. Y los desarrolladores de Sandy Bridge han trabajado para alcanzar la asociación de computo en paralelo "parallel compute synergy" con el hardware de procesamiento gráfico. Esto se hizo más eficiente para integrar en los medios de computación de bajo consumo, vector/matrix ISA más eficiente, y la cooperación con los aceleradores de hardware. También hay idioma de soporte técnico para la programación paralela explícita.

El resultado, dice Intel, es que se puede hacer todo esto más rápido durante el uso de menor consumo de energía (y por tanto ahorro de vida para la batería en una portátil, una preocupación cada vez más vital en un mundo de la informática con portátil-high end). Intel dice que la potencia del procesador se reduce a la mitad para la reproducción de vídeo de alta definición, que la mayoría de aplicaciones de medios consumen alrededor del 30 por ciento menos en la tarifa plena que si estuvieran utilizando 3D típico, y que la gestión de energía de la CPU consigue una transición más rápida entre los estados de energía.

EL potencial que hay de este lado: Si se añade una tarjeta de vídeo discreta a la computadora, se perderán todas estas capacidades añadidas de conductividad. De alguna manera, eso tiene sentido después de todo, por lo general pierden el acceso a las capacidades de gráficos integrados cuando se está utilizando una tarjeta de vídeo. Pero si la tarjeta que usted elija, no ofrecen capacidades de gestión comparables con la existente, es posible que desee considerar seriamente sus propias necesidades antes de actualizar.


Turbo Boost: Apuesta Fuerte

Una de las innovaciones más inteligentes de los últimos procesadores Intel fue el Turbo Boost, lo que incrementa automáticamente el rendimiento de ciertos núcleos apagando otros que no estaban en uso, asumiendo el margen de ampliación eléctrica y térmica disponibles. Sólo hay un problema con esta forma de hacerlo: Se supone que la CPU alcanza su máximo TDP inmediatamente una vez que se habilita turbo, mientras que en la actualidad la CPU tarda un poco en calentarse.


Así que en Sandy Bridge, la PCU maneja un tiempo muy controlado por encima del TDP (hasta unos 25 segundos, de acuerdo con Intel), de renunciar gradualmente a medida que el procesador se calienta hasta que finalmente llega a la verdadera TDP. Debido a que la PCU también realiza un seguimiento térmico disponible cuando el sistema está funcionando sin carga, y ejecutarlo cuando se la demanda la CPU. (Como el actual Turbo Boost, sin embargo, la PCU no permitirá que el chip supere todos los límites de fiabilidad.)




Conclusión: un "Bridge" hacia el futuro?
Es imposible decir ahora si Sandy Bridge está a la altura de las afirmaciones extravagantes que Intel hace sobre ella, todavía tenemos unos pocos meses hasta que sea liberado, y muchas cosas pueden pasar en ese momento.

Sin embargo, basándome en lo que hemos visto y oído hasta ahora. Parece que Sandy Bridge no sólo reconstruye sobre las innovaciones de Nehalem, sino que también se expande en direcciones que no habíamos considerado antes. Intel está poniendo en función el tan esperado manejo de gráficos integrado en el procesador, junto al renovado Turbo Boost.

Lo que si, esperamos que la teoría junto a la muestra en pizarra, funcione tan bien o mejor en la vida real. Teniendo en cuenta que se ha llegado a mostrar un potencial que dió mucho que hablar con simples rumores y dejando a más de un expectador en pleno anonadamiento al observar las pruebas de funcionamiento y potencial en el IDF de este año. Aún llevándose inquietudes sobre la falta de apoyo para DirectX 11, teniendo en cuenta que este ya se encuentra en la calle desde hace más de un año. A no ser, que resiva una "ligera" supervisión y cambien a "último momento" el soporte de DirectX 10.1 por la versión 11. Cosa que sería lógico si uno piensa que AMD, con su proyecto Fusión, estará en venta al mismo tiempo, e Intel no permitirá que se le tome una ventaja tan elemental al querer enfocar su nueva arquitectura como salto a las nuevas tecnologías. Mas aún teniendo en cuenta que la actualización forzará a los consumidores, la adquisición de toda una nueva plataforma, (para muchos) recien adquirida como es el caso de LGA1156. Y pondrán en duda que tan beneficiario es el "salto" nuevamente para merecer enorme cambio "otra vez".

Claro está que no se puede sacar conclusiones finales, la necesidad por ver si el producto final está a la altura de la circunstancias, podrá verse cuando tengamos a Sandy Bridge en nuestras manos y comprobar con nuestras propias reglas y experiencias lo que Intel nos estuvo manteniendo en una nube de idas y venidas. Tentándonos y llenándonos de intriga para al final, dejar las falsas expeculaciones de lado.

Mientras tanto, seguiremos esperando el año a venir, para disfrutar de un show que nos están preparando las dos grandes companias que riñen por el mejor puesto.


Definición de: predicción de saltos (Branch Prediction)

En ejecución de la instrucción de la CPU, predecir el resultado de una rama, de modo que estas instrucciones pueden ser ejecutadas en paralelo con las disposiciones vigentes. Si la CPU adivina la rama mal, le llevará a la máquina ciclos extra para regresar y ejecutar la correcta, sin embargo, en promedio, si los algoritmos de predicción son buenos, el rendimiento general es mayor.
 
Copyright 2010 OVERCLOCKING STAR