16 febrero 2015

Arquitecturas de Referencia y Appliances de Data Warehouses

La construcción de un data warehouse (DW) comprando y probando componentes de hardware puede ser un proceso complejo, costoso y que consume mucho tiempo. Las arquitecturas de referencia y appliances DW simplifican el proceso de elección del hardware DW, que le ayuda a mantenerse en el presupuesto y en la fecha prevista, y para crear un DW que realmente satisfaga las necesidades de su empresa.

Fast Track Data Warehouse

Configuraciones de Hardware Validadas
El Fast Track Data Warehouse (FTDW) permite a las organizaciones a crear un DW basado en un diseño validado de manera eficiente en tiempo y en costo. El FTDW incluye un conjunto de sistemas validados partiendo de una variedad de proveedores de hardware conocidos. Estos sistemas utilizan hardware estándar, lo que reduce los costos, y la gama de proveedores permite a las empresas que ya tienen relaciones con un proveedor en particular, permanecer con ese proveedor si así lo desean. Cuando selecciona un sistema DW de las configuraciones pre-existentes, se puede elegir entre una evaluación básica o una evaluación completa. La evaluación básica implica una evaluación basada en la carga de trabajo de los requisitos del DW. Este proceso es relativamente breve, y permite a las empresas tener sus DWs en ejecución muy rápidamente. La opción de evaluación completa consiste en la realización de una evaluación más rigurosa de las cargas de trabajo, lo que se traduce en un tiempo de espera más largo, pero ofrece un sistema que pueda satisfacer las necesidades de la organización. Además, una evaluación completa puede reducir el costo de hardware si la prueba revela que, por ejemplo, se requiere un sistema menos potente el que una evaluación básica habría recomendado.
Además de seleccionar a partir de los sistemas pre-configurados, puede utilizar la metodología Fast Track para ayudar a diseñar y construir su propio DW. La metodología Fast Track le permite perfilar las cargas de trabajo e identificar benchmarks de modo que puede estar seguro del diseño que crea, pero este enfoque puede llevar mucho tiempo y requiere de conocimientos técnicos y experiencia para garantizar el éxito.
Hardware Balanceado
Las configuraciones FTDW balancean las partes componentes del sistema para asegurar lograr un flujo óptimo, y que no se originen cuellos de botella creados accidentalmente que le impedirán el rendimiento. Un enfoque balanceado comienza con los procesadores, evaluando la cantidad de datos que cada núcleo puede procesar a medida que es alimentado, y los otros componentes son balanceados sobre esto. Además de identificar la configuración óptima de hardware para un escenario determinado, el FTDW también proporciona recomendaciones para la configuración del SQL Server, incluyendo Resource Governor, particiones, índices, y compresión de datos; así como recomendaciones sobre cómo realizar cargas de datos sin perturbar la organización secuencial de datos en los discos.
Fast Track System Sizing Tool
Puede utilizar la Fast Track System Sizing Tool para ayudarle a obtener una comprensión básica del tipo de sistema que pueda necesitar. El Fast Track System Sizing Tool es un documento de Microsoft Excel, que puede descargarlo en http://www.microsoft.com/en-us/sqlserver/solutions-technologies/data-warehousing/reference-architecture.aspx; en este archivo que puede introducir la tasa de consumo máximo (MCR), el número de sesiones simultáneas, y los valores de requisitos de capacidad de datos, y se calculará el número aproximado de núcleos de procesadores y unidades de almacenamiento que se requieren para satisfacer estos requisitos. MCR es una medida del flujo en MBs por segundo. Para calcular el MCR, debe ejecutar una consulta predefinida, de sólo lectura, del caché del búfer y medir el tiempo que toma en ejecutar la consulta y la cantidad de datos procesados.

Appliances Data Warehouse

Mientras las arquitecturas de referencia FTDW pueden reducir el tiempo y el esfuerzo necesario para implementar un DW, las organizaciones todavía requieren conocimientos técnicos para ensamblar la solución. Para reducir la carga técnica sobre las organizaciones que requieren un DW, y reducir el tiempo que toma implementar una solución, Microsoft se ha asociado con proveedores de hardware para crear appliances DW preconfigurados, que puede obtener con una sola compra.
Los appliances DW que están disponibles de Microsoft y sus socios de hardware están basadas en configuraciones probadas, incluyendo arquitecturas de referencia Fast Track, y pueden reducir significativamente el tiempo requerido en diseñar, instalar y optimizar un sistema DW.
Los appliances DW basados en arquitecturas de referencia FTDW están disponibles para organizaciones o departamentos que necesitan implementar una solución DW rápidamente y con el mínimo esfuerzo de instalación y de configuración. Además, las grandes organizaciones que necesitan un DW empresarial pueden comprar un appliance basado en SQL Server Parallel DW para la escalabilidad y el rendimiento extremo.
Los appliances DW forman parte de una gama de appliances basados en SQL Server que Microsoft y sus socios de hardware han desarrollado para cargas de trabajo de bases de datos comunes. Otros tipos de appliances incluyen appliances de decisiones de negocios que proporcionan capacidades de inteligencia de negocios (BI) autoservidos, y appliances de consolidación de servidores de bases de datos que utilizan las tecnologías de virtualización para crear una infraestructura de nube privada para los servidores de bases de datos. Los appliances basados en SQL Server están disponibles de múltiples proveedores de hardware, e incluyen soporte técnico para todo el appliance, incluyendo software y hardware.

Appliances Data Warehouse Paralelas

Sistemas FTDW y appliances basadas en ellas, usan una arquitectura de multiprocesamiento simétrico (SMP). Con sistemas SMP, el bus del sistema es el componente limitante que impide el escalado más allá de un cierto nivel. Conforme el número de procesadores y la carga de datos aumentan, el bus puede sobrecargarse y convertirse en un cuello de botella. Para los data warehouse que requieren mayor escalabilidad que un sistema SMP puede proporcionar, se puede utilizar un appliance DW empresarial basado en Microsoft SQL Server Parallel Data Warehouse.
Data Warehouse Paralelo en SQL Server
Microsoft SQL Server Parallel Data Warehouse es una edición de SQL Server que sólo está disponible como una solución preinstalada y configurada en appliances DW empresarial de Microsoft y sus socios de hardware. Parallel Data Warehouse está diseñado específicamente para DWs extremos de gran envergadura que necesitan almacenar y consultar cientos de terabytes de datos.
Procesamiento Masivamente Paralelo
Parallel Data Warehouse utiliza una arquitectura de procesamiento masivamente paralelo (MPP), nada-compartido, que ofrece una mayor escalabilidad y rendimiento sobre los sistemas SMP. Los sistemas MPP entregan mucho mejor rendimiento que los servidores SMP para grandes cargas de datos. Los sistemas MPP utilizan múltiples servidores, llamados nodos, que procesan consultas independientemente en paralelo. El procesamiento paralelo implica distribuir las consultas a través de los nodos de manera que cada nodo procesa sólo una parte de la consulta; los resultados de las consultas parciales son combinados después que el procesamiento se complete para crear un único conjunto de resultados.
Arquitectura Nada-Compartido
Los sistemas que utilizan componentes compartidos, como la memoria o el almacenamiento en disco, pueden sufrir de problemas de rendimiento debido a la contención de estos componentes compartidos. La contención ocurre cuando varios nodos intentan acceder a un componente a la vez, y por lo general resulta en un degradado del rendimiento como colas de nodos para acceder a los recursos. Las arquitecturas nada-compartido eliminan la contención, debido a que cada nodo tiene su propio conjunto de hardware dedicado, que no es utilizado por los otros nodos. La eliminación de la contención de un sistema resulta en una mejora del rendimiento, y lo habilita para manejar cargas de trabajo más grandes.
Nodos de Control, Nodos de Cálculo, y Nodos de Almacenamiento
Un appliance Parallel Data Warehouse consiste de un servidor que actúa como el nodo de control, y varios servidores que actúan como nodos de cálculo y nodos de almacenamiento. Cada nodo de cálculo tiene sus propios procesadores dedicados, memoria, y está asociado con un nodo de almacenamiento dedicado. Una red InfiniBand dual conecta los nodos juntos, y los canales de fibra dual enlazan los nodos de cálculo a los nodos de almacenamiento. El nodo de control intercepta consultas entrantes, divide cada consulta en varias operaciones más pequeñas y, luego, las pasa a los nodos de cálculo para procesarlas. Cada nodo de cálculo retorna los resultados de su procesamiento al nodo de control. El nodo de control integra los datos para crear un conjunto de resultados, que luego retorna al cliente.
Los nodos de control están alojados en un rack llamado el rack de control. Hay otros tres tipos de nodos que comparten este rack con el nodo de control:
  • Nodos de Gestión, a través del cual los administradores gestionan el appliance.
  • Nodos de Zona Landing, que actúan como áreas staging para los datos que se cargan en el data warehouse utilizando la herramienta de extracción, transformación y carga (ETL).
  • Nodos de Backup, que respaldan el data warehouse.
Los nodos de cálculo y los nodos de almacenamiento son ubicados en un rack separado llamado el rack de datos. Para escalar la aplicación, se puede añadir más racks según sea necesario. Los componentes de hardware son duplicados, incluyendo los nodos de control y de cálculo, para proporcionar redundancia.
Puede utilizar un appliance Parallel Data Warehouse como el hub en una configuración hub y spoke, y poblar los data marts directamente desde el DW. Usando una configuracion hub y spoke que permite integrar el appliance con data marts existentes o crear data marts locales según sea necesario. Si utiliza sistemas FTDW para construir los data marts, puede lograr transferencias de datos muy rápidas entre los hubs y los spokes. 

1 comentarios:

Narcizo dijo...

Este es el 4to post de DWH de 4, referidos al hardware; no hay mucha información de este tema en castellano.