La construcción de un data warehouse (DW) comprando y
probando componentes de hardware puede ser un proceso complejo, costoso y que
consume mucho tiempo. Las arquitecturas de referencia y appliances DW
simplifican el proceso de elección del hardware DW, que le ayuda a mantenerse
en el presupuesto y en la fecha prevista, y para crear un DW que realmente
satisfaga las necesidades de su empresa.
Fast Track Data Warehouse
Configuraciones de
Hardware Validadas
El Fast Track Data Warehouse (FTDW) permite a las
organizaciones a crear un DW basado en un diseño validado de manera eficiente
en tiempo y en costo. El FTDW incluye un conjunto de sistemas validados partiendo
de una variedad de proveedores de hardware conocidos. Estos sistemas utilizan
hardware estándar, lo que reduce los costos, y la gama de proveedores permite a
las empresas que ya tienen relaciones con un proveedor en particular, permanecer
con ese proveedor si así lo desean. Cuando selecciona un sistema DW de las
configuraciones pre-existentes, se puede elegir entre una evaluación básica o
una evaluación completa. La evaluación básica implica una evaluación basada en
la carga de trabajo de los requisitos del DW. Este proceso es relativamente
breve, y permite a las empresas tener sus DWs en ejecución muy rápidamente. La
opción de evaluación completa consiste en la realización de una evaluación más
rigurosa de las cargas de trabajo, lo que se traduce en un tiempo de espera más
largo, pero ofrece un sistema que pueda satisfacer las necesidades de la
organización. Además, una evaluación completa puede reducir el costo de
hardware si la prueba revela que, por ejemplo, se requiere un sistema menos
potente el que una evaluación básica habría recomendado.
Además de seleccionar a partir de los sistemas
pre-configurados, puede utilizar la metodología Fast Track para ayudar a
diseñar y construir su propio DW. La metodología Fast Track le permite perfilar
las cargas de trabajo e identificar benchmarks de modo que puede estar seguro del
diseño que crea, pero este enfoque puede llevar mucho tiempo y requiere de
conocimientos técnicos y experiencia para garantizar el éxito.
Hardware Balanceado
Las configuraciones FTDW balancean las partes componentes
del sistema para asegurar lograr un flujo óptimo, y que no se originen cuellos
de botella creados accidentalmente que le impedirán el rendimiento. Un enfoque balanceado
comienza con los procesadores, evaluando la cantidad de datos que cada núcleo
puede procesar a medida que es alimentado, y los otros componentes son balanceados
sobre esto. Además de identificar la configuración óptima de hardware para un
escenario determinado, el FTDW también proporciona recomendaciones para la
configuración del SQL Server, incluyendo Resource Governor, particiones,
índices, y compresión de datos; así como recomendaciones sobre cómo realizar
cargas de datos sin perturbar la organización secuencial de datos en los
discos.
Fast Track System Sizing
Tool
Puede utilizar la Fast Track System Sizing Tool para
ayudarle a obtener una comprensión básica del tipo de sistema que pueda
necesitar. El Fast Track System Sizing Tool es un documento de Microsoft Excel,
que puede descargarlo en http://www.microsoft.com/en-us/sqlserver/solutions-technologies/data-warehousing/reference-architecture.aspx; en este archivo que puede introducir
la tasa de consumo máximo (MCR), el número de sesiones simultáneas, y los
valores de requisitos de capacidad de datos, y se calculará el número
aproximado de núcleos de procesadores y unidades de almacenamiento que se
requieren para satisfacer estos requisitos. MCR es una medida del flujo en MBs
por segundo. Para calcular el MCR, debe ejecutar una consulta predefinida, de
sólo lectura, del caché del búfer y medir el tiempo que toma en ejecutar la
consulta y la cantidad de datos procesados.
Appliances Data Warehouse
Mientras las arquitecturas de referencia FTDW pueden
reducir el tiempo y el esfuerzo necesario para implementar un DW, las
organizaciones todavía requieren conocimientos técnicos para ensamblar la
solución. Para reducir la carga técnica sobre las organizaciones que requieren
un DW, y reducir el tiempo que toma implementar una solución, Microsoft se ha
asociado con proveedores de hardware para crear appliances DW preconfigurados,
que puede obtener con una sola compra.
Los appliances DW que están disponibles de Microsoft y
sus socios de hardware están basadas en configuraciones probadas, incluyendo
arquitecturas de referencia Fast Track, y pueden reducir significativamente el
tiempo requerido en diseñar, instalar y optimizar un sistema DW.
Los appliances DW basados en arquitecturas de referencia
FTDW están disponibles para organizaciones o departamentos que necesitan
implementar una solución DW rápidamente y con el mínimo esfuerzo de instalación
y de configuración. Además, las grandes organizaciones que necesitan un DW
empresarial pueden comprar un appliance basado en SQL Server Parallel DW para
la escalabilidad y el rendimiento extremo.
Los appliances DW forman parte de una gama de appliances
basados en SQL Server que Microsoft y sus socios de hardware han desarrollado
para cargas de trabajo de bases de datos comunes. Otros tipos de appliances
incluyen appliances de decisiones de negocios que proporcionan capacidades de inteligencia
de negocios (BI) autoservidos, y appliances de consolidación de servidores de
bases de datos que utilizan las tecnologías de virtualización para crear una
infraestructura de nube privada para los servidores de bases de datos. Los appliances
basados en SQL Server están disponibles de múltiples proveedores de hardware, e
incluyen soporte técnico para todo el appliance, incluyendo software y
hardware.
Appliances Data Warehouse Paralelas
Sistemas FTDW y appliances basadas en ellas, usan una arquitectura
de multiprocesamiento simétrico (SMP). Con sistemas SMP, el bus del sistema es
el componente limitante que impide el escalado más allá de un cierto nivel. Conforme
el número de procesadores y la carga de datos aumentan, el bus puede
sobrecargarse y convertirse en un cuello de botella. Para los data warehouse
que requieren mayor escalabilidad que un sistema SMP puede proporcionar, se
puede utilizar un appliance DW empresarial basado en Microsoft SQL Server
Parallel Data Warehouse.
Data Warehouse Paralelo en SQL Server
Microsoft SQL Server Parallel Data Warehouse es una
edición de SQL Server que sólo está disponible como una solución preinstalada y
configurada en appliances DW empresarial de Microsoft y sus socios de hardware.
Parallel Data Warehouse está diseñado específicamente para DWs extremos de gran
envergadura que necesitan almacenar y consultar cientos de terabytes de datos.
Procesamiento
Masivamente Paralelo
Parallel Data Warehouse utiliza una arquitectura de procesamiento
masivamente paralelo (MPP), nada-compartido, que ofrece una mayor escalabilidad
y rendimiento sobre los sistemas SMP. Los sistemas MPP entregan mucho mejor rendimiento
que los servidores SMP para grandes cargas de datos. Los sistemas MPP utilizan
múltiples servidores, llamados nodos, que procesan consultas independientemente
en paralelo. El procesamiento paralelo implica distribuir las consultas a
través de los nodos de manera que cada nodo procesa sólo una parte de la
consulta; los resultados de las consultas parciales son combinados después que
el procesamiento se complete para crear un único conjunto de resultados.
Arquitectura Nada-Compartido
Los sistemas que utilizan componentes compartidos, como
la memoria o el almacenamiento en disco, pueden sufrir de problemas de
rendimiento debido a la contención de estos componentes compartidos. La contención
ocurre cuando varios nodos intentan acceder a un componente a la vez, y por lo
general resulta en un degradado del rendimiento como colas de nodos para acceder
a los recursos. Las arquitecturas nada-compartido eliminan la contención, debido
a que cada nodo tiene su propio conjunto de hardware dedicado, que no es
utilizado por los otros nodos. La eliminación de la contención de un sistema
resulta en una mejora del rendimiento, y lo habilita para manejar cargas de
trabajo más grandes.
Nodos de Control, Nodos de
Cálculo, y Nodos de Almacenamiento
Un appliance Parallel Data Warehouse consiste de un
servidor que actúa como el nodo de control, y varios servidores que actúan como
nodos de cálculo y nodos de almacenamiento. Cada nodo de cálculo tiene sus
propios procesadores dedicados, memoria, y está asociado con un nodo de
almacenamiento dedicado. Una red InfiniBand dual conecta los nodos juntos, y los
canales de fibra dual enlazan los nodos de cálculo a los nodos de
almacenamiento. El nodo de control intercepta consultas entrantes, divide cada
consulta en varias operaciones más pequeñas y, luego, las pasa a los nodos de cálculo
para procesarlas. Cada nodo de cálculo retorna los resultados de su procesamiento
al nodo de control. El nodo de control integra los datos para crear un conjunto
de resultados, que luego retorna al cliente.
Los nodos de control están alojados en un rack llamado el
rack de control. Hay otros tres tipos de nodos que comparten este rack con el
nodo de control:
- Nodos de Gestión, a través del cual los administradores gestionan el appliance.
- Nodos de Zona Landing, que actúan como áreas staging para los datos que se cargan en el data warehouse utilizando la herramienta de extracción, transformación y carga (ETL).
- Nodos de Backup, que respaldan el data warehouse.
Puede utilizar un appliance Parallel Data Warehouse como el hub en una configuración hub y spoke, y poblar los data marts directamente desde el DW. Usando una configuracion hub y spoke que permite integrar el appliance con data marts existentes o crear data marts locales según sea necesario. Si utiliza sistemas FTDW para construir los data marts, puede lograr transferencias de datos muy rápidas entre los hubs y los spokes.
1 comentarios:
Este es el 4to post de DWH de 4, referidos al hardware; no hay mucha información de este tema en castellano.
Publicar un comentario