11 agosto 2015

Mantenimiento y Seguridad del Data Quality Services

La administración del Data Quality Services incluye el mantenimiento y la seguridad, las copias de seguridad de las bases de datos DQS, el establecimiento de los ajustes de configuración, el monitoreo de las actividades DQS y registro, y la configuración de los valores umbrales para la limpieza y la coincidencia.

Realizando Actividades Administrativas con Data Quality Client

Puede realizar la mayoría de las actividades administrativas para Data Quality Services con la aplicación Data Quality Client. Con Data Quality Client, puede:
·         Monitorear las actividades de DQS.
·         Configurar los ajustes del servicio de datos de referencia.
·         Configurar los valores umbrales para la limpieza y la coincidencia.
·         Activar o desactivar las notificaciones.
·         Configurar el registro.
Aprenderá acerca del monitoreo de actividades DQS en la práctica al final de esta post. Por lo tanto, esta sección empieza con una discusión de la configuración de los servicios de datos de referencia. Note que esta sección sólo explica cómo iniciar la configuración de los servicios de datos de referencia, debido a que estos no están disponibles aún en todos los mercados. Para la práctica de esta post, utilizará los datos de referencia integrados. El procedimiento para configurar los servicios de datos de referencia es:
1.    Abra la aplicación Data Quality Client y conéctese a su Data Quality Server.
2.    Haga clic en el botón Configuración en el área Administración de la pantalla (a la derecha). La ficha Datos de Referencia es seleccionada por defecto.
3.   Si ya tiene un ID de Cuenta de DataMarket, escríbalo en el primer cuadro de texto, como se muestra en la figura siguiente. Si no tiene uno, puede crear uno haciendo clic en el vínculo Crear un ID de Cuenta de DataMarket.
4.   Utilice el enlace Administrar mis Suscripciones a Proveedores de DataMarket RDS para configurar sus suscripciones DataMarket.
Note que los datos de referencia DataMarket aún no están disponibles para todos los mercados. El número de mercados a los cuales los datos de referencia están disponibles están creciendo continuamente, por lo que es posible que desee comprobar frecuentemente para ver si hay algo disponible para su país o región. La figura siguiente muestra un ejemplo de una pantalla que muestra que los datos de referencia todavía no están disponibles en un mercado en particular.
 
Puede utilizar la ficha Configuración General en la pantalla Administración del Data Quality Client para configurar los valores umbrales para la limpieza y la coincidencia. Puede configurar los siguientes valores:
·       Puntuación Mínima para Sugerencias. Este es el nivel de confianza que DQS utiliza para sugerir reemplazos para un valor durante la limpieza. El valor predeterminado es 0.7. El valor debe estar entre 0 y 1. Un valor alto significa menos sugerencias, y por lo tanto menos sustituciones. Debe realizar pruebas para determinar el valor más apropiado para la limpieza de una muestra de sus datos. Este valor debe ser menor o igual al valor para Puntuación Mínima de Correcciones Automáticas.
·         Puntuación Mínima de Correcciones Automáticas. Este es el nivel de confianza para corregir automáticamente un valor durante la limpieza. Al igual que con Puntuación Mínima para Sugerencias, debe realizar pruebas para determinar el valor más apropiado para sus datos.
·       Puntuación de Registro Mínima. Este es el valor umbral para la política de coincidencia. Denota el puntaje mínimo para que un registro sea considerado como una coincidencia para otro registro. El valor por defecto es 80 por ciento.
·      Habilitar Notificaciones. El perfilado de datos está integrado en DQS. El perfilado de datos proporciona información básica acerca de la calidad e integridad de sus datos. Una notificación DQS puede apuntar rápidamente a un problema potencial. Una notificación es indicada por un tooltip con un signo de exclamación en la ficha Profiling de un proyecto de calidad de datos, como se verá en la práctica de este post. Debido a que no hay impacto en el rendimiento si utiliza notificaciones, se recomienda que deje esta casilla seleccionada.
Los archivos de registro DQS ayudan en problemas de diagnóstico y resolucion de problemas con Data Quality Server, con Data Quality Client, y con el componente DQS Cleansing en Integration Services. El archivo de registro Data Quality Server es llamado DQServerLog.DQS_MAIN.log. Si utiliza la instalación de la instancia predeterminada, este archivo de registro es ubicado en la carpeta C:\Program Files\Microsoft SQL Server\MSSQL12.MSSQLSERVER\MSSQL\Log. Este es un archivo continuo también; puede eliminar los archivos de registro antiguos manualmente desde el Explorador de Windows.
El archivo de registro Data Quality Client, DQLog.Client.xml, es localizado en la carpeta %APPDATA%\SSDQS\Log. Puede encontrar la ubicación a la que la variable de sistema operativo %APPDATA% está apuntando, por utilizar la orden de línea de comando ECHO %APPDATA%. Por ejemplo, si ha iniciado sesión como administrador, este archivo estará en la carpeta C:\ Users \ Administrator \ AppData \ Roaming \ SSDQS \ Log. Este es un archivo continuo también. El componente DQS Cleansing en Integration Services registra las actividades al fichero DQSSSISLog.log, que también esta localizada en la carpeta %APPDATA%\SSDQS\Log.
Puede utilizar la ficha Configuración del Registro en la pantalla de ajustes de configuración del Data Quality Client para configurar niveles rigurosos para el registro de las diferentes actividades DQS. Puede configurar los siguientes ajustes de registro:
·         Administración de Dominio
·         KnowledgeDiscovery
·         Proyecto de Limpieza (excepto Reference Data Services)
·         Directiva de Coincidencia y Proyecto de Búsqueda de Coincidencias
·         Reference Data Services (RDS)
Puede configurar cada una de estas actividades a los siguientes niveles de registro:
·         Fatal. Esta configuración registrará los errores de ejecución críticos.
·         Error. Este ajuste registrará otros errores de ejecución.
·         Warn. Este ajuste registrará las advertencias acerca de eventos que podrían resultar en un error.
·         Info. Este ajuste registrará información sobre eventos en general.
·         Debug. Este ajuste registrará información detallada (verbose) acerca de eventos.
La figura siguiente muestra cómo los diversos ajustes de registro pueden ser modificados.
La sección Avanzada en la ficha Configuración de Registro le permite configurar ajustes rigurosos de registro a nivel modular. Los módulos son ensamblados del sistema DQS que implementan diversas funcionalidades en una característica en DQS. Generalmente, no tendrá la necesidad de utilizar estos ajustes de registro avanzados. Los utilizará sólo para rastrear problemas con un módulo específico.

Realizando Actividades Administrativas con Otras Herramientas

Los Data Quality Services deben ser administrados parcialmente en SQL Server Management Studio (SSMS) o con los comandos Transact-SQL. Con estas herramientas, puede administrar la seguridad y el backup y la restauración de bases de datos DQS.
La seguridad DQS utiliza la infraestructura SQL Server. Hay tres roles DQS predefinidos en la base de datos DQS_MAIN. Administra la seguridad DQS agregando usuarios a estos tres roles. Los roles son:
·      Administrator DQS (dqs_administrator). Los miembros de este rol pueden tener todo en el alcance del Data Quality Services. Pueden crear o editar una base de conocimiento, crear y ejecutar un proyecto DQS, terminar un proyecto en curso u otra actividad, detener un proceso, y cambiar los Reference Data Services y otros ajustes.
·        Editor DQS KB (dqs_kb_editor). Los miembros de este rol pueden editar y ejecutar un proyecto y crear y editar una base de conocimiento. Pueden monitorear toda la actividad DQS; sin embargo, los miembros de este rol no pueden detener una actividad o realizar otras tareas administrativas.
·       Operador DQS KB (dqs_kb_operator). Los miembros de este rol pueden editar y ejecutar un proyecto. Sin embargo, no pueden crear o modificar una base de conocimiento. Pueden monitorear toda la actividad DQS; sin embargo, los miembros de este rol no pueden detener una actividad o realizar otras tareas administrativas.
Los permisos para los roles son acumulativos. Los roles dqs_kb_editor y dqs_administrator son miembros del rol dqs_kb_operator, como se puede ver en la figura siguiente. El rol dqs_administrator es también un miembro del rol dqs_kb_editor.
 
Maneja la seguridad DQS agregando usuarios a roles DQS apropiados.
Hacer backup y restore de bases de datos DQS con las funcionalidades backup y restore regulares de SQL Server. Sin embargo, debe sincronizar los backups de las dos bases de datos DQS primarias, DQS_MAIN y DQS_PROJECTS. La tercera base de datos DQS, la base de datos DQS_STAGING_DATA, es menos importante, porque lo utiliza para datos de staging solamente. Puede incluso decidir no utilizarla para los datos de staging y operar en el contexto de otras bases de datos de usuario.
La limpieza de datos con DQS es usualmente una actividad ocasional, no un curso. Por lo tanto, puede decidir hacer backups completos de bases de datos solamente, y nunca un backup de los registros de transacciones. Si decide por los backups de bases de datos completos solamente, debe cambiar el modelo de recuperación de las tres bases de datos DQS a Simple.

Monitoreando la Actividad DQS

En los siguientes ejemplos, aprenderá cómo monitorear la actividad DQS con Data Quality Client. Con el fin de monitorear la actividad, crerá un proyecto DQS.

Crear un Proyecto DQS

Empieza con la creación de un proyecto DQS. Utiliza la base de conocimiento que viene con la instalación del Data Quality Services.
1.    Si cerró el Data Quality Client, inícielo y conéctese a la instancia de SQL Server que incluye las bases de datos DQS.
2.    En la pantalla inicial del cliente, en la sección Proyectos de Calidad de Datos, haga clic en el botón Nuevo Proyecto de Calidad de Datos. Nombre el proyecto a AWApellidos.
3.    Compruebe que la base de conocimiento DQS Data esta seleccionada. En el área Detalles de la Base de Conocimiento: DQS Data, seleccione el dominio US – Last Name.
4.  Verifique la parte inferior de la página para asegurarse que la actividad Limpieza esta seleccionada. Su página Nuevo Proyecto de Calidad de Datos debería ser similar a la figura siguiente. 
5.    Haga clic en Siguiente.
6. En la página Asignación, seleccione SQL Server como el Origen de Datos, AdventureWorksDW2014 como la Base de Datos, y DimCustomer como la Tabla/Vista.
7.    En la tabla Asignaciones, asigne la Columna de Origen a LastName de la tabla DimCustomer al Dominio US – Last Name. Debería tener el mismo ajuste como se muestra en la figura.
 
8.    Haga clic en Siguiente. En la página Limpieza, haga clic en el botón Iniciar.
9.    Una vez finalizada la limpieza, revise los perfiles resultantes en el área Generador de Perfiles. También verifique las notificaciones, que aparecerán como tooltips. Su página debe ser similar a la que se muestra en la figura siguiente.
10.  Haga clic en Siguiente.
11.  En la página Administrar y Ver Resultados, verifique los valores Sugerido, Nuevo, y Corregido. Después de que haya hecho la verificación, haga clic en Siguiente.
12.  En la página Exportación, haga clic en Finalizar (no exportará los resultados para este proyecto).

Monitorear la Actividad DQS

1.    En la ventana principal Data Quality Client, en el panel Administración, haga clic en el botón Supervisión de Actividades.
2.    En la ventana superior, haga clic en el proyecto AWApellidos. Los detalles del proyecto deberían aparecer en la ventana inferior. Compruebe la información Pasos de la Actividad y la información Generador de Perfiles. La figura siguiente muestra la ventana Pasos de la Actividad. 
3.    Note que puede exportar la actividad seleccionada a Excel utilizando el botón en la esquina superior derecha de la ventana Supervisión de Actividades.
Cierre la ventana Supervisión de Actividades. Cierre el Data Quality Client. 

10 agosto 2015

Instalación del Data Quality Services

El SQL Server 2014 Data Quality Services (DQS) es una solución de calidad de datos basada en el conocimiento. Esto significa que necesita mantener una o varias Bases de Conocimiento (KBs). En una KB, mantiene todo el conocimiento relacionado con una porción específica de datos, por ejemplo, los datos del cliente. En los proyectos DQS, se realiza las actividades de limpieza, perfilado, y coincidencia. También puede utilizar una base de datos staging intermedia a la cual copiar sus datos de origen y exportar los resultados del proyecto DQS. El DQS incluye componentes de servidor y de cliente. Para utilizar el DQS, debe iniciar por instalar los componentes DQS.

Arquitectura DQS

Con DQS, la calidad de datos está ahora disponible a una audiencia más amplia que para el caso de herramientas de SQL Server anteriores. El DQS fue diseñado para facilidad de uso. A través de una interface sencilla e intuitiva, DQS permite a los usuarios del negocio y a los DBAs participar más directamente en las actividades de calidad de datos. Con esta funcionalidad, puede realizar mejoras de calidad de datos en un tiempo muy corto. Como se mencionó anteriormente, el DQS incluye componentes de servidor y de cliente. La figura siguiente muestra una visión general rápida de la arquitectura DQS.
 
El componente Data Quality Server incluye tres bases de datos:
·     DQS_MAIN, que incluye procedimientos almacenados DQS. Los procedimientos almacenados DQS constituyen el motor DQS actual. Además, DQS_MAIN incluye las bases de conocimiento publicadas. Una KB publicada es una KB que ha sido preparada para ser utilizada en proyectos de limpieza.
·    DQS_PROJECTS, que incluye datos para la gestión de la base de conocimiento y los datos necesarios durante los proyectos de limpieza y de coincidencia.
·     DQS_STAGING_DATA, que proporciona un área de almacenamiento intermedio donde puede copiar los datos de origen para limpieza y donde puede exportar los resultados de limpieza.
Puede preparar sus propias bases de conocimiento localmente, incluyendo los datos de referencia. Sin embargo, también puede utilizar los datos de referencia de la nube. Puede usar Windows Azure MarketPlace DataMarket para conectar a los proveedores de datos de referencia. Por supuesto, también puede utilizar una conexión directa a proveedores de datos de referencia de terceros a través de una interfaz predefinida.
Con la aplicación Data Quality Client, puede administrar las bases de conocimiento; ejecutar los proyectos de limpieza, perfilado, y coincidencia; y administrar el Data Quality Services. A partir del SQL Server 2012 se incluye dos nuevas herramientas para ayudar con estas tareas. Puede usar la transformación DQS Cleansing de SSIS para realizar la limpieza dentro de un Data Flow de su paquete SSIS. Esto permite realizar la limpieza de lotes sin la necesidad de la interactividad requerida por el Data Quality Client. Con el complemento gratuito de Master Data Services (MDS) para Microsoft Excel, puede realizar la coincidencia de datos maestros en una hoja de cálculo Excel. Los componentes DQS deben ser instalados junto con el MDS con el fin de permitir la integración DQS/MDS. Los clientes adicionales, incluyendo las aplicaciones de terceros, estarán disponibles en un futuro próximo.

Instalación DQS

Antes de instalar el DQS, debería determinar si el sistema cumple los pre-requisitos. Para Data Quality Server, necesita tener Servicios de Motor de Base de Datos del SQL Server 2014 instalado. Además, con el fin de administrar las bases de datos DQS, es necesario tener instalada también Herramientas de Administración. La figura siguiente muestra la página Selección de Características del Programa de Instalación SQL Server 2014. Las características remarcadas en esta figura son el mínimo que debería ser seleccionado para cumplir con los pre-requisitos del Data Quality Server.
 
Para el Data Quality Client, es necesario el Microsoft .NET Framework 4. Si no lo tiene instalado en su ordenador, automáticamente será instalado durante la instalación del Data Quality Client. Además, necesita al menos el Windows Internet Explorer 6 SP1.
Instalar los componentes DQS utilizando el Programa de Instalación de SQL Server 2014. Necesitará seleccionar las siguientes características:
·     Data Quality Services bajo Servicios de Motor de Base de Datos para instalar el Data Quality Server.
·         Cliente de Calidad de Datos para instalar el Data Quality Client.
El Programa de Instalación de SQL Server instala un archivo de instalación adicional, el DQSInstaller.exe, cuando selecciona la casilla de verificación Data Quality Services. Este archivo es copiado en la carpeta de la instancia SQL Server en el equipo. Además, necesitará agregar el usuario actual (uno mismo) al rol de servidor fijo sysadmin durante la instalación, para que pueda ejecutar el DQSInstaller más tarde para terminar la instalación.
Después que el Programa de Instalación SQL Server finaliza la instalación, necesitará realizar algunas tareas posteriores a la instalación. En primer lugar, debe ejecutar la aplicación DQSInstaller. Esta aplicación hace lo siguiente:
·         Crea las bases de datos DQS_MAIN, DQS_PROJECTS, y DQS_STAGING_DATA.
·  Crea dos logins necesarios para Data Quality Server: ##MS_dqs_db_owner_login## y ##MS_dqs_service_login##.
·  Crea tres roles en la base de datos DQS_MAIN: dqs_administrator, dqs_kb_editor y dqs_kb_operator.
·         En la base de datos master, crea el procedimiento almacenado DQInitDQS_MAIN.
·     Registra la instalación en el archivo DQS_install.log. Este archivo es típicamente creado en la carpeta C:\Program Files \ Microsoft SQL Server \ MSSQL12. <nombre_instancia> \ MSSQL \ Log. 
·      Para la integración MDS, si una base de datos MDS es instalada en la misma instancia SQL Server como Data Quality Server, la aplicación DQSInstaller crea un usuario asignado al login MDS. También añade este usuario al rol dqs_administrator en la base de datos DQS_MAIN.
Los usuarios deben ser miembros de cualquiera de los tres roles DQS en la base de datos DQS_MAIN con el fin de poder conectarse al Data Quality Server. Los miembros de los roles de servidor fijo sysadmin pueden conectarse al Data Quality Server por defecto.
La transformación DQS Cleansing de SSIS es instalada durante la instalación de SSIS. El complemento MDS para Excel MDS es una descarga separada.
Si instala el Data Quality Client en un equipo diferente de uno donde el Data Quality Server está instalado, debe habilitar el protocolo TCP/IP para la instancia SQL Server donde está instalado el Data Quality Server. Utilice el SQL Server Configuration Manager para realizar esta tarea.

Instalando el Data Quality Services

En los siguientes ejercicios, instalará el Data Quality Server y el Data Quality Client. Esta práctica supone que su ordenador cumple los pre-requisitos para esta instalación.

Ejecutar el Programa de Instalacion de SQL Server

Usamos el Programa de Instalación SQL Server para instalar los componentes DQS.
1.    Inicie el Programa de Instalación de SQL Server 2014.
2.    En el Centro de Instalación SQL Server, seleccione la ficha Instalación (la segunda desde la parte superior en el lado izquierdo).
3.    Seleccione enlace Nueva Instalación Independiente de SQL Server o Agregar Características a una Instalación Existente.
4.    Espere hasta que las Reglas Globales han sido verificadas. Cuando la operación es finalizada, prosigue con Actualizaciones de Productos.
5.    Espere mientras los archivos de instalación son instalados. La página Instalar Reglas de SQL Server 2014 Setup debería aparecer. Corrija los errores y verifique cualquier advertencia. Si no hay errores, haga clic en Siguiente.
6.    En la página Tipo de Instalación, seleccione la opción Agregar Características a una Instancia Existente de SQL Server 2014. Seleccione la instancia en la que desea alojar las bases de datos DQS de la lista desplegable de las instancias instaladas en su equipo. Haga clic en Siguiente.
7.    En la página Selección de Características, seleccione las casillas de verificación para las opciones Data Quality Services y Cliente de Calidad de Datos, como se muestra en la figura siguiente. Luego haga clic en Siguiente.
8.    Espere mientras las reglas de instalación sean verificadas.
9.    En la página Requerimientos de Espacio de Disco, haga clic en Siguiente.
10.  En la página Error Reporting, desactive la casilla de verificación y haga clic en Siguiente.
11.  En la página Reglas de Configuración de Características, haga clic en Siguiente.
12.  En la página Listo para Instalar, haga clic en Instalar.
13.  Espere hasta que la instalación haya finalizado.
14.  En la página Completo, haga clic en Cerrar.
15.  Cierre la ventana de Instalación SQL Server.

Realizar Tareas Post-Instalación de DQS

Después de completar la parte de la instalación que implica el Programa de Instalación de SQL Server 2014, tiene que terminar las tareas post-instalación también. En este ejercicio, utilizará la aplicación de instalación, DQSInstaller.exe, para completar la instalación Data Quality Server.
1.    Inicie el DQSInstaller. Puede iniciarlo desde el menú Inicio. En la barra de tareas, haga clic en Inicio, seleccione Todos los Programas y haga clic en Microsoft SQL Server 2014 en la carpeta de Microsoft SQL Server 2014, haga clic en Data Quality Services, y luego haga clic en Data Quality Server Installer. Si esta en Windows 8 u 8.1, busque el ejecutable SQL Server 2014 Data Quality Server Installer en el bloque Microsoft SQL Server 2014 y dele clic.
También puede iniciar el DQSInstaller desde el Explorador de Windows. Si ha utilizado las carpetas de instalación predeterminadas para la instancia predeterminada, entonces la aplicación está localizada en la carpeta C:\Program Files\Microsoft SQL Server\MSSQL12.MSSQLSERVER\MSSQL\Binn.
Además, puede ejecutar el DQSInstaller desde el símbolo del sistema también.
2.    Se le pedirá una contraseña para la llave maestra de base de datos. Esta clave es utilizada para cifrar las llaves de proveedores de servicios de datos de referencia si se configura los proveedores de datos de referencia. Las llaves son almacenadas en la base de datos DQS_MAIN. La contraseña debe tener al menos ocho caracteres y debe contener una letra mayúscula (A, B, C, ... Z), una letra minúscula (a, b, c, ... z), y un número (0, 1, 2, ... 9). Proporcione una contraseña, confírmela y pulse Enter.
3.    Espere hasta que el DQSInstaller termine. Pulse cualquier tecla en la ventana de símbolo del sistema para terminar. Si hay algún error, compruebe el registro de errores. DQSInstaller crea un archivo de registro de instalación denominado DQS_install.log, que se encuentra en la carpeta C:\Program Files\Microsoft SQL Server\MSSQL12.MSSQLSERVER\MSSQL\Log para la instancia predeterminada.
Debe conceder los roles DQS a los usuarios para autorizarlos a realizar actividades DQS.
4.    Compruebe si puede conectarse desde el Data Quality Client a su Data Quality Server. En la barra de tareas, haga clic en Inicio, seleccione Todos los Programas y haga clic en Microsoft SQL Server 2014 en la carpeta de Microsoft SQL Server 2014, haga clic en Data Quality Services, y luego haga clic en Data Quality Client.
5.    En la ventana Conectar con el Servidor que aparece, seleccione el servidor en el que instaló su Data Quality Server, como se muestra en la figura siguiente. Haga clic en Conectar.
6.    Después que el Data Quality Client se conecta al servidor, debe aparecer la pantalla principal del Data Quality Client, como se muestra en la figura siguiente.
7.    Con el Explorador de Objetos de SSMS, compruebe también para ver si las tres bases de datos DQS se han instalado correctamente. Si lo están, deben aparecer en el Explorador de Objetos, como se muestra en la figura.
 
  



09 agosto 2015

Problemas y Roles de Calidad de Datos - DQS

Es difícil encontrar una empresa que no tenga algún problema de calidad de datos. Incluso si una aplicación de línea de negocio (LOB) utiliza un modelo relacional adecuado con todas las restricciones, aún esto no garantiza que los datos siempre sean precisos. Los modelos de bases de datos y las restricciones realizan la integridad de datos. La integridad de datos significa que los datos cumplen con las reglas del negocio. La calidad de datos es un término muy estricto; incluso si los datos cumplen con las reglas del negocio, todavía pueden ser erróneos. Por ejemplo, considere una regla de negocio que dice que una columna que contiene enteros representando un porcentaje de descuento puede tomar valores de un dominio de enteros entre 0 y 100. Si la columna contiene un valor de 45 en lugar de 54, este cumple con las reglas de negocio, pero los datos aún no son precisos.
La calidad de datos trata con cuestiones tales como la precisión y problemas similares: ¿Está la información completa? ¿Es confiable? ¿Están los datos disponibles en el momento oportuno? Todos estos son problemas de calidad de datos. Puede resolver problemas de calidad de datos de una manera reactiva, por constantemente perfilar y corregir los datos. También puede resolver problemas de calidad de datos de una manera proactiva. Esto puede ser hecho definiendo los datos más importantes, los datos maestros, y luego implementar una solución de gestión de datos maestros (MDM). La base de datos de solución MDM es entonces un origen autorizado de datos maestros.
La calidad de datos utiliza dos características en la suite de Microsoft SQL Server 2014: Microsoft SQL Server 2014 Data Quality Services (DQS) y Microsoft SQL Server 2014 Master Data Services (MDS). El DQS ayuda a perfilar y corregir los datos, y el MDS es una solución de gestión de datos maestros.
La calidad de datos está indivisiblemente intercalada con la Gestión de Datos Maestros (MDM). El objetivo más importante de una solución MDM es elevar la calidad de los datos maestros. Los problemas de calidad de datos deben ser abordados en cualquier proyecto MDM. Sin embargo, las actividades de calidad de datos, tales como el perfilado de datos, encuentran la causa raíz de la pobreza de los datos, y las mejoras de la calidad pueden ser también independientes de un proyecto MDM. Es posible para una empresa definir las políticas y los procesos de calidad de datos a través de aplicaciones existentes, pero una solución especializada MDM puede mitigar mucho la implementación de estas políticas.
Antes de definir sus actividades de calidad de datos, debe decidir para qué aspectos medirá y mejorará la calidad de sus datos. Las dimensiones de calidad de datos capturan un aspecto específico de la calidad de datos en general. La medida de la calidad de datos, también conocida como perfilado de datos, debería ser una parte integral de la implementación de una solución MDM. Siempre debe obtener una comprensión a fondo de los datos de origen antes de empezar a fusionarlos. También debe medir las mejoras de calidad de datos sobre el tiempo, para entender y explicar el impacto de la solución MDM. Esta post empieza por describir las dimensiones de calidad de datos, explicando los diferentes aspectos de calidad de datos que pueden ser medidos y la mejor manera de medirlos. Entonces trata con actividades de calidad de datos y las personas que ejecutan estas actividades. Aprenderá acerca de los roles específicos de calidad de datos y de gestión de datos maestros.

Dimensiones de Calidad de Datos

Las dimensiones de calidad de datos pueden referirse a valores de datos o a su esquema. La evaluación de la calidad de un modelo relacional o dimensional no puede ser hecha con Data Quality Services. Este capítulo se centra en las dimensiones puras de calidad de datos y de Data Quality Services, aunque en aras de la exhaustividad, las dimensiones de calidad de esquema son también descritas en este post.
No hay un consenso sobre qué dimensiones de calidad de datos deberían ser inspeccionadas. Diferentes herramientas y diferentes libros enumeran diferentes conjuntos de dimensiones. Sin embargo, algunas dimensiones son analizadas con más frecuencia que otras. Esta lección se enfoca en las analizadas con más frecuencia.
Puede medir algunas dimensiones de calidad de datos con herramientas como las consultas Transact-SQL. Las dimensiones medibles son llamadas dimensiones duras. En contraste, algunas dimensiones dependen de la percepción de los usuarios de los datos; éstos se llaman dimensiones suaves. No puede medir las dimensiones suaves directamente; puede medirlas en forma indirecta a través de entrevistas con los usuarios de los datos o de cualquier otro tipo de comunicación con los usuarios. Tenga en cuenta que esta comunicación puede incluir lamentablemente eventos desagradables, como las quejas de los clientes, que son los eventos que desea evitar. Este post describe las dimensiones duras en detalle y toma sólo una visión rápida de las dimensiones suaves y de esquema.
Integridad (Completeness)    
La Integridad es una de las dimensiones más fáciles de medir. Puede empezar a medirlo a un nivel de población. En un supuesto mundo cerrado, se puede afirmar que no hay otros valores excepto los valores actualmente presentes en una tabla relacional, que representan hechos en el mundo real. Si la relación no tiene valores desconocidos (NULLs), la relación está completa desde la perspectiva de la población. En un supuesto mundo abierto, no se puede afirmar la integridad de la población, incluso si su relación no contiene valores desconocidos. Con el fin de evaluar la integridad de una relación en un supuesto mundo abierto, necesita obtener una relación de referencia que contiene toda la población. Cuando se tiene una relación de referencia, se puede definir la integridad como la proporción del número de tuplas presentadas en la relación y el número de tuplas en la relación de referencia. Debido a la privacidad y restricciones regladas, normalmente no es posible adquirir la relación de referencia. Sin embargo, usualmente puede obtener al menos el número de tuplas en una relación de referencia. Por ejemplo, puede obtener fácilmente el número de ciudadanos de un país. Desde un punto de vista técnico, es muy fácil medir la integridad de una relación cuando se tiene el número de tuplas en una relación de referencia.
En un supuesto mundo cerrado en una base de datos relacional, la presencia de NULLs es lo que define la integridad. Se podría medir la integridad de atributo (el número de NULLs en un atributo específico), la integridad de tupla (el número de valores desconocidos de los atributos en una tupla), y la integridad de relación (el número de tuplas con valores de atributos desconocidos en la relación). Por último, también se puede medir la integridad de valor, lo que tiene sentido para las columnas complejas, semi-estructuradas asi como las columnas de tipo de datos XML. En una instancia XML, un elemento completo o un atributo puede estar faltando. Además, los estándares XML también definen un atributo xsi:nil especial como un marcador de posición para los valores faltantes; esto es similar al NULL relacional.
Precisión (Accuracy)
La precisión es una dimensión complicada. Primero, tiene que determinar que es impreciso. La precisión es más estricta que sólo ajustarse a las reglas de negocio; esta última debe cumplir con la integridad de datos. Para los datos que deberían ser únicos, los valores duplicados son imprecisos. Encontrar valores duplicados podría llevarse a cabo con bastante facilidad con consultas simples, o puede ser muy difícil, si tiene que encontrar los duplicados a través de diferentes sistemas. Encontrar otros datos imprecisos puede implicar algún trabajo manual. Con varios algoritmos, puede extraer datos que son sólo potencialmente imprecisos.
Podemos ofrecer algunos consejos sobre cómo aislar los datos imprecisos. Para los valores de datos discretos, puede utilizar la distribución de frecuencias de los valores. Un valor con una frecuencia muy baja es potencialmente incorrecto. Para las cadenas, se puede buscar por distribución de longitud de cadena. Una cadena con una longitud muy atípica es potencialmente incorrecta. Para las cadenas, también puede tratar de encontrar patrones y luego crear la distribución de patrones. Los patrones con baja frecuencia probablemente denotaran valores erróneos. Para los atributos continuos, puede utilizar estadísticas descriptivas. Sólo mirando a los valores mínimos y máximos, se puede fácilmente detectar a los datos potencialmente problemáticos. No importa cómo encuentra los datos imprecisos, puede marcarlo y luego medir el nivel de precisión. Puede medir esto para las columnas y las tablas.
Información
Otra dimensión medible es la información. La Teoría de la Información, es una rama de las matemáticas aplicadas, define la entropía como la cuantificación de la información en un sistema. Puede medir la entropía sobre un nivel de columna y de tabla. Los valores más dispersos que tiene y los de mayor distribución de frecuencia de una columna discreta son igualmente repartidos entre los valores, cuanta más información tenga la columna. La información no es una dimensión directa de calidad de datos; sin embargo, puede decirle si sus datos son adecuados para el análisis o no.
Consistencia
La consistencia mide la equivalencia de la información almacenada en diferentes bases de datos. Puede encontrar muchos datos inconsistentes por comparar los valores con un conjunto predefinido de valores posibles; puede encontrar algunas inconsistencias por comparar los datos entre los sistemas. Puede encontrar algunas inconsistencias manualmente. No importa cómo encuentra las inconsistencias, puede marcarlas y luego medir el nivel de inconsistencia sobre el nivel de columna o de tabla.
Analizar tanto la dimensión de calidad de datos dura como la suave es considerada una buena práctica.
 

Dimensiones Suaves de Calidad de Datos

Puede medir la dimensión suave indirectamente, a través de la interacción con los usuarios. Los cuestionarios, encuestas rápidas, quejas de usuarios, o cualquier otro tipo de comunicación con los usuarios de datos, son sus herramientas para medir la calidad de las dimensiones de datos suaves. La siguiente lista incluye algunas de las dimensiones suaves típicas:
·         Disponibilidad (Timeliness). Esto le indica el grado en que los datos están actualizados y disponibles cuando se necesitan. Siempre hay un cierto retraso entre el cambio en el mundo real y el momento cuando este cambio es ingresado a un sistema. Aunque los datos obsoletos pueden aparecer en cualquier sistema, esta dimensión es especialmente importante para los sitios y aplicaciones web. Un problema común en la web es que los propietarios no actualizan los sitios en una manera oportuna; puede encontrar un montón de información obsoleta en la web.
·         Facilidad de Uso. Esta es una dimensión muy típica que confía en la percepción del usuario. La facilidad de uso depende de la aplicación o de la interfaz de usuario. Además, los usuarios de datos también perciben el uso como complejo porque no están capacitados.
·         Proposito (Intention). ¿Es el dato, el dato correcto para su uso previsto? A veces no tiene los datos exactos que necesita; sin embargo, puede sustituir los datos necesarios con los datos del que tiene información similar. Por ejemplo, puede utilizar los códigos de área telefónica en lugar de los códigos postales para localizar clientes aproximadamente. Aunque los números de teléfono no estaban destinados para el análisis, pueden darle resultados razonables. Un ejemplo de un uso no intencionado inútil es el uso de una columna en una tabla para almacenar la información no relacionada, tal como usar la columna del nombre del producto para almacenar la taxonomía del producto. Este es un uso no intencionado del esquema, que conduce a muchos problemas con la limpieza y la integración de datos.
·         Confianza (Trust). Tiene que preguntar a los usuarios si confían en los datos. Esta es una dimensión muy importante. Si los usuarios no confían en los datos de los sistemas operacionales, crearán sus propias pequeñas, probablemente no estructuradas, bases de datos. La integración de datos maestros de orígenes no estructurados es muy difícil. Si los usuarios no confían en los datos de las aplicaciones analíticas, simplemente dejaran de usarlos.
·         Calidad de Presentación. Esta es otra dimensión que depende de la percepción del usuario. Cuando una aplicación presenta datos, el formato y la apariencia deben apoyar el uso adecuado de la información. En los sistemas operacionales, esta dimensión está estrechamente relacionado con la facilidad de uso de la dimensión y depende mucho de la interfaz de usuario. Por ejemplo, una aplicación puede obligar a los usuarios a introducir fechas manualmente o guiarlos a través de un control de calendario. En los sistemas analíticos, la presentación es probablemente aún más importante. ¿Se muestran los datos en gráficos o en tablas? ¿Cuánta interactividad debería poner en sus reportes? Preguntas como esta y respuestas a estas preguntas pueden tener una gran influencia en el éxito o el fracaso de los sistemas analíticos.
 

Dimensiones Esquema de Calidad de Datos

Una percepción común es que la calidad del esquema no puede ser medida automáticamente. Bueno, esto es cierto para algunas dimensiones; no puede medirlas sin profundizar en un problema del negocio. Sin embargo, es posible encontrar algoritmos y crear procedimientos que ayuden a medir alguna parte de la calidad del esquema. Seguido se lista las dimensiones de calidad de esquema más importantes, con una breve descripción de cómo medirlos, cuando es aplicable.
·         Integridad de Esquema Esto le dice para extender a cual esquema cubre el problema del negocio. No se puede medir esta dimensión sin un análisis profundo del problema de negocio y sus necesidades.
·         Exactitud de Esquema. La exactitud de un modelo se refiere a la representación correcta de los objetos del mundo real en el esquema y la representación correcta de los requerimientos. Por ejemplo, un nombre puede ser modelado como una entidad con una relación uno-a-uno a la entidad Customers o como un atributo de la entidad Customers. Por supuesto, esta última es la correcta. El nombre no puede ser identificado únicamente, por lo que no es una entidad. Este es el problema con los intentos de representar correctamente los objetos del mundo real. Un ejemplo de inexactitud que tiene que ver con los requerimientos es el siguiente modelo de departamentos y directores. Si un requerimiento dice que un director puede gestionar un solo departamento y que cada departamento tiene un único director, entonces, la relación entre los directores y los departamentos debe ser uno a uno. Modelar esta relación como de muchos a muchos sería un esquema incorrecto. Puede medir esta dimensión manualmente, investigando los requerimientos del negocio y las definiciones de objetos y su representación en el esquema.
·         Documentación Esto le indica si el esquema está debidamente documentado. Los diagramas de esquema, como los diagramas entidad-relación, siempre deben ser parte de la documentación. Además, todas las reglas de negocio que no pueden ser  representadas en un diagrama, deberían ser documentadas en formato de texto. En resumen, debe tener la documentación completa de un esquema conceptual. Puede comprobar la calidad de esta dimensión manualmente, con una vista general de la documentación del esquema.
·         Conformidad con los modelos teóricos ¿Está el esquema de base de datos para aplicaciones transaccionales en un esquema relacional especializado y normalizado adecuadamente, y el esquema para un data warehouse consta de esquemas de Estrella? Esta dimensión debe ser parcialmente medida manualmente, con una visión general del modelo de datos. Sin embargo, se puede encontrar algunas áreas problemáticas en el esquema proceduralmente. Por ejemplo, puede comprobar las correlaciones entre los atributos no-llave; los atributos con muy alta correlación en una tabla pueden indicar que el esquema no está normalizado, o al menos no lo está en la tercera forma normal. Además, muchos NULLs pueden indicar que no hay suficiente especialización, es decir, subtipos en el esquema. Esto es especialmente cierto si algunos valores de un atributo siempre conducen a NULLs en otro atributo. Puede medir esto con consultas de base de datos.
·         Minimalización. La abstracción es una técnica de modelado muy importante. Esto significa que debería tener solo objetos en un modelo que sean importantes para los problemas del negocio que está resolviendo. El número de entidades de esquema debería ser mínimo y no debería incluir objetos que no son pertinentes al problema del esquema que está resolviendo. Una vez más, puede medir esta dimensión con una visión general manual y la comparación a los requerimientos del negocio.
 

Actividades y Roles de Calidad de Datos

Los proyectos de calidad de datos son muy intensivos en términos de recursos necesarios. Con el fin de ejecutar un proyecto exitosamente, tiene que mostrar los posibles beneficios a los principales interesados. En primer lugar, es necesario entender las necesidades del negocio. Puede utilizar entrevistas, descripciones de los organigramas, análisis de las prácticas existentes en una empresa, y otras fuentes de información. Debe priorizar los problemas del negocio y hacer un plan de proyecto claro. Para que un proyecto sea exitoso, es importante empezar con un área de negocio que sea muy critico para los interesados o con un problema de negocio que sea bastante simple de resolver. Siempre debe implementar proyectos de calidad de datos paso a paso.
Antes de empezar cualquier proyecto de calidad de datos o MDM, tiene que entender los orígenes y destinos de los datos problemáticos. Por lo tanto, las actividades de calidad de datos deben incluir una visión general. Debe tener una visión general amplia de todos los esquemas de las bases de datos que se refieren a los datos del problema. Deberia entrevistar a los expertos de dominio y usuarios de datos. Esto es especialmente importante para obtener una comprensión de la calidad de las dimensiones de esquema. Además, después de este paso, debe también tener un claro entendimiento de la tecnología que la empresa está utilizando. Si es necesario, puede necesitar planificar el incluir expertos en tecnología adecuados en el proyecto. Durante la visión general de los datos, también debe centrarse en el ciclo de vida de los datos de manera que pueda comprender los períodos de retención y similares.
El siguiente paso es la evaluación de la calidad de datos. Puede evaluar las dimensiones duras con el análisis procedural de los datos, también conocido como perfilado de datos. Hay muchas herramientas diferentes para el perfilado de datos. Debe aprovechar todo el conocimiento que tiene y todas las herramientas disponibles para esta tarea. Deberia medir las dimensiones suaves de calidad de datos en este paso también. Puede obtener una gran cantidad de conocimiento sobre el estado de la empresa por la comparación de las dimensiones duras y suaves. Si su evaluación de las dimensiones duras es mala, pero obtiene buenas evaluaciones de las dimensiones suaves, entonces la compañía no se dará cuenta de que tiene problemas con los datos. En tal caso, la valoración adicional de los potenciales daños causados​​ por los malos datos puede ayudar a los principales interesados a comprender los problemas de calidad de datos. Si ambas dimensiones suaves y duras son evaluadas bajas, entonces la empresa está lista para un proyecto de calidad de datos y/o MDM. Si las dimensiones duras obtienen buenas evaluaciones, mientras que las dimensiones suaves obtienen malas evaluaciones, esto significa que por alguna razón los expertos de dominio y los usuarios no confían en los datos. Por lo general, esta situación se debe a un sistema anterior, una versión anterior del sistema, o la falta de educación. Si ambas dimensiones duras y blandas obtienen buenas evaluaciones, la empresa no necesita un proyecto de calidad de datos especial; sin embargo, la empresa aún podría decidir iniciar un proyecto MDM con el fin de minimizar los gastos con el mantenimiento de datos maestros.
Después de terminar con la evaluación de los datos, puede volver a evaluar el impacto en el negocio de los datos de calidad baja. Debe reunirse de nuevo con los principales interesados a fin de revisar las prioridades y elaborar la parte de las mejoras del plan del proyecto en detalle.
Antes de que pueda empezar a mejorar la calidad de los datos, es necesario encontrar las causas raíces de los malos datos. Encontrar las causas raíces puede reducir sustancialmente el volumen de trabajo necesario para la mejora de la calidad de datos. Para encontrar las causas raíces, puede utilizar el método de los "cinco porqués" introducido por Sakichi Toyoda y utilizado primero en la Toyota Motor Corporation. Con este método, simplemente pregunta "por qué" cinco veces. Por ejemplo, supongamos que el problema es con los registros duplicados para los clientes. Aplicar el enfoque de los "cinco porqués" para encontrar la causa raíz, luce como esto:
·         Puede preguntar por qué hay registros duplicados. Una respuesta podría ser, debido a que los operadores con frecuencia insertan nuevos registros de clientes en lugar de utilizar los ya existentes.
·         Debe preguntar el segundo por qué: ¿Por qué los operadores crean nuevos registros para los clientes existentes? La respuesta podría ser, debido a que los operadores no buscan los registros existentes de un cliente.
·         A continuación, debe preguntar el tercer por qué: ¿Por qué no buscan? La respuesta podría ser, debido a que la búsqueda tarda mucho tiempo.
·         El siguiente por qué es, por supuesto, ¿Por qué tarda mucho tiempo? La respuesta podría ser, porque es muy difícil buscar los clientes existentes.
·         Ahora la pregunta final, el quinto por qué: ¿Por qué la búsqueda es tan difícil? La respuesta podría ser, debido a que el operador puede buscar sólo valores exactos, no por cadenas aproximadas, y el operador no tiene un nombre, una dirección o un número de teléfono exacto de un cliente en la memoria. Ha encontrado la causa raíz de la duplicación para este ejemplo, el problema es con la aplicación, específicamente con la interface de usuario. Ahora ya sabe dónde poner el esfuerzo con el fin de reducir el número de duplicados.
Por supuesto, el método de los "cinco porqués" no es la única técnica para la búsqueda de las causas raíces. También puede hacer un seguimiento de una pieza de información a través de su ciclo de vida. Por su seguimiento, puede fácilmente observar el momento en que se convierte en inexacta. Puede encontrar causas raíces para algunos problemas procedurales también. Por ejemplo, puede encontrar que los NULLs están en el sistema debido a la ausencia de subtipos con consultas. No importa cómo encuentres las causas raíces, tiene que utilizar esta información para preparar un plan de mejora detallado.
Un plan de mejora debería incluir dos partes: la corrección del dato existente y, aún más importante, la prevención de errores futuros. Si se centra en la corrección de los datos existentes solamente, tendrá que repetir la parte de corrección de las actividades de calidad de datos regularmente. Por supuesto, necesita dedicar algún tiempo a corregir los datos existentes; sin embargo, no hay que olvidar la parte de prevención. Cuando tiene las dos partes del plan de mejora, puede empezar a implementarla.
La implementación de medidas correctivas implica métodos de limpieza automática y manual. Los métodos de limpieza automática pueden incluir sus propios procedimientos y consultas. Si tiene conocimiento de la lógica para corregir los datos, debe utilizarla. Puede resolver problemas de consistencia por definir una sola manera de representar los datos en todos los sistemas y, entonces, reemplazar las representaciones inconsistentes con las recientemente definidas. Por ejemplo, si el género está representado en algún sistema con los números 1 y 2, pero han decidido que deben estar representados con las letras F y M, puede sustituir los números por letras en una sola sentencia de actualización. Para la de-duplicación y la fusión de diferentes orígenes, puede utilizar algoritmos de coincidencia de cadenas. Para corregir direcciones, puede utilizar herramientas de validación y de limpieza que ya existen en el mercado y utilizar algunos registros de direcciones válidas. Sin embargo, debería siempre estar preparado para el hecho de que parte de la limpieza de datos debe ser realizada manualmente.
Prevenir nuevas inserciones de datos inexactos implica diferentes técnicas también. La más importante es la implementación de una solución MDM. Para una solución MDM, necesita una aplicación MDM. SQL Server Master Data Services es un ejemplo de la herramienta que podría utilizar.
Además de permitir el almacenamiento central de datos maestros y sus metadatos, la aplicación MDM tiene que soportar flujos de trabajo de stewardship de datos explícitos, control de versiones, auditoría, y gobierno de datos  El gobierno de datos se refiere a las actividades realizadas para mejorar y mantener la calidad de los datos; los stewards de datos son las personas responsables de estas actividades. Para que un proyecto de calidad de datos y/o gestión de datos maestros sea exitoso, los roles para stewardship de datos explícitos deben ser definidos. Además de la solución de calidad de datos o MDM, también debería enfocarse en los sistemas de origen. Es muy poco probable que su solución siempre cubra todas las posibles entidades maestras con todos sus atributos. Por lo tanto, parte de los datos todavía serán mantenidos en el origen, en aplicaciones operacionales. Tiene que aplicar los modelos de datos apropiados, restricciones y buenas interfaces de usuario siempre que sea posible.
Después de haber implementado las soluciones correctivas y preventivas de calidad de datos, debería medir cómo se realizan. Incluso mejor, debería preparar la infraestructura de mejora de antemano, antes de comenzar a implementar sus soluciones. Midiendo las mejoras, se puede mostrar fácilmente el valor de las soluciones a los principales interesados. Además, este enfoque le permite un cierto grado de control sobre su trabajo, en caso de que su mejora falle y conduzca a problemas aún peores de calidad de datos. Puede medir las dimensiones suaves realizando entrevistas continuas con los usuarios finales y expertos de dominio. Puede guardar los resultados de las entrevistas en un data warehouse de calidad de datos especial para rastrear la calidad de datos a través del tiempo. Para las dimensiones duras, puede medirlas automáticamente en un calendario predefinido, y de nuevo almacenar los resultados en el data warehouse de calidad de datos.
Aunque esto no fue mencionado como un paso de la actividad de calidad de datos explicito, es muy importante comunicar acciones y resultados a través del proyecto. Mientras más comunicación tenga, mejor. Los expertos de dominio siempre pueden ayudarle con sus conocimientos. Los profesionales de TI y los usuarios finales ponen mucho más esfuerzo en ayudar a un proyecto a alcanzar el éxito si están involucrados, si consideran que el proyecto es su proyecto. Los principales interesados ​​siempre deben saber cómo avanza el proyecto y deben estar involucrados en todas las etapas de decisión.