11 agosto 2015

Mantenimiento y Seguridad del Data Quality Services

La administración del Data Quality Services incluye el mantenimiento y la seguridad, las copias de seguridad de las bases de datos DQS, el establecimiento de los ajustes de configuración, el monitoreo de las actividades DQS y registro, y la configuración de los valores umbrales para la limpieza y la coincidencia.

Realizando Actividades Administrativas con Data Quality Client

Puede realizar la mayoría de las actividades administrativas para Data Quality Services con la aplicación Data Quality Client. Con Data Quality Client, puede:
·         Monitorear las actividades de DQS.
·         Configurar los ajustes del servicio de datos de referencia.
·         Configurar los valores umbrales para la limpieza y la coincidencia.
·         Activar o desactivar las notificaciones.
·         Configurar el registro.
Aprenderá acerca del monitoreo de actividades DQS en la práctica al final de esta post. Por lo tanto, esta sección empieza con una discusión de la configuración de los servicios de datos de referencia. Note que esta sección sólo explica cómo iniciar la configuración de los servicios de datos de referencia, debido a que estos no están disponibles aún en todos los mercados. Para la práctica de esta post, utilizará los datos de referencia integrados. El procedimiento para configurar los servicios de datos de referencia es:
1.    Abra la aplicación Data Quality Client y conéctese a su Data Quality Server.
2.    Haga clic en el botón Configuración en el área Administración de la pantalla (a la derecha). La ficha Datos de Referencia es seleccionada por defecto.
3.   Si ya tiene un ID de Cuenta de DataMarket, escríbalo en el primer cuadro de texto, como se muestra en la figura siguiente. Si no tiene uno, puede crear uno haciendo clic en el vínculo Crear un ID de Cuenta de DataMarket.
4.   Utilice el enlace Administrar mis Suscripciones a Proveedores de DataMarket RDS para configurar sus suscripciones DataMarket.
Note que los datos de referencia DataMarket aún no están disponibles para todos los mercados. El número de mercados a los cuales los datos de referencia están disponibles están creciendo continuamente, por lo que es posible que desee comprobar frecuentemente para ver si hay algo disponible para su país o región. La figura siguiente muestra un ejemplo de una pantalla que muestra que los datos de referencia todavía no están disponibles en un mercado en particular.
 
Puede utilizar la ficha Configuración General en la pantalla Administración del Data Quality Client para configurar los valores umbrales para la limpieza y la coincidencia. Puede configurar los siguientes valores:
·       Puntuación Mínima para Sugerencias. Este es el nivel de confianza que DQS utiliza para sugerir reemplazos para un valor durante la limpieza. El valor predeterminado es 0.7. El valor debe estar entre 0 y 1. Un valor alto significa menos sugerencias, y por lo tanto menos sustituciones. Debe realizar pruebas para determinar el valor más apropiado para la limpieza de una muestra de sus datos. Este valor debe ser menor o igual al valor para Puntuación Mínima de Correcciones Automáticas.
·         Puntuación Mínima de Correcciones Automáticas. Este es el nivel de confianza para corregir automáticamente un valor durante la limpieza. Al igual que con Puntuación Mínima para Sugerencias, debe realizar pruebas para determinar el valor más apropiado para sus datos.
·       Puntuación de Registro Mínima. Este es el valor umbral para la política de coincidencia. Denota el puntaje mínimo para que un registro sea considerado como una coincidencia para otro registro. El valor por defecto es 80 por ciento.
·      Habilitar Notificaciones. El perfilado de datos está integrado en DQS. El perfilado de datos proporciona información básica acerca de la calidad e integridad de sus datos. Una notificación DQS puede apuntar rápidamente a un problema potencial. Una notificación es indicada por un tooltip con un signo de exclamación en la ficha Profiling de un proyecto de calidad de datos, como se verá en la práctica de este post. Debido a que no hay impacto en el rendimiento si utiliza notificaciones, se recomienda que deje esta casilla seleccionada.
Los archivos de registro DQS ayudan en problemas de diagnóstico y resolucion de problemas con Data Quality Server, con Data Quality Client, y con el componente DQS Cleansing en Integration Services. El archivo de registro Data Quality Server es llamado DQServerLog.DQS_MAIN.log. Si utiliza la instalación de la instancia predeterminada, este archivo de registro es ubicado en la carpeta C:\Program Files\Microsoft SQL Server\MSSQL12.MSSQLSERVER\MSSQL\Log. Este es un archivo continuo también; puede eliminar los archivos de registro antiguos manualmente desde el Explorador de Windows.
El archivo de registro Data Quality Client, DQLog.Client.xml, es localizado en la carpeta %APPDATA%\SSDQS\Log. Puede encontrar la ubicación a la que la variable de sistema operativo %APPDATA% está apuntando, por utilizar la orden de línea de comando ECHO %APPDATA%. Por ejemplo, si ha iniciado sesión como administrador, este archivo estará en la carpeta C:\ Users \ Administrator \ AppData \ Roaming \ SSDQS \ Log. Este es un archivo continuo también. El componente DQS Cleansing en Integration Services registra las actividades al fichero DQSSSISLog.log, que también esta localizada en la carpeta %APPDATA%\SSDQS\Log.
Puede utilizar la ficha Configuración del Registro en la pantalla de ajustes de configuración del Data Quality Client para configurar niveles rigurosos para el registro de las diferentes actividades DQS. Puede configurar los siguientes ajustes de registro:
·         Administración de Dominio
·         KnowledgeDiscovery
·         Proyecto de Limpieza (excepto Reference Data Services)
·         Directiva de Coincidencia y Proyecto de Búsqueda de Coincidencias
·         Reference Data Services (RDS)
Puede configurar cada una de estas actividades a los siguientes niveles de registro:
·         Fatal. Esta configuración registrará los errores de ejecución críticos.
·         Error. Este ajuste registrará otros errores de ejecución.
·         Warn. Este ajuste registrará las advertencias acerca de eventos que podrían resultar en un error.
·         Info. Este ajuste registrará información sobre eventos en general.
·         Debug. Este ajuste registrará información detallada (verbose) acerca de eventos.
La figura siguiente muestra cómo los diversos ajustes de registro pueden ser modificados.
La sección Avanzada en la ficha Configuración de Registro le permite configurar ajustes rigurosos de registro a nivel modular. Los módulos son ensamblados del sistema DQS que implementan diversas funcionalidades en una característica en DQS. Generalmente, no tendrá la necesidad de utilizar estos ajustes de registro avanzados. Los utilizará sólo para rastrear problemas con un módulo específico.

Realizando Actividades Administrativas con Otras Herramientas

Los Data Quality Services deben ser administrados parcialmente en SQL Server Management Studio (SSMS) o con los comandos Transact-SQL. Con estas herramientas, puede administrar la seguridad y el backup y la restauración de bases de datos DQS.
La seguridad DQS utiliza la infraestructura SQL Server. Hay tres roles DQS predefinidos en la base de datos DQS_MAIN. Administra la seguridad DQS agregando usuarios a estos tres roles. Los roles son:
·      Administrator DQS (dqs_administrator). Los miembros de este rol pueden tener todo en el alcance del Data Quality Services. Pueden crear o editar una base de conocimiento, crear y ejecutar un proyecto DQS, terminar un proyecto en curso u otra actividad, detener un proceso, y cambiar los Reference Data Services y otros ajustes.
·        Editor DQS KB (dqs_kb_editor). Los miembros de este rol pueden editar y ejecutar un proyecto y crear y editar una base de conocimiento. Pueden monitorear toda la actividad DQS; sin embargo, los miembros de este rol no pueden detener una actividad o realizar otras tareas administrativas.
·       Operador DQS KB (dqs_kb_operator). Los miembros de este rol pueden editar y ejecutar un proyecto. Sin embargo, no pueden crear o modificar una base de conocimiento. Pueden monitorear toda la actividad DQS; sin embargo, los miembros de este rol no pueden detener una actividad o realizar otras tareas administrativas.
Los permisos para los roles son acumulativos. Los roles dqs_kb_editor y dqs_administrator son miembros del rol dqs_kb_operator, como se puede ver en la figura siguiente. El rol dqs_administrator es también un miembro del rol dqs_kb_editor.
 
Maneja la seguridad DQS agregando usuarios a roles DQS apropiados.
Hacer backup y restore de bases de datos DQS con las funcionalidades backup y restore regulares de SQL Server. Sin embargo, debe sincronizar los backups de las dos bases de datos DQS primarias, DQS_MAIN y DQS_PROJECTS. La tercera base de datos DQS, la base de datos DQS_STAGING_DATA, es menos importante, porque lo utiliza para datos de staging solamente. Puede incluso decidir no utilizarla para los datos de staging y operar en el contexto de otras bases de datos de usuario.
La limpieza de datos con DQS es usualmente una actividad ocasional, no un curso. Por lo tanto, puede decidir hacer backups completos de bases de datos solamente, y nunca un backup de los registros de transacciones. Si decide por los backups de bases de datos completos solamente, debe cambiar el modelo de recuperación de las tres bases de datos DQS a Simple.

Monitoreando la Actividad DQS

En los siguientes ejemplos, aprenderá cómo monitorear la actividad DQS con Data Quality Client. Con el fin de monitorear la actividad, crerá un proyecto DQS.

Crear un Proyecto DQS

Empieza con la creación de un proyecto DQS. Utiliza la base de conocimiento que viene con la instalación del Data Quality Services.
1.    Si cerró el Data Quality Client, inícielo y conéctese a la instancia de SQL Server que incluye las bases de datos DQS.
2.    En la pantalla inicial del cliente, en la sección Proyectos de Calidad de Datos, haga clic en el botón Nuevo Proyecto de Calidad de Datos. Nombre el proyecto a AWApellidos.
3.    Compruebe que la base de conocimiento DQS Data esta seleccionada. En el área Detalles de la Base de Conocimiento: DQS Data, seleccione el dominio US – Last Name.
4.  Verifique la parte inferior de la página para asegurarse que la actividad Limpieza esta seleccionada. Su página Nuevo Proyecto de Calidad de Datos debería ser similar a la figura siguiente. 
5.    Haga clic en Siguiente.
6. En la página Asignación, seleccione SQL Server como el Origen de Datos, AdventureWorksDW2014 como la Base de Datos, y DimCustomer como la Tabla/Vista.
7.    En la tabla Asignaciones, asigne la Columna de Origen a LastName de la tabla DimCustomer al Dominio US – Last Name. Debería tener el mismo ajuste como se muestra en la figura.
 
8.    Haga clic en Siguiente. En la página Limpieza, haga clic en el botón Iniciar.
9.    Una vez finalizada la limpieza, revise los perfiles resultantes en el área Generador de Perfiles. También verifique las notificaciones, que aparecerán como tooltips. Su página debe ser similar a la que se muestra en la figura siguiente.
10.  Haga clic en Siguiente.
11.  En la página Administrar y Ver Resultados, verifique los valores Sugerido, Nuevo, y Corregido. Después de que haya hecho la verificación, haga clic en Siguiente.
12.  En la página Exportación, haga clic en Finalizar (no exportará los resultados para este proyecto).

Monitorear la Actividad DQS

1.    En la ventana principal Data Quality Client, en el panel Administración, haga clic en el botón Supervisión de Actividades.
2.    En la ventana superior, haga clic en el proyecto AWApellidos. Los detalles del proyecto deberían aparecer en la ventana inferior. Compruebe la información Pasos de la Actividad y la información Generador de Perfiles. La figura siguiente muestra la ventana Pasos de la Actividad. 
3.    Note que puede exportar la actividad seleccionada a Excel utilizando el botón en la esquina superior derecha de la ventana Supervisión de Actividades.
Cierre la ventana Supervisión de Actividades. Cierre el Data Quality Client. 

1 comentarios:

Narcizo dijo...

Este post nos muestra un proyecto muy básico de DQS. Espero les sea de utilidad.