Problemas y Roles de Calidad de Datos - DQS ~ SQL Server Integration Services

Es difícil encontrar una empresa que no tenga algún problema de calidad de datos. Incluso si una aplicación de línea de negocio (LOB) utiliza un modelo relacional adecuado con todas las restricciones, aún esto no garantiza que los datos siempre sean precisos. Los modelos de bases de datos y las restricciones realizan la integridad de datos. La integridad de datos significa que los datos cumplen con las reglas del negocio. La calidad de datos es un término muy estricto; incluso si los datos cumplen con las reglas del negocio, todavía pueden ser erróneos. Por ejemplo, considere una regla de negocio que dice que una columna que contiene enteros representando un porcentaje de descuento puede tomar valores de un dominio de enteros entre 0 y 100. Si la columna contiene un valor de 45 en lugar de 54, este cumple con las reglas de negocio, pero los datos aún no son precisos.

La calidad de datos trata con cuestiones tales como la precisión y problemas similares: ¿Está la información completa? ¿Es confiable? ¿Están los datos disponibles en el momento oportuno? Todos estos son problemas de calidad de datos. Puede resolver problemas de calidad de datos de una manera reactiva, por constantemente perfilar y corregir los datos. También puede resolver problemas de calidad de datos de una manera proactiva. Esto puede ser hecho definiendo los datos más importantes, los datos maestros, y luego implementar una solución de gestión de datos maestros (MDM). La base de datos de solución MDM es entonces un origen autorizado de datos maestros.

La calidad de datos utiliza dos características en la suite de Microsoft SQL Server 2014: Microsoft SQL Server 2014 Data Quality Services (DQS) y Microsoft SQL Server 2014 Master Data Services (MDS). El DQS ayuda a perfilar y corregir los datos, y el MDS es una solución de gestión de datos maestros.

La calidad de datos está indivisiblemente intercalada con la Gestión de Datos Maestros (MDM). El objetivo más importante de una solución MDM es elevar la calidad de los datos maestros. Los problemas de calidad de datos deben ser abordados en cualquier proyecto MDM. Sin embargo, las actividades de calidad de datos, tales como el perfilado de datos, encuentran la causa raíz de la pobreza de los datos, y las mejoras de la calidad pueden ser también independientes de un proyecto MDM. Es posible para una empresa definir las políticas y los procesos de calidad de datos a través de aplicaciones existentes, pero una solución especializada MDM puede mitigar mucho la implementación de estas políticas.

Antes de definir sus actividades de calidad de datos, debe decidir para qué aspectos medirá y mejorará la calidad de sus datos. Las dimensiones de calidad de datos capturan un aspecto específico de la calidad de datos en general. La medida de la calidad de datos, también conocida como perfilado de datos, debería ser una parte integral de la implementación de una solución MDM. Siempre debe obtener una comprensión a fondo de los datos de origen antes de empezar a fusionarlos. También debe medir las mejoras de calidad de datos sobre el tiempo, para entender y explicar el impacto de la solución MDM. Esta post empieza por describir las dimensiones de calidad de datos, explicando los diferentes aspectos de calidad de datos que pueden ser medidos y la mejor manera de medirlos. Entonces trata con actividades de calidad de datos y las personas que ejecutan estas actividades. Aprenderá acerca de los roles específicos de calidad de datos y de gestión de datos maestros.

Dimensiones de Calidad de Datos

Las dimensiones de calidad de datos pueden referirse a valores de datos o a su esquema. La evaluación de la calidad de un modelo relacional o dimensional no puede ser hecha con Data Quality Services. Este capítulo se centra en las dimensiones puras de calidad de datos y de Data Quality Services, aunque en aras de la exhaustividad, las dimensiones de calidad de esquema son también descritas en este post.

No hay un consenso sobre qué dimensiones de calidad de datos deberían ser inspeccionadas. Diferentes herramientas y diferentes libros enumeran diferentes conjuntos de dimensiones. Sin embargo, algunas dimensiones son analizadas con más frecuencia que otras. Esta lección se enfoca en las analizadas con más frecuencia.

Puede medir algunas dimensiones de calidad de datos con herramientas como las consultas Transact-SQL. Las dimensiones medibles son llamadas dimensiones duras. En contraste, algunas dimensiones dependen de la percepción de los usuarios de los datos; éstos se llaman dimensiones suaves. No puede medir las dimensiones suaves directamente; puede medirlas en forma indirecta a través de entrevistas con los usuarios de los datos o de cualquier otro tipo de comunicación con los usuarios. Tenga en cuenta que esta comunicación puede incluir lamentablemente eventos desagradables, como las quejas de los clientes, que son los eventos que desea evitar. Este post describe las dimensiones duras en detalle y toma sólo una visión rápida de las dimensiones suaves y de esquema.

Integridad (Completeness)

La Integridad es una de las dimensiones más fáciles de medir. Puede empezar a medirlo a un nivel de población. En un supuesto mundo cerrado, se puede afirmar que no hay otros valores excepto los valores actualmente presentes en una tabla relacional, que representan hechos en el mundo real. Si la relación no tiene valores desconocidos (NULLs), la relación está completa desde la perspectiva de la población. En un supuesto mundo abierto, no se puede afirmar la integridad de la población, incluso si su relación no contiene valores desconocidos. Con el fin de evaluar la integridad de una relación en un supuesto mundo abierto, necesita obtener una relación de referencia que contiene toda la población. Cuando se tiene una relación de referencia, se puede definir la integridad como la proporción del número de tuplas presentadas en la relación y el número de tuplas en la relación de referencia. Debido a la privacidad y restricciones regladas, normalmente no es posible adquirir la relación de referencia. Sin embargo, usualmente puede obtener al menos el número de tuplas en una relación de referencia. Por ejemplo, puede obtener fácilmente el número de ciudadanos de un país. Desde un punto de vista técnico, es muy fácil medir la integridad de una relación cuando se tiene el número de tuplas en una relación de referencia.

En un supuesto mundo cerrado en una base de datos relacional, la presencia de NULLs es lo que define la integridad. Se podría medir la integridad de atributo (el número de NULLs en un atributo específico), la integridad de tupla (el número de valores desconocidos de los atributos en una tupla), y la integridad de relación (el número de tuplas con valores de atributos desconocidos en la relación). Por último, también se puede medir la integridad de valor, lo que tiene sentido para las columnas complejas, semi-estructuradas asi como las columnas de tipo de datos XML. En una instancia XML, un elemento completo o un atributo puede estar faltando. Además, los estándares XML también definen un atributo xsi:nil especial como un marcador de posición para los valores faltantes; esto es similar al NULL relacional.

Precisión (Accuracy)

La precisión es una dimensión complicada. Primero, tiene que determinar que es impreciso. La precisión es más estricta que sólo ajustarse a las reglas de negocio; esta última debe cumplir con la integridad de datos. Para los datos que deberían ser únicos, los valores duplicados son imprecisos. Encontrar valores duplicados podría llevarse a cabo con bastante facilidad con consultas simples, o puede ser muy difícil, si tiene que encontrar los duplicados a través de diferentes sistemas. Encontrar otros datos imprecisos puede implicar algún trabajo manual. Con varios algoritmos, puede extraer datos que son sólo potencialmente imprecisos.

Podemos ofrecer algunos consejos sobre cómo aislar los datos imprecisos. Para los valores de datos discretos, puede utilizar la distribución de frecuencias de los valores. Un valor con una frecuencia muy baja es potencialmente incorrecto. Para las cadenas, se puede buscar por distribución de longitud de cadena. Una cadena con una longitud muy atípica es potencialmente incorrecta. Para las cadenas, también puede tratar de encontrar patrones y luego crear la distribución de patrones. Los patrones con baja frecuencia probablemente denotaran valores erróneos. Para los atributos continuos, puede utilizar estadísticas descriptivas. Sólo mirando a los valores mínimos y máximos, se puede fácilmente detectar a los datos potencialmente problemáticos. No importa cómo encuentra los datos imprecisos, puede marcarlo y luego medir el nivel de precisión. Puede medir esto para las columnas y las tablas.

Información

Otra dimensión medible es la información. La Teoría de la Información, es una rama de las matemáticas aplicadas, define la entropía como la cuantificación de la información en un sistema. Puede medir la entropía sobre un nivel de columna y de tabla. Los valores más dispersos que tiene y los de mayor distribución de frecuencia de una columna discreta son igualmente repartidos entre los valores, cuanta más información tenga la columna. La información no es una dimensión directa de calidad de datos; sin embargo, puede decirle si sus datos son adecuados para el análisis o no.

Consistencia

La consistencia mide la equivalencia de la información almacenada en diferentes bases de datos. Puede encontrar muchos datos inconsistentes por comparar los valores con un conjunto predefinido de valores posibles; puede encontrar algunas inconsistencias por comparar los datos entre los sistemas. Puede encontrar algunas inconsistencias manualmente. No importa cómo encuentra las inconsistencias, puede marcarlas y luego medir el nivel de inconsistencia sobre el nivel de columna o de tabla.

Analizar tanto la dimensión de calidad de datos dura como la suave es considerada una buena práctica.

Dimensiones Suaves de Calidad de Datos

Puede medir la dimensión suave indirectamente, a través de la interacción con los usuarios. Los cuestionarios, encuestas rápidas, quejas de usuarios, o cualquier otro tipo de comunicación con los usuarios de datos, son sus herramientas para medir la calidad de las dimensiones de datos suaves. La siguiente lista incluye algunas de las dimensiones suaves típicas:

· Disponibilidad (Timeliness). Esto le indica el grado en que los datos están actualizados y disponibles cuando se necesitan. Siempre hay un cierto retraso entre el cambio en el mundo real y el momento cuando este cambio es ingresado a un sistema. Aunque los datos obsoletos pueden aparecer en cualquier sistema, esta dimensión es especialmente importante para los sitios y aplicaciones web. Un problema común en la web es que los propietarios no actualizan los sitios en una manera oportuna; puede encontrar un montón de información obsoleta en la web.

· Facilidad de Uso. Esta es una dimensión muy típica que confía en la percepción del usuario. La facilidad de uso depende de la aplicación o de la interfaz de usuario. Además, los usuarios de datos también perciben el uso como complejo porque no están capacitados.

· Proposito (Intention). ¿Es el dato, el dato correcto para su uso previsto? A veces no tiene los datos exactos que necesita; sin embargo, puede sustituir los datos necesarios con los datos del que tiene información similar. Por ejemplo, puede utilizar los códigos de área telefónica en lugar de los códigos postales para localizar clientes aproximadamente. Aunque los números de teléfono no estaban destinados para el análisis, pueden darle resultados razonables. Un ejemplo de un uso no intencionado inútil es el uso de una columna en una tabla para almacenar la información no relacionada, tal como usar la columna del nombre del producto para almacenar la taxonomía del producto. Este es un uso no intencionado del esquema, que conduce a muchos problemas con la limpieza y la integración de datos.

· Confianza (Trust). Tiene que preguntar a los usuarios si confían en los datos. Esta es una dimensión muy importante. Si los usuarios no confían en los datos de los sistemas operacionales, crearán sus propias pequeñas, probablemente no estructuradas, bases de datos. La integración de datos maestros de orígenes no estructurados es muy difícil. Si los usuarios no confían en los datos de las aplicaciones analíticas, simplemente dejaran de usarlos.

· Calidad de Presentación. Esta es otra dimensión que depende de la percepción del usuario. Cuando una aplicación presenta datos, el formato y la apariencia deben apoyar el uso adecuado de la información. En los sistemas operacionales, esta dimensión está estrechamente relacionado con la facilidad de uso de la dimensión y depende mucho de la interfaz de usuario. Por ejemplo, una aplicación puede obligar a los usuarios a introducir fechas manualmente o guiarlos a través de un control de calendario. En los sistemas analíticos, la presentación es probablemente aún más importante. ¿Se muestran los datos en gráficos o en tablas? ¿Cuánta interactividad debería poner en sus reportes? Preguntas como esta y respuestas a estas preguntas pueden tener una gran influencia en el éxito o el fracaso de los sistemas analíticos.

Dimensiones Esquema de Calidad de Datos

Una percepción común es que la calidad del esquema no puede ser medida automáticamente. Bueno, esto es cierto para algunas dimensiones; no puede medirlas sin profundizar en un problema del negocio. Sin embargo, es posible encontrar algoritmos y crear procedimientos que ayuden a medir alguna parte de la calidad del esquema. Seguido se lista las dimensiones de calidad de esquema más importantes, con una breve descripción de cómo medirlos, cuando es aplicable.

· Integridad de Esquema Esto le dice para extender a cual esquema cubre el problema del negocio. No se puede medir esta dimensión sin un análisis profundo del problema de negocio y sus necesidades.

· Exactitud de Esquema. La exactitud de un modelo se refiere a la representación correcta de los objetos del mundo real en el esquema y la representación correcta de los requerimientos. Por ejemplo, un nombre puede ser modelado como una entidad con una relación uno-a-uno a la entidad Customers o como un atributo de la entidad Customers. Por supuesto, esta última es la correcta. El nombre no puede ser identificado únicamente, por lo que no es una entidad. Este es el problema con los intentos de representar correctamente los objetos del mundo real. Un ejemplo de inexactitud que tiene que ver con los requerimientos es el siguiente modelo de departamentos y directores. Si un requerimiento dice que un director puede gestionar un solo departamento y que cada departamento tiene un único director, entonces, la relación entre los directores y los departamentos debe ser uno a uno. Modelar esta relación como de muchos a muchos sería un esquema incorrecto. Puede medir esta dimensión manualmente, investigando los requerimientos del negocio y las definiciones de objetos y su representación en el esquema.

· Documentación Esto le indica si el esquema está debidamente documentado. Los diagramas de esquema, como los diagramas entidad-relación, siempre deben ser parte de la documentación. Además, todas las reglas de negocio que no pueden ser representadas en un diagrama, deberían ser documentadas en formato de texto. En resumen, debe tener la documentación completa de un esquema conceptual. Puede comprobar la calidad de esta dimensión manualmente, con una vista general de la documentación del esquema.

· Conformidad con los modelos teóricos ¿Está el esquema de base de datos para aplicaciones transaccionales en un esquema relacional especializado y normalizado adecuadamente, y el esquema para un data warehouse consta de esquemas de Estrella? Esta dimensión debe ser parcialmente medida manualmente, con una visión general del modelo de datos. Sin embargo, se puede encontrar algunas áreas problemáticas en el esquema proceduralmente. Por ejemplo, puede comprobar las correlaciones entre los atributos no-llave; los atributos con muy alta correlación en una tabla pueden indicar que el esquema no está normalizado, o al menos no lo está en la tercera forma normal. Además, muchos NULLs pueden indicar que no hay suficiente especialización, es decir, subtipos en el esquema. Esto es especialmente cierto si algunos valores de un atributo siempre conducen a NULLs en otro atributo. Puede medir esto con consultas de base de datos.

· Minimalización. La abstracción es una técnica de modelado muy importante. Esto significa que debería tener solo objetos en un modelo que sean importantes para los problemas del negocio que está resolviendo. El número de entidades de esquema debería ser mínimo y no debería incluir objetos que no son pertinentes al problema del esquema que está resolviendo. Una vez más, puede medir esta dimensión con una visión general manual y la comparación a los requerimientos del negocio.

Actividades y Roles de Calidad de Datos

Los proyectos de calidad de datos son muy intensivos en términos de recursos necesarios. Con el fin de ejecutar un proyecto exitosamente, tiene que mostrar los posibles beneficios a los principales interesados. En primer lugar, es necesario entender las necesidades del negocio. Puede utilizar entrevistas, descripciones de los organigramas, análisis de las prácticas existentes en una empresa, y otras fuentes de información. Debe priorizar los problemas del negocio y hacer un plan de proyecto claro. Para que un proyecto sea exitoso, es importante empezar con un área de negocio que sea muy critico para los interesados o con un problema de negocio que sea bastante simple de resolver. Siempre debe implementar proyectos de calidad de datos paso a paso.

Antes de empezar cualquier proyecto de calidad de datos o MDM, tiene que entender los orígenes y destinos de los datos problemáticos. Por lo tanto, las actividades de calidad de datos deben incluir una visión general. Debe tener una visión general amplia de todos los esquemas de las bases de datos que se refieren a los datos del problema. Deberia entrevistar a los expertos de dominio y usuarios de datos. Esto es especialmente importante para obtener una comprensión de la calidad de las dimensiones de esquema. Además, después de este paso, debe también tener un claro entendimiento de la tecnología que la empresa está utilizando. Si es necesario, puede necesitar planificar el incluir expertos en tecnología adecuados en el proyecto. Durante la visión general de los datos, también debe centrarse en el ciclo de vida de los datos de manera que pueda comprender los períodos de retención y similares.

El siguiente paso es la evaluación de la calidad de datos. Puede evaluar las dimensiones duras con el análisis procedural de los datos, también conocido como perfilado de datos. Hay muchas herramientas diferentes para el perfilado de datos. Debe aprovechar todo el conocimiento que tiene y todas las herramientas disponibles para esta tarea. Deberia medir las dimensiones suaves de calidad de datos en este paso también. Puede obtener una gran cantidad de conocimiento sobre el estado de la empresa por la comparación de las dimensiones duras y suaves. Si su evaluación de las dimensiones duras es mala, pero obtiene buenas evaluaciones de las dimensiones suaves, entonces la compañía no se dará cuenta de que tiene problemas con los datos. En tal caso, la valoración adicional de los potenciales daños causados por los malos datos puede ayudar a los principales interesados a comprender los problemas de calidad de datos. Si ambas dimensiones suaves y duras son evaluadas bajas, entonces la empresa está lista para un proyecto de calidad de datos y/o MDM. Si las dimensiones duras obtienen buenas evaluaciones, mientras que las dimensiones suaves obtienen malas evaluaciones, esto significa que por alguna razón los expertos de dominio y los usuarios no confían en los datos. Por lo general, esta situación se debe a un sistema anterior, una versión anterior del sistema, o la falta de educación. Si ambas dimensiones duras y blandas obtienen buenas evaluaciones, la empresa no necesita un proyecto de calidad de datos especial; sin embargo, la empresa aún podría decidir iniciar un proyecto MDM con el fin de minimizar los gastos con el mantenimiento de datos maestros.

Después de terminar con la evaluación de los datos, puede volver a evaluar el impacto en el negocio de los datos de calidad baja. Debe reunirse de nuevo con los principales interesados a fin de revisar las prioridades y elaborar la parte de las mejoras del plan del proyecto en detalle.

Antes de que pueda empezar a mejorar la calidad de los datos, es necesario encontrar las causas raíces de los malos datos. Encontrar las causas raíces puede reducir sustancialmente el volumen de trabajo necesario para la mejora de la calidad de datos. Para encontrar las causas raíces, puede utilizar el método de los "cinco porqués" introducido por Sakichi Toyoda y utilizado primero en la Toyota Motor Corporation. Con este método, simplemente pregunta "por qué" cinco veces. Por ejemplo, supongamos que el problema es con los registros duplicados para los clientes. Aplicar el enfoque de los "cinco porqués" para encontrar la causa raíz, luce como esto:

· Puede preguntar por qué hay registros duplicados. Una respuesta podría ser, debido a que los operadores con frecuencia insertan nuevos registros de clientes en lugar de utilizar los ya existentes.

· Debe preguntar el segundo por qué: ¿Por qué los operadores crean nuevos registros para los clientes existentes? La respuesta podría ser, debido a que los operadores no buscan los registros existentes de un cliente.

· A continuación, debe preguntar el tercer por qué: ¿Por qué no buscan? La respuesta podría ser, debido a que la búsqueda tarda mucho tiempo.

· El siguiente por qué es, por supuesto, ¿Por qué tarda mucho tiempo? La respuesta podría ser, porque es muy difícil buscar los clientes existentes.

· Ahora la pregunta final, el quinto por qué: ¿Por qué la búsqueda es tan difícil? La respuesta podría ser, debido a que el operador puede buscar sólo valores exactos, no por cadenas aproximadas, y el operador no tiene un nombre, una dirección o un número de teléfono exacto de un cliente en la memoria. Ha encontrado la causa raíz de la duplicación para este ejemplo, el problema es con la aplicación, específicamente con la interface de usuario. Ahora ya sabe dónde poner el esfuerzo con el fin de reducir el número de duplicados.

Por supuesto, el método de los "cinco porqués" no es la única técnica para la búsqueda de las causas raíces. También puede hacer un seguimiento de una pieza de información a través de su ciclo de vida. Por su seguimiento, puede fácilmente observar el momento en que se convierte en inexacta. Puede encontrar causas raíces para algunos problemas procedurales también. Por ejemplo, puede encontrar que los NULLs están en el sistema debido a la ausencia de subtipos con consultas. No importa cómo encuentres las causas raíces, tiene que utilizar esta información para preparar un plan de mejora detallado.

Un plan de mejora debería incluir dos partes: la corrección del dato existente y, aún más importante, la prevención de errores futuros. Si se centra en la corrección de los datos existentes solamente, tendrá que repetir la parte de corrección de las actividades de calidad de datos regularmente. Por supuesto, necesita dedicar algún tiempo a corregir los datos existentes; sin embargo, no hay que olvidar la parte de prevención. Cuando tiene las dos partes del plan de mejora, puede empezar a implementarla.

La implementación de medidas correctivas implica métodos de limpieza automática y manual. Los métodos de limpieza automática pueden incluir sus propios procedimientos y consultas. Si tiene conocimiento de la lógica para corregir los datos, debe utilizarla. Puede resolver problemas de consistencia por definir una sola manera de representar los datos en todos los sistemas y, entonces, reemplazar las representaciones inconsistentes con las recientemente definidas. Por ejemplo, si el género está representado en algún sistema con los números 1 y 2, pero han decidido que deben estar representados con las letras F y M, puede sustituir los números por letras en una sola sentencia de actualización. Para la de-duplicación y la fusión de diferentes orígenes, puede utilizar algoritmos de coincidencia de cadenas. Para corregir direcciones, puede utilizar herramientas de validación y de limpieza que ya existen en el mercado y utilizar algunos registros de direcciones válidas. Sin embargo, debería siempre estar preparado para el hecho de que parte de la limpieza de datos debe ser realizada manualmente.

Prevenir nuevas inserciones de datos inexactos implica diferentes técnicas también. La más importante es la implementación de una solución MDM. Para una solución MDM, necesita una aplicación MDM. SQL Server Master Data Services es un ejemplo de la herramienta que podría utilizar.

Además de permitir el almacenamiento central de datos maestros y sus metadatos, la aplicación MDM tiene que soportar flujos de trabajo de stewardship de datos explícitos, control de versiones, auditoría, y gobierno de datos El gobierno de datos se refiere a las actividades realizadas para mejorar y mantener la calidad de los datos; los stewards de datos son las personas responsables de estas actividades. Para que un proyecto de calidad de datos y/o gestión de datos maestros sea exitoso, los roles para stewardship de datos explícitos deben ser definidos. Además de la solución de calidad de datos o MDM, también debería enfocarse en los sistemas de origen. Es muy poco probable que su solución siempre cubra todas las posibles entidades maestras con todos sus atributos. Por lo tanto, parte de los datos todavía serán mantenidos en el origen, en aplicaciones operacionales. Tiene que aplicar los modelos de datos apropiados, restricciones y buenas interfaces de usuario siempre que sea posible.

Después de haber implementado las soluciones correctivas y preventivas de calidad de datos, debería medir cómo se realizan. Incluso mejor, debería preparar la infraestructura de mejora de antemano, antes de comenzar a implementar sus soluciones. Midiendo las mejoras, se puede mostrar fácilmente el valor de las soluciones a los principales interesados. Además, este enfoque le permite un cierto grado de control sobre su trabajo, en caso de que su mejora falle y conduzca a problemas aún peores de calidad de datos. Puede medir las dimensiones suaves realizando entrevistas continuas con los usuarios finales y expertos de dominio. Puede guardar los resultados de las entrevistas en un data warehouse de calidad de datos especial para rastrear la calidad de datos a través del tiempo. Para las dimensiones duras, puede medirlas automáticamente en un calendario predefinido, y de nuevo almacenar los resultados en el data warehouse de calidad de datos.

Aunque esto no fue mencionado como un paso de la actividad de calidad de datos explicito, es muy importante comunicar acciones y resultados a través del proyecto. Mientras más comunicación tenga, mejor. Los expertos de dominio siempre pueden ayudarle con sus conocimientos. Los profesionales de TI y los usuarios finales ponen mucho más esfuerzo en ayudar a un proyecto a alcanzar el éxito si están involucrados, si consideran que el proyecto es su proyecto. Los principales interesados siempre deben saber cómo avanza el proyecto y deben estar involucrados en todas las etapas de decisión.

SQL Server Integration Services

09 agosto 2015