Controlling the Correctness of Aggregation Operations During Sessions of Interactive Analytic Queries - Sorbonne Université
Article Dans Une Revue Journal of data and information quality Année : 2023

Controlling the Correctness of Aggregation Operations During Sessions of Interactive Analytic Queries

Contrôle de l'exactitude d'opérations d'agrégation pendant les sessions de requêtes analytiques interactives

Eric Simon
  • Fonction : Auteur
Bernd Amann

Résumé

We present a comprehensive set of conditions and rules to control the correctness of aggregation queries within an interactive data analysis session. The goal is to extend self-service data preparation and BI tools to automatically detect semantically incorrect aggregate queries on analytic tables and views built by using the common analytic operations including filter, project, join, aggregate, union, difference, and pivot. We introduce aggregable properties to describe for any attribute of an analytic table, which aggregation functions correctly aggregate the attribute along which sets of dimension attributes. These properties can also be used to formally identify attributes which are summarizable with respect to some aggregation function along a given set of dimension attributes. This is particularly helpful to detect incorrect aggregations of measures obtained through the use of non-distributive aggregation functions like average and count. We extend the notion of summarizability by introducing a new generalized summarizability condition to control the aggregation of attributes after any analytic operation. Finally, we define propagation rules which transform aggregable properties of the query input tables into new aggregable properties for the result tables, preserving summarizability and generalized summarizability.
Nous présentons un ensemble complet de conditions et de règles pour contrôler l'exactitude des requêtes d'agrégation dans une session interactive d'analyse de données. L'objectif est d'étendre les outils de préparation de données et de BI en libre-service afin de détecter automatiquement les requêtes d'agrégation sémantiquement incorrectes sur les tables et vues analytiques construites à l'aide des opérations analytiques courantes, notamment la sélection, la projection, la jointure, l'agrégation, l'union, la différence et le pivot. Nous introduisons des propriétés d'agrégation pour décrire, pour tout attribut d'une table analytique, quelles fonctions d'agrégation agrègent correctement l'attribut selon quels ensembles d'attributs de dimension. Ces propriétés peuvent également être utilisées pour identifier formellement les attributs qui peuvent être agrégés par une fonction d'agrégation sur un ensemble d'attributs de dimension. Ceci est particulièrement utile pour détecter les agrégations incorrectes de mesures obtenues par l'utilisation de fonctions d'agrégation non distributives comme la moyenne et le compteur. Nous étendons la notion de résumabilité en introduisant une nouvelle condition de résumabilité généralisée pour contrôler l'agrégation des attributs après toute opération analytique. Enfin, nous définissons des règles de propagation qui transforment les propriétés d'agrégation des tables d'entrée des requêtes en nouvelles propriétés d'agrégation pour les tables de résultats, en préservant la résumabilité et la résumabilité généralisée.

Dates et versions

hal-03953096 , version 1 (23-01-2023)

Identifiants

Citer

Eric Simon, Bernd Amann, Rutian Liu, Stéphane Gançarski. Controlling the Correctness of Aggregation Operations During Sessions of Interactive Analytic Queries. Journal of data and information quality, In press, ⟨10.1145/3575812⟩. ⟨hal-03953096⟩
103 Consultations
0 Téléchargements

Altmetric

Partager

More