Normalizzazione di schemi relazionali

Problema generale

La progettazione concettuale e logica produce uno schema relazionale che rappresenta la realtà dei dati nella nostra applicazione, ma alcune volte ci sono delle cose che possono essere ottimizzate, si seguito vedremo delle tecniche che ci permettono di farlo

Ridondanze

Abbiamo la seguente identità: StudenteEsami(Matricola, Nome, Telefono, Corso, Voto) Notiamo subito che ci sono dei problemi:

Anomalia di aggiornamento: se il telefono dello studente cambia allora deve essere cambiato in ogni suo esame
Anomalia della cancellazione: se vengono annullati gli esami dati non rimane traccia dello studente
Anomalia di inserimento: se uno studente non ha ancora dato esami non può essere inserito La soluzione a tutte queste anomalie è decomporre in due relazioni.

Dipendenze funzionali

Una dipendenza funzionale è un particolare vincolo di integrità che esprime legami funzionali tra gli attributi di una relazione

Esempio: prendendo in esame l’entità StudenteEsami descritta prima abbiamo che:

Matricola $\to$ Nome, Telefono
Matricola, Corso $\to$ Voto

Dati:

$R (A_{1}, A_{2}, \dots, A_{n})$ uno schema di relazione
$X$ e $Y$ sottoinsiemi di $A_{1}, A_{2}, \dots, A_{n}$

Diciamo che X implica funzionalmente Y in simboli $X \to Y$ per ogni relazione $r$ dello schema $R$ , se due tuple $t_{1}$ e $t_{2}$ di $r$ coincidono su tutti gli attributi di $X$ allora devono anche coincidere su tutti gli attributi di $Y$

Notazione: di seguito la notazione

$A, B, \dots$ attributi
$U, B, W, X, Y, Z$ insieme di attributi
$R$ schema di relazione, $r$ relazione
$A BC$ sta per ${A, B, C}$
$X Y$ sta per $X \cup Y$
$X A$ e $A X$ stanno per $X \cup A$

Definizioni

Soddisfazioni di dipendenze funzionali: diciamo che una relazione $r$ soddisfa la dipendenza funzionale $X \to Y$ se per ogni coppia di tuple $t_{1}$ e $t_{2}$ in $r$ si ha che:

$t_{1} [X] = t_{2} [X]$ implica $t_{1} [Y] = t_{2} [Y]$

Logica delle dipendenze funzionali:

Sia $F$ un insieme di dipendenze funzionali per uno schema $R$
Sia $X \to Y$ una dipendenza funzionale. Diciamo che F logicamente implica $X \to Y$ e si scrive $F ⊨ X \to Y$ se per ogni relazione r di $R$ che soddisfa tutte le dipendenze di $F$ , $r$ soddisfa anche $X \to Y$ Esempio: ${A \to B, B \to C} ⊨ A \to C$

Chiusura di un insieme di dipendenze funzionali: Dato un insieme $F$ di dipendenze funzionali la sua chiusura $F^{+}$ è l’insieme delle dipendenze funzionali che sono implicate logicamente da $F$ in simboli: $F^{+} = {X \to Y ∣ F ⊨ X \to Y}$ Chiavi per uno schema con insieme di dipendenze funzionali: Sia:

$R (A_{1}, A_{2}, \dots, A_{n})$
$F$ un insieme di dipendenze su $R$
$X$ sottoinsieme di ${A_{1}, A_{2}, ..., A_{n}}$ . Si dice che $X$ è una chiave di $(R, F)$ se:
$X \to A_{1} A_{2} \dots A_{n} \in F^{+}$
$Y \to A_{1} A_{2} \dots A_{n} \in / F^{+}$

Commenti:

Un istanza di uno schema che rispetti una data dipendenza funzionale viene detta istanza legale
Se $X$ è una chiave in uno schema $R$ allora ogni altro attributo di $R$ dipende funzionalmente da $X$
Dire che $X \to Y$ significa asserire che i valori della componente $Y$ dipendono e da i valori della componente $X$
Se $X \to Y$ non necessariamente risulta anche $Y \to X$

Necessità di calcolo logico

Il problema è quello di calcolare la chiusura di un insieme $F$ di dipendenze funzionali.

Per fare ciò definiamo un calcolo logico tale che $F ⊨ X \to Y$ se e soltanto se $X \to Y$ si può sintatticamente dedurre da $F$ nel calcolo logico.

Assiomi di Armstrong

Di seguito i vari assiomi:

$U = {A_{1}, A_{2}, \dots A_{n}}$ un universo di attributi
Riflessività: $Se Y \subseteq X \subseteq U allora F ⊢ X \to Y$
Aumento: $Se F ⊢ X \to Y allora F ⊢ XZ \to Y Z$
Transitività: $Se F ⊢ X \to Y e F ⊢ Y \to Z allora F ⊢ X \to Z$

Deducibilità di dipendenze funzionali

Diciamo che $F ⊢ X \to Y$ se $X \to Y$ si può dedurre da $F$ applicando un numero finito di volte gli assiomi di Armstrong. Esempio: ${A \to B, B \to C, C \to D} ⊢ A \to D$ applicando 2 volte la transitività il risultato dovrà rispetta le due proprietà di seguito:

Correttezza: Se $F ⊢ X \to Y$ allora $F ⊨ X \to Y$
Completezza: $F ⊨ X \to Y$ allora $F ⊢ X \to Y$ Se gli assiomi di Armstrong sono dimostrabili allora siamo in grado di capire se una dipendenza funzionale è valida

Di seguito le dimostrazioni:

Lemmi per derivare le dipendenze funzionali

Regola di decomposizione: Se $F ⊢ X \to Y$ e $Z \subset Y$ allora $F ⊢ X \to Z$ Regola dell’unione: Se $F ⊢ X \to Y$ e $F ⊢ X \to Z$ allora $F ⊢ X \to Y Z$ Regola di pseudotransitività: Se $F ⊢ X \to Y$ e $F ⊢ WY \to Z$ allora $F ⊢ W X \to Z$ Lemma fondamentale: Definiamo $X_{F}^{+} = {A ∣ F ⊢ X \to A}$ e diciamo che $F ⊢ X \to Y se e solo se Y \subseteq X^{+}$

Dimostrazione di completezza

Chiusure, equivalenze e ricoprimenti minimi

Calcolo delle chiusure

Ricordiamo che il calcolo di $F^{+} = {X \to Y ∣ F ⊨ X \to Y}$ può essere particolarmente costoso

Ad esempio se $F = {A \to B_{1}, A \to B_{2}, \dots, A \to B_{n}}$ allora $F^{+}$ include $A \to Y$ per ogni $Y$ sottoinsieme di ${B_{1}, B_{2}, \dots, B_{n}}$ . Quindi ha cardinalità almeno $2^{n}$ .

Invece calcolare $X_{F}^{+} = {A ∣ F ⊢ X \to A}$ è molto più semplice e lo si fa attraverso il seguente algoritmo:

Equivalenze di dipendenze funzionali

Siano $F, G$ insiemi di dipendenze funzionali allora diciamo che sono equivalenti se $F^{+} = G^{+}$ . La relazione di equivalenza tra insiemi di dipendenze ci permette di capire quando due schemi di relazione rappresentano gli stessi fatti, e si fa usando il seguente algoritmo:

Per ogni $Y \to Z$ in $F$ controlliamo se essa è in $G^{+}$ calcolando $Y_{G}^{+}$ e controllando se $Z \subseteq Y_{G}^{+}$ questo implica $F^{+} \subseteq G^{+}$
Viceversa in maniera analoga si può controllare se $G^{+} \subseteq F^{+}$

Insieme di dipendenze minimali

Un insieme di dipendenze funzionali $F$ è minimale se:

Ogni lato destro di una dipendenza è un singolo attributo
Per ogni dipendenza $X \to A$ in $F$ , $F {X \to A}$ non è equivalente a $F$
Per ogni $X \to$ A in $F$ e $Z \subset X, F {X \to A} \cup Z \to A$ non è equivalente a $F$ Dato $F$ si dice che $G$ è un suo ricoprimento minimale se $G$ è minimale ed è equivalente a $F$ .

Teorema: Ogni insieme di dipendenze funzionali ha un ricoprimento minimale Dimostrazione:

Decomposizione di uno schema, decomposizioni che preservano i dati

Decomposizione di uno schema

Dato uno schema $R = A_{1}, A_{2}, \dots A_{n}$ una sua decomposizione è un insieme $d = {R_{1}, R_{2} \dots R_{k}}$ di sottoinsiemi di $R$ tali che: $R = R_{1} \cup R_{2} \cup \dots \cup R_{k}$ Esempio:

Preservazione dei dati

Decomporre lo schema iniziale comporta il vantaggio di evitare ridondanze nella rappresentazione. Nel nostro caso specifico basta fare una natural join per ottenere la composizione iniziale, questa proprietà della decomposizione si chiama loss-less joins

Definizione:

Dato uno schema $R$ con un insieme $F$ di dipendenze funzionali,
una sua decomposizione $D = {R_{1}, R_{2}, \dots R_{k}}$ si dice che preserva i dati se per ogni relazione $r$ di $R$ che soddisfa tutte le dipendenze di $F$ si ha: $r = π_{R_{1}} (r) ⋈ π_{R_{2}} (r) ⋈ \dots ⋈ π_{R_{k}} (r)$ Osservazioni: siano
$R$ ed $F$ come sopra
e sia $m_{d} (r) = π_{R_{1}} (r) ⋈ π_{R_{2}} (r) ⋈ \dots ⋈ π_{R_{k}} (r)$ allora
$r \subseteq m_{d} (r)$ è sempre vero
$m_{d} (r) \subseteq r$ non è sempre vero Esempio

Per controllare se una decomposizione preserva i dati facciamo in questo modo: Esempio: Sappiamo che questo metodo è valido per la seguente dimostrazione:

Decomposizioni che conservano le dipendenze funzionali

Conservazione delle dipendenze

La proiezione $π_{Z} (F)$ di $F$ su un insieme $Z$ di attributi è l’insieme delle dipendenze $X \to$ Y appartenenti a $F^{+}$ tali che $X Y \subseteq Z$

Algoritmo per il calcolo della proiezione di un insieme di dipendenze

Conservazione delle dipendenze II

Dato uno schema relazionale $(R, F)$ ed una sua decomposizione $d = {R_{1}, R_{2}, \dots, R_{k}}$ si dice che essa conserva le dipendenze funzionali se $F$ è implicata logicamente dall’unione delle proiezioni $π_{R_{i}} (F)$

Di seguito l’algoritmo per controllare se una decomposizione preserva le dipendenze funzionali:

Forma normale

Una relazione $r$ è detta in forma normale di Boyce-Codd (BCNF) se per ogni dipendenza funzionale $X \to A$ definita su di essa, $X$ contiene una chiave $K$ di $r$ , cioè $X$ è superchiave per $r$

Terza forma normale

Una relazione $r$ è detta in terza forma normale (3NF) se per ogni dipendenza funzionale $X \to A$ definita su di essa si ha almeno una delle due seguenti condizioni:

$X$ contiene una chiave $K$ di $r$
$A$ appartiene ad almeno una chiave di $R$

Perché scegliamo queste forme normali?

BCNF: lo scopo di questa forma normale è quello di eliminare ridondanze causate dalle dipendenze 3NF:

Lemmi

Decomposizioni che preservano i dati con componenti in BCNF

Input: Schema $R$ e dipendenze $F$ Output: Decomposizione che preserva i dati tale che ogni componente sia in BCNF rispetto alla proiezione di $F$ su quella componente

Preservazione delle dipendenze e 3NF

Input: $R, F$ con $F$ ricoprimento minimale Output: Una decomposizione di $R$ che conserva le dipendenze e tale che ogni suo elemento è in 3NF

Andrea Girlando

Explorer

lezione-17