V7, Visual Explain et analyse de perf. SQL

les préconisations matérielles d'IBM pour les bases décisionnelles, sont les suivantes :

CQE effectue un calcul simple : "taille du pool/ niveau d'activité" = mémoire maxi par job.

Si votre requête s'exécute seule dans un pool (ce qui est conseillé) , descendez le niveau d'activité à 1.

» En même temps, utilisez l'expert cache qui est toujours une bonne solution pour les accès base de données, dans des pools mémoire de plus de 100 Mo
(on garde en mémoire les tables les plus utilisées).

SQE, lui divise la taille du pool par le nombre moyen de travaux
(expert cache obligatoire, pour faire la moyenne)

ATTENTION, Si vous faites des tests, le deuxième test ira toujours plus vite que le premier, du fait que les données sont (partiellement ?) restées en mémoire, ce qui peut fausser vos mesures.

Placez vous alors Obligatoirement dans un pool ou vous êtes seul, et lancez entre deux requêtes :

CLRPOOL POOL(*SHRPOOL1)

-> Pour garder les données complètement en mémoire pour pouvez utiliser la commande SETOBJACC ou bien la nouvelle fonctionnalité de la version 7 :

- Le pool mémoire utilisé est celui indiqué par MEMORY_POOL_PREFERENCE du fichier QAQQINI, qui doit être à *CALC :

- Le fichier est monté en mémoire "à la demande" (lors de la première requête) en mode asynchrone et en parallèle
(contrairement à SETOBJACC qui n'utilisait qu'un seul thread)

- La conservation complète du fichier n'est pas garantie, mais si vous avez de la mémoire elle est fort probable

Pour visualiser la mémoire consommée par SQL, Regardez SYSTMPSTG (Bucket *DATABASE...)

- *YES la copie des données est admise, elle n'a lieu que quand il est impossible de faire autrement

- *OPTIMIZE la copie des données est admise, elle aura lieu à chaque fois que cela améliorera les temps de réponses
(particulièrement le hachage pour les jointures et les index bitmap)

c'est cette dernière valeur qu'il faut privilégier (elle est par défaut via ODBC./JDBC).

Vous pouvez influencer l'optimiseur de requêtes en indiquant le nombre de lignes à traiter en même temps :

Si vous indiquez une petite valeur, l'optimiseur cherche à rendre un résultat le plus rapide possible, vous le forcer à utiliser des index, même si le temps global doit en pâtir.
C'est une solution interactive (STRSQL considère, sans indication de votre part, une optimisation pour 3% des lignes du fichier)

Si vous indiquez une GRANDE valeur (FOR ALL ROWS est admis depuis V4R30) l'optimiseur privilégie le temps global de traitement. Vous favoriserez les copies temporaires, les tris, le hachage s'ils sont plus efficaces)

C'est une solution purement orientée batch et gros volumes.
(INSERT into …SELECT … FORM …, est toujours traité pour un nombre maxi de lignes)

II/ Les outils de mesure :

a/ Commandes système

ATTENTION, tous ces écrans vous offrent des moyennes, il faut visualiser des données qui ont au moins 2 minutes .

cet écran montre le taux d'occupation des disques (l'idéal est un taux de 75 % au maximum)
ainsi que l'activité des bras (% util).Une activité au delà de 50% indique des disques très occupés.

si la répartition n'est pas linéaire (achat de nouveaux disques, par exemple), passez la commande STRASPBAL TYPE(*CAPACITY)

b/ Base de données

D'abord un petit, "truc", mettez le paramètre QRYTIMLMT à 0 par la commande CHGQRYA :

vous verrez alors après chaque requête des messages CPI43xx ainsi que SQL79xx dans l'historique indiquant les choix de l'optimiseur lors de la création du plan d'accès

2/ pour un programme, vous pouvez voir le plan d'accès par la commande PRTSQLINF

vous verrez alors, dans un spool portant le nom du pgm, pour chaque requête des messages SQL40xx

1/ le gestionnaire de scripts SQL

une option ALLOW SAVE RESULT, permet la sauvegarde des enregistrements extraits:

Vous avez accès aux travaux et à la dernière requête SQL pour chacun d'eux (Affichage/SQL details for a Job)

Enfin, la(les) requêtes(s) peuvent être sauvegardée(s) (uniquement en local)

2/ le moniteur de perf. Base de données.

Depuis performance center, choisissez l'option Nouveau...

Quand la trace est terminée (l'arrêt est à votre charge), choisissez une vue (les données à afficher)

Vous pouvez aussi utiliser IBM Navigator for I (Performances/Etude des données) :

Mais surtout, nous avons maintenant des statistiques d'Entrée/Sortie globales (sous PDI)

Choisissez la bibliothèque et la collecte (ou laissez "la plus récente")

Entrée/sortie base de donnée physiques, vue détaillée

3/ Cache des Plans d'accès

Le jeu d'instructions actuellement en cache pouvant être sauvegardé sous forme d'image (snapshot).
(sinon, il y a mise à blanc à l'IPL)

4/ Analyse des statistiques et des Index

Pour définir ou voir les statistiques, Utilisez la nouvelle (1.1.7) option Schémas

Vous pouvez maintenant obtenir une Explication graphique du détail d'une requête SQL avec Visual Explain :

Visual Explain

peut être lancé et réactualisé, pendant l'exécution, les informations ayant bougé sont surlignées.

Visual Explain vous affiche alors le détail des différentes phases de la requête :

A partir de cette requête

•Scannage de table et/ou utilisation d'un index

 

ici en utilisant des index pour la jointure
 et avec agrégation (pour count(*) )




Le résultat étant stocké dans une liste temporaire

• pour terminer, lecture de la liste temporaire et production du résultat

La fenêtre droite vous donne le détail pour chaque étape




ici, le résultat final indiquant le moteur utilisé


ici la phase jointure


Les messages de l'optimiseur (précisant la jointure) 
étant affichés dans cet onglet

depuis la 6.1, SQE possède un module d'auto-apprentissage, qui agit aujourd'hui dans 2 cas :

Cold I-O to Warm I-O
quand un plan d'accès prévoit un accès par index et que le moteur se rend compte que la table est actuellement en mémoire
First I-O to ALL I-O
quand un plan d'accès est prévu pour une optimisation First I-O et que l'application change (par exemple un chargement complet des lignes)

Cette modification est notée dans Visual Explain

Vous pouvez aussi lancer Visual Explain sur le résultat d'un moniteur de performance base de données.

Rappel :

Il existe différents types d'objets pouvant améliorer les performances
- Index
  - B-Tree (B-Arbre ou arbres binaires)
    
    C'est la technique la plus ancienne (celle des LF), ils permettent de retrouver très rapidement une aiguille dans une meule de foin
  - Index Bitmap
    
    On indique par un 1 si la ligne correspondante (ici la 1 ou la 2, par ex.) a cette clé là (oui 1001 et 1002 sont des femmes)
    
    Assez difficile à maintenir, il ne sont utilisés par DB2 for I que de manière temporaire
  - EVI
    les index EVI sont constitués de deux éléments
    - Une table des symboles contenant :
      - un code attribué à chaque valeur de clé
      - des informations statistiques (nbr, position du premier record, position du dernier record ayant cette clé)
- hash Table (table de hachage)
  
  pas vraiment un index, il s'agit de stocker des données de manière temporaire
  - on stocke un couple clé/valeur
  - la clé est transformée par une fonction de hachage qui fournit une position dans la table
    - la même valeur produit toujours la même position
  - très utile pour :
    - faire des jointures/JOIN (entre deux tables de hachage les données sont à la même position)
    - faire des regroupement/GROUP BY (toutes les valeurs identiques sont adjacentes)
- Materialize Query table
  - table contenant le résultat d'une requête
    
    Ce rafraîchit "à la demande" (par un ordre : Refresh Table MQT01)
  - Le fichier QAQQINI indique
    - MATERIALIZED_QUERY_TABLE_USAGE : *ALL / *USER : utiliser les MQT (*DEFAULT = non)
    - MATERIALIZED_QUERY_TABLE_REFRESH_AGE : ancienneté de la donnée admise
      - *ANY ou une durée sous forme AAAAMMJJHHMMSS
  - , doit utiliser la MQT

· Les informations affichées par Visual Explain

Chaque icône représente une action :

création
balayage (scan)
recherche, accès direct (probe)

les actions peuvent être enchaînées : accès direct à un index (SETLL), puis balayage (READE)

Ces actions vont porter sur un/des objet(s) :

permanent

table

index

Icône	STRDBG	PRTSQLINF	Commentaires
Table Scan	CPI4329	SQL4010	Utilisé pour retourner un grand nombre de lignes
Table Probe			Accès direct à une ligne par son n° de rang (la connaissance du n° de rang peut venir d'une lecture d'index)
Index Scan	CPI4328	SQL4008	utilisé pour retourner un petit nombre de lignes, si l'index correspond au critère de tri ET à une sélection, par exemple.
Index Probe	CPI4338	SQL4032	utilisé pour retourner un petit nombre de lignes, l'index permettant de réaliser la sélection la plus importante (primary key, par exemple)
EVI Probe	CPI4328	SQL4008 SQL4011	utilisé éventuellement avec d'autres pour créer un bitmap, entraîne ensuite un accès direct sur la table (table probe)

ou sur un objet temporaire (créé donc, ce qui implique ALWCPYDTA à *YES ou *OPTIMIZE)

table de hachage
liste triée
liste simple
liste numérotée (basée sur les n° de rang)
index bitmap
index temporaire
buffer

Icône	STRDBG	PRTSQLINF	Commentaires
Hash Scan	CPI4329	SQL4010 SQL4029	Utilisé principalement pour la gestion du GROUP BY
HASH Probe	CPI4327	SQL4007 SQL4011	Utilisé principalement pour la jointure
Liste triée (Scan)	CPI4328 CPI4325	SQL4008 SQL4002	Utilisé pour Order BY et l'option DISTINCT
Liste triée (Probe)	CPI4327	SQL4007 SQL4010	Utilisé pour une jointure avec un autre critère que l'égalité
Liste simple (Scan)	CPI4325 CPI4327	SQL4007 SQL4010	Utilisé pour préparer une utilisation parallèle (SMP)
Liste numérotée (Scan)			Utilisé avec des index multiples pour favoriser ensuite le groupage des I/O disque. (récupération physique des lignes par paquet)
Liste numérotée (Accès direct)	CPI4338	SQL4032	technique bitmap pour combiner plusieurs index et limiter ensuite l'accès direct aux lignes de la table
Bitmap Scan	CPI4338	SQL4010 SQL4032	technique pour combiner plusieurs index en un index bitmap. Un index bitmap est un nuage de point ou chaque position représente l'adresse, un liste numérotée contient les adresses (N° de rang)
Accès direct Bitmap	CPI4338	SQL4011 SQL4032	technique bitmap pour combiner plusieurs index et limiter ensuite l'accès direct aux lignes de la table
Index Scan	CPI4321	SQL4009	Utilisation d'un index temporaire pour tri ou groupage (MTI)
Index Probe	CPI4321	SQL4009	Utilisation d'un index temporaire, probablement pour jointure
	CPI4330	SQL4030	Objet temporaire utilisé lors des opérations de parallélisme (SMP)

Icones, non liées aux stratégies d'utilisation des index :
- représente l'utilisation d'une fonction Table (UDTF), l'optimisation doit se faire dans la fonction
- indique un calcul, un traitement CPU
- utilisation de la mémoire cache

Enfin, l'icône vous donnera des informations globales (temps, nombre de lignes résultat , ...)

Nouveaux en V5R40

EVi table Scan, preload	CPI4328	SQL4008	utiliser pour retrouver les entrées à partir uniquement de la table des symboles d'un index EVI
QUEUE/DEQUEUE	(pas de message)	(pas de message)	QUEUE, Objet temporaire pour mémoriser des données durant une requête récursive

Nouveaux en V6R10

temporary distinct Sorted list Scan	(pas de message)	(pas de message)	Liste triée de valeurs distinctes, utilisée pour GROUP BY ROLLUP
temporary value List Scan	CPI4329 Arrival sequence was used for file *VALUES	SQL4010	Liste de valeurs temporaires, utilisée avec VALUES( )

Nouveaux en V7 (les index EVI peuvent maintenant être utilisés en lecture pour GROUP BY et DISTINCT)

EVI Table SCAN, preload	CPI4328	SQL4008	Lecture d'un Index EVI avec INCLUDE pour fonction d'agrégation (GROUP BY)
EVI Table Probe, Preload	CPI4328	SQL4008	Lecture d'un Index EVI avec INCLUDE pour fonction d'agrégation (GROUP BY et WHERE)
UNNEST ARRAY	CPI4329	SQL4010	Utilisation de la fonction UNNEST d'un tableau SQL (ARRAY) dans une procédure
EVI Only Access	CPI4338		Utilisation de deux index EVI, l'un pour la sélection, l'autre pour les colonnes à afficher (la table n'est pas lue, voir ce cours)

Visual Explain sait pleinement tirer profit des différentes évolutions, comme la collecte de statistiques.

le Menu Option propose

Un certain nombre d'actions, dont un outil de conseil
suggérant certaines collectes
ou la création d'index
Le menu VUE, peut mettre en évidence
- les index recommandés
  
  ce qui s'affiche :
- SI Visual Explain utilise une table matérialisée (MQT) vous verrez son nom (et CPI4329 si le debug est actif)
- les étapes les plus coûteuses

• Vous retrouverez ces informations depuis un moniteur

de fait quand on lance Visual Explain

Quelques recommandations

Respectez bien les trois formes normales (voir Wikipedia s'il le faut)
Ayez un dictionnaire de données afin qu'une information soit toujours codée de manière identique

    ÉVITEZ ABSOLUMENT :
       - le n° de client packé dans un fichier, étendu dans l'autre
       - date dans un fichier et jour/mois/année dans l'autre
n'indexez que l'essentiel, un index c'est aussi des cycles CPU consommées lors des écritures,mises à jour.
(faites la chasse aux index non utilisés en filtrant, comme vu plus haut)

SÉLECTION

il faut bien voir que le but est de gagner du temps. Or ce qui prend le de temps, ce sont le E/S (I/O) disque.

SQL va donc, TOUJOURS, chercher à optimiser la sélection (Pour Order By, c'est facile de trier en mémoire).

• En réutilisant des index, sauf quand le nombre d'enregistrement correspondant à la sélection est élévé (plus de qq %)

• sinon, en utilisant des techniques comme la table de haschage, SI ALWCPYDTA(*OPTIMIZE)

L'idéal étant de trouver un index portant sur la sélection ET le critère de jointure , par exemple :

SELECT * FROM CLIENTS JOIN CDES on CLIENTS.NOCLI = CDES.NOCLI
              WHERE DEPCLI = 44

Ici, l'idéal serait index sur NOCLI ET DEPCLI

L'index parfait est celui qui contient toutes les données, évitant d'aller chercher le reste dans la table.

Si vous avez le choix , mettez la clef la plus restrictive en premier
Mutualisez les index, un index avec DEPCLI puis NOCLI sera utilisé pour une recherche sur le département seul.
(ne faites donc pas un index avec DEPCLI tout seul, il ne sert à rien !)
Ne confondez pas nombre de logiques et nombre d'index :
- le système ne créé jamais 2 fois le même index (partage implicite de chemin d'accès)
  - si vous créez un logique L1 avec comme clé K1
    puis un logique L2 avec comme clé K1 -> L2 est une enveloppe vide pointant sur L1
    - si vous détruisez L1, l'index est déplacé dans L2
  - si vous créez un index (CREATE INDEX) puis un logique, ils partagent le C.A
  - si vous créez un logique puis un index, ça dépent
    - le logique ayant été crée avec PAGESIZE(64) : oui
    - le logique ayant été créé avec une taille plus petite (le défaut) : non
  - si vous définissez une PRIMARY KEY puis un logique, ils partagent le C.A
Enfin, si vous faites des LF avec sélection d'enregistrement, ajoutez DYNSLT et un index existant sera certainement réutilisé
(partage implicite de chemin d'accès, montré par DSPFD)
Vérifiez tout cela avec Visual Explain !

voyez enfin notre cours sur la réutilisation des logiques en version 7.2

nom de la colonne (zone)	nom système	Type de donnée	Description
TABLE_NAME	TBNAME	VARCHAR(258)	Table sur laquelle l'index est suggéré
TABLE_SCHEMA	DBNAME	CHAR(128)	Schéma de la table
SYSTEM_TABLE_NAME	SYS_TNAME	CHAR(10)	nom système (court) de la table
PARTITION_NAME	TBMEMBER	CHAR(10)	Partition
KEY_COLUMNS_ADVISED	KEYSADV	VARCHAR(16000)	nom des clés suggérées
LEADING_COLUMN_KEYS	LEADKEYS	VARCHAR(16000)	clé principale, dont le critère de tri (croissant/décroissant) n'importe pas.
INDEX_TYPE	INDEX_TYPE	CHAR(14)	type d'index (normal ou EVI)
LAST_ADVISED	LASTADV	TIMESTAMP	date/heure de suggestion
TIMES_ADVISED	TIMESADV	BIGINT	nombre de fois la suggestion a été faite
ESTIMATED_CREATION_TIME	ESTTIME	INT	nombre de secondes(estimées) pour la création
REASON_ADVISED	REASON	CHAR(2)	Code raison (Sélection / tri ou groupage / les deux)
LOGICAL_PAGE_SIZE	PAGESIZE	INT	taille des pages recommandée
MOST_EXPENSIVE_QUERY	QUERYCOST	INT	temps d'exécution le plus long
AVERAGE_QUERY_ESTIMATE	QUERYEST	INT	temps d'exécution moyen
TABLE_SIZE	TABLE_SIZE	BIGINT	nombre de lignes dans la table (lors de la suggestion)
NLSS_TABLE_NAME	NLSSNAME	CHAR(10)	Séquence de tri à utiliser
NLSS_TABLE_SCHEMA	NLSSDBNAME	CHAR(10)	Bibliothèque de la séquence de tri
MTI_USED	MTIUSED	BIGINT	Nombre de fois ou cet MTI a été utilisé (le système n'utilise plus un MTI, dès qu'un index permanent existe)
MTI_CREATED	MTICREATED	INT	Nombre de fois ou cet MTI a été créé (rappel un index MTI disparaît à l'IPL)
LAST_MTI_USED	LASTMTIUSE	TIMESTAMP	Date/heure de dernière utilisation de cet index MTI.
AVERAGE_QUERY_ESTIMATE _MICRO	QRYMICRO	BIGINT	temps moyen d'exécution de la requête à l'origine de cette suggestion
EVI_DISTINCT_VALUES	EVIVALS	INTEGER	Nombre de valeurs distinctes pour création index EVI
INCLUDE_COLUMNS	INCLCOL	CLOB(10000)	INCLUDE pour création index EVI
FIRST_ADVISED	FIRSTADV	TIMESTAMP	Première suggestion
SYSTEM_TABLE_SCHEMA	SYS_DNAME	CHAR(10)	Nom système de la bibliothèque
MTI_USED_FOR_STATS +	MTISTATS	BIGINT	Nbr de fois, Index MTI utilisé pour des statistiques
LAST_MTI_USED_FOR_STATS *	LASTMTISTA	TIMESTAMP	dernière utilisation Index MTI pour des statistiques
DEPENDENT_ADVICE_COUNT **	DEPCNT	CHAR(10)	Nombre de dépendances d'index (traitement de OR)

Requêtes et performances

Ce cours manipule des concepts comme les sous-systèmes et les pools mémoire qui doivent vous être familiers, si ce n'est pas le cas, voyez cette introduction

Préalable

II/ Les outils de mesure :

a/ Commandes système

b/ Base de données

1/ le gestionnaire de scripts SQL

2/ le moniteur de perf. Base de données.

Depuis performance center, choisissez l'option Nouveau...

3/ Cache des Plans d'accès

4/ Analyse des statistiques et des Index

Rappel :

Requêtes et performances

Ce cours manipule des concepts comme les sous-systèmes et les pools mémoire qui doivent vous être familiers, si ce n'est pas le cas, voyez cette introduction

Préalable

II/ Les outils de mesure :

a/ Commandes système

b/ Base de données

1/ le gestionnaire de scripts SQL

2/ le moniteur de perf. Base de données. Depuis performance center, choisissez l'option Nouveau...

3/ Cache des Plans d'accès

4/ Analyse des statistiques et des Index

Rappel :

2/ le moniteur de perf. Base de données.

Depuis performance center, choisissez l'option Nouveau...