Table des matières

Projet de logique 2013

Introduction

Les 4 séances de TP de logique visent à implémenter un programme testant la satisfiabilité d'une formule mise sous forme normale conjonctive (CNF), c'est-à-dire sous la forme d'un ensemble de clauses. Un exemple de tel solveur est MiniSat. Ce programme sera ensuite utilisé pour vérifier un circuit d'additionneur représenté à partir d'une spécification, tous deux représentés par des formules.

Ce programme va explorer l'espace de recherche (les combinaisons de valeurs possibles pour les variables) afin de déterminer la satisfiabilité de la formule testée.

Modalités de rendu

Le rendu consistera en une archive .zip ou .tar.gz1) contenant:

Cette archive est à déposer sur spiral au plus tard le dimanche 22 décembre 2013 à 23h593). Il fortement recommandé de tester l'accès à la zone de dépôt avant la date butoir4).

La zone de dépôt est accessible ici: http://spiralconnect.univ-lyon1.fr/webapp/activities/activities.jsp?containerId=2647044

Le non respect de ces consignes entraînera une sanction dans la note du projet.

Projet de départ

L'archive lif11-2013-enonce.zip contient un projet C/C++. Ce projet de départ fourni contient une arborescence de projet avec :

<note tip>Il est demandé de ne pas héberger vos sources sur un dépôt public. L'UCBL met à votre disposition une forge avec un hébergement de dépôts mercurial. Le projet fourni5) peut être poussé vers cette forge.

</note>

Organisation du projet

Le projet est divisé en quatre grandes étapes qui correspondent grossièrement aux 4 séances de TP prévues :

  1. Première partie : prise en main. Les premières fonctions à écrire comme numerote sont conceptuellement simples mais demandent un réel travail d'immersion et de prise en main du projet.
  2. Deuxième partie : bases de SAT. Les algorithmes de test SAT travaillant sur des clauses, il faut tout d'abord récursivement convertir une formule arbitraire en forme normale conjonctive. Une version naïve du test de satisfiabilité est ensuite à réaliser
  3. Troisième partie : modélisation . L'objectif est ici de fabriquer la formule qui correspond à la spécification de l'additionneur binaire à n-bit (c.f. TD2).
  4. Quatrième partie : optimisations. Il s'agit d'améliorer les performances du solveur en ajoutant des stratégies et des index permettant de couper l'arbre de recherche.

<note important> Le projet est à réaliser seul ou en binôme. Les différentes étapes permettent aux étudiants de situer leur avancement. Avancer régulièrement et progresser hors des séances de TP afin que ces dernières vous soient le plus profitables possibles. Vous pouvez vous aider les uns les autres, en gardant à l'esprit que ceci n'implique pas de devoir s'échanger les sources entre binômes. </note>

Première partie : prise en main

<note warning> Pour de l'aide sur les bases du C++ utiles à ce TP voir :

</note>

Tests unitaires avec UnitTest++

Le projet est fourni avec la bibliothèque UnitTest++ qui simplifie (grandement) l'expression et la gestion de tests unitaires. Un test peut être vu comme une fonction sans arguments dont on attend que le résultat s'évalue à true. Dans UnitTest++ un test est une macro de la forme TEST(nom_du_test) { code du test }. Dans le corps de cette fonction/macro certaines assertions CHECK(test) sont vérifiées. Il est possible de faire autant de CHECK que l'on veut dans un TEST, possiblement aucun. Le fichier main-test.cpp contient l'exemple initial suivant :

// Un test simple qui réussit
TEST(test1) {
  CHECK(2 == 1+1);
}
 
// Un test simple qui échoue
TEST(test2) {
  CHECK(2 == 1+2);
}

Le Makefile fourni dans le projet de départ permet d'exécuter les tests définis dans main-test.cpp simplement via make test.

Exercices

Forme normale conjonctive

Les structures codant les clauses et les formules conjonctives (que l'on abrégera désormais CNF pour Conjunctive Normal Form) sont définies par des typedef utilisant différents conteneurs de la STL. Une cnf_t est un tableau dynamique (vector) qui contient des clauses cls_t représentées par des ensembles de littéraux (set), les littéraux lit_t étant codés par des entiers.

typedef unsigned int  var_t;
typedef int           lit_t;
typedef set<lit_t>    cls_t;
typedef vector<cls_t> cnf_t;

Exercices sur les clauses

Exercices sur CNF

Arbre de syntaxe abstraite et litéraux

Pour des raisons d'efficacité, il faut éviter de représenter les variables propositionnelles par des chaînes (classe string en C++) et leur préférer des entiers (var_t dans le projet). Il faut donc écrire une fonction void numerote(formule f, map<string,var_t> & corresp) permettant de numéroter les variables d'une formule. La classe map de la STL est un conteneur associatif qui permet, dans le cas de map<string,var_t>, de faire correspondre une unique variable à une chaîne9). L'algorithme de numerote est le suivant :

Pour l'efficacité, on représentera également les littéraux (c'est-à-dire des variables avec ou sans négation) par des entiers :

Il faut ainsi prêter garder à ne pas mélanger la proposition dont la string est p avec sa représentation numérotée dans un map<string,var_t>, ici 2, et les littéraux associés dont les formules sont p et ~p valant respectivement 4 et 5. Pour cela, il est vivement recommander d'utiliser systématiquement par la suite les fonctions var2lit et neg demandées en exercices.

Exercices sur les map

Exercices sur les littéraux

<note important> Cette première partie donne les bases sur lesquelles s’appuyer dans la suite du projet. Ces bases doivent être solides. Bien garder les tests unitaires rédigés au fur et à mesure de l'avancement : ils permettent de s'assurer de la correction du code, de la non-régression lors des modifications et sont attendus dans le rendu final du projet comme la preuve que le programme a été convenablement testé. </note>

Deuxième partie : un solveur SAT simple

Conversion d'une formule en CNF

La transformation de Tseitin (c.f. TD du 07/10) permet d'obtenir à partir d'une formule f une CNF ayant la propriété d'être satisfiable si et seulement si f l'est. Cette transformation se fait via une fonction récursive tseitin, qui ajoute des clauses générées à une CNF passée en argument. Son principe de fonctionnement est le suivant: étant donnée f, la fonction renvoie un nouveau littéral l ainsi qu'une CNF c tels que c et l s'évaluent à vrai si et seulement si f s'évalue à vrai. La fonction tseitin(f) peut être algorithmiquement définie comme suit:

La CNF équisatifiable finale est obtenue comme suit:

On peut remarquer que les CNFs ne font que grossir, on peut ainsi passer la CNF en argument par référence : les ensembles de clauses c1 et c2 dans (p, … ∧ c1 ∧ c2) sont produites par les appels récursifs de tseitin. On passe également un compteur par référence var_t & next pour générer de nouvelles variables fraiches. Ainsi en C/C++ on définira les deux fonctions :

lit_t tseitin(formule f, const map<string, var_t> & m, cnf_t & c, var_t & next);
cnf_t tseitin(formule f);

<note tip> On donne l'exemple suivant avec f = (a ∨ b) ⇒ c, m le dictionnaire tel que a est numéroté par 0, b par 1, c par 2 (la prochaine variable fraîche est donc next = 3) et cl ={} un ensemble initialement vide de clauses. On a les appels récursifs suivants :

Il faut enfin ajouter {8} à cl pour obtenir finalement cl= 7_0_2_6_1_6_3_9_7_4_8_6_8_5_8 comme codage de Tseitin de (a ∨ b) ⇒ c. </note>

<note warning> La fonction tseitin a m comme paramètre en lecture seule (déclaration const map<string, var_t> & m), or si vous utilisez m[], comme pour un tableau, vous allez avoir une erreur assez peu intelligible car [] est une méthode qui peut modifier m. A la place, il faut utiliser find qui est une méthode en lecture seule.

</note>

Exercices

Calcul de la valeur courante d'une CNF

Au cours de l'exploration de l'espace de recherche, on peut représenter les interprétations des variables propositionnelles par un tableau qui à chaque numéro de variable fait correspondre une valeur (de type val_t):

Exercices

<note tip> Par exemple, pour évaluer la valeur de vérité de la formule f = (a ∨ b) ⇒ c, on a besoin de connaître les valeurs des variables a, b et c. Considérons la correspondance m = { a ↦ 0; b ↦ 1; c ↦ 2; d ↦ 3} et l’interprétation où a & c sont VRAI, b FAUX et d INDETERMINEE. Cette interprétation est représentée par le vecteur [VRAI | FAUX | VRAI | INDETERMINEE]. On a dans cet exemple valeur_lit(v, ¬c) = FAUX, valeur_lit(v, ¬b) = VRAI et valeur_lit(v, ¬d) = INDETERMINEE

</note>

Exploration de l'espace de recherche

Écrire la fonction récursive

bool cherche(vector<val_t> & valeurs, var_t suiv, const cnf_t & cnf); 

qui renvoie true si cnf est satisfiable, sachant que:

La fonction procèdera comme suit:

  1. si suiv est supérieur à la taille de valeurs, alors évaluer la CNF et renvoyer VRAI si elle est satisfaite.
  2. sinon:
    1. mettre la valeur de suiv à VRAI dans valeurs
    2. Appeler récursivement la fonction avec suiv+1
      1. si l'appel récursif renvoie true la CNF est satisfiable et on peut renvoyer true
      2. sinon mettre la valeur de suiv à FAUX dans valeurs
    3. Appeler à nouveau récursivement la fonction avec suiv+1
      1. si l'appel récursif renvoie true la CNF est satisfiable et on peut renvoyer true
      2. sinon la CNF n'est pas satisfiable pour l'affectation courante: remettre la valeur de suiv à INDETERMINEE, puis renvoyer false.

<note warning>Dans la définition de la fonction cherche, on suppose que la longueur du tableau vector<val_t> & valeurs passé en paramètre est égale au nombre de variables (différentes) de la cnf. Ainsi:

</note>

Modifier la fonction main de façon à:

  1. transformer la formule lue en CNF équisatisfiable;
  2. initialiser un tableau de valeurs à INDETERMINEE pour chaque identifiant de variable;
  3. appeler la fonction cherche et afficher le résultat.

<note important> A la fin de cette partie, le projet dispose de toutes les fonctionnalités pour vérifier la satisfiabilité (et donc aussi la validité) d'une formule. L'efficacité algorithmique de la méthode dépend des stratégies de recherche implémentée dans cherche et de simplification que l'on peut apporter lors du calcul de valeurs de la CNF, pour éviter d'effectuer trop de calculs. C'est l'objet de la quatrième partie du projet.

Avant cela on va coder dans la troisième partie une application qui utilise le solveur: un vérificateur d'additionneur binaire n-bits. </note>

Troisième partie: modélisation

Dans cette partie, on modélise un additionneur n-bits (la spécification, cf TD2) qui est utilisé pour vérifier un additionneur dont la représentation est donnée dans un fichier.

Substitutions

La génération d'une spécification pour l'additionneur n-bits fait utilise des substitutions. Une substitution sera représentée par une map<string,formule> qui à chaque variable substituée associe la formule qui la remplacera.

Exercice

Formules de spécification

La première étape pour vérifier un additionneur n-bits consiste à générer sa spécification sous forme de formules.

On considère que les 2 * n entrées sont données par les variables p1pn et q1qn et que les (n+1) sorties sont codées par les formules A1An, B (B est le dernier bit de a somme, celui avec le poids le plus fort).

On utilisera les formules suivantes qui expriment la somme et la retenue pour un additionneur qui calcule la somme de trois entrée à 1 bit :

La génération de cette spécification par récurrence pour n-bits peut être définie comme suit:

Exercices

<note tip>Vous disposez de la fonction lit_formules qui fonctionne similairement à lit_formule, mais en lit plusieurs d'un coup et renvoie un vector<formule> (c.f. parser.hpp).</note>

<note tip>En testant votre programme, même avec des additionneurs très petits, vous verrez que le temps de calcul est élevé. La partie suivante vise à améliorer cette situation. La partie suivante est indépendante de la présente, le deux peuvent donc être travaillées en parallèle.</note>

Quatrième partie: optimisations

Couper l'arbre de recherche

L'exploration de l'espace de recherche implémentée précédement ne teste la satisfaction de la forme conjonctive que lorsque la valeur de toutes les variables est connue. Un moyen d'améliorer l'efficacité du solveur consiste à tester systématiquement la valeur de la CNF à chaque affectation de variable de façon à éviter d'explorer un morceau de l'arbre de recherche dont on sait qu'il mènera toujours à des évaluation de la CNF valant FAUX.

Exercice

Modifier la fonction cherche pour tester la satisfaction à chaque affectation de variable de façon à détecter au plus tôt les combinaisons de valeurs partielles insatisfiables. Si la CNF vaut FAUX, alors on peut renvoyer directement false sans faire l'appel récursif. Attention, il faut bien penser à remettre id_var à INDETERMINEE avant de renvoyer false, sous peine de fausser la suite de l'exploration de l'arbre de recherche.

Remarque: cette remise à zéro fait partie du “retour arrière” lors de l'exploration de l'arbre de recherche.

Indexation des clauses

Pour améliorer l'efficacité des tests de satisfiabilité, l'étape suivante consiste à indexer les clauses par les littéraux qui les contiennent. Plus précisément, il s'agit de construire une structure qui associe à chaque littéral la liste des clauses dans lequel il apparaît. Il suffit de tester uniquement cette liste lors de l'affectation d'un littéral à faux pour vérifier si l'affectation rend la forme conjonctive insatisfaite.

La structure d'indexation proposée consiste en un tableau contenant des listes de clauses. Les indice du tableau correspondent aux numéros des littéraux.

Exercices

Propagation unitaire

L'objectif de cette optimisation est, étant données certaines valeurs choisies pour les variables n°1 à n, d'affecter les variables dont la valeur est INDETERMINEE et qui doivent nécessairement prendre une certaine valeur pour que la CNF aie une chance de s'évaluer à VRAI.

Pour cela, on s'appuie sur la remarque suivante. Soit une clause L1 ∨ … ∨ Lk. Si tous les littéraux de cette clause valent FAUX, sauf un certain Lj qui vaut INDETERMINEE, alors cette clause ne pourra s'évaluer à VRAI que si Lj prend la valeur VRAI. On dira que cette clause est devenue unitaire. Il est ainsi inutile de tester les valeurs pour la variable V de Lj: si Lj est un littéral positif, V doit prendre la valeur VRAI, si Lj est un littéral négatif, elle doit prendre la valeur FAUX.

On peut également remarquer que si Lj se voit affecter la valeur VRAI, alors ¬Lj a pour valeur FAUX. Cela peut avoir deux conséquences:

On peut définir une fonction propage qui va se charger d'effectuer la propagation unitaire. A la manière de contient_insatisfaite, elle va s'appuyer sur l'index des clauses pour trouver rapidement les clauses à traiter. En effet, à l'exception des clauses qui sont unitaire dès le début, une clause ne peut être rendue unitaire que si un de ses littéraux est affecté à FAUX. On peut donc, lors de l'affectation d'une valeur à une variable, savoir, grâce à l'index, quelles sont les clauses à tester pour savoir si elles sont unitaires.

Lors du retour arrière, il est important de défaire le travail effectué par la propagation unitaire. Comme celle-ci peut toucher des variables dont les numéros ne se suivent pas forcément, il faudra stocker la liste des variables à remettre à zéro au cas où le choix de valeur ayant déclenché la propagation unitaire ne permet pas de montrer que la CNF est satisfiable.

Exercices

  1. Créer une nouvelle fonction
    vector<var_t> propage(lit_t lit, vector<val_t> & valeurs, cnf_t & cnf, vector<vector<cls_t> > & index)

    Cette fonction renvoie la liste des variables affectées. Par convention, si cette liste est vide on supposera que la propagation a mené à une contradiction. La fonction aura le comportement suivant:

    • Initialiser le vector résultat à un vector vide
    • Initialiser un vector<lit_t> contenant au départ lit. Cette structure contiendra la liste courante des littéraux que l'on veut affecter à VRAI.
    • Tant qu'il reste des littéraux à traiter:
      • Retirer un littéral L des littéraux à traiter
        • Vérifier si le littéral a déjà une valeur. Si c'est le cas, ne rien faire.
      • Ajouter la variable V correspondant à L dans le vector résultat
      • Affecter la bonne valeur à V
      • Utiliser l'index pour accéder aux clauses à vérifier (pour propagation unitaire ou contradiction10) )
        • Pour chaque clause unitaire trouvée, ajouté le littéral qui n'a pas de valeur dans les littéraux à traiter
        • Si une clause s'évalue à FAUX alors la CNF aussi et la propagation unitaire s'arrête. On remet alors à INDETERMINEE la valeur des variables du vector résultat, puis on renvoie un vector vide.
    • Renvoyer le résultat
  2. Modifier la fonction cherche de façon à utiliser propage au lieu de contient_insatisfaite
    • En particulier, bien penser à remettre la valeur des variables affectée par propage à INDETERMINEE lors des retours arrière.

Références

Compiler sous MacOSX / Windows

Sous Windows

Faire fonctionner le projet sous Windows nécessite l'utilisation de Cygwin (installé en salle TP Nautibus, à vérifier pour les salles Ariane). La compilation peut se faire en invoquant make comme sous Linux. Sous Cygwin, les lettres des lecteurs sont des répertoires dans /cygdrive. Ainsi pour aller dans le répertoire U:\LIF11\projet il faut faire cd /cygdrive/u/LIF11/projet

Il faut par ailleurs modifier le Makefile en changeant l'option -std=c++0x en -std=gnu++0x.

Sous MacOSX

La version de g++ fournie avec MacOSX est parfois trop vieille pour fonctionner avec l'option -std=c++0x. Il alors faut installer une version plus récente du compilateur (e.g. g++-4.7) avec Homebrew, Macports ou encore Fink.

Pour compiler il faut ensuite faire (dans le cas où le g++ installé est la version 4.7): make CXX=g++-4.7, ou bien make CXX=g++-4.7 test pour exécuter les tests.

Mise à jour du projet

1)
pas de rar ou autre format exotique
2)
pas de fichier en police 14 ou 16 pts pour faire du remplissage, cela se voit au premier coup d'oeil
3)
la zone de dépôt sera automatiquement fermée à ce moment
4)
l'excuse “je n'avais pas accès au dépôt” ne sera pas acceptée
5)
qui peut être récupéré via hg pull https://forge.univ-lyon1.fr/hg/inf3034l-2013-base
6)
pour le push/pull/clone
7)
Ce test ne contient pas de CHECK, on fera une simple vérification visuelle.
8)
Vous pouvez pour cela utiliser la notation des initializer_list avec par exemple cl1 = { 7, 6, 1, 4, 1};.
9)
C'est ainsi une fonction partielle dont on définit le graphe.
10)
i.e. la clause s'évalue à FAUX