Math.Mots

Essai sémantique

Introduction

Vers l'écriture automatique

Le but de ce document est de mettre en place des programmes qui permettent de créer des textes ayant du "sens" automatiquement. La démarche est la suivante :

- définir les bases d'un interpréteur de textes (chapitre Définitions)

- définir des fonctions de valeurs sémantiques (chapitre Valeurs sémantiques)

- définir une fonction inverse sémantiques (chapitre Corollaires)

 

Définitions

du symbole au graphe

Définition :symbole

Un symbole est un signe unique.

Définition : alphabet

Un alphabet A est un ensemble fini de symboles s tous différents.

Définition : mot

Un mot est un n-uplet (n fini) formés d'éléments d'un alphabet.

Définition : dictionnaire

Un dictionnaire D est un ensemble fini de mots formés sur un alphabet A.

Définition : ponctuation

Soit P un ensemble de symboles, et D un dictionnaire on dit que P est ponctuation sur D si et seulement si : " symbole sÎ P on a " mÎ D mi¹ s(iÎ [1,longueur(m)].

Définition : texte

Un texte est un ensemble ordonné de mots m d'un dictionnaire D et de symboles de ponctuation p d'une ponctuation P sur D.

Définition : grammaire première

Une grammaire première est un ensemble de prédicat p s'appliquant sur un dictionnaire D. Ces prédicats sont de la forme p(mÎ D).

exemple : Adjectif(petit).

Nom(maison).

Définition : grammaire seconde

Une grammaire seconde est un ensemble de prédicat p s'appliquant sur un dictionnaire D. Ces prédicats sont de la forme : PÎ G2(p1Î G1, p2Î G2) ou PÎ G2(p1Î G2, p2Î G1).

On ajoute à cette grammaire les prédicats totologique: PÎ G2(p1Î G1, p2Î G1).

Définition : proposition

On définit une proposition comme un ensemble de mots Pr = (s1, ..., sn) tel que il existe un prédicat p d'une grammaire seconde tel qu' en utilisant tous les éléments de Pr, p puisse être prouvé vrai.

Définition : degré de ponctuation

Soit D et un dictionnaire et P une ponctuation sur D.

On définit une fonction : d (D/P® N)/ " s,s'Î (D/P)² d(s)¹ d(s').

On obtient ainsi en arrivé l'ensemble des degré de ponctuation noté P°. On définit le max(P°) comme le symbole de ponctuation majeure et le min(P°) comme le symbole de ponctuation mineure.

Définition : fonction de liaison

Soit un texte T(D,P/D), soient mÎ D et m'Î D/$ pÎ G1/p(m) et p(m'),

on dira que m et m' sont liés par la fonction ƒ telle que ƒ(m,m') = l si et seulement si

- l = ¥ si $ pÎ P/d / d(p) = max(P°)

-l = {le nombre de mots m'' situés entre m et m' / $ pÎ G1/p(m), p(m') et p(m'')}+ S d(sÎ P/D).

Remarque : ƒ(m,m') = -ƒ(m',m)

Définition : Graphe de liaison

Soit un texte T définit sur D et P/D, une grammaire première G1, G est un graphe de liaison sur T si et seulement si :

- chaque sommet de G est un mot de T.

- chaque arc entre deux des sommets est ordonné et valué et correspond à la fonction de liaison entre deux sommets.

Définition : Graphe de liaison nul

On définit le graphe de liaison nul formé sur G comme l'ensemble des sommets de G qui ne sont liés par aucun arc.

Définition : Graphe de liaison premier

Soit G un graphe de liaison, on définit G' graphe de liaison premier comme un sous graphe de G tel que :

" sommet s de G', $ ! pÎ G1, p(s).

 

Exemple :

Soit l'alphabet classique :

A = {".",",",a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z}

Soit la ponctuation P = {"," ,"."} avec comme ponctuation majeure "." de valuation 5 et comme ponctuation mineure "," de valuation 2.

On définit un dictionnaire D :

D = { petit, grand, homme, femme, vivre, mourir }

On définit G1 comme :

Adjectif(petit).

Adjectif(grand).

Nom(femme).

Nom(homme).

Verbe(vivre).

Verbe(mourir).

On définit G2 comme :

GN(Adjectif,Nom).

GN1(Adjectif,GN).

GV(GN,Verbe).

GV1(GV,GN).

Soit le texte T :

" Le petit homme mourir grand. La grand femme vivre, puis mourir petit. "

On a le graphe de liaison suivant :

On a les graphes de liaison premier :

 et

 

Valeurs sémantiques

du mot au texte en passant par la grammaire

Définition : valeur sémantique d'un mot

Soit un texte T et G son graphe de liaison, on définit la valeur sémantique d'un mot m par :

Définition : grammaire sémantique

Soit une grammaire (première ou seconde) , on associe à chaque nom de prédicat de cette grammaire une valeur dans N. On définit ainsi une grammaire sémantique par un ensemble de couples (p, d) où pÎ G(1ou 2) , dÎ N.

Définition : valeur sémantique d'une proposition

On définit la valeur sémantique d'une proposition Pr par :

Définition : valeur sémantique d'un texte

On définit la valeur sémantique d'un texte T par :

 

Corollaires

des chiffres au texte

Définition : fonction de séparation

Une fonction de séparation (notée fd°) est une fonction qui a un entier n associe un ensemble quelquonque de n entier naturels. Ces entiers sont dits séparés.

Définition : fonction de séparation d°0

Soit un entier naturel a , une fonction de séparation d°0 (notée fd°0) est une fonction de séparation ayant la propriété suivante :

.

où (e0,...en) est l'ensemble des n entiers séparés.

Méthode de construction d'une fonction fd°0

Principe : on part d'une fonction continue dont on connait l'intégrale. Ensuite on discrétise cette fonction puis on l'équilibre par rapport à a .

· Hypothèses

Soient un entier naturel a ,

un entier naturel n (le nombre d'entiers séparés),

g une fonction continue sur R de [a,b] dans [x, y] telle que .

On définit g' la fonction . On a ainsi : .

· Discrétisation

Il s'agit maintenant de discrétiser l'intégrale de g' sur [a,b].

On construit l'ensemble de réels .

On définit la fonction g'' (de N® R) (fonction discrète de g') g''(k) = xk.

On définit la fonction g''' (de N® N) (fonction discrète de g'') g'''(k) = Ent(g''(k)).

· Evaluation (g''' g')

On doit maintenant évaluer l'égalité entre g''' et g'.

On note (conséquence de la discrétisation).

On définit la fonction d g'''(de N® R) (différence entre g''' et g'') d g'''(k) = g'''(k) - g''(k).

On note , (conséquence de la numérisation).

On note D = d ''' + d 4. (conséquence de la construction).

· Rééquilibrage

Soit E=Ent(D ).

Si E¹ 0, on rééquilibre la fonction sinon on considère que l'approximation est suffisante.

Pour rééquilibrer la fonction on utilise une fonction aléatoire A (de [0,n]® {-1,1}) telle que . Si, il n'est pas nécessaire de rééquilbrer on aura A(k) = 0.

· Construction finale

On a enfin fd°0(k) = A(k) + g'''(k).

Remarque : On peut utiliser n'importe quelle fonction g, mais il apparait plus intéréssant d'utiliser des fonctions ayant des comportements non monotones (sin, cos, sin(x)/x, random(100)/100...).

Définition : fonction de séparation d°1

Soit un entier naturel a , une fonction de séparation d°1 (notée fd°2) est une fonction de séparation ayant la propriété suivante :

où (e0,...en) est l'ensemble des n entiers séparés.

Méthode de construction d'une fonction fd°1

La méthode est identique à celle de fd°0 sauf que l'on définit alors g' comme suit :

. On a ainsi : .

Définition : fonction de séparation d°2

Soit un entier naturel a , une fonction de séparation d°2 (notée fd°2) est une fonction de séparation ayant la propriété suivante :

où (e0,...en) est l'ensemble des n entiers séparés,

b un entier naturel.

Méthode de construction d'une fonction fd°2

La méthode est identique à celle de fd°1 sauf que l'on définit alors g' comme suit :

. On a ainsi : .

Pour choisir b , on peut utiliser une fonction aléatoire sur {0, .., a }

 

 

Théorème du sens

Utilisation des corollaires

On cherche ici à répondre à la question suivante :

Peut-on construire à partir d'une valeur sémantique et d'un nombre de phrases, un ensemble de sens vérifiant les définitions du second chapitre ?

Soit a la valeur sémantique du texte donné, et n le nombre de phrases.

On utilise une fonction de séparation fd°0 sur a , on obtient un ensemble E0 d'entiers naturels réalisant :

,

ce qui donne en renumérotant les ek par v(Pr), a par v(T) et n par nombre(Pr).

:

On utilise pour chaque v(Pr) une fonction de séparation fd°1, on a ainsi :

où m représente un nombre aléatoire compris entre {0,..,max(mots)}

On utilise pour chaque ek une fonction de séparation fd°2, on a ainsi :

l correspond à un nombre aléatoire compris entre {0,...,max(prédicats par Pr)}

donc

soit en renumérotant les b k et les ai :

Cette égalité étant vérifiée il est possible à présent de construire un texte ayant du sens. Cependant, on a vu que malgré tout, la forme était importante car on doit connaître le nombre maximum de prédicats par proposition ainsi que le nombre maximum de mots par phrases.

On peut donc énoncer le théorème suivant :

A partir d'un n-uplet de quatre entiers (a, b, c, d) signifiant respectivement la valeur sémantique d'un texte, le nombre de phrases de ce texte, le nombre maximum de prédicats par proposition et le nombre de mots par proposition, on peut déterminer trois ensembles de valeurs V(Pr), V(p) et V(s) dont deux fondamentaux (V(s) et V(p)) permettant de déterminer exactement les instances sémantiques d'un texte.

On doit ensuite reconstruire exactement le texte. C'est l'objet de la partie suivante.

 

Reconstitution

Utilisation du théorème

En utilisant le théorème de la partie précédente, on peut définir exactement un ensemble de sens. On obtient alors trois ensembles de valeurs V(p), V(s) et V(Pr). On cherche ici à reconstituer un texte utilisant ces valeurs.

l On va reconstituer le texte, proposition par proposition.

Pour chaque proposition on connaît le nombre de mots (m) et le nombre de prédicats (l) utilisé pour chaque mot. On dispose aussi d'une grammaire G1 et G2.

1. Pour choisir les prédicats, on ajustera les valeurs de V(p) à celles données par d(G2). Et pour faire un choix final, on effectuera un choix aléatoire (tel qu'on l'a fait pour construire les fonctions de séparation).

2. Pour choisir les mots, on choisira pour chaque prédicat choisit en 1° un ensemble de mots dans D qui définissent le prédicat choisit. Pour définir plus précisement le texte on devra disposer d'une fonction de gestion de la ponctuation p°. Cette fonction probalistique est fonction du degré de ponctuation des symboles. Ensuite, pour corréler ce choix avec V(s) on devra :

- soit utiliser d'anciens textes pour effectuer le choix final du mot (choix aléatoire) et en tenant compte de la fonction p°

- soit choisir aléatoirement dans le dictionnaire D ces mots et les affecter de force en tenant compte de la fonction p°.

... ...