Vous n'êtes pas identifié(e).

#1 19/09/2014 11:38:46

marie06
Membre

Jaro winkler

Bonjour

Un de nos applicatif utilise l'algorithme Jaro Winkler au travers de la contribution pg_similarity (pg_similarity 0.0.19 )

Cet algorithme mesure la similarité entre deux chaînes de caractères pour la recherche de doublons par exemple.

Nous migrons actuellement l'application vers PostgreSQL 9.3, et souhaiterions éviter l'installation de cette contribution supplémentaire, cependant il ne semble pas exister de fonctionnalités similaires dans les extensions standards, pourriez-vous le confirmer/infirmer ?

Merci

Hors ligne

#2 19/09/2014 15:47:19

gleu
Administrateur

Re : Jaro winkler

Il existe pg_trgm. Il permet de vérifier la similarité de deux chaînes de caractères via l'utilisation de trigrammes. Il fait partie des modules contrib de PostgreSQL. Ce serait à essayer.


Guillaume.

Hors ligne

#3 29/09/2014 12:26:30

marie06
Membre

Re : Jaro winkler

Bonjour

Merci Gleu, effectivement, nous avons compares les résultats des 2 fonctions avec PostgreSQL 9.3

Cependant la fonction similarity de pg_trgm fournit des resultats bien moins satisfaisants :

Nom en base                        Nom recherche                        jarowinkler                           similarity
YOHANN                                YOANN                                    0.955556                             0.444444
YOHANN                                YOAN                                      0.966667                             0.625
YOHANN                                YOHANN                                  1                                         1
ADELINE                                ADELIME                                 0.942857                             0.454545

Avez-vous d'autres pistes ?

Cdlt

Hors ligne

#4 29/09/2014 13:41:25

gleu
Administrateur

Re : Jaro winkler

Non, pas d'autres pistes.


Guillaume.

Hors ligne

Pied de page des forums