Vers une jointure par similarité d'ensemble extensible en utilisant MapReduce et LSH
Sébastien Rivault  1@  
1 : Laboratoire d'Informatique Fondamentale d'Orléans
Université d'Orléans : EA4022, Institut National des Sciences Appliquées - Centre Val de Loire : EA4022

La jointure par similarité est reconnu pour être parmi les opérations les plus utiles pour traiter et analyser des données. La jointure par similarité consiste à retrouver l'ensemble des couples d'objets ayant une distance inférieure à un seuil donné en paramètre. La distance dépend de l'application et du jeu de données. Nous travaillons sur la distance de Jaccard qui est notamment utilisée pour le nettoyage de données, la détection de textes similaires et le filtrage collaboratif. Elle permet également de réduire l'espace de recherche de similarité entre séquences.

Dans la littérature, il y a des algorithmes permettant de calculer efficacement la jointure par similarité en utilisant une méthode de recherche approximative (LSH), cependant les algorithmes sont sensibles à la répartition des données. Pour pallier ce problème, nous avons adapté les algorithmes de la jointure classique pour répartir les charges sur différents nœuds de la grappe de calcul.

Personnes connectées : 3 Vie privée
Chargement...