Logo réalisé par @createdbytango.
À la recherche d'ajouts de papiers supplémentaires. PS : Soumettez une Pull Request
Le référentiel suivant vise à servir de méta-référentiel pour les tâches liées à la recherche sémantique et à la similarité sémantique.
La recherche sémantique n'est pas limitée au texte ! Elle peut être réalisée avec des images, de la parole, etc. Il existe de nombreux cas d'utilisation et applications différents de la recherche sémantique.
N'hésitez pas à soumettre une Pull Request sur ce référentiel !
- Sac de Trucs pour la Classification Efficace du Texte 📄
- Enrichissement des Vecteurs de Mots avec des Informations Subword 📄
- Recherche de Voisin le Plus Proche Approximatif Efficace et Robuste en Utilisant des Graphes Mondiaux Navigables Hiérarchiques
- Recherche Approximative du Voisin le Plus Proche pour les Vecteurs de Mots Similaires - Expériences, Analyses et Amélioration
- Apprentissage de Représentations Distribuées de Phrases à Partir de Données Non Étiquetées 📄
- Recherche Approximative du Voisin le Plus Proche sur des Données de Grande Dimension --- Expériences, Analyses et Amélioration
- Apprentissage Supervisé de Représentations Universelles de Phrases à Partir de Données d'Inférence en Langage Naturel 📄
- Similarité Textuelle Sémantique pour le Hindi 📄
- Suggestion Efficace de Réponses en Langage Naturel pour Smart Reply 📃
- Encodeur Universel de Phrases 📄
- Apprentissage de la Similarité Textuelle Sémantique à Partir de Conversations 📄
- Blog Google AI : Avancées dans la Similarité Textuelle Sémantique 📄
- Speech2Vec : Un Cadre Séquence à Séquence pour Apprendre des Embarquements de Mots à Partir de la Parole) 🔊
- Optimisation de l'Indexation Basée sur le Graphique du Voisin le Plus Proche k pour la Recherche de Proximité dans des Données de Grande Dimension 🔊
- Recherche Efficace du Voisin le Plus Proche Approximatif avec le Graphique de Dissémination
- Plaidoyer pour des Structures d'Indexation Apprises
- LASER : Représentations de phrases indépendantes du langage 📄
- Expansion de document par prédiction de requête 📄
- Sentence-BERT : Intégration de phrases à l'aide de réseaux Siamese BERT 📄
- Classement de documents à plusieurs étapes avec BERT 📄
- Récupération latente pour le questionnement faiblement supervisé en domaine ouvert
- Question-réponse de bout en bout avec BERTserini
- BioBERT : un modèle de représentation linguistique biomédicale pré-entraîné pour l'extraction de texte biomédical📄
- Analyse et amélioration des représentations avec la perte douce du voisin le plus proche📷
- DiskANN : Recherche rapide et précise du voisin le plus proche pour un milliard de points sur un seul nœud
- Déploiement rapide d'un moteur de recherche neuronal pour le COVID-19 Open Research Dataset : Réflexions préliminaires et leçons apprises 📄
- RE-CLASSEMENT DE PASSAGE AVEC BERT 📄
- CO-Search : Recherche d'informations sur le COVID-19 avec recherche sémantique, question-réponse et résumé abstrait 📄
- LaBSE : Intégration de phrases sans langage 📄
- Covidex : Modèles de classement neuronal et infrastructure de recherche par mot-clé pour le COVID-19 Open Research Dataset 📄
- DeText : Un cadre d'IA profonde pour la compréhension intelligente du texte 📄
- Rendre les plongements de phrases monolingues multilingues en utilisant la distillation des connaissances 📄
- Transformateurs pré-entraînés pour le classement de texte : BERT et au-delà 📄
- REALM : Pré-entraînement d'un modèle linguistique augmenté par récupération
- ELECTRA : PRÉ-ENTRAÎNEMENT DES ENCODEURS DE TEXTE EN TANT QUE DISCRIMINATEURS PLUTÔT QUE DES GÉNÉRATEURS📄
- Amélioration de l'apprentissage profond pour la recherche Airbnb
- Gestion de la diversité dans la recherche Airbnb📄
- Apprentissage négatif de contraste approximatif du voisin le plus proche pour la recherche dense de texte📄
- Plongements d'images sans supervision pour les tâches de recherche et de reconnaissance📷
- DeCLUTR : Apprentissage en profondeur contrastif pour les représentations textuelles non supervisées📄
- Approche hybride pour le calcul de similarité sémantique entre les mots tamouls 📄
- SBERT augmenté 📄
- BEIR : un banc d'essai hétérogène pour l'évaluation sans tir préalable des modèles de recherche d'informations 📄
- Recherche visuelle hétérogène compatible 📷
- Apprentissage du style personnel à partir de quelques exemples📷
- TSDAE : Utilisation d'un auto-encodeur de débruitage séquentiel basé sur un transformateur pour l'apprentissage non supervisé de l'intégration de phrases📄
- Une enquête sur les transformateurs📄📷
- SPLADE : Modèle lexical et d'expansion parcimonieux pour le classement de la première étape📄
- Suggestions de requêtes de recherche liées de haute qualité à l'aide de l'apprentissage en profondeur par renforcement
- Récupération de produits basée sur l'intégration dans la recherche Taobao📄📷
- TPRM : Un modèle de classement personnalisé basé sur les sujets pour la recherche Web📄
- mMARCO : Une version multilingue de l'ensemble de données de classement de passages MS MARCO📄
- Raisonnement sur la base de données à partir du texte📄
- En quoi l'affinage adversarial profite-t-il à BERT ?)📄
- Entraînement court, test long : l'attention avec des biais linéaires permet l'extrapolation de la longueur d'entrée📄
- Primer : Recherche d'architectures de transformateurs efficaces pour la modélisation linguistique📄
- À quel point cela semble-t-il familier ? Analyse de similarité représentationnelle interlingue des plongements acoustiques de mots🔊
- SimCSE : Apprentissage contrastif simple des plongements de phrases📄
- Attention compositionnelle : Désentrelacement de la recherche et de la récupération📄📷
- SPANN : Recherche de voisin le plus proche efficace à l'échelle du milliard
- GPL : Étiquetage pseudo-génératif pour l'adaptation de domaine non supervisée de la récupération dense 📄
- Moteurs de recherche génératifs : expériences initiales 📷
- Repenser la recherche : faire des experts de domaine à partir de dilettantes
- WhiteningBERT : Une approche facile d'intégration de phrases non supervisée
- Intégration de textes et de codes par pré-entraînement contrastif📄
- RELIC : Récupération de preuves pour les revendications littéraires📄
- Trans-Encoder : Modélisation non supervisée de paires de phrases par auto-distillations mutuelles et mutuelles📄
- SAMU-XLSR : Représentation multimodale de l'énoncé interlingue alignée sémantiquement🔊
- Analyse des fonctions de fusion pour la recherche hybride📄
- Détection hors distribution avec des voisins les plus proches profonds
- ESB : Un banc d'essai pour la reconnaissance de la parole de bout en bout multi-domaines🔊
- Analyse des plongements acoustiques de mots à partir de modèles de parole auto-supervisés pré-entraînés)🔊
- Repenser avec la récupération : Inférence fidèle de grands modèles linguistiques📄
- Récupération dense précise sans étiquettes de pertinence📄
- Mémoire du transformateur en tant qu'index de recherche différenciable📄
- FINGER : Inférence rapide pour la recherche du voisin le plus proche approximatif basée sur un graphe📄
- Classification de texte "faible ressource" : une méthode de classification sans paramètre avec des compresseurs📄
- SparseEmbed : Apprentissage de représentations lexicales clairsemées avec des plongements contextuels pour la récupération 📄
- Aborder la recherche sémantique
- Recherche sémantique dans Azure Cognitive Search
- Comment nous avons utilisé la recherche sémantique pour rendre notre recherche 10 fois plus intelligente
- Stanford AI Blog : Construction de modèles NLP évolutifs, explicables et adaptatifs avec la récupération
- Construction d'un moteur de recherche sémantique avec des plongements de mots à double espace
- Recherche de similarité sémantique à l'échelle du milliard avec FAISS+SBERT
- Quelques observations sur les seuils de recherche de similarité
- Recherche d'images quasi identiques avec Locality Sensitive Hashing
- Cours gratuit sur la recherche de similarité vectorielle et Faiss
- Guide complet des algorithmes de recherche des voisins les plus proches approximatifs
- Introduction de l'index hybride pour permettre la recherche sémantique consciente des mots-clés
- Recherche sémantique Argilla
- Modèle de compréhension textuelle multilingue de Co:here
- Simplifiez la recherche avec des modèles d'embedding multilingues
- fastText
- Universal Sentence Encoder
- SBERT
- ELECTRA
- LaBSE
- LASER
- Relevance AI - Plateforme vectorielle de l'expérimentation au déploiement
- Haystack
- Jina.AI
- Pinecone
- SentEval Toolkit
- ranx
- BEIR :Evaluation des IR
- RELiC: Jeu de données de récupération d'éléments pour les revendications littéraires
- matchzoo-py
- deep_text_matching
- Quel cadre ?
- lexica.art
- Recherche sémantique emoji
- PySerini
- BERTSerini
- BERTSimilarity
- milvus
- NeuroNLP++
- weaviate
- Recherche sémantique à travers Wikipedia avec Weaviate
- Recherche naturelle sur YouTube
- same.energy
- Benchmarks ANN
- scaNN
- REALM
- annoy
- pynndescent
- nsg
- FALCONN
- redis HNSW
- autofaiss
- DPR
- rank_BM25
- nearPy
- vearch
- vespa
- PyNNDescent
- pgANN
- Tensorflow Similarity
- opensemanticsearch.org
- GPT3 Semantic Search
- searchy
- txtai
- HyperTag
- vectorai
- embeddinghub
- AquilaDb
- STripNet
- Semantic Text Similarity Dataset Hub
- Facebook AI Image Similarity Challenge
- WIT : Wikipedia-based Image Text Dataset
- BEIR
- MTEB
Consultez le tableau du projet pour la liste des tâches afin de contribuer à l'une des issues ouvertes.