Recherche de termes et d'expressions (recherche booléenne en texte intégral)
Connectors Summary:
Connector | Function |
[espace] | Les mots séparés uniquement par un espace sont traités par défaut comme une phrase. |
" " | Phrase forcée - utilisée pour les phrases qui utilisent les mots "and", "or", ou "not" en eux |
AND | Inclut deux termes, phrases ou conditions n'importe où (même à des centaines de pages d'écart) dans le même document. |
OR | Permet l'utilisation de l'un ou l'autre de deux termes, phrases ou conditions |
AND NOT | Exclut un terme, une phrase ou une condition |
w/n | Renvoie les résultats où les mots apparaissent à une certaine distance les uns des autres, dans un sens ou dans l'autre. |
NOT w/n | Trouve un mot donné à condition qu'il ne se trouve pas à une distance spécifiée d'un autre mot donné. |
pre/n | renvoie les résultats dans lesquels le deuxième mot suit le premier mot dans un intervalle de mots spécifié |
* | Permet de prendre en compte les formes plurielles des mots ainsi que les terminaisons ajoutées à ce qui est tapé avant le * |
( ) | Regroupement des conditions pour les traiter comme un seul concept |
xfirstword | Fait référence à l'emplacement du premier mot dans un document lorsqu'il est utilisé avec un connecteur de proximité tel que w/n ou pre/n |
Résumé de la stratégie de recherche (vidéo ci-dessous) :
# | Concept | Orientations |
---|---|---|
1 | Ajouter des critères |
Au minimum, envisagez d'ajouter une fourchette de dates.
|
2 | Effectuer une recherche de base |
Envisager d'utiliser and shareholder rights plan (n'exige pas un and ou un or) |
3 | Utiliser des connecteurs de proximité |
Pensez à remplacer les phrases par des relations en utilisant des connecteurs de proximité tels que w/5 (à 5 mots près) ou w/500 (à 500 mots près). shareholder rights plan - ne récupère que cette phrase. shareholder w/5 rights w/5 plan - obtient également shareholder rights protection plan, shareholder protection rights plan, etc. |
4 | Synonymes |
Examinez les mots de votre recherche et réfléchissez à ceux qui pourraient être interchangeables avec d'autres mots ciblant le même concept ou la même information. shareholder or unitholder w/5 rights w/5 plan or program - obtient également unitholder rights program and shareholder rights program |
5 | Pluriel et suffixes |
Recherchez les mots dont vous souhaitez obtenir des variantes et mettez un astérisque * à la fin du mot. shareholder* or unitholder* w/5 rights w/5 plan or program - obtient également shareholders, shareholder's, shareholders', unitholders, unitholder's, unitholders', etc. |
Vidéo n° 1 : Quelle est l'utilité des recherches en texte intégral ?
La vidéo et l'étude de cas qui l'accompagne explorent l'impact de la recherche en texte intégral. Elles comparent des recherches générales (sans possibilité de recherche en texte intégral) à quatre niveaux de recherche en texte intégral de plus en plus raffinés, démontrant ainsi à quel point cette approche peut être utile.
Principaux enseignements:
-
Gagner du temps : La recherche en texte intégral permet d'éliminer 95 % des pertes de temps par rapport à une simple recherche Ctrl+F..
-
Obtenir de meilleurs résultats : L'utilisation de connecteurs de proximité, de caractères génériques et de synonymes peut générer des résultats plus de 10 fois plus pertinents que les recherches par mots-clés de base..
-
Apprenez les bases : Même si vous n'avez pas besoin de faire des recherches en texte intégral en permanence, la compréhension des principes de base peut faire une grande différence. Commencez par regarder la vidéo ci-dessous!
Quelle est l'utilité des recherches en texte intégral ? - Étude de cas
Cette étude de cas accompagne la vidéo ci-dessus et explore comment chaque composante de la stratégie de recherche résumée ci-dessus affecte un ensemble de résultats de recherche en temps réel. Les chiffres exprimés ci-dessous sont tirés de la vidéo ci-dessus.
Étape 1 : Recherche par catégorie uniquement (pas de termes de recherche)
Objectif : Trouver des états financiers et des documents de discussion et d'analyse de la direction (MD&A) d'entreprises de produits de consommation et de produits industriels.
Étapes:
-
Dans l'ensemble de données SEDAR, repérez les critères Industrie et Catégorie de document parmi vos critères utilisables à gauche du bouton Recherche.
-
Si les critères relatifs à l'industrie et à la catégorie de documents ne sont pas visibles (vérifiez bien - ils le sont très probablement déjà), ajoutez-les en cliquant sur + Ajouter un critère en haut à gauche, sous le champ de recherche en texte intégral..
-
Une fois ajouté, effectuez les sélections suivantes :
- Sous Industrie, sélectionnez Consumer Products et Industrial Products.
- Sous Catégorie de document, sélectionnez Financial Statements et Management Discussion and Analysis.
- Fixer la date de dépôt aux 2 dernières années.
-
Cliquez sur Recherche.
Résultats:
-
1000 documents retrouvés.
-
Il s'agit d'états financiers et de rapports de gestion, mais il n'y a aucun moyen de savoir s'ils mentionnent la net profit ou du chiffre d'affaires sans effectuer une recherche manuelle dans chaque document.
-
Cette recherche n'utilise pas de texte intégral et nous n'avons donc aucune idée du nombre de résultats qui contiennent la langue qui nous intéresse.
Étape 2 : Ajout de termes de recherche avec AND
Question : Dois-je trouver des mots ou des phrases spécifiques dans ces documents ?
Étapes:
-
Type net profit and sales growth
-
Cela demande à Avantis de limiter les résultats aux seuls documents contenant ces deux phrases exactes.
-
Il n'est pas nécessaire de mettre les phrases entre guillemets. Tous les mots qui ne sont pas séparés par des connecteurs reconnus seront considérés comme des phrases exactes.
-
-
Cliquez à nouveau sur Rechercher.
Résultats:
-
34 documents retrouvés (contre 1000 auparavant).
-
Cela signifie que 966 (96,6 %) des résultats originaux étaient des bruits non pertinents.
-
Chaque document met désormais en évidence les mentions "net profit" et "sales growth".
-
Si vous ouvrez votre panneau de gauche et choisissez l'onglet Mots-clés, vous verrez tous les contextes dans lesquels les phrases apparaissent dans le document.
-
Cependant, la recherche ne tient pas compte des variations dans la formulation (elle ne cherche même pas les pluriels) ou des phrases apparentées.
À retenir: Même cette simple recherche permet de gagner 95 % du temps par rapport à la vérification manuelle de 1 000 documents.
Étape 3 : Utilisation d'un connecteur de proximité ("w/n")
Questions:
-
Mes phrases exactes sont-elles trop restrictives ou trop précises ?
-
Dois-je trouver des mots apparentés dans la même discussion, même si je ne peux pas prévoir toutes les façons dont ils peuvent être utilisés dans une phrase ?
Étapes:
-
Mettre à jour votre recherche existante
-
Ancienne version : net profit and sales growth
-
Nouvelle version : net profit AND (sales w/5 growth)
- Il n'est pas nécessaire de mettre une majuscule à AND - cela n'est fait que pour l'effet, en pensant au lecteur.
- Avantis lit AND et and comme étant exactement le même mot
- Il n'est pas nécessaire de mettre une majuscule à AND - cela n'est fait que pour l'effet, en pensant au lecteur.
- Le w/5 demande à Avantis de ne récupérer que les documents contenant l'expression exacte "net profit", ainsi que toute occurrence du mot "sales" apparaissant à moins de 5 mots du mot "growth"
- Si vous aviez utilisé w/10 au lieu de w/5, Avantis aurait recherché les deux mots à moins de 10 mots l'un de l'autre au lieu de 5 mots.
- Si vous aviez utilisé w/100 au lieu de w/5, Avantis aurait recherché les deux mots à moins de 100 mots l'un de l'autre au lieu de 5 mots.
- Les connecteurs de proximité vous permettent de définir des distances maximales entre vos termes avec un contrôle et une précision absolus.
-
- Cliquez à nouveau sur Rechercher.
Résultats:
-
81 documents retrouvés (plus du double de l'étape 2).
-
Cette recherche permet de trouver des variantes telles que :
-
"sales growth"
-
"growth in fourth-quarter sales"
-
"growth in international sales"
-
-
Le connecteur de proximité W/5 garantit que les mots "sales" et "growth" apparaissent à moins de 5 mots l'un de l'autre, ce qui rend la recherche plus souple tout en restant précise.
À retenir : La recherche de proximité élargit les résultats sans ajouter de bruit, ce qui vous aide à saisir les discussions pertinentes.
.
Étape 4 : Ajout de synonymes (à l'aide de "ou")
Question : Certains de mes termes de recherche peuvent-ils être remplacés par d'autres mots qui donneraient de bons résultats ?
Marche à suivre :
:
-
Mettez à jour votre recherche existante
-
Ancienne version : net profit AND (sales w/5 growth)
-
Nouvelle version : net profit AND (sales or market w/5 growth or increase)
- Vous obtiendrez ainsi des résultats où le mot "market " se trouve à moins de 5 mots de "increase " ou "grow".
-
-
Cliquez à nouveau sur Rechercher.
Résultats :
-
250 documents récupérés (plus de 7 fois la quantité obtenue à l'étape 2).
-
Cette méthode pourrait être élargie en utilisant d'autres synonymes tels que improve, augment, ramp up, double à la place de grow ou increase , en fonction de vos besoins et de votre appétit pour la variation.
-
Pour ce faire, il suffit d'utiliser "or" entre chaque synonyme - par exemple - net profit AND (sales or market w/5 grow or increase or augment or double or ramp up).
-
À retenir : L'utilisation de synonymes permet de saisir les différentes façons dont le même concept est exprimé, ce qui améliore considérablement la couverture de la recherche sans trop d'efforts.
Étape 5 : Ajout d'un Wildcard / Caractère Générique ("*")
Question : Ai-je besoin de variantes des formes de mes termes de recherche (pluriels, suffixes, temps, etc.)?
Marche à suivre :
-
Mettez à jour votre recherche
- Ancienne version : net profit AND (sales or market w/5 growth or increase)
- Nouvelle version : net profit* AND (sales or market* w/5 grow* or grew or increas*)
- Cette opération demande à Avantis de ne rechercher que les documents contenant les expressions exactes net profit ou net profits, ainsi que toute occurrence du mot sales ou de toute variante du mot market apparaissant à moins de 5 mots d'une variante du mot grow ou increase.
- Notez qu'il ne suffit pas d'ajouter un astérisque après grow pour obtenir le mot grew , car il ne commence pas par les mêmes quatre lettres que grow ; nous ajoutons donc grew comme synonyme ou mot distinct.
- Cliquez à nouveau sur Rechercher.
Results:
-
380 documents trouvés (presque 11 fois plus qu'à l'étape 2).
-
Wildcard / caractère générique (*) élargit les termes de la recherche:
- profit* → profit, profits (étant donné que "profit" fait partie d'une expression, cela ne déclenchera probablement pas des mots comme "profiting", qui ne suivront probablement pas le mot "net")
- market* → market, markets, marketplace, marketplaces
- grow* → grow, grows, growing, grown, growth
- increas* → increase, increases, increased, increasing
-
Nous avons dû ajouter manuellement grew comme synonyme, car il n'est pas généré par grow*.
À retenir : L'utilisation de caractères génériques augmente la flexibilité sans nécessiter de termes de recherche distincts pour chaque variation.
Réflexions finales
Niveau de recherche |
Résultats obtenus |
Amélioration par rapport à l'étape 2 |
---|---|---|
Étape 1 : Critères uniquement |
1000 |
Base de référence |
Étape 2 : Mots-clés de base |
34 |
96.6% bruit supprimé |
Étape 3 : Connecteurs Prox. ("w/n") |
81 |
2.4x des résultats plus pertinents |
Étape 5 : Synonymes ("or") |
250 |
7.3x des résultats plus pertinents |
Étape 4 : Caractères génériques ("*") |
380 |
11.2x des résultats plus pertinents |
Principaux enseignements:
✅ Même une recherche élémentaire en texte intégral (étape 2) permet d'éliminer 95 % des résultats non pertinents.
✅ Les connecteurs de proximité, les synonymes et les caractères génériques augmentent considérablement la pertinence des résultats.
✅ La combinaison de ces techniques peut rendre vos recherches exponentiellement plus efficaces.
La meilleure façon de prendre l'habitude de rechercher des termes et des connecteurs (booléens) est d'appliquer une étape à la fois jusqu'à ce que vous soyez suffisamment sûr de vous pour pouvoir mélanger les étapes au fur et à mesure que vous tapez votre recherche. Il n'y a rien de mal à construire votre recherche étape par étape chaque fois que vous souhaitez effectuer une recherche complète.
Souhaitez-vous assister à une démonstration interactive de ces techniques ? N'hésitez pas à nous en faire part !
ÉTUDE DE CAS, CONCLUSIONS :
- Même la recherche la plus basique, celle de l'étape 2 ci-dessus, élimine 95 % du bruit que vous auriez à parcourir sur SEDAR ou toute autre méthode reposant sur Ctrl+F pour trouver des mots dans les documents.
- La recherche la plus spécifique, celle de l'étape 5 ci-dessus, utilisant (1) un connecteur de proximité, (2) des synonymes (séparés par un ou ) et (3) des wildcards / caractères génériques, a permis de trouver plus de 11 fois plus de documents pertinents que la recherche de base, celle de l'étape 2 ci-dessus.
- En triant les résultats par rang, vous commencerez par les résultats les plus pertinents (ceux qui contiennent les termes de recherche les plus fréquents et les plus étroitement regroupés). Vous n'aurez donc pas à consulter l'ensemble des 380 résultats, mais vous pourrez vous contenter d'examiner les correspondances les plus élevées/les meilleures.
- Ouvrez le panneau de visualisation dans la marge gauche du document et cliquez sur l'onglet des mots-clés pour voir toutes les utilisations de vos termes de recherche dans le document.
Pour effectuer une recherche avec des connecteurs
- Niveau intro : Assurez-vous d'être au moins familier avec les 5 premiers connecteurs du tableau ci-dessous ([espace], AND, OR, AND NOT, *).
- Examinez le 6e connecteur (w/n) et demandez-vous s'il peut vous être utile dans votre recherche. Si la réponse est non, vous n'aurez pas besoin d'en savoir plus sur les termes et la recherche par connecteur que les notions de base ci-dessus.
- Niveau de base : Consultez la liste complète des connecteurs dans le tableau de recherche des termes de base et des connecteurs ci-dessous.
- Si vous constatez que vous n'avez pas de questions sans réponse et que vous ne souhaitez pas en savoir plus, vous n'aurez pas besoin d'un niveau plus élevé que le niveau de base.
- Niveaux intermédiaire et avancé : Regardez le deuxième tableau ci-dessous - Recherche de termes et de connecteurs intermédiaires et avancés
- Les trois premiers exemples sont des applications intermédiaires et les trois derniers sont des applications avancées des termes et des connecteurs de recherche.
- La compréhension et l'utilisation de termes intermédiaires et avancés et de connecteurs de recherche vous donnent beaucoup plus de pouvoir sur ce que vous regardez et vous permettent d'éliminer beaucoup de bruit de vos recherches de type "aiguille dans une botte de foin".
- Les trois premiers exemples sont des applications intermédiaires et les trois derniers sont des applications avancées des termes et des connecteurs de recherche.
Tableau n° 1 : Termes de base et connecteurs Recherche
Connecteur |
Exemple |
Recherche |
Highlights |
---|---|---|---|
(espace) |
region of incorporation |
Documents contenant exactement la même phrase que celle recherchée. Les guillemets ne sont normalement pas nécessaires. |
L'expression exacte region of incorporation |
AND |
warrant AND consideration |
Documents contenant les deux termes |
Les deux termes peuvent se trouver n'importe où dans le document, quelle que soit leur proximité |
OR |
warrant OR consideration |
Documents contenant l'un ou l'autre terme OU les deux termes |
L'un ou l'autre terme n'importe où dans le document |
AND NOT |
warrant AND NOT consideration |
Documents qui contiennent un terme mais ne doivent pas contenir l'autre terme |
Uniquement le terme "warrant" et ne doit pas contenir le terme "consideration". |
* |
warrant* |
Documents contenant tout terme commençant par la chaîne de lettres spécifiée |
Tout terme commençant par warrant - y compris warrants, warranted, warranty, warranties, etc. |
w/n |
warrant w/10 consideration |
Documents contenant un terme à moins d'un certain nombre de mots de l'autre. |
L'un ou l'autre terme chaque fois qu'il apparaît à moins de 10 mots de l'autre |
pre/n |
warrant pre/10 consideration |
Documents dans lesquels un terme précède l'autre d'un certain nombre de mots (ou moins). |
warrant et la consideration, lorsque warrant précède la consideration de 10 mots ou moins. |
NOT w/n |
warrant NOT w/10 consideration |
Documents contenant au moins une occurrence d'un terme qui ne se trouve pas à une distance spécifiée d'un autre document. |
warrant n'est mis en exergue que lorsqu'il ne se situe pas à moins de 10 mots de la consideration. |
xfirstword |
warrant w/10 xfirstword |
Spécifie le premier mot d'un document. |
Chaque occurrence de warrant apparaissant dans les 10 mots suivant le premier mot du document |
"" (quotes) |
"warranties and representations" "incorporated or deemed to be incorporated" "not limited to" |
Les documents contenant l'expression exacte, y compris les connecteurs tels que and, or, not traités comme des termes de recherche normaux. |
Utilisez des guillemets lorsque l'expression exacte comprend and, or, not - afin qu'ils soient traités comme des termes de recherche normaux, et non comme des connecteurs. |
% |
wa%rrant |
Documents contenant des mots similaires à ceux recherchés |
Trouve des fautes d'orthographe comme warant, warrrant, etc.. |
Vidéo n° 2 : Termes de base et recherche de connecteurs
Tableau n° 2 : Termes intermédiaires et avancés et connecteurs recherchés
Niveau |
Recherche |
Recherche |
Points forts |
---|---|---|---|
Intermédiaire
|
(warrant AND consideration) OR common shares |
Les documents qui : |
Met en évidence toutes les occurrences de warrant , de consideration ou common shares trouvées dans les relations spécifiées dans la recherche.
|
Intermédiaire
|
warrant AND (consideration OR common shares) |
Les documents qui : |
Met en évidence toutes les occurrences de warrant , de considerationou de common shares trouvées dans les relations spécifiées dans la recherche. |
Intermédiaire
|
(warrant AND consideration) w/10 common shares |
Les documents qui :
|
Le terme "warrant" n'est mis en évidence que si
|
Avancé
|
common shares w/20 warrant w/10 consideration |
Les documents qui : 1) contiennent un Warrant de common shares dans les 20 mots qui suivent 2) contiennent un Warrant dans les 10 mots de consideration 3) Contiennent également consideration dans les 10 mots de common shares
Dans cette recherche, common shares est le terme d'ancrage, et tous les connecteurs de proximité s'appliquent par rapport à lui. De plus, warrant doit se trouver à moins de 10 mots de consideration. |
Les common shares doivent être : - Dans les 20 mots de warrant, et - Dans les 10 mots de consideration
Warrant doit être : dans les 20 mots de "warrant", et dans les 10 mots de "consideration" : - Dans les 20 mots common shares, et - Dans les 10 mots de consideration
Consideration doit être : - Dans les 10 mots de common shares, et - Dans les 10 mots de warrant |
Avancé
|
common shares w/20 (warrant w/10 consideration) |
Les documents qui :
1) contiennent un warrant dans les 10 mots de consideration
2) contiennent un warrant OU une consideration dans les 20 mots de l'expression "common shares".
3) Consideration peut être n'importe quelle distance des common shares si les deux premières conditions sont remplies.
|
Les common shares doivent être :
- Dans les 20 mots de warrant, OU
- Dans les 20 mots de consideration
Warrant doit être :
- Dans les 10 mots de consideration et
- Dans les 20 mots qui suivent les common shares SEULEMENT SI consideration n'est pas :
dans les 10 mots qui suivent consideration ,
et dans les 20 mots qui suivent les common shares
Consideration doit être :
- Dans les 10 mots de consideration et
- Dans les 20 mots des common shares UNIQUEMENT SI le warrant n'est pas
Seul warrant OU consideration doit être dans les 20 mots des common shares.
|
Avancé
|
common shares w/10 warrant w/15 consideration w/20 collectively |
Les documents qui contiennent :
1) un warrant dans les 10 mots correspondant à des common shares
2) Consideration dans la limite de 15 mots de common shares
3) Collectively dans un rayon de 20 mots de common shares
En raison des connecteurs de proximité consécutifs, tout document renvoyé devra également contenir :
- Warrant dans les 15 mots de consideration
- Consideration dans les 20 mots de collectively
Dans cette recherche, common shares est le terme d'ancrage.
|
Les common shares doivent être :
- Dans les 10 mots du warrant ,
- Dans les 15 mots de consideration, et
- Dans les 20 mots de collectively
Warrant doit être :
- Dans les 10 mots de common shares, et
- Dans les 15 mots de consideration
Consideration doit être :
- Dans les 15 mots de common shares.
- Dans les 15 mots de warrant, et
- Dans les 20 mots de collectively
Collectively doit être :
- Dans les 20 mots de common shares, et
- Dans les 15 mots de consideration
|