Un search efficace est une fonction obligatoire pour toute plateforme DXP technologiquement avancée.
La recherche est une fonction de base d'un site Web. Elle est pourtant largement utilisée par les internautes à la recherche du contenu ou des produits qu'ils veulent lire, voir ou acheter. Toute plateforme DXP (Digital Experience Platform) doit disposer un moteur de recherche de pointe afin de répondre à ce besoin fondamental de l'utilisateur. Nous avons interviewé le Product Owner de notre solution de DXP open source sur l'intégration à venir d'Elasticsearch, un puissant moteur de recherche lui aussi open source.
Pouvez-vous expliquer les avantages d'un serveur Elasticsearch fonctionnant en étroite connexion avec le serveur Jahia DX?
Elasticsearch est l'un des plus puissants moteurs de recherche open source disponible sur le marché. L'utiliser en conjugaison avec Jahia DX améliorera les performances de recherche car la requête sera traitée par un serveur ElasticSearch dédié et non par le serveur Jahia DX. Nous attendons également des résultats plus pertinents: alors le moteur de recherche actuel inclus dans Jahia DX est "content-based", notre fournisseur de recherche ElasticSearch est "page-based". Le comportement et les résultats sont plus proches des attentes des internautes: plus "Google-like", pour être clair.
Dans quels repositories Elasticsearch effectue-t-il ses recherches? Est-il aussi capable de rechercher efficacement dans les répertoires externes de données (EDP) montés sur un serveur Jahia DX?
Jahia DX indexe ses répertoires par défaut et live dans le serveur ElasticSearch. Ainsi, quand les internautes pourront effectuer une recherche sur la version publiée d'un site, les éditeurs de contenu et les administrateurs du site pourront effectuer une recherche privée dans son mode de prévisualisation. L'indexation des EDP montés dans un serveur Jahia DX est également incluse dans le projet. Cela permettra à nos clients d'avoir une recherche élargie et des résultats cohérents dans leur environnement numérique quotidien. Par exemple, il sera possible de fusionner dans le résultat d'une recherche le contenu des pages de Jahia DX et les données produits gérées par un serveur eCommerce.
Quels types de limitations sur les recherches au sein d'un EDP peuvent être attendus?
Afin d'inclure les données stockées au sein d'un EDP dans le résultat de la recherche, nous devons implémenter les méthodes correspondantes afin d'indexer correctement ces données. Les limitations sont les mêmes que celles que nous avons actuellement avec un EDP: les permissions utilisées seront celles définies sur Jahia DX pour accéder à ce répertoire externe. La recherche sera effectuée sur la partie accessible de l'EDP via Jahia DX.
Elasticsearch cible-t-il tous les contenus différents stockés dans un repository? Les restrictions de recherche sont-elles autorisées? Y a-t-il un panneau de configuration?
La liste des nodetypes indexés est définie dans un panneau de configuration spécifique. Par conséquent, il est possible d'indexer le contenu éditorial et les pages, ainsi que les fichiers (documents, images, etc.). Notez qu'Elasticsearch indexe également le contenu des documents, afin de pouvoir récupérer un document en recherchant son contenu.
Comment Elasticsearch traite-t-il le contenu dupliqué?
Elasticsearch est une fonction de recherche. Il n'effectue pas d'analyse sémantique du contenu et n'est pas en mesure d'identifier le contenu dupliqué au sein un site Web Jahia DX. Si des contenus similaires sont stockés et affichés sur plusieurs pages d'un site Web basé sur Jahia DX, une recherche effectuée à l'aide d'Elasticsearch sur une partie de ces contenus affichera toutes les pages pertinentes.
Elasticsearch effectue-t-il ses recherches dans le contenu de Jahia DX en temps réel ou s'appuie-t-il sur un moteur d'indexation?
Elasticsearch est un moteur de recherche quasi en temps réel. Cela signifie que si vous mettez à jour un contenu dans Jahia DX, le contenu ne sera pas instantanément indexé sur le serveur elasticsearch. Cependant, c'est presque immédiat, c'est pourquoi on l'appelle "presque en temps réel".