Comment réaliser une analyse sémantique automatique ?

Publié le 31 janvier 2022  - Mis à jour le 09 février 2022

Comment réaliser une analyse sémantique automatique ?

L’analyse sémantique est bien souvent vu comme un process fastidieux, très couteux en temps et en ressources. Cependant, grâce à l’intelligence artificielle ce n’est plus vraiment le cas aujourd’hui. Nous allons voir dans cet article comment réaliser une analyse sémantique et pourquoi l’utilisation d’un outil automatique peut vous permettre d’automatiser toutes ces tâches et d’analyser l’ensemble de vos verbatims en un temps record !

A – La préparation

Tout d’abord, nous allons voir que la préparation d’une bonne analyse sémantique automatique peut-être séparée en 7 étapes bien distinctes.

Avant toute chose, il est important de préciser que la plupart des algorithmes vont être dépendants de la langue des verbatims. En effet, en fonction de la langue, les règles grammaticales, syntaxiques, vont être différentes et c’est pour cela qu’il est important de bien définir celle-ci en amont avant de se lancer dans un projet d’analyse sémantique ou de s’assurer que l’outil peut automatiquement détecter la langue du commentaire.

Une fois ceci fait, on peut passer à la première étape : la segmentation des phrases.

1)   La segmentation des phrases

Les verbatims laissés par vos clients seront composés dans la grande majorité des cas de plusieurs phrases. La première étape consiste donc à découper la donnée. En effet, dans cette phase de segmentation, chaque verbatim va être décomposé phrase par phrase. L’objectif de cette première étape est de pouvoir replacer les mots de chaque phrase dans leur contexte afin de pouvoir établir la signification de la phrase en elle-même. Ce qui nous amène donc vers l’étape suivante : la tokenization.

choix analyse semantique (1).png

2)   La tokenisation

Cette étape est la suite logique de la précédente.

En effet, si la segmentation a pour objectif de séparer les phrases les unes des autres au sein d’un verbatim ; la tokenization quant à elle va trouver les mots dans chacune de ses phrases et leur attribuer un « token ». C’est ce fameux token qui va permettre à l’algorithme d’analyser sémantiquement les mots et de les identifier correctement et donc passer à l’étape d’après : l’interprétation grammaticale.

 

3)   L’interprétation grammaticale

La troisième étape dans la réalisation de notre analyse sémantique est l’interprétation grammaticale (ou Part of speech tagging). L’idée à ce stade étant de trouver quels sont les adjectifs, les sujets, les verbes,etc. Cette étape est cruciale puisque c’est ce qui va permettre à l’algorithme d’analyse sémantique de comprendre la phrase et de créer des liens entre les différents mots. 

4)   La lemmatisation

Une fois que l’interprétation grammaticale a été faite, il faut regrouper les différents mots par famille de mots, c’est ce qu’on appelle des lemmes. Pour faire simple, si dans une phrase on retrouve le mot « mangerais » ; l’algorithme va automatiquement reconnaître que ce mot fait référence à la famille « manger » et par conséquent le lemme associé sera « manger ». L’idée étant de ne conserver que le sens du mot.

Cela permet de grandement simplifier et d’augmenter la fiabilité de l’analyse sémantique. En effet, si l’algorithme est en mesure de comprendre le sens des mots au sein des phrases, il va être capable de bien identifier ce dont parle le client dans son commentaire et donc pouvoir le classer dans la thématique appropriée efficacement.

5)   Le nettoyage des mots stops

Au cours de la lemmatisation, il va falloir également falloir effacer les mots inutiles à l’analyse au sein des phrases : c’est ce qu’on appelle les mots stops. Ce sont des mots qui n’apportent aucune valeur à l’analyse générale du verbatim, ils sont bien évidemments différents en fonction de chaque langue d’où l’intérêt de bien avoir l’information sur celle-ci au préalable.

Par exemple, en français, cela peut. représenter les mots « et », « à », « le », etc. Ils sont très souvent présents dans les verbatims et ralentissent le travail sans apporter de valeur ajoutée sur la compréhension du texte. C’est pourquoi le nettoyage des stop words n’est pas à négliger.

16099626487943_P1C2.png

6)   L’analyse des dépendances

Nous pouvons ensuite passer à l’analyse des dépendances. Cela consiste à établir des liens entre les différents mots que l’on a trouvés dans les étapes précédentes. Quels sont les sujets ? Quels sont les adjectifs ? Quels sont les verbes d’actions ? L’objectif étant de mettre en relation les mots entre eux quelle que soit leur position dans la phrase afin d’identifier les différents sujets évoqués dans le verbatim.

7)   L’identification des co-références

Enfin, l’étape finale est de rechercher les relations entre ces différents sujets en identifiant des coréférences. Cela signifie tout simplement à trouver l’ensemble des termes qui font référence à un même sujet. Par exemple dans la phrase « Le stewart m’a servi mon repas. Il ne m’a même pas regardé. », le mot « il » est une coréférence de « stewart ». Grâce à ce travail, l’outil va être en mesure de bien rattacher l’émotion négative de la seconde phrase au mot « Stewart ». 

Comme nous venons de le voir, le travail de préparation d’une analyse sémantique est très conséquent mais une fois réalisé vous assurera une fiabilité d’analyse très élevée. Nous y reviendrons plus tard mais si vous décidez d’utiliser un outil d’analyse sémantique automatique, l’ensemble de ces tâches sera réalisé par celui-ci, ce qui vous fera gagner un temps considérable. 

B – Quelle démarche utiliser pour réaliser une analyse sémantique automatique ?

Maintenant que nous avons vu le travail de préparation, il est temps de se pencher sur l’analyse en elle-même. Pour cela, il existe deux démarches différentes pour mener à bien celle-ci :

-  La classification

-  La clusterisation

1) La classification

Dans le cadre de cette démarche, il faut tout d’abord définir en amont un « modèle ». Cela consiste à établir l’ensemble des thématiques (ou classes) que l’on souhaite retrouver lors de l’analyse des verbatims. Cela va permettre à l’algorithme d’automatiquement classer les verbatims dans les différentes thématiques qui ont été définies au préalable. 

En couplant cette classification avec de l’analyse émotionnelle, il est possible d’identifier en un coup d’œil quelles sont les thématiques les moins bien ressenties par vos clients (irritants) et inversement quels sont les points d’enchantements. 

Cette démarche peut également être appliquée sur des entités comme des lieux, les étapes du parcours client, etc. Par exemple, si un de vos clients évoque dans son commentaire une expérience en magasin, il est possible de rechercher dans la donnée si le client était à la caisse, dans les rayons, en cabine d’essayage, etc. C’est cet ensemble de méthodes qui va vous permettre de qualifier au mieux les données clients et renforcer l’intérêt et le ROI de l’analyse sémantique.

Capture d’écran 2021-01-20 à 17.40.00.png

2) La clusterisation

La deuxième démarche qui peut soit être couplée à la classification soit la remplacer, c’est la clusterisation. L’idée derrière ce terme étant de regrouper les commentaires entre eux en fonction de leur sens ou de leur proximité heuristique. 

Cependant, à l’inverse de la méthode précédente, on ne définit pas de classes au préalable. Ainsi, en regroupant les verbatims par proximité, les résultats vont vraiment dépendre de la donnée que vous possédez. En effet, il est possible que tous les commentaires soient regroupés dans un seul groupe ou à l’inverse dans de nombreux groupes différents.

Il est important également de penser à bien nommer les clusters obtenus car dans cette méthode, l’outil ne le fera pas de lui-même.

Capture d’écran 2021-07-05 à 14.37.09.png

C - Pourquoi allier classification et clusterisation ?

Bien souvent, il sera intéressant de mettre en place les deux méthodes. Prenons un exemple pour bien comprendre. 

Imaginons que vous êtes à la recherche de vos irritants prioritaires, dans ce cas la classification et l’analyse des émotions vous permettra de cibler directement les points négatifs qui font émerger le plus de tristesse, de colère ou de dégoût. En y ajoutant une démarche de clusterisation, vous pourrez regrouper les sujets qui ont provoqués ces
émotions négatives et par conséquent faire émerger vos irritants. C’est donc en couplant ces deux approches que vous obtiendrez les meilleurs résultats dans votre recherche !

Pour conclure, nous l’avons vu, la réalisation d’une analyse sémantique est une tâche très complexe et chronophage. Mais la bonne nouvelle c’est que tout ce processus peut désormais être totalement automatisé ! Si ce sujet vous intéresse et que vous souhaitez en savoir plus, demandez votre démo gratuite de notre solution.


Partager cet article

Articles similaires

Comment utiliser l'analyse sémantique pour améliorer l'expérience client ?

Publié le 27 avril 2022  - Mis à jour le 11 mai 2022

Utiliser l'analyse sémantique pour améliorer l'expérience client. C'est possible ! Les commentaires laissés par vos clients sont bien souvent une mine d'information sur votre expérience et parcours c...

Le Customer Effort Score (CES) : définition, calcul et avantages

Publié le 31 mars 2022  - Mis à jour le 11 mai 2022

Le Customer Effort Score (CES) est un indicateur clé qui a pour objectif de placer le client au centre de votre stratégie. Lorsqu’il a été évoqué pour la première fois en 2010, il a repensé la façon...

Q°emotion, un outil pour...

Classer automatiquement
les verbatim

Classification automatique

Q°emotion, un outil pour...

Hiérarchiser les irritants
sur les parcours clients.

Irritants & Parcours clients

Envie de tester notre outil ?

Demandez un
test de notre outil !

phone