faux positifs

Supprimer les « faux positifs » à l'aide de qualificateurs d'expression lexicale

En matière de solutions classiques de prévention des fuites de données (DLP), le faux positif est souvent le point faible. Un faux positif correspond au déclenchement par erreur d'un événement par une politique. A titre d’exemple, une chaîne de 16 chiffres peut correspondre à un numéro de carte de crédit ou bien à une simple référence et confondre l'un avec l'autre génère un faux positif.

Dans la mesure où tous les événements DLP doivent être investigués, les faux positifs représentent au quotidien une grosse contrainte pour le département informatique, et ce depuis de nombreuses années. Mais la situation ayant évolué depuis, il est aujourd'hui possible d'atténuer les faux positifs à l'aide de qualificateurs d'expression lexicale (LEQ) qui allègent le fardeau qui pèse sur des départements informatiques déjà débordés.

Les défis de la détection des données

Les systèmes DLP permettent de détecter et d'empêcher le partage de données sensibles en dehors du réseau de l'entreprise. Les types de données sensibles à protéger peuvent varier selon le marché sur lequel l'entreprise évolue. Il peut notamment s'agir d'informations de carte de crédit, de numéros de compte en banque, de numéros d'identification patient, de numéros de passeport, de coordonnées d'employés ou encore de comptes clients ou de données de contact. Pour ce faire, la technologie DLP doit bien évidemment être capable de reconnaître des séquences numériques ou alphabétiques selon le type de données qu'elle est chargée de détecter.

Ainsi, lorsqu'il s'agit de reconnaître un numéro de carte de crédit, il existe une méthode bien connue appelée la formule de Luhn pour vérifier que le numéro vu n'est pas un numéro à 16 chiffres fourni de manière aléatoire, mais qu'il s'agit bien d'un vrai numéro de carte de crédit. Un contrôle basé sur l'algorithme de Luhn peut être exécuté parallèlement à une vérification du numéro d'identification bancaire (BIN) pour réduire encore la possibilité que la technologie ne reconnaisse pas correctement le numéro comme étant celui d'une carte de crédit valide et crée un faux positif qui bloquera la livraison d'un courrier électronique alors que cela ne s'imposait pas.

Parfait, mais quid des numéros qui ne font pas l'objet d'un contrôle Luhn ou BIN ? Par exemple des numéros tels que des comptes clients, des numéros d'identification patient ou des numéros de passeport contenant généralement entre 6 et 10 chiffres et auxquels un préfixe alphanumérique peut être attaché ou non. Même avec un préfixe, le numéro peut souvent être interprété par la technologie comme autre chose que ce qu'il est. Et avec l'avènement des applications Web et des URL très longues, il y a un risque d’interpréter ces chaînes de caractères comme étant des numéros de carte de crédit valides, même après une vérification Luhn ! 

Les faux positifs sont la bête noire des technologies DLP traditionnelles depuis que ces dernières ont été conçues. En effet, après avoir détecté des données, le système bloquera la communication jusqu'à ce qu'elle soit auditée par le département informatique qui l’autorisera ou non à poursuivre sa route.

La fonctionnalité d'anonymisation contextuelle de Clearswift (fournie avec toutes nos principales solutions pour la messagerie électronique et le Web), atténue le risque de faux positifs en supprimant uniquement les données qui violent les politiques et en autorisant le reste du contenu à continuer sa route sans délai. Dans la plupart des cas, cela fonctionne bien et garantit une collaboration à la fois sécurisée et permanente. De plus, lorsque des données doivent être communiquées sans avoir été modifiées, le message ou le fichier original peut être rapidement analysé puis libéré. Cependant, dans certains cas et malgré l'anonymisation de l'information, des problèmes peuvent persister lorsque des informations continuent d’être exigées et que le cycle d'analyse/libération prend trop de temps. Dans ces cas de figure, une autre fonctionnalité peut être mise à contribution, à savoir le fichier de qualificateurs d'expression lexicale (ou LEQ). 

S'appuyer sur des qualificateurs d'expression lexicale (LEQ) pour atténuer les faux positifs

Les qualificateurs LEQ peuvent être utilisés pour valider les informations découvertes par rapport à une source de données externes, par exemple une base de données système stockant des données sensibles. À son niveau le plus simple, cette base pourra contenir des données sur des clients ou des patients et notamment des numéros d'identification. Pour empêcher le partage des numéros d'identification patient en dehors de l'entreprise par le biais des systèmes de l'entreprise dont la messagerie électronique, un système DLP aura besoin de vérifier que, par exemple, un numéro d'identification patient à 10 chiffres contenu dans un courrier électronique qu'il a détecté correspond bien au numéro d'identification du patient stocké dans la base de données. Mais il y bien évidemment un risque que le nombre détecté soit un faux positif.

Pour prévenir un faux positif, il est donc possible d'ajouter au numéro d'identification patient une valeur provenant du même enregistrement de la base de données, par exemple le nom de famille du patient. Ainsi, si le numéro d'identification ainsi que le nom de famille du patient sont tous les deux détectés, il y a des chances pour que le numéro d'identification du patient soit bien un numéro d'identification et non pas une valeur numérique quelconque. Ce qualificateur LEQ supplémentaire peut-être étendu au numéro d'identification du patient, à son prénom, son nom de famille et sa date de naissance. Plus le volume d'informations vérifiées via les qualificateurs LEQ est important, plus le système a la garantie qu'il s'agit de la bonne correspondance.

Utiliser le numéro d'identification

Configuration des qualificateurs LEQ

L'idée sous-jacente des LEQ est intéressante, mais comment cela fonctionne-t-il concrètement ? Pour les administrateurs système, l'idée d'un système externe envoyant en permanence des requêtes à la base de données n'est pas acceptable pour des questions de performances. De plus, il est hors de question de dupliquer les données au sein d'un autre système.

La solution consiste donc à prendre un extrait de la base de données contenant les bonnes informations que le système DLP pourra utiliser. Cet extrait peut être sollicité aussi souvent que nécessaire et à un moment de la journée qui n'aura aucune incidence sur l'activité quotidienne de l'entreprise. En règle générale, cette opération complètement automatisée a lieu en tout début de matinée. L'extrait qui en résulte est ensuite transformé en une série de valeurs chiffrées de manière unidirectionnelle pour chacun des champs, également appelés hashes, le tout avant d'être transférés et importés en toute sécurité par la passerelle de sécurité. 

sur le réseau sécurisé

Cette méthode de chiffrement garantit que même si le fichier LEQ tombe dans de mauvaises mains, il ne sera en aucun cas possible de recréer les données d'origine, ce qui protège donc complètement les informations. La passerelle de messagerie ou Web peut ensuite utiliser les informations contenues dans le fichier LEQ sans incidences sur les performances de la base de données ou l'activité de l'entreprise.

Même si la configuration prend un peu de temps au départ, une fois que tout est bien défini, le processus totalement automatisé permet d'atténuer la plaie des faux positifs, de réduire le temps opérationnel consacré à résoudre les faux positifs et, surtout, de renforcer la protection des données sensibles.

De plus en plus d'informations sensibles étant transférées entre un nombre de personnes toujours plus important dans le cadre de relations de travail, il est important de mettre en place des mesures modernes pour assurer en permanence la sécurité des données. Aussi, même si les politiques DLP traditionnelles peuvent engendrer des problèmes qui ralentissent la collaboration, des fonctionnalités avancées telles que l'anonymisation contextuelle et les fichiers LEQ permettent d'atténuer les faux positifs tout en garantissant la sécurité des informations et des performances optimales pour l'activité de l'entreprise. 

Chez Clearswift, nos clients peuvent s'appuyer sur les fichiers LEQ intégrés à nos principaux produits destinés à la messagerie électronique et au Web et aussi sur une multitude de fonctionnalités de prévention contre les menaces avancées et de protection des données. N'hésitez pas à contacter dès aujourd'hui notre équipe pour en parler ou pour demander une présentation de notre technologie. 

Pour plus d'informations :