Le Règlement général sur la protection des données
(RGPD), qui entrera en vigueur le 25 mai 2018, redéfini la façon dont les
organisations doivent gérer la collecte et l’utilisation des données personnelles des citoyens de
l’Union Européenne (UE).
Les débats entourant le RGPD se concentrent
principalement sur la portée mondiale de cette législation, les amendes très
élevées mises en place ou les lois plus contraignantes entourant le
consentement informé comme condition au traitement des données personnelles.
Cependant, l’un des défis que le RGPD entraine pour les entreprises passe
souvent inaperçu : le droit des citoyens à obtenir des explications.
Au-delà des détails juridiques, le RGPD assure que
les citoyens puissent obtenir des renseignements suffisants à propos des
systèmes automatisés mis en place pour le traitement de leurs informations
personnelles, afin de leur permettre de prendre une décision éclairée à ce
sujet. Vous pouvez consulter une analyse juridique à la fois complète et
accessible pour les non juristes ici.
Le droit à l’explication a longtemps été négligé.
Outre la méconnaissance du droit lui-même, il n’est pas communément reconnu que
cette nouvelle protection de la vie privée constitue un risque important pour
les entreprises qui traitent les données des citoyens.
Certes, le respect des autres droits des citoyens
introduits ou étendus par le RGPD, comme le droit de s’opposer au profilage, le
droit d’obtenir une copie des données personnelles collectées ou le droit à
l’oubli, peut s’avérer couteux. Mais de nombreuses entreprises sont aujourd’hui incapables d’expliquer leur traitement des données
personnelles. Pire encore, elles ignorent souvent comment se conformer à cette
obligation imposée par le RGPD.
La décision de la boîte noire
Les systèmes qui traitent les données personnelles
des citoyens reposent souvent sur l’apprentissage automatique. De plus,
contrairement aux algorithmes prémisse-conclusion (if-then) standard,
les modèles d’apprentissage automatique fonctionne comme une sorte de boîte
noire – personne ne sait exactement ce qui se passe à l’intérieur et le
raisonnement exact menant au résultat.
C’est particulièrement vrai dans le cas des
méthodes reposant sur des réseaux neuronaux. Les méthodes d’apprentissage
automatique basées sur l’arbre décisionnel permettent, en théorie, de
déterminer le parcours d’apprentissage. Cependant, des contraintes sévères
rendent toute explication extrêmement difficile.
Prenons un exemple largement simplifié. Imaginons
qu’une banque dispose d’un système d’apprentissage automatique pour déterminer
la solvabilité des personnes demandant un prêt. En se basant sur les données
relatives aux prêts précédents – y compris leurs résultats, caractérisés comme
« bons » ou « mauvais » – le système apprend par lui-même à
prédire si une nouvelle demande de prêt sera considéré comme une
« bonne » ou une « mauvaise » demande de prêt.
La raison d’être de la prédiction – sur la base de
laquelle une décision est prise quant à savoir si le demandeur sera ou non en
mesure d’acquérir sa propre maison, par exemple – réside dans la façon dont un
réseau complexe de milliers de neurones simulés traite les données. Le
processus d’apprentissage comprend des milliards d’étapes et est difficile à
suivre à l’envers. Non seulement techniquement, c’est-à-dire en raison de
contraintes technologiques, mais aussi à cause des limites fondamentales des
théories mathématiques sous-jacentes, personne ne peut vraiment dire exactement
pourquoi un échantillon particulier de données a été étiqueté comme
« mauvais ».
Se retrouver entre l’arbre et l’écorce
L’apprentissage automatique est devenu une méthode
de choix pour traiter de grands ensembles de données et trier des échantillons
en groupes. C’est pourquoi le droit à l’explication constitue un défi
fondamental – et un risque de non-respect – pour tous ceux qui traitent des
piles de données à caractère personnel des citoyens européens.
À moins que les entreprises qui traitent les
données personnelles des citoyens ne comprennent bien le raisonnement qui
sous-tend les décisions prises sur la base de leurs modèles d’apprentissage
automatique, elles se trouveront entre l’arbre et l’écorce. Elles doivent
empêcher leurs clients d’opter pour le traitement automatisé de leurs données
personnelles (afin d’économiser des coûts et de maintenir l’activité
commerciale), tout en préservant l’illusion que l’entreprise respecte
réellement le droit du client d’avoir une explication standardisée ainsi que le
droit d’avoir un contrôle humain en cas de résultat contesté (afin que
l’entreprise puisse éviter les lourdes amendes imposées par le RGPD en cas de
non-conformité).
La recherche fondamentale est nécessaire
Pour être en mesure d’expliquer le raisonnement qui
sous-tend leurs processus de prise de décision automatisés – et donc d’accorder
le droit d’expliquer à leurs clients – les entreprises doivent attendre que des
améliorations radicales dans la compréhension de la façon dont les machines
apprennent des améliorations radicales soient réalisées dans notre
compréhension. Tout simplement, les processus d’apprentissage automatique
doivent devenir transparents – sinon vraiment transparents, du moins beaucoup
moins en forme de boîte noire – pour que les entreprises qui tombent sous le
RGPD puissent se conformer.
Cependant, la transparence de l’apprentissage
automatique doit être approchée avec beaucoup de doigté. L’imprévisibilité, ou
la non-transparence, si vous préférez, est profondément enracinée dans les
théories mathématiques fondamentales sur lesquelles ce type d’apprentissage est
fondé. C’est pourquoi la solution du problème du droit à l’explication passe
par une amélioration des fondements théoriques de l’apprentissage machine.
Les spécialistes des techniques d’apprentissage
automatique s’orientent déjà de cette façon, mais il faudra peut-être attendre
des années avant de voir des résultats tangibles du RGPD.
La transparence : besoin ou menace?
Contrairement aux spécialistes du marketing et à
d’autres qui traitent des données personnelles en masse et doivent se conformer
aux règles de confidentialité, les entreprises de cybersécurité ne se
réjouissent pas d’un tel changement dans la recherche sur l’apprentissage
automatique.
Allouer plus de ressources à la compréhension des
modèles (dans un souci de transparence) implique que moins de ressources sont
disponibles pour rendre les modèles plus précis et plus efficaces.
Pour nous qui chassons les logiciels malveillants,
disposer de modèles d’apprentissage automatisé précis et efficaces est
primordial. À l’inverse, une plus grande transparence de nos modèles
d’apprentissage automatisé est la dernière chose dont nous avons besoin. Après
tout, nous ne voulons pas que les cybercriminels parviennent à ajuster leur
code malveillant pour défier nos protections!
Cependant, nous devons nous préparer à affronter
nos adversaires en se basant sur une meilleure compréhension du fonctionnement
de nos modèles d’apprentissage machine.
Sans aucun doute, il est important d’améliorer nos
modèles d’apprentissage automatique et de les rendre plus sophistiqués et donc
plus difficiles à contourner. Cependant, la mesure la plus importante à cet
égard est d’avoir plus de niveaux de protection.
L’avènement des outils de débouchage des modèles
d’apprentissage automatique montre clairement la fragilité des protections qui
peuvent dépendre uniquement de ces modèles. À mon avis, les organismes d’essai
devraient élaborer des méthodes plus sophistiquées pour tester la résilience
des solutions de sécurité par rapport aux méthodes visant à contourner les
mécanismes de détection des produits de sécurité en se fondant sur la
connaissance du fonctionnement de ces mécanismes. Ces tests avancés sont
nécessaires pour distinguer les solutions fiables et difficiles à contourner de
celles qui ne fonctionnent que dans des conditions idéales.
À propos de l’auteur : Juraj
Jánošík, est responsable de l’équipe de détection automatisée des menaces et de
l’intelligence artificielle d’ESET.