Differentially Private Stochastic Gradient Descent
Differentially Private Stochastic Gradient Descent (DP-SGD) est une technique d'optimisation qui combine des caractéristiques de la descente de gradient stochastique et de la confidentialité différentielle. Comme la descente de gradient stochastique, DP-SGD est un algorithme d'optimisation itératif qui utilise des mini-batchs pour estimer le gradient stochastique, tel qu'utilisé dans SGD pour optimiser une fonction objectif différentiable. Contrairement à SGD traditionnel, DP-SGD garantit la confidentialité différentielle dans un cadre d'apprentissage fédéré. Pour rendre un algorithme différentiellement privé, du bruit est ajouté à chaque information pouvant être observée par un adversaire. Une stratégie classique d'apprentissage fédéré consiste à ce qu'un agrégateur diffuse les paramètres courants du modèle, à chaque itération, après quoi tous les propriétaires des données calculent localement les gradients de la fonction objectif pour ce modèle global sur leurs données privées, agrègent ces gradients de manière sécurisée et envoient le gradient agrégé à l'agrégateur.
État de l'art
modifierPour atteindre la confidentialité différentielle avec un minimum de bruit, il est nécessaire de la plus petit borne supérieur de la sensibilité du l'algorithme à protéger. Une approche consiste à limiter la sensibilité du gradient en supposant que la fonction objectif est une Application lipschitzienne[1]. Dans le cas des réseaux de neurones profonds (DNN), la fonction objectif n'est pas convexe et généralement pas même lipschitzienne. Par conséquent, une méthode courante consiste à tronquer les gradients (clipping), c'est-à-dire diviser les gradients par la norme maximale possible qu'ils peuvent atteindre. Ces gradients normalisés ont une norme bornée et donc une sensibilité bornée[2].
Pour suivre la consommation du budget de confidentialité, on peut s'appuyer sur le théorème de composition forte[3], tandis que d'autres se basent sur la comptabilité des moments comme le propose Abadi. La comptabilité des moments exploite indirectement la confidentialité différentielle de Rényi[4] et fournit des bornes beaucoup plus serrées sur la perte de confidentialité que le théorème de composition forte.
Cela a ouvert un domaine de recherche actif qui s'appuie sur le travail d'Abadi afin de fournir une meilleure estimation des hyperparamètres, tels que la norme de clipping[5], le learning rate[6] ou la taille de pas de la consommation du budget de confidentialité[7]. Cependant, l'algorithme d'Abadi reste l'approche standard pour la DP-SGD.
Références
modifier- (en) Raef Bassily, « Differentially Private Empirical Risk Minimization: Efficient Algorithms and Tight Error Bounds », IEEE Annual Symposium on Foundations of Computer Science, (lire en ligne)
- Martin Abadi, Andy Chu, Ian Goodfellow et H. Brendan McMahan, « Deep Learning with Differential Privacy », Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, Association for Computing Machinery, cCS '16, , p. 308–318 (ISBN 978-1-4503-4139-4, DOI 10.1145/2976749.2978318, lire en ligne, consulté le )
- Cynthia Dwork, Guy N. Rothblum et Salil Vadhan, « Boosting and Differential Privacy », 2010 IEEE 51st Annual Symposium on Foundations of Computer Science, , p. 51–60 (DOI 10.1109/FOCS.2010.12, lire en ligne, consulté le )
- Ilya Mironov, « Rényi Differential Privacy », 2017 IEEE 30th Computer Security Foundations Symposium (CSF), , p. 263–275 (DOI 10.1109/CSF.2017.11, lire en ligne, consulté le )
- (en) Hugh Brendan McMahan, « Communication-Efficient Learning of Deep Networks from Decentralized Data », International Conference on Artificial Intelligence and Statistics, (lire en ligne )
- (en) Antti Koskela, « Learning Rate Adaptation for Differentially Private Learning », International Conference on Artificial Intelligence and Statistics, (lire en ligne )
- (en) Jaewoo Lee, « Concentrated Differentially Private Gradient Descent with Adaptive per-Iteration Privacy Budget », arxiv, (lire en ligne)