Mathematical theory on statistical inference subject to randomization constraints
Final Report Abstract
In vielen modernen Schätzproblemen unterliegt die Weiterleitung und Bearbeitung erhobener Daten strengen Datenschutzregelungen, sodass für die Zwecke statistischer Inferenz oft nicht der ursprüngliche Datensatz sondern auf gewisse Weise abgewandelte – sogenannte privatisierte – Beobachtungen zur Verfügung stehen. Mathematisiert wird diese Privatheitsrestriktion beispielsweise durch die sogenannte α-local differential privacy, die ein Maß für die Änderung der bedingten Verteilung der manipulierten Beobachtung gegeben dem Originaldatum als Variable darstellt. In diesem Projekt haben wir das Schätzproblem von Funktionalen der Marginaldichte der Originalbeobachtungen studiert. Für eine große Klasse von Verlustfunktionen l haben wir in Rohde and Steinberger (2020) bewiesen, dass das privatisierte Minimax-Risiko zu l(ωTV(n^-1/2)) bis auf Konstanten äquivalent ist unter Regularitätsvoraussetzungen, die insbesondere für lineare Funktionale und konvexe statistische Modelle erfüllt sind. Unsere Resultate ergänzen die Theorie, welche von Donoho and Liu (1991) für den klassischen Fall nicht-privatisierter Beobachtungen entwickelt wurde, durch den heute höchst relevanten privatisierter daten. Etwas überraschend konnten wir die Schwierigkeit des Schätzproblems im privaten Fall durch den Stetigkeitsmodul ωTV des Funktionals bezüglich der Totalvariationsnorm charakterisieren, wohingegen sie durch den Hellinger-Stetigkeitsmodul beschrieben wird, wenn die Originaldaten verfügbar sind. Wir haben ebenfalls herausgefunden, dass für lokal-private Schätzung linearer Funktionale über konvexe Parametermengen ein einfaches Stichprobenmittel aus unabhängigen, binären privatisierten Beobachtungen immer die Minimax-Rate erreicht. Darüberhinaus haben wir ein allgemeines Rezept entwickelt, den funktionalen Parameter in dem optimalen binären Privatisierungsmechanismus zu wählen. Die allgemeine Theorie wird an zahlreichen Beispielen illustriert. Unsere Theorie erlaubt es, in einer großen Klasse von Schätzproblemen den Preis zu quantifizieren, der für lokale Privatheit gezahlt werden muss. Dieser Preis ist in höchstem Maße problemspezifisch. In allen bisher in der Literatur studierten Schätzproblemen – wie auch bei linearen Funktionalen über konvexe Parametermengen – hat sich herausgestellt, dass kein signifikanter Unterschied in Ausdrücken des Minimax-Risikos zwischen rein nicht-interaktiven und sequentiell interaktiven Privatisierungsmechanismen beobachtet werden konnte. Wir haben ersmals gezeigt, dass für die Schätzung des integrierten Quadrats einer Dichte ∫ f2 sequentiell interaktive Verfahren den bestmöglichen nicht-interaktiven in Ausdrücken der Minimax-Schätzrate substantiell überlegen sind.
Publications
- (2020). Estimating functionals under local differential privacy. Oberwolfach Reports
Butucea, C., Rohde, A. and Steinberger, L.
- (2020). Geometrizing rates of convergence under local differential privacy constraints. The Annals of Statistics 48, 2646–2670
Rohde, A. and Steinberger, L.
(See online at https://doi.org/10.1214/19-AOS1901) - (2020). Interactive versus non-interactive locally, differentially private estimation: Two elbows for the quadratic functional
Butucea, C., Rohde, A. and Steinberger, L.
- (2020). Uniformly valid confidence intervals post-model-selection. The Annals of Statistics 48, 440–463
Bachoc, F. and Preinerstorfer, D. and Steinberger, L.
(See online at https://doi.org/10.1214/19-AOS1815)