You open Google Play and check an app’s Data Safety section. It says no data is shared with third parties. You install the app. A static analyzer then finds twelve tracking libraries bundled into the APK, and eight of them phone home within the first thirty seconds.
That’s not an outlier. It’s roughly what the studies below describe as the median. (If you want to understand what a tracker actually is and how it ends up in your apps, we covered that separately.)
Four research groups have measured this gap over the past eight years. None of the findings come from us. All four papers are publicly available, and we’ll link them at the end of each section.
1. Mozilla Foundation, February 2023: “See No Evil”
Mozilla looked at the twenty most-popular paid apps and the twenty most-popular free apps on Google Play, so forty in total. For each one they compared the app’s Data Safety declaration in the store against the wording of its own privacy policy.
In nearly 80% of the apps the two documents did not line up. Either the store form left out data collection that the privacy policy admitted to, or the two openly contradicted each other. Sixteen of the forty apps ended up with a “Poor” grade. Among them: Minecraft, Twitter, Facebook. These aren’t obscure flashlight clones. They’re on the front page of the store.
The loophole is structural. Google doesn’t verify the Data Safety form. Developers fill it out themselves, nobody checks it, and there’s no consequence for inaccuracy. The form exists to give users the feeling of scrutiny without the cost of actually doing any.
Source: Mozilla Foundation, “See No Evil: How Loopholes in the Google Play Store’s Data Safety Labels Leave Companies in the Clear and Consumers in the Dark”
2. Binns et al., Oxford, 2018: tracker density across Android
The 2018 Oxford paper is still the widest tracker scan anyone has run on Android. The team analyzed 959,000 apps, effectively the whole free catalog of the US and UK Play stores at the time of the crawl.
90.4% of apps contained at least one third-party tracker. The median app had ten. Ten separate companies receiving device characteristics and often persistent identifiers, usually before the user has opened the app a second time.
Most of that traffic concentrates with a few players: Google, Facebook, Twitter, Oath/Verizon. Our own research data from 3,745 analyzed apps confirms the same concentration pattern years later. News apps and children’s apps tended to be the heaviest. The paper is open access and the dataset is public, and the findings have held up. If anything, tracker density has grown since.
Source: Binns, Lyngs, Van Kleek, Zhao, Libert, Shadbolt, “Third Party Tracking in the Mobile Ecosystem”, arXiv:1804.03603 (2018)
3. Reyes et al., PETS 2018: “Won’t Somebody Think of the Children?”
This paper zooms in on the part of the Play Store that’s supposed to be the most regulated. Apps in the “Designed for Family” program are marketed to children and therefore fall under the US Children’s Online Privacy Protection Act.
The authors ran 5,855 children’s apps through a dynamic-analysis pipeline that actually watched network behavior, not just code. A majority were potentially violating COPPA. 19% of the apps used SDKs whose own terms of service prohibit use in child-directed applications, and shipped with them anyway. Of the 3,454 apps that handled the resettable advertising ID, two-thirds also sent persistent identifiers alongside it, which undoes the entire point of calling the ID “resettable”.
Apps that had voluntarily opted into the strictest children-facing category of the store were, often enough, doing the exact thing that category is supposed to prevent.
Source: Reyes, Wijesekera, Reardon, Elazari, Razaghpanah, Vallina-Rodriguez, Egelman, “‘Won’t Somebody Think of the Children?’ Examining COPPA Compliance at Scale”, Proceedings on Privacy Enhancing Technologies 2018(3)
4. Kollnig et al., Oxford, 2022: Android vs iOS
The fair rebuttal to everything above is “sure, but iOS is better.” Kollnig’s 2022 Oxford team tested that claim directly. They took 12,000 random free apps from each store, 24,000 total, and ran code, permission, and network analysis on each.
89% of the Android apps and 79% of the iOS apps contained at least one tracking library. Both platforms sent personal data to servers outside the user’s country. 62% of iOS apps embedded Google AdMob. Apple’s App Tracking Transparency prompt cut some of the signal, but the underlying tracker ecosystems on both stores are almost identical. For a concrete example of what that looks like in practice, see our scan results for Instagram.
The authors’ conclusion is direct: “neither platform is clearly better than the other for privacy.” iOS Privacy Labels and Play Store Data Safety suffer from the same structural problem. Developers declare. Nobody independently audits.
Source: Kollnig, Shuba, Binns, Van Kleek, Shadbolt, “Are iPhones Really Better for Privacy? A Comparative Study of iOS and Android Apps”, Proceedings on Privacy Enhancing Technologies 2022(2)
What the four papers actually share
Four different methodologies, four different samples, four different years of data, one consistent finding: app-store metadata is not a reliable description of what the software underneath actually does.
And this isn’t a conspiracy. Most developers fill out the form honestly according to their own understanding of their app. The problem is the SDKs they pull in. Firebase, OneSignal, AppLovin, the Facebook SDK and dozens of others all ship with tracking code the developer didn’t write and often doesn’t fully understand. The disclosure is based on what the developer thinks their app does. The APK is based on what the compiler actually packaged.
Neither Google nor Apple has much incentive to close that gap on its own.
Why AppXpose exists
We don’t trust the labels. We scan the APK.
When you analyze an app in AppXpose we look at the bytecode, the embedded tracker signatures, the signing certificate, the requested permissions, and, if you enable the cloud scanner, a crowd-sourced database of signing certificates that flags repackaged and cloned apps. You can read more about how our tracker detection and scoring model works. None of that depends on a developer filling out a form correctly.
The studies above are why the product exists. The idea that app-store labels are unreliable didn’t come from us. We just decided to do something about it.
If you got this far, the most useful thing you can do now is read one of the original papers. They’re shorter than this post and the links are above. You won’t look at Google Play the same way afterwards.
Du öffnest Google Play und liest den “Data Safety”-Abschnitt einer App. Dort steht, dass keine Daten mit Dritten geteilt werden. Du installierst die App. Ein statischer Analyzer findet zwölf Tracker in der APK, und acht davon telefonieren innerhalb der ersten dreißig Sekunden nach Hause.
Das ist kein Einzelfall. Das ist ungefähr das, was die Studien unten als Median beschreiben.
Vier Forschergruppen haben diese Lücke in den letzten acht Jahren vermessen. Keine der Zahlen kommt von uns. Alle vier Papers sind öffentlich zugänglich, und wir verlinken sie am Ende jedes Abschnitts.
1. Mozilla Foundation, Februar 2023: “See No Evil”
Mozilla hat sich die zwanzig meistgeladenen kostenpflichtigen und die zwanzig meistgeladenen kostenlosen Apps auf Google Play angesehen, also vierzig insgesamt. Für jede App wurde die Data-Safety-Angabe im Store mit dem Wortlaut der eigenen Datenschutzerklärung verglichen.
In fast 80% der Apps passten die beiden Dokumente nicht zusammen. Entweder verschwieg das Store-Formular Datensammlungen, die die Datenschutzerklärung offen zugab, oder die zwei widersprachen sich direkt. Sechzehn der vierzig Apps bekamen am Ende die Note “Poor”. Darunter: Minecraft, Twitter, Facebook. Keine obskuren Taschenlampen-Klone, sondern Apps auf der Startseite des Stores.
Das Problem ist strukturell. Google überprüft das Data-Safety-Formular nicht. Entwickler füllen es selbst aus, niemand kontrolliert es, und Ungenauigkeiten haben keine Konsequenz. Das Formular existiert, damit Nutzer das Gefühl haben, es werde geprüft, ohne dass wirklich geprüft wird.
Quelle: Mozilla Foundation, “See No Evil: How Loopholes in the Google Play Store’s Data Safety Labels Leave Companies in the Clear and Consumers in the Dark”
2. Binns et al., Oxford, 2018: Tracker-Dichte auf Android
Die Oxford-Studie von 2018 ist bis heute die breiteste Tracker-Analyse, die je auf Android gemacht wurde. Das Team hat 959.000 Apps untersucht, also effektiv den gesamten Gratis-Katalog der US- und UK-Play-Stores zum Crawl-Zeitpunkt.
90,4% der Apps enthielten mindestens einen Third-Party-Tracker. Die Median-App hatte zehn. Zehn verschiedene Firmen, die Geräte-Eigenschaften und oft langlebige Kennungen empfangen, in der Regel bevor der Nutzer die App zum zweiten Mal öffnet.
Der Großteil dieses Traffics konzentriert sich auf ein paar wenige Player: Google, Facebook, Twitter, Oath/Verizon. News-Apps und Kinder-Apps waren tendenziell am stärksten betroffen. Das Paper und die Daten sind frei zugänglich, und die Befunde haben Bestand. Wenn sich seitdem etwas geändert hat, dann ist die Tracker-Dichte eher gewachsen.
Quelle: Binns et al., “Third Party Tracking in the Mobile Ecosystem”, arXiv:1804.03603 (2018)
3. Reyes et al., PETS 2018: “Won’t Somebody Think of the Children?”
Das Paper nimmt genau den Teil des Stores unter die Lupe, der eigentlich am strengsten reguliert sein sollte. Apps im “Designed for Family”-Programm sind an Kinder vermarktet und fallen damit unter den US-amerikanischen Children’s Online Privacy Protection Act.
Die Autoren haben 5.855 Kinder-Apps durch eine Dynamische-Analyse-Pipeline laufen lassen, die den tatsächlichen Netzwerkverkehr beobachtet hat und nicht nur den Code. Eine Mehrheit hat potenziell gegen COPPA verstoßen. 19% der Apps haben SDKs verwendet, deren eigene Nutzungsbedingungen den Einsatz in Kinder-Apps ausdrücklich verbieten, und haben sie trotzdem ausgeliefert. Von den 3.454 Apps, die die zurücksetzbare Werbe-ID verwendet haben, haben zwei Drittel zusätzlich persistente Kennungen gesendet. Damit ist der ganze Sinn einer “zurücksetzbaren” ID weg.
Apps, die sich freiwillig in die strengste Kinder-Kategorie des Stores eingetragen hatten, haben oft genau das gemacht, was diese Kategorie eigentlich verhindern soll.
Quelle: Reyes et al., “‘Won’t Somebody Think of the Children?’ Examining COPPA Compliance at Scale”, Proceedings on Privacy Enhancing Technologies 2018(3)
4. Kollnig et al., Oxford, 2022: Android gegen iOS
Der naheliegende Einwand zu allem oben ist: “Klar, aber iOS ist besser.” Das 2022er Oxford-Team um Kollnig hat genau diese Behauptung direkt getestet. Sie haben 12.000 zufällige Gratis-Apps aus jedem Store genommen, insgesamt 24.000, und an jeder Code-, Berechtigungs- und Netzwerkanalyse gemacht.
89% der Android-Apps und 79% der iOS-Apps enthielten mindestens eine Tracking-Bibliothek. Beide Plattformen haben personenbezogene Daten an Server außerhalb des Nutzerlands gesendet. 62% der iOS-Apps haben Google AdMob mitgeliefert. Apples App Tracking Transparency hat etwas von dem Signal rausgefiltert, aber die Tracker-Ökosysteme der beiden Stores sind darunter nahezu identisch.
Die Autoren formulieren es direkt: “Keine der beiden Plattformen ist klar besser als die andere für die Privatsphäre.” iOS Privacy Labels und Play-Store Data Safety haben dasselbe strukturelle Problem. Entwickler geben an. Niemand prüft unabhängig nach.
Quelle: Kollnig et al., “Are iPhones Really Better for Privacy? A Comparative Study of iOS and Android Apps”, Proceedings on Privacy Enhancing Technologies 2022(2)
Was die vier Papers gemeinsam sagen
Vier verschiedene Methoden, vier verschiedene Samples, vier verschiedene Jahre, ein konsistenter Befund: Die Metadaten in App-Stores beschreiben nicht zuverlässig, was die Software darunter tatsächlich tut.
Und das ist keine Verschwörung. Die meisten Entwickler füllen das Formular ehrlich nach bestem Wissen aus. Das Problem sind die SDKs, die sie einbauen. Firebase, OneSignal, AppLovin, das Facebook SDK und dutzende andere bringen Tracking-Code mit, den der Entwickler nicht geschrieben hat und oft nicht wirklich kennt. Die Angabe basiert auf dem, was der Entwickler denkt, dass seine App tut. Die APK basiert auf dem, was der Compiler tatsächlich reingepackt hat.
Weder Google noch Apple haben besonders viel Anreiz, diese Lücke aus eigenem Antrieb zu schließen.
Warum es AppXpose gibt
Wir vertrauen den Labels nicht. Wir scannen die APK.
Wenn du eine App in AppXpose analysierst, schauen wir uns den Bytecode an, die eingebetteten Tracker-Signaturen, das Signatur-Zertifikat, die angeforderten Berechtigungen und, wenn du den Cloud-Scanner aktiv hast, eine crowd-sourced Datenbank von Signatur-Zertifikaten, die repackage- und geklonte Apps erkennt. Nichts davon hängt davon ab, dass ein Entwickler ein Formular korrekt ausfüllt.
Die oben genannten Studien sind der Grund, warum es das Produkt überhaupt gibt. Die Idee, dass App-Store-Labels unzuverlässig sind, stammt nicht von uns. Wir haben nur entschieden, etwas dagegen zu tun.
Wenn du bis hierhin gelesen hast, ist das Nützlichste, was du jetzt machen kannst, eine der Original-Studien zu lesen. Sie sind kürzer als dieser Text, und die Links stehen oben. Du wirst Google Play danach mit anderen Augen sehen.