주제 API: 안드로이드의 프라이버시 샌드박스가 사람들과 광고를 연결하는 방법
Topics API 는 안드로이드와 크롬의 프라이버시 샌드박스가 광고주가 관련성 높은 잠재고객과 연결될 수 있도록 지원하는 방식입니다. 모바일 앱 업계 종사자라면 광고 기술의 핵심 요소 중 하나가 사람과 광고를 연결하는 방법이라는 사실에 놀라지 않을 것입니다. 사기꾼이나 저품질 광고 네트워크는 누구에게 광고를 보여주는지, 심지어 실제 사람이 광고를 보는지조차 신경 쓰지 않지만, 제대로 된 광고 파트너는 광고주와 잠재 사용자 또는 고객 간의 고품질 매칭을 위해 엄청난 노력과 세심한 주의를 기울여 기술을 개발합니다.
안드로이드용 프라이버시 샌드박스 에서 구글은 토픽 API를 통해 이러한 부담을 떠맡겠다고 제안하고 있습니다.
이 글은 프라이버시 샌드박스 시리즈의 일부입니다
- SDK 런타임
- 주제 (이 글은 구글이 광고 타겟팅을 어떻게 바라보는지에 대한 내용입니다)
- Android용 FLEDGE (현재 Protected Audience API로 이름이 변경됨)
- 어트리뷰션 보고 (프라이버시 샌드박스가 측정에 미치는 영향에 대해 자세히 살펴보겠습니다.)
광고 타겟팅
우선 한 걸음 물러서서 광고 타겟팅이 일반적으로 어떻게 이루어지는지 생각해 봅시다. 물론 사람들에게 광고를 보여주는 방법은 여러 가지가 있지만, 문제는 그중 상당수가 개인정보 보호 측면에서 심각한 단점을 가지고 있다는 것입니다.
| 타겟팅 방법론 | 유효성? | 기술 요구사항 | 개인 정보 보호는 안전한가요? |
| 행동 | 높은 | 추적이 필요하며 일반적으로 침습적입니다 | 쉽지 않다 |
| 위치 | 중간 | 메타데이터가 필요합니다. 장기적으로 위험할 수 있습니다 | 쉽지 않다 |
| 인구 통계 | 중간 | 타사 데이터가 필요하며, 일정 수준의 신원 확인이 필요합니다 | 약간 |
| 문맥 | 낮은 | 맥락에 대한 지식이 필요합니다 | 주로 |
| 이해 | 낮은 | 관심사에 대한 지식이 필요합니다 | 잠재적으로 |
| 의지 | 높은 | 검색에 대한 지식이 필요합니다 | 잠재적으로 |
모든 타겟팅 메커니즘은 잠재적으로 개인정보 보호에 안전할 수 있지만, 각각 위험이 존재하며 일부 방식은 다른 방식보다 위험도가 더 높습니다.
예를 들어, Apple의 SKAdNetwork는 확정적입니다. 설치 후 전송되는 데이터는 일반적으로 누군가가 앱을 설치했음을 100% 보장합니다. 하지만 이러한 확정성에도 불구하고, 사용자별로 세분화된 정보를 제공하지 않고, SKAN 3의 개인정보 보호 기준이나 SKAN 4의 크라우드소싱 익명성을 통해 상당량의 마케팅 측정 데이터를 숨기기 때문에 개인정보 침해 위험이 낮습니다.
웹사이트 방문이나 앱 사용과 같은 디지털 행동 데이터는 일반적으로 타사 쿠키나 광고 식별자( IDFA , GAID )와 같은 추적기를 통해 수집되는데, 이는 상당히 사생활 침해적입니다. 하지만 이론적으로는 차분 프라이버시, 그룹화된 잠재고객, 노이즈 추가 등의 추가 기능을 통해 개인정보를 안전하게 보호할 수 있습니다. (문제는 대규모 광고주가 코드를 해킹하고, 충분한 데이터를 확보하고, 데이터를 분석하여 특정 사용자를 식별할 수 있을까 하는 점입니다. 또한, 잠재고객을 생성하는 주체를 신뢰할 수 있을까요?)
일반적으로 문맥은 개인정보 보호에 안전합니다. 광고는 광고를 게재하는 개인이 아니라 광고를 둘러싼 웹사이트나 앱의 콘텐츠와 관련이 있기 때문입니다.
광고주들이 맥락에서 내리는 논리적 비약은, 예를 들어 스포츠 관련 정보를 보는 사람들은 스포츠에 관심이 있고, 스포츠를 즐길 수도 있고, 맥주나 파티 음식을 좋아할 수도 있고, 스포츠 기념품을 구매하는 데 관심이 있을 수도 있다는 것입니다. 이러한 논리적 비약은 짧고 명백한 것일 수도 있고, 길고 교묘하지만 명백하지 않은 것일 수도 있으며, 완전히 잘못된 것일 수도 있습니다.
관심사 및 주제 API
구글이 안드로이드 개인정보 보호 샌드박스용 토픽 API에서 활용하고 있는 관심사(Interests)는 흥미롭습니다.
그렇다면 옵트인 비율이 낮은 이유는 무엇일까요?
주제는 맥락 그 이상입니다. 맥락은 유용하지만 특정 페이지나 화면에 국한됩니다. 누군가 잘못된 링크를 클릭했거나, 클릭베이트에 현혹되었거나, 앱에서 잘못된 화면을 터치했을 수도 있습니다. 또는 올바른 화면일지라도 필요한 정보를 얻기 위해 그 화면에 있는 것이지, 그 맥락 자체에 깊고 열정적인 관심이 있어서가 아닐 수도 있습니다.
반면, 관심은 훨씬 더 포괄적이고 시간이 지남에 따라 지속적이어야 합니다.
예시: 저는 스포츠를 좋아합니다. 이 취향은 매주 또는 매달 변하지 않지만, 제가 구체적으로 어떤 스포츠를 즐기는지는 시간이 지남에 따라 또는 계절에 따라 바뀔 수 있습니다. 구글은 비교적 단기적인 관심사를 위한 토픽 API를 개발하고 있지만, 이는 단지 당장의 맥락만을 다루는 것이 아니라 장기적인 관점을 반영합니다.
구글의 개인정보 보호 샌드박스는 '주제'를 사용자가 최근, 실제로 지난 3주 이내에 관심을 보인, 사람이 읽을 수 있는 관심 영역으로 정의합니다.
주제는 사용자의 최근 광고 이용 내역과 앱 설치 기록을 기반으로 하지만, 사용자가 앱을 삭제하더라도 해당 앱과 관련된 주제는 목록에서 삭제되지 않습니다. 구글은 "앱 삭제에 대한 정보가 노출되는 것을 방지하기 위한 조치"라고 설명합니다.
한 가지 과제는 구글이 현재 제시하는 주제 분류 체계가 매우 제한적이라는 점입니다. 구글은 향후 마케팅 커뮤니티에 수백 개에서 수천 개 정도의 주제만 공유할 예정입니다. 이 주제들은 민감한 주제를 제외하고, 사람이 직접 선별할 것이며, 세분화되지 않도록 의도적으로 설계되었다는 것입니다
구글은 "토픽 API는 사용자의 앱 사용 패턴을 기반으로 관심 있는 광고 주제에 대한 대략적인 정보를 호출자에게 제공하는 것을 목표로 한다"고 밝혔습니다.
세분화 수준이 낮은 이유는 초기 테스트에서 훨씬 더 높은 수준의 주제 세분화를 사용했을 때 개인 정보 보호가 충분하지 않다는 것이 입증되었기 때문입니다. 다시 말해, 제가 관심 있는 주제에 대한 충분한 데이터만 있다면 제 신원을 파악하거나 최소한 인터넷에서 제 디지털 흔적을 추적할 수 있을 가능성이 높습니다. 구글은 애드테크 SDK가 시간이 지남에 따라 저장하고 기억하는 주제 기반의 지나치게 세밀한 타겟팅을 피하고자 하는 것이 분명합니다. 이러한 타겟팅은 사용자의 개인 정보를 매우 상세하게 파악하여 개인 정보 침해에 악용될 수 있기 때문입니다.
또는 개인이나 장치 그래프를 개발하는 데 사용할 수도 있습니다.
흥미롭게도 구글은 사용자가 관심을 가질 만한 주제가 앱 분류 모델에 의해 정의된다고 말합니다.
즉, 앱은 사용자 분류 체계에 정보를 제공하고, 모델 학습에 사용되는 데이터는 앱 이름, 설명, 패키지 이름과 같이 공개적으로 이용 가능한 정보를 활용합니다. 앱은 여러 주제에 매핑될 수도 있고, 전혀 매핑되지 않을 수도 있지만, 제한이 있습니다. 앱이 아무리 많은 주제에 매핑되더라도 매주 사용자의 주제 기록에는 최대 3개만 추가됩니다.
하지만 사용자가 어느 정도 제어할 수 있는 부분이 있습니다
구글은 "이 디자인은 사용자가 자신의 앱 사용과 관련된 주제를 보고 삭제할 수 있도록 하기 위한 것입니다."라고 밝혔습니다.
사용자가 직접 주제를 추가하는 기능에 대한 언급이 없는데, 이는 흥미로운 기능이 될 수 있을 것 같습니다. 물론, 전혀 근거 없는 데이터를 추가하는 등의 문제점도 있겠지만, 그럼에도 불구하고 유용할 수 있습니다. 예를 들어, 제가 보고 싶은 광고 주제를 정의하면 안드로이드의 개인정보 보호 샌드박스가 제가 원하는 주제에 대한 광고만 (또는 대부분) 보여주도록 할 수 있을 것입니다.
(그리고 아마도 다른 정의된 목록에서 다른 주제들을 전혀 보지 못할 수도 있습니다.)
Topics API를 이용한 타겟팅 광고: 작동 방식
구글은 매주 사용자의 상위 5개 주제를 계산하여 기기에 저장합니다. 구글의 기술은 최근 앱 사용 내역과 앱 사용 패턴을 기반으로 이를 파악하지만, 이 정보는 기기에 저장되며 구글은 이를 알지 못합니다.
광고를 통해 수익을 창출하는 앱이 광고 슬롯을 채우려고 할 때, 앱의 애드테크 SDK는 Topics API를 호출하여 사용자의 관심사 목록에 앱에 할당된 주제와 일치하는 주제가 있는지 확인합니다. 참고: Google은 SDK 또는 앱이 해당 데이터를 저장하고 이를 기반으로 사용자의 관심사와 주제에 대한 더 자세한 정보를 구축하는 것을 명시적으로 금지하고 있습니다.
- 안드로이드는 일주일에 한 번 사용자가 가장 많이 관심을 갖는 주제 5개를 계산합니다
- Topics API를 성공적으로 호출하면 해당 목록에서 무작위로 주제가 선택되어 표시됩니다(95% 확률)
- 5%의 확률로 전체 분류 체계에서 무작위로 선택된 다른 주제가 표시됩니다
- Topics API를 성공적으로 호출하면 최대 3개의 토픽(지난 3주 동안의 토픽 각각 1개씩)을 받게 됩니다
- 즉, 안드로이드는 최소 15개의 주요 주제를 저장해야 하며, 그중 상당수는 중복될 가능성이 높습니다
- 앱마다 무작위 선택과 노이즈 도입 덕분에 주제가 다르게 제시되는데, 이는 동일한 퍼블리셔가 소유한 앱 A와 앱 B가 개별 사용자를 대상으로 삼각측량하는 것을 방지하기 위한 것입니다
- 하지만 토픽 API를 성공적으로 호출하려면 앱이나 SDK가 지난 3주 동안 해당 토픽과 관련된 활동을 기록했어야 합니다.
- 100% 명확하진 않지만, 제가 이해한 바로는 사용량은 많지만 광고 가치가 낮은 일반 주제 앱은 "상해 변호사"나 "자동차 보험 견적"과 같은 주제를 선택하여 가치가 높은 광고 노출을 확보하려고 시도할 수 없다는 것입니다
- 또한 구글은 앱이나 SDK가 "이전에 해당 사용자에 대해 해당 주제와 관련된 앱에서 API를 호출한 적이 없는 경우, 해당 주제는 API에서 반환되는 목록에 포함되지 않는다"고 밝혔습니다
- 따라서 앱이나 SDK 모두 이러한 유형의 참여를 볼 수 있기 때문에 정확히 알 수는 없지만, Android용 Privacy Sandbox의 토픽 기능에는 규모의 이점이 있을 수 있습니다. 규모가 크고 더 널리 배포된 SDK일수록 더 많은 참여를 확인할 수 있기 때문입니다
- 그러한 규모의 이점은 매우 중요할 것입니다. 왜냐하면 우리가 이야기하는 것은 단순히 주제에 대한 평생의 가시성뿐만 아니라, 최근 3주 동안의 가시성도 포함해야 하기 때문입니다
앱은 매니페스트와 XML 요소를 통해 Topics API 사용을 완전히 거부할 수 있다는 점에 유의하세요. 구글에 따르면 이 경우 앱은 주간 토픽 계산에 기여하지 않습니다. 따라서 Topics API의 가치를 느끼지 못하거나 타사 광고 SDK와 정보를 공유하고 싶지 않은 대형 앱, 그리고 개인정보 보호에 매우 민감한 소형 앱은 Topics API 사용을 완전히 거부할 수 있습니다.
현재 주제 관련 과제
토픽과 관련하여 몇 가지 잠재적인 문제가 있습니다. 이는 초기 단계이며 Google은 피드백을 수집 중이므로 이러한 문제들은 시간이 지남에 따라 모두 해결될 수 있다는 점을 참고해 주세요.
- 규모 : 구글이 충분한 수의 퍼블리셔와 애드테크 기업들을 설득하여 참여를 유도하지 못하면, Topics API는 의미 있는 결과를 도출하기에 충분한 데이터를 확보하지 못할 것입니다. 특히 모바일 환경에서는 앱과 광고주가 마케팅 측정 데이터를 얻기 위해 참여를 선택해야 하므로 이러한 문제는 크게 발생하지 않을 것입니다.
- 가시성 : Google이 정의한 토픽 API에 따르면, 이전에 관찰하지 않은 토픽은 표시되지 않습니다. 이는 타겟팅에 심각한 제약을 초래할 수 있습니다.
- 주제의 세분화 정도 : 주제 수가 수백 개에서 수천 개에 불과하다 보니 세분화하기 어렵습니다. 스포츠는 방대한 주제이지만, 저는 7~10가지 종목을 좋아하고, 15~20개 팀을 응원하며, 30~40명의 선수를 좋아할 수도 있습니다.
- 앱별 주제 추가 제한 : 앱은 일정 기간 동안 사용자의 주제 기록에 최대 3개의 주제만 추가할 수 있습니다. 이는 수백, 아니 수천 개의 주제를 다루는 뉴욕 타임스 같은 대형 앱에는 매우 큰 제약입니다.
- 위치 정보 없음 : 토픽 API는 현재 위치 정보를 처리하거나 활용하는 기능을 제공하지 않는 것으로 보입니다. 위치 정보는 타겟팅에 매우 중요한 요소이며, 토픽 분류 체계에도 상당한 영향을 미칠 수 있습니다.
- 일치하는 항목이 없을 때 발생하는 공백 : 앱에 할당된 주제와 사용자가 생성한 주제 사이에 상관관계가 없는 경우 어떻게 될까요? 이때 사용자에게는 어떤 광고가 표시될까요?
관심사, 구글의 향후 행보, 그리고 의견 제시
물론 관심사를 타겟팅 요소로 활용하는 데에는 몇 가지 한계가 있습니다. 제가 스포츠를 좋아한다고 해서 좋아하는 팀의 유니폼을 꼭 사고 싶어하는 것은 아니니까요. 또한 관심사는 일반적이고 장기적인 반면, 검색과 같은 활동을 통해 나타나는 구체적인 행동 의도는 더 높은 구매 의도를 보여주므로 더 높은 가치를 지닐 가능성이 큽니다.
또한 관심사와 구매 의도를 연관 짓기는 어렵습니다. Rocketship HQ 다음과 같이 말합니다 :
"SDK가 사용자에 대해 접근하는 5가지 '주제'는 사용자의 페르소나 중 아주 작은 부분에 불과합니다. 만약 제게 할당된 주제가 '유럽'이라면, 제가 유럽을 방문하고 싶어하는 미국인이기 때문일까요? 아니면 연구를 하는 경제학자이기 때문일까요? 아니면 유럽에 관한 책을 읽고 있기 때문일까요? 어떤 상황이 저에게 해당하는지 정확히 파악하기는 어려울 것입니다."
이는 진전입니다. 그리고 데이터를 기기 내에 보관하는 것은 개인정보 보호 측면에서 큰 성과입니다.
하지만 여전히 해결해야 할 문제가 많습니다. GAID와 비교했을 때 얼마나 효과적일지도 불분명합니다(대부분의 전문가들은 GAID 만큼 효과적이지 않을 것이라고 합니다). 또한 광고 네트워크가 토픽과 어떻게 연동되는지, 그리고 미디에이션이 이 기술을 어떻게 활용하거나 무시하는지에 대한 부분도 명확히 정의되어야 합니다. 구글이 모든 사람에게 자사 기술을 강제로 사용하게 할 필요는 없지만, GAID가 결국 사용 중단되면 광고 기술 생태계는 적절한 광고를 적절한 사람에게 적절한 시기에 연결하는 수단이자 방법론으로서 토픽을 진지하게 고려해야 할 것입니다.
즉, 광고 타겟팅을 성공적으로 관리하기 위해서입니다.
구글이 안드로이드 광고 식별자 기능을 폐지하기까지는 2년이라는 시간이 남았지만, iOS에서의 경험을 미루어 볼 때, 변화가 일어나기 전에 미리 대비하는 사람들이 가장 유리할 것입니다.
광고주들에게 희소식 하나는 구글 리퍼러 기능이 계속 유지된다는 점입니다. 따라서 웹에서와 마찬가지로 클릭의 출처를 마지막 클릭 시점부터 확인할 수 있으며, 이는 마케팅 측정 정보에 유용한 자료가 될 것입니다.