泄露的 Yandex 代码打破了在线广告的令人毛骨悚然的黑匣子!

Admin 2023-8-12 377 8/12

着这家国际科技巨头转向俄罗斯所有权,此次泄露引发了人们对其用户数据量的担忧。

如果你住在俄罗斯, Yandex是不可避免的。这家科技巨头通常被称为“俄罗斯的谷歌”,是数百万人日常生活的一部分。它主导着在线搜索、叫车和音乐流媒体,而其地图、支付、电子邮件和许多其他服务也很受欢迎。但与所有科技巨头一样,Yandex 无处不在也有一个缺点:它会吞噬大量数据。

一月份,Yandex 遭遇了难以想象的事情。它成为源代码泄露的少数 知名公司中最新一家。黑客网站 BreachForums 的匿名用户公开分享了可下载的 45 GB 的 Yandex 代码缓存。据称,该宝藏来自一名心怀不满的员工,不包含任何用户数据,但提供了对其应用程序和服务运行情况的无与伦比的了解。Yandex的搜索引擎、地图、人工智能语音助手、出租车服务、电子邮件应用程序和云服务都被暴露出来。

此次泄露的代码还包括来自 Yandex 两个关键系统的代码:其网络分析服务,可捕获人们如何浏览的详细信息;其强大的行为分析工具,可帮助运行其赚取数百万美元的广告服务。这种广告系统支撑着现代网络经济的大部分,谷歌、Facebook 和成千上万的广告商都依赖类似的技术。但这些系统很大程度上是黑洞。

现在,网络安全公司 Confiant 的隐私工程师 Kaileigh McCrea 对这两项服务的源代码进行了深入分析,揭示了系统的工作原理。Confiant 的调查结果称, Yandex 的技术收集了大量有关人们的数据,当这些数据与公司掌握的所有信息进行“匹配和分析”时,可以用来揭示他们的兴趣。

McCrea 表示,Yandex 代码展示了该公司如何为住在一起的人创建家庭档案并预测人们的具体兴趣。她说,从隐私角度来看,她的发现“令人深感不安”。“这种洋葱有很多令人毛骨悚然的层次,”她说。调查结果还显示,Yandex 拥有一项技术,可以与俄罗斯政府支持的电信公司 Rostelecom 共享一些有限的信息。

Yandex 首席隐私官 Ivan Cherevko 在对《连线》问题的详细书面回答中表示,“代码片段”已经过时,与当前使用的版本不同,并且某些源代码在其运营中“从未实际使用过” 。“Yandex 仅使用用户数据来创建新服务和改进现有服务”,并且“未经用户同意,绝不会出售用户数据或向第三方披露数据”,他说。

然而,这一分析是在俄罗斯科技巨头正在经历重大变革之际做出的。俄罗斯于 2022 年 2 月全面入侵乌克兰后,Yandex 将其位于荷兰的母公司从其俄罗斯业务中剥离出来。分析师认为,此举可能会让俄罗斯的 Yandex 与克里姆林宫的联系更加紧密,从而导致数据面临风险。

Digital Rights 的技术法律顾问纳塔莉亚·克拉皮瓦 (Natalia Krapiva) 表示:“他们一直在努力维持更加独立、面向西方的公司形象,不时抗议一些压制性法律和命令,帮助吸引外国投资和商业交易。”非营利组织立即访问。“但实际上,Yandex 一直在失去独立性并屈服于俄罗斯政府的要求。该公司的未来是不确定的,但该公司位于俄罗斯的部分很可能会失去仅存的独立性。”

数据收集

Yandex 泄露事件规模巨大。45 GB 的源代码几乎涵盖了Yandex 的所有主要服务,让您可以一睹其数千名软件工程师的工作。根据数据中包含的时间戳,该代码似乎可以追溯到 2022 年 7 月左右,并且主要使用流行的编程语言。它是用英语和俄语写的,但也包含种族主义诽谤。(当它在一月份被泄露时,Yandex 表示这是“非常无礼且完全不可接受的”,并详细说明了部分代码违反了自己公司政策的一些方式。)

McCrea 手动检查了代码的两部分:Yandex Metrica 和 Crypta。Metrica 相当于该公司的 Google Analytics,该软件通过 AppMetrica在参与网站和应用程序中放置代码,可以跟踪访问者,包括每次鼠标移动。去年,在英国《金融时报》报道了AppMetrica发送回俄罗斯的数据规模后,AppMetrica 嵌入了 50 个国家的 40,000 多个应用程序中,引起了美国立法者的国家安全担忧。

麦克雷说,这些数据被提取到 Crypta 中。该工具分析人们的在线行为,最终向他们展示他们感兴趣的内容的广告。根据该公司的网站,该工具分析了 300 多个“因素”,机器学习算法根据人们的兴趣对他们进行分组。“Yandex 拥有的每个应用程序或服务(应该超过 90 个)都以某种形式将这些广告细分的数据汇集到 Crypta,”McCrea 说。

By signing up you agree to our User Agreement (including the class action waiver and arbitration provisions), our Privacy Policy & Cookie Statement and to receive marketing and account-related emails from WIRED. You can unsubscribe at any time.

Yandex 收集的一些数据会在人们使用其服务时移交,例如共享他们的位置以显示他们在地图上的位置。其他信息是自动收集的。从广义上讲,该公司可以收集有关某人的设备、位置、搜索历史记录、家庭位置、工作位置、音乐收听和电影观看历史记录、电子邮件数据等的信息。

源代码显示 AppMetrica 收集有关人们精确位置的数据,包括他们的高度、方向和他们可能行驶的速度。麦克雷质疑这对广告有多大用处。它还会获取人们正在连接的 Wi-Fi 网络的名称。研究人员表示,这些信息被输入到 Crypta 中,Wi-Fi 网络名称与一个人的整个 Yandex ID 相关联。有时,其系统会尝试将多个不同的 ID 链接在一起。

2019 年离开公司的前 Yandex 工程师兼副首席技术官 Grigory Bakunov 表示:“Yandex 通过 Metrica 获得的数据量如此之大,简直难以想象。”或受众细分。” Crypta 创建的细分似乎非常具体,并显示了有关我们在线生活的数据在汇总后有多么强大。其中有针对使用 Yandex 的 Alice 智能音箱的人的广告片段,“电影爱好者”可以按他们最喜欢的类型进行分组,还有笔记本电脑用户、“在地图上搜索 Radisson”的人以及表现出长期兴趣的手机游戏玩家。

麦克雷说,有些类别比其他类别更突出。她说,“吸烟者”部分似乎追踪购买电子烟等吸烟相关物品的人。而“夏季居民”可能表示拥有度假屋并使用位置数据来确定的人。还有一个“旅行者”部分,可以使用位置数据来跟踪他们是否从正常位置旅行到另一个位置 - 包括国际和国内字段。代码的一部分旨在从邮件应用程序中提取数据,并包含有关“登机牌”和“酒店”的字段。

麦克雷说,对于在线广告来说,其中一些信息“听起来并没有那么不寻常”。但对她来说,最大的问题是制作个性化广告是否是收集“这种侵入性信息”的充分理由。行为广告长期以来一直跟随 网络上的人们,公司以令人毛骨悚然的方式收集人们的数据。监管机构未能控制这个问题,而其他人则建议应该禁止它。“当你想到你还能做什么时,如果你能进行这种计算,那就有点令人毛骨悚然,尤其是在俄罗斯,”麦克雷说。她认为,为想要离开俄罗斯的军龄男性制作片段并非不可能。

Yandex 的 Cherevko 表示,按兴趣对用户进行分组是一种“行业标准做法”,广告商不可能识别特定的人。切列夫科表示,收集的信息可以让人们看到特定的广告:“向对避暑别墅感兴趣的部分用户展示园艺产品,向访问加油站的用户展示汽车设备。” Cherevko 表示,Crypta 会分析一个人的在线行为,并“计算”他们属于特定群体的概率。

“对于 Crypta 来说,每个用户都被表示为一组标识符,系统无法将他们与现实世界中的自然人关联起来,”Cherevko 声称。“这种集合只是概率性的。” 他补充说,Crypta 无法访问人们的电子邮件,并表示代码中有关登机牌和酒店的邮件数据是一项“实验”。Cherevko 表示,Crypta“仅从 Mail 接收到有关该类别的去识别化信息”,并且该方法自 2019 年以来就没有使用过。他补充说,Yandex 会在 14 天后删除 AppMetrica 收集的“用户地理位置”。

虽然泄露的源代码提供了 Yandex 系统如何运行的详细视图,但这并不是全貌。俄罗斯数据科学家和人工智能研究员 Artur Hachuyan 创办了自己的公司,从事与 Crypta 类似的分析工作,他表示,当他检查 Yandex 合作伙伴的代码或对数据源或外部数据库的引用时,没有发现任何预先训练的机器学习模型。例如,也不清楚代码的哪些部分没有被使用。

McCrea 的分析称, Yandex 会为人们分配家庭 ID。研究人员表示,代码中的详细信息包括家庭中的人数、性别以及是否有老人或儿童。Cherevko 表示,人们的位置数据用于将他们分组,如果他们的 IP 地址“相交”,则可以将他们包括在内。他说,这些分组用于广告。“如果我们假设家里有老人,那么我们可以邀请广告商向他们展示环境便利的住宅小区。”

该代码还展示了 Yandex 如何合并来自多个服务的数据。McCrea 表示,在一个复杂的过程中,可以从 Yandex 搜索工具 AppMetrica 和该公司的出租车应用程序中提取成年人的搜索数据,以预测他们家中是否有孩子。有些代码对儿童是否可以年满 13 岁进行了分类。(Yandex 的 Cherevko 表示,人们可以预订带儿童座椅的出租车,这表明他们可能“对有孩子的人可能感兴趣的特定内容感兴趣”。)

Crypta 代码中的一个元素指示了如何将所有这些数据整合在一起。存在一个用户界面,充当某人的个人资料:它显示婚姻状况、他们的预计收入、他们是否有孩子以及三个兴趣——其中包括广泛的主题,例如电器、食物、衣服和休息。Cherevko 表示,这是一个“Yandex 内部工具”,员工可以在其中看到 Crypta 的算法如何对他们进行分类,并且他们只能访问自己的信息。“我们还没有遇到任何与访问滥用相关的事件,”他说。

政府影响力

Yandex 正在经历分手。2022 年 11 月,该公司总部位于荷兰的母公司 Yandex NV 宣布,在俄罗斯入侵乌克兰后,该公司将脱离俄罗斯业务。在国际上,该公司将更名,计划开发自动驾驶技术和云计算,同时剥离俄罗斯的搜索、广告和其他服务。许多俄罗斯商人都与潜在的出售联系在一起。(7月底,Yandex NV表示计划在今年晚些时候向股东提出重组建议。)

在解决脱钩问题的同时,俄罗斯一直在努力巩固其对互联网的控制并加强审查制度。一系列新法律要求该国更多的公司和政府服务使用本土技术。例如,本周,芬兰和挪威的数据监管机构阻止了Yandex 的国际出租车应用程序将数据发送回俄罗斯,因为一项新法律将于 9 月生效,该法律将允许联邦安全局 (FSB) 访问出租车数据

这些国有化努力加上 Yandex 计划的所有权变更引发了人们的担忧,即克里姆林宫可能很快就能使用该公司收集的数据。俄罗斯数字版权组织 Roskomsvoboda 的首席技术官兼技术开发组织 Privacy Accelerator 的创始人 Stanislav Shakirov 表示,Yandex 历来都试图抵制政府对数据的要求,事实证明,Yandex 比其他公司做得更好。(6 月份,该公司因未向俄罗斯安全部门提交数据而被罚款 200 万卢布(24,000 美元)。)不过,沙基洛夫表示,他认为情况正在发生变化。“我倾向于相信 Yandex 将尝试国有化,因此,管理和政策将会发生变化,”沙基洛夫说。“因此,用户数据将面临比现在更大的威胁。”

前 Yandex 工程师 Bakunov 应 WIRED 的要求审查了 McCrea 的一些调查结果,他表示,他对未来数据可能被滥用的可能性感到害怕。他说,俄罗斯看起来像是“失败国家”的“新一代”,并强调了它可能如何利用技术。“Yandex 是这些技术的重要组成部分,”他说。“很多年前,当我们创建这家公司时,没有人这么认为。” 该公司的隐私主管切列夫科表示,在重组过程中,“公司的控制权仍将掌握在管理层手中。” 其管理层根据其“核心原则”做出决策。

但泄露的代码显示,在一个小例子中,Yandex 可能已经与一家俄罗斯政府关联公司共享有限的信息。Crypta 内部有五个“匹配器”,它们与电信公司(包括国家支持的Rostelecom)同步指纹事件。麦克雷表示,这表明俄罗斯部分地区可以获取指纹识别事件。“令人震惊的是它的存在,”麦克雷说。“里面并没有什么特别令人震惊的地方。” (切列夫科表示,该工具用于提高广告质量,帮助其提高准确性,并识别试图进行欺诈的骗子。)

总体而言,麦克雷表示,无论公司发生什么,收集过多数据以及随着时间的推移,当情况发生变化时可能会发生什么情况,都会有一些教训。“没有什么是永远无害的,”她说。

- THE END -
最后修改:2023年8月12日

非特殊说明,本博所有文章均为博主原创。