公司如何收集数据

2021-02-18 04:34:26

他们如何收集我们的数据(这一项)他们可以使用数据做什么以及我们将做什么TL; DR:一切都非常糟糕。预后并不令人欣慰;如果我们什么都不做,那么我们小说小说中读到的所有远视似乎都像是在奶奶的快乐假期。

并非所有帖子都已发布。尽快订阅!或者,您以后可能会错过所有美食。

很难进入IT,因为您的朋友不知道您做什么。工程师,产品经理,质量检查人员-与在办公室固定打印机有何不同? (提示:您每年无法获得15万美元的打印机维修费用)。

您也不能真正地与普通人谈论IT,因为他们使用这个行业,但是他们却不了解。但是,任何人都可以提出一个话题,这将引起他们的关注:数据隐私。

这是一个大家伙。我试图添加一些图片和笑话,以免惹恼我的读者。剪辑文化;

如果您来自IT部门-那么,就像是再次学习字母一样。可能您不会找到任何新东西;如果这样做,对您的雇主来说是一个不好的信号。

他们如何收集有关我们的数据? VPN和隐身模式可以拯救我们吗?也许我们所有人都应该打包我们的东西,走进树林,与狼和熊交朋友?

隐私权在某种意义上也巩固了所有其他权利:投票,言论自由,平等机会等等。一旦您失去隐私权,您就会被搞砸。大多数人很容易陷入思维陷阱"我什么也没藏起来,我为什么要在乎呢?"。常见的错误。您不必担心要隐藏的东西,而应该担心显而易见的东西。

这个话题如此广泛,我不得不提出一种分类。我花了至少3分钟的时间才想到它,这就是结果:最重要的是,对于存储数据的最终用户而言,它到底有多明显,真正的数据是什么以及如何对其进行操作。因此,有3个变量:参与者,数据和操作。一个简单的3维矩阵-您还记得我写过一个傻瓜文章也能理解的文章吗?你不记得了吗?我也不。显然,我没有写。

直接接收者。当您提供电话号码以获取新的折扣卡时,商店将获得您的电话号码。是的,这是本文的第一个令人难以置信的见解,谢谢,丹-不客气,我的读者。

影子接收器。显而易见,在这种情况下您的电话号码将出售给其他任何人吗?如果Google和Facebook发现您是名为“紧身花蕾”的妓院的固定客户,您是否愿意?毫无疑问,他们会买那些东西。您只是开始输入" Epstein没有..." FBI已经使用盲文书写系统检查了您要使用哪种厕纸威胁您的屁股-这全都归功于沃尔玛打折卡ffs。

你有意识地放弃的东西。您打开另一个将您变成可爱小狗的应用程序。它要求访问您的照相馆和照相机,并且您显然允许它。有什么问题吗?

你本不想放弃的东西。嗯,您最近3年拍摄了3896张照片。这些照片还包含带有照片拍摄地地理坐标的元标签。因此,这意味着您的搬家历史非常准确。谁会想到该应用程序可以以编程方式访问所有照片,而不仅仅是您选择的照片。

储存。让我们回到照片。如果您选择一张照片添加狗狗脸,则该照片可以存储在此服务的服务器上,因为上帝知道多长时间。没什么奇怪的

计算。但是,正如我所说,该应用程序还可以访问整个画廊。该应用程序是否可以根据每张照片的时间和地理位置对您的住所和工作地址进行准确的猜测,这很明显吗?还是可以针对查找NSFW图像并将其安全地上传到服务器的ML算法运行每个图像?我希望你的狗狗脸值得。

卖。如果您不支付产品费用,那么您就是产品。真是陈词滥调。 Instagram是免费的,因为地球上的每个人都可以为特定受众购买广告。那些去海滩旅行,热爱某些食物或高收入的人。 Instagram根据其拥有的庞大数据集来计算所有这些数据,广告商可以根据需要合并这些细分。当然,点击广告后,广告客户会确切知道您所在的细分。

骇客或漏洞。哦,伙计们,加尔斯,当我们谈到这个问题时,我将打开您的相机以捕捉您的惊讶。现在,请相信我:从小型车库初创公司到Google,从小型会计公司到整个国家的Revenue Service,所有公司都不时丢失数据。确实,我从一些最臭名昭著的案件中感到不寒而栗。

其中一些项目符号需要一些解释(我们一定要解释一下!),因为非专业人士出于某种原因认为大公司并没有那么糟糕,而是希望对人类有利。好吧,如果您还认为自己的挫败感将非常痛苦。

让我们自上而下。笑人与庞大的Internet网络相连,他们使用Magic Requests相互交谈。

当您访问某人的博客时,您的计算机向另一台计算机发出请求并获得一些响应。但是响应不会直接传递到服务器,它会在途中停下来。每个站点都有其自身的危险。

轮廓非常简单,准确度大约为60%,但根据英国科学家的说法,香蕉是60%,因此,如果您非常感兴趣,请查看请求的全部内容。

机器使用ip地址相互识别-看起来像4个数字,用点分隔,例如127.0.0.1。人们对数字的态度不太好,我们已经习惯了像dkzlv.com这样的字符串。我们将其称为" domain"。

但是计算机仍然可以工作,这全都归功于称为DNS的东西(域名服务器,很清楚,不是吗?)。可以将其视为Excel中的巨大表,该表将域转换为ip地址。

DNS将是第一个泄漏。问题在于,互联网的创始者没有预见到这种信息革命,他们使与DNS的信息交换完全未加密。稍后我们将讨论传输层安全性,但是想法很简单:您的互联网提供商将始终知道您访问了哪些站点。如果站点所有者未实现DNSSEC,有时它甚至可以修改原始DNS的答案。

回答您的问题:是的,服务提供者知道您访问了该站点,这使您像狗一样出汗。

解决方案:我们有几个。您可以使用HTTPS上的DNS(DoH)或TLS上的DNS(DoT)。聪明人会有所不同(我确实没有),但是您不应该深入研究这些细节。

您还记得那些来您家建立互联网的技术专家吗?他们应该给你一张纸,并说不要丢掉这。之后,您立即将其扔到垃圾桶中,然后您确定了。它在那里有您的提供商的DNS,那个技术人员设置了您的路由器以使用它。 "它可以帮助您加快速度" - 他们说。 "不安全的狗屎" - 我们明白。他们不支持DoT,也不太可能会支持DoT,因为他们为什么这样做。

尝试使用独立的DNS服务器。我建议将Cloudflare DNS与一个很酷的IP地址一起使用:1.1.1.1。它是免费,快速的,而且他们承诺实行零日志政策,因此他们不会保存任何有关您的肮脏小秘密的信息。他们拥有适用于智能手机的应用程序,可以神奇地设置所有内容,因此请使用它们,否则将很难设置。

对于台式机而言,它变得更加棘手。首先,您需要在操作系统级别上设置DNS,然后在浏览器中打开实验性的DoH支持。

有两种连接类型:安全连接和不安全连接。如果不是旧的庞然大物,您会从浏览器收到有关不安全连接的通知。如果它不是一头古老的黑犀牛粪便(已于2013年灭绝),它甚至会要求您仔细考虑是否应该使用此站点。

如果您看到有关不安全连接的通知,则可以安全地关闭此站点,而在此不执行任何操作。相信我,这个部位可能和与伴侣生殖器上散布有放射状红色条纹的伴侣进行无保护的性行为一样糟糕。

不安全的连接没有真正的漏洞,只有一小部分:每个中介机构都可以完全控制您发送和接收的内容,因此这意味着完全没有任何安全性。例如,一些移动运营商将其全屏广告嵌入到不安全的网站上,而未征得网站所有者的任何许可。

因此,让我们谈谈安全连接。我将给您做一个关于密码学的小型讲座(不,它几乎没有与加密货币的联系)以及网络的工作方式,以便给您的祖母留下深刻的印象。

如果您不是博士学位在使用加密技术并没有从学校食堂推出ICO的时候,知道两种加密类型就足够了:对称加密和非对称加密。对称是具有用于加密和解密的单个密钥的密钥。非对称密钥是在其中使用一个密钥加密内容(称为公用密钥)而使用另一密钥解密内容(称为私有密钥)的地方。

没人真正知道数学是如何工作的(就像没人真正知道如此笨重的飞机如何飞向天空一样),但是为所有这些伏都教徒-神社提供动力的Diffie-Hellman密钥交换协议足够安全,可以将神圣的猫照片发送到你的家人。

因此,我们使用两种类型的加密。阅读起来很无聊,所以我写了一部戏剧来说明整个过程。

吉米的电话(与Pinder的服务器通话):嗨,好朋友。我的家伙想写另一个信息(标志)。让我们快速安全地执行此操作。我知道HTTPS。

Pinder的服务器:嗨,朋友。是的,我明白了。我也知道HTTPS。计划如下:首先,我会向您发送我的公钥,请用它加密所有内容。其次,请给我发送一些加密的乱码,以便我可以从中生成一个对称密钥,因为对称加密的运行速度比非对称密钥(亲爱的读者)快得多。

吉米的电话:您的公开密钥是好的。好的,这是我的胡言乱语。我已经从中生成了一个密钥,看起来或多或少是这样的。

Pinder的服务器:好的,我解密了它,看上去很乱。我还生成了一个对称密钥,它看起来像您的对称密钥!好的,我完成了。

现在,吉米的电话和Pinder的服务器使用的对称密钥从未在网络上以纯文本格式发送过,因此通信是安全的

我对流程进行了一些简化(认证中心,对称密钥的哈希等)。如果您是一个非常感兴趣的书呆子,请继续阅读有关网络的同一篇文章,以了解TLS握手。

建立安全连接后,每个中间人仍然可以看到您与之对话的服务器(某个ip地址),但是此信息不足以进行任何常规分析,因为整个数据交换都是加密的,并且加密是唯一的,因为会生成密钥每个人一个人我认为,有些复杂且不确定的启发式方法可以使中介机构猜测您所看到的内容类型。就像,如果您一直在pornhub.com上播放一些内容,则可以肯定地确定您正在下载许多带有编织图案的PDF。但是您不必担心这些启发式方法,它们非常近似。

解决方案:请记住有关未保护的性不安全连接的信息。一切都以纯文本形式出现:名片数据,内容,地址,表格数据,照片……如果看到此通知,只需关闭站​​点。无法在2020年设置HTTPS(且正在上升)的网站所有者应感到羞耻。

如果您也不希望中间人知道IP地址,则应使用VPN。在我的国家/地区发布VPN指令是违法的,但不能说我真的很在意,因此,我将在上面宣传的Cloudflare应用程序中添加免费的VPN。但是您不应该将所有鸡蛋放在同一个篮子中,因此请尝试使用其他服务,例如Tunnelbear。像魅力一样工作。

因此,我们进入了该帖子最糟糕的部分。与此相比,之前的所有事情实际上都是一个大笑话,因为这里有一个四层雷场。即使是我们最好的人也在不断地搞砸。

因此,正如您所想象的那样,卡通漫画中没有魔术。如果您深入研究这个污水池,您会发现每种不安全和愚蠢的解决方案都具有很好的含义。就像核电乌托邦在1945年变成日本两座大城市的大闹事一样。

如果两台计算机通话,则有请求。如果您将裸照发送给互联网上的某个匿名人员,则还会有某些程序在您不知情的情况下发出的请求。还有浏览器中的最后一页-它也可以发送请求。

因此,您进入了“根目录”页面(例如https://dkzlv.com/),这是一个单独的请求。如果您想转至特定帖子(例如https://dkzlv.com/en/how-they-harvest-data),则这是一个单独的新请求。

很久以前,您无法在请求之间识别用户。但是那些时代已经过去了。所有标准背后的人都知道,他们需要一种在典型的互联网商店中保存请求之间的购物车状态的方法。和往常一样,通往地狱的道路充满了善意。他们提出了臭名昭著的cookie,您最近收到的警告很多。

Cookie本质上是一大行文本,具有键值对,如下所示:

他们决定服务器可以要求浏览器保存与特定主机连接的文本,然后浏览器将使用此行文本发送所有连续的请求。该过程非常简单:

您在另一个为龟龟矫正眼镜的创业公司的网站上输入登录名和密码;

服务器会检查数据是否匹配,如果匹配,它将创建唯一的文本行(例如7d8921806f9b4d3baec79c489237acfa),并将其与关联保存到用户。如果有人知道这一行文字,则应该是该用户;

万岁!现在我们有了一个明确且确定的标识,因此我们可以将购物车状态保存在服务器上,并且它将持久保存页面之间的转换。这个问题已经解决了,但是隐私是这个小变化的受害者。

那么,当Google确切地找到您的购买历史记录时?让我们找出答案-我们即将进入互联网广告蓬勃发展的阶段。

起初什么都没有。然后互联网来了。所有页面都是静态的。如果单击链接,将导致完全重新加载。根本没有动画。没有横幅。页面上没有自动播放音乐。没有这样的博客,这会让您的新Macbook Pro像3D射击游戏一样吸引粉丝。那是那个时代。

但是他们认为我们应该增加一些活力。没有一种编程语言就不可能实现动态性,这就是为什么他们想出了世界上最好的语言-Cmm CEnvi Mocha LiveScript JScript JavaScript(花了很多时间才能达到完美)。 JS增加了所说的动力。它是什么?好吧,尝试单击此按钮:

以带有动画的博客为背景,对吗?好吧,很久以前,在上一个千年中,还没有如此美丽的动力。您可以看到该发明是值得的,不是吗?

JavaScript是一种功能齐全的编程语言,开发人员可以访问很多东西。它可以向世界上的任何服务器发送请求(有一些例外),两次访问之间保存数据,从加速度计和陀螺仪收集数据,从键盘捕获所有击键。如果您授予它特定的权限,它也可以做一些事情:发送推送通知,读取地理位置,使用文件,USB端口,蓝牙设备,从相机和麦克风读取数据。长话短说,很多可能性。

浏览器确实有一些差劲的方法来保护您的隐私,但是请记住,浏览器开发人员不会对您的隐私有所顾忌,因此大多数保护措施都可以由具有正常工作头脑的人来解决。

浏览器可以防止设置所谓的第三方cookie,即从其他主机设置的cookie。如果我从当前页面在您的浏览器中发送请求,则该请求具有" dkzlv.com"托管到google.com的Cookie不会被设置或发送-保护☝️但是这些跟踪脚本在没有第三方脚本的情况下如何工作?他们确实知道我们的所有动作,不是吗?嗯,是。解决方法是如此简单,甚至令我感到恶心(如果您很好奇,这是一个简单的解释,但是这个家伙并没有将其推到最后;如果您使用iframe并具有正确的CORS设置, ,您可以解决此问题,就好像根本不存在一样)。

或浏览器供应商说,如果您关心隐私或有暗中秘密(阅读两句:您想了解乱伦色情内容),请继续使用隐身模式!是的。这样可以保护您。

我们都有指纹。而且,即使像以前那样,手指镜检查还不够准确,我们还是习惯于认为它在某种程度上可以帮助您进行识别。好吧,我们的设备也有某种指纹。 2个事实:

我已经告诉过您什么是IP地址。您的设备(或更确切地说,您的公寓或办公室)也有一个!您应该知道,您从浏览器发出的每个请求都会将您的ip地址告诉服务器,而是否使用隐身模式并不重要。服务器可以仅基于您的ip地址获取有关您的国家,城市,地区,有时甚至是建筑物的信息。

您的浏览器会提供很多信息。窗口大小,监视器大小,浏览器及其版本,操作系统及其版本,默认键盘语言,首选语言,已安装的字体等。当您查看单独的指标时,它几乎没有用,但是如果将它们结合起来,我们将在单个设备上拥有巨大的独特性。我的笔记本的唯一性是202k其他设备fml中的1。

将它与您的ip地址结合在一起,ip地址在大多数情况下都是静态的(因此它不会随时间变化),对于任何受人尊敬的公司而言,将隐身个性与常规个性相匹配就像将幼儿带走一样容易在他的裤子里拉屎。

演示时间。我在这里无耻地偷了这个主意。这些家伙可以制造技术,但是他们缺乏美丽的示范。但是它们具有我所没有的东西:它们将向您显示您可以从浏览器中获取的每一点数据,以及它们所具有的独特性。很多。但是我做了另一个演示!

让我们做一个简单的实验。我是一个简单的人,我没有受过高等教育,也没有Google的冰沙工程师能与之匹敌。让我尝试以隐身模式识别您的身份。实验很简单:

那么您可以在隐身模式下打开同一页面(鼠标右键/在隐身模式下打开)。您可以稍等一下,让我感到困惑(大声笑),但这无济于事

那就相信冰沙工程师,不要相信我,一个自学成才的简单家伙,他们日夜想着您的隐私,采用隐身模式进行救援! 数据永远不会离开我的服务器。 拉斯维加斯发生的事情只会带来坏喜剧。 我使用的是开放源代码库,他们也有相同库的商业版本,按照他们的话,它具有99.95%的准确性(顺便说一下,有一个类似的演示)。 我不知道它是否对您有用,但是每次都对我有用。 没有失败。 这就是他们开始戴锡箔帽的方式。 脚本。 脚本无处不在。 SC ......