WizCase的IT研究人员最近在美国和东亚的5个不同的约会应用程序上发现了数据泄漏和隐私泄露事件。
这些违规行为展示了受损的用户数据和敏感信息,例如姓名,账单地址,电话号码,个人资料,甚至私人/直接消息。
进一步的信息证明,泄露的配置文件有数百万,并且托管这些数据库的Elasticsearch服务器,MongoDB数据库和AWS存储桶在没有密码保护或安全验证的情况下可以公开访问。
根据WizCase在美国的博客文章,CatholicSingles泄露了敏感的用户信息,包括他们的姓名,电子邮件地址,电话号码,年龄,职业,教育程度和帐单地址。确保用户身体特征(例如头发,眼睛颜色和互联网活动)的数据也已被破坏。
更令人震惊的是,用户的付款方式也很容易获得,使他们处于危险之中。这个交友网站专门为寻求基于信仰的伴侣的单身人士打造。
TIKI互动在应用商店上显示的另一个美国约会应用程序YESTIKIcom泄漏了4300条用户记录,这些记录通过MongoDB服务器最终达到352MB。数据泄露包括用户的真实姓名,电话号码,GPS位置,活动日志等。
名为Blurry的韩国应用程序通过Elasticsearch服务器暴露了70,000条记录。该应用程序已由50,000多名用户安装,可在iTunes应用程序商店中使用。
但是,此违规行为导致使用该平台交换私人消息。其中一些消息包含机密信息,例如Instagram句柄和电话号码。
SPYKXcom创建的另一个名为Congdaq / Kongdaq的韩国应用程序通过Elasticsearch服务器暴露了123,000(600MB)个用户记录。数据泄漏导致用户的私人但敏感信息,包括明文密码,性别,出生日期和GPS位置。
此外,日本的两个约会应用程序分别称为Charin和Kyuun,尽管怀疑它们属于同一公司,但它们暴露了102,000,000(57GB)的客户记录。两种应用程序的设计都相似,并且违规行为导致使用了同一台未受保护的Elasticsearch服务器。
公开的数据包括用户的电子邮件地址,明文密码,ID,移动设备信息及其个人喜好。
WizCase进行的进一步调查显示,另外六台不安全的服务器暴露了约会应用程序用户的信息。但是,他们无法找到原点。该公司认为,数据泄露和泄漏可能是通过称为“网络抓取”的过程进行的。
Web爬网是收集和存储用户提供的信息的过程。但这不仅限于网站,同样的类比也适用于技术和协议。
保护数据的最佳方法是,在包括约会应用程序在内的任何网站上注册时,请保持警惕和注意数据。另外,请勿对每个帐户或社交媒体句柄使用相同的密码。
确保选择难以破解或复杂的密码。除此之外,您通过这些应用程序提供的信息应该最少。注意提供您的家庭住址,电话号码甚至照片。
搜索引擎通常由以下模块组成:
1,抓取模块
2、过滤模块
3,包含模块
4,排序模块
百度搜索引擎工作原理—抓取模块
当搜索引擎运行时,第一个工作是转到Internet来抓取页面,而实现这项工作的模块,我们将其称为爬网模块。要学习爬网模块,我们需要了解以下几点:
1,搜索引擎爬虫:蜘蛛
为了在Internet上自动抓取数万个网页,搜索引擎必须具有完全自动化的页面抓取工具。而这个程序通常被称为“蜘蛛”(也称为“机器人”)。所以不同的搜索引擎蜘蛛,名称是不同的。百度的爬虫通常被称为百度蜘蛛。
Google的抓取工具通常称为Google Robot。
360爬虫通常被称为360 Spider。
事实上,无论你称之为蜘蛛还是机器人,你只需要知道这是指搜索引擎的爬虫。蜘蛛的任务非常简单。它是连续抓取未包含在Internet中的网页和链接,然后将捕获的网页信息和链接信息存储到其自己的网页数据库中。这些已抓取的网页将有机会显示在最终的搜索结果中。
2,如何让蜘蛛抓取我们的网站
通过上面对蜘蛛的解释,我们可以知道,如果您希望您的页面出现在搜索结果中,您必须先让蜘蛛抓取我们的网站。有三种方法可以让蜘蛛抓取我们的网站。
外部链接:我们可以链接已被搜索引擎索引的网站上的蜘蛛以吸引蜘蛛,或交换友情链接是一种常用方法。
提交链接:百度为网站管理员提供链接提交工具。使用此工具,我们只需要通过此工具将其提交给百度,然后百度将发送一个蜘蛛来抓取我们的网页。
百度搜索引擎工作原理分析 - 百度搜索引擎原理
蜘蛛自己爬行:如果您希望蜘蛛定期主动抓取自己的网站,那么您必须提供高质量的网站内容。只有蜘蛛才会发现您网站的内容质量良好,然后蜘蛛会照顾您的网站,并会定期访问您的网站,看看是否有新内容生成。如何确保您的网站能够提供卓越的内容,我们将在后面的章节中详细说明这个主题。
3你怎么知道蜘蛛来到我们的网站
以下两种方法可用于了解蜘蛛是否已访问我们的网站。
(1)百度抓取频率工具
工具URL为:
百度搜索引擎工作原理分析 - 百度搜索引擎的工作原理
(2)服务器IIS日志
如果您的服务器启用了IIS日志记录,您还可以通过IIS日志文件查看蜘蛛的痕迹。通过IIS日志,我们可以找到百度蜘蛛抓取我们的页面。
4影响蜘蛛爬行的因素
好的,我们知道网站想要排名。第一步是能够被蜘蛛爬行。那些因素可能会导致蜘蛛无法正常抓取我们的网页。我们应该注意以下几点:
(1)URL不能太长:百度建议URL的长度不要超过256个字节(一个英文字母(不区分大小写)占用一个字节的空间,一个汉字占用两个字节的空间)。
(2)不要在URL中包含中文:百度对中文网址的抓取效果相对较差,所以不要在网址中加入中文。
(3)服务器问题:如果你的服务器质量太差,你无法打开它,也会影响蜘蛛的爬行效果。
(4)Robotstxt屏蔽:一些SEO人员疏忽。您希望被百度抓取的路径或页面在Robotstxt文件中被阻止。这也会影响百度在我们网站上的抓取效果。
(5)避免蜘蛛难以解析的字符,例如/abc/123456 ;;;;;;;%B9&CE%EDDS$GHWF%html这个URL蜘蛛无法理解放弃爬行。
(6)注意动态参数不太复杂。目前,百度对动态URL有很好的处理,然而,蜘蛛可能会抛弃太多参数和复杂的网址,因为它们并不重要。这一点尤其重要,所以一定要注意。
百度搜索引擎工作原理—过滤模块
由于Internet上充满了垃圾邮件页面和无内容页面,因此搜索引擎或搜索用户不需要这些页面。因此,为了防止这些垃圾邮件页面占用其宝贵的存储资源,搜索引擎会过滤蜘蛛爬行的内容。执行此 *** 作的模块就是我们所说的过滤模块。那些因素会影响过滤模块,下面有2点:
(1)识别
由于搜索引擎蜘蛛目前最擅长分析文本和链接,因此很难识别图像和视频。因此,如果页面主要是和视频,则搜索引擎难以识别页面的内容。对于此类页面,搜索引擎可能会被过滤掉为垃圾网站。因此,当我们编辑网站的内容时,我们应该添加一些文本描述,以便过滤模块不容易过滤。
(2)内容质量
基于可识别内容,搜索引擎还将捕获的网页的内容与已经存储在数据库中的内容进行比较。如果搜索引擎发现页面内容的质量大部分与数据库中的内容重复,或者质量较差,则页面将被过滤掉。
百度搜索引擎工作原理—包含模块
已通过过滤模块“验证”的网页将标准化为分词和数据格式,然后存储在索引数据库程序模块中,我们将其称为包含模块。如果您的网站有幸通过包含模块,那么您有机会获得排名。
1如何检查是否包含网页
最简单的方法是将网页的URL复制到百度搜索框中进行搜索。如果可以显示页面的搜索结果,则表示已包含URL。
百度搜索引擎工作原理分析 - 百度搜索引擎原理
2,如何查看网站的数量
有两种方式:
(1)网站命令
通过“site:domain name”命令,我们可以看到搜索引擎在某个域名下抓取了页面卷:
百度搜索引擎工作原理分析 - 百度网络磁盘搜索引擎原理
(2)百度“索引金额”查询工具
通过百度提供的“索引金额”查询工具,您还可以查看我们网站的数量。
如果我有少量的收录,我该怎么办?
这分为两种情况:
(1)新站
一般来说,新站刚刚上线,开始收集至少需要1-2个月。在早期阶段,它通常只是一个主页。没有其他办法可以解决这种情况,因为百度特别延长了新站的审查时间,以防止垃圾站泛滥。因此,如果您正在 *** 作一个新站,那么您不需要对包含量感到紧张。只要您诚实地提供优质内容,百度将在2个月后开始包含您的内页。
(2)旧车站
即使音量开始减少,一些旧电台的参赛作品也会减少。这通常是由于网站内部页面内容质量差造成的。
此时,网站管理员应该快速调整整个网站的内容质量,并提供高质量的内容,以确保网站的排名不会改变。
百度搜索引擎工作原理—排序模块
对于存储在索引数据库中的页面,通过一系列算法获得每个页面的权重并对其进行排序的程序称为排序模块。
如果您的页面通过排序模块的计算排在关键字的顶部,那么当搜索用户搜索关键字时,您的页面可以显示在用户面前。要获得适合您网站的排名,您需要执行以下2点:
1改进基本优化
如果你想获得一个好的排名,那么你的网页必须首先进行优化,包括网站定位,网站结构,网站布局,网站内容等。这些基本优化的内容将在后面详细说明。只有这些基本部分得到完善和优化,才能通过。
2,综合数据好
在基本优化的基础上,如果您的百度统计背景数据良好,并且用户的忠诚度和场外促销效果显着,则会在传递线上添加点数。只要您的奖励积分超过所有竞争对手,您的网站就可以放在所有对手面前。
以上就是关于咨询公司怎么揽活儿大家知道的帮忙回答下哦!全部的内容,包括:咨询公司怎么揽活儿大家知道的帮忙回答下哦!、SEO应该怎么做站内优化站内优化包含了什么内容、5个应用泄漏数百万用户敏感数据 到底是哪五个app你中招了吗等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)