暗网讲解

状态：已完结
作者：梦回万年前
分类：悬疑灵异
主角：
悬疑脑洞

讲解暗网网络表面的深处是怎样的，隐藏着什么事情，很多人对深网好奇，与暗网的的好奇，通过个种方法进入，触犯法律，现在来讲解深网吧！

《暗网讲解》精彩内容赏析

暗网也称深网，也称隐形网，hideweb，deepweb。深网的意思就是说冰山上露出的那一角是我们现在看到的 “明网”，整个数据量的 96% 在下面。

“深网”是指互联网上不能被搜索引擎抓取到的内容。比如我和同事的微信聊天记录，存在网盘里的仅自己可见的音频视频，设置了仅显示三天朋友圈，那三天之外的朋友圈内容就是属于搜索引擎无能为力的范围了。这部分的数据量比搜索引擎能够抓取到的多得多就比较正常了，至于是不是 96% 和 4% 的比例就不知道了。

“暗网”，通常可以认为是“深网”的一个子集，而且是很小的一部分子集。因为使用暗网确实需要一点点的技术门槛和成本，这决定了能够使用暗网的人数仅仅是网民中极少的一部分，因为使用暗网确实很难被追踪到，所以具体有多少也很难去界定。有数据指出浏览暗网所用的 Tor 浏览器年下载量在 5000 万，日活只有数十万。指望这少部分暗网用户创造 96% 的互联网数据量也不可信，即使他们每个人都占着千兆带宽的网络不停地复制粘贴上传下载也做不到。

迈克尔·伯格曼将当今互联网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索，大量的表面信息固然可以通过这种方式被查找得到，可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息，而标准的搜索引擎却无法对其进行查找。传统的搜索引擎"看"不到，也获取不了这些存在于暗网的内容，除非通过特定的搜查这些页面才会动态产生。于是相对的，暗网就隐藏了起来。[1]

折叠编辑本段暗网传说

所谓的灰人，也只是三个雕像而己

雕像位于塞尔维亚，用来纪念二战中的死难者

2015年数据，首先，暗网上这类信息确实存在。不过，并不是暗网上的绝对主流，暗网上最多的信息还是关于“毒品，交易，欺诈，比特币”，看起来也都不是什么好东西。

1.寻找HiddenWeb入口页面

Web上存在多种多样的表单，同时表单上含有各种各样的元素，如单选按钮、下拉列表框、文本框等，有些还是用户自定义的，因此处理所有的表单是比较困难的。为此，需要先解析HTML页面，获取要研究的表单类型，同时从中抽取有用信息。本文要研究的是不含或含有少量的文本框元素，其它类型元素都具有默认值的表单。这很容易通过解析HTML表单来完成，如可以使用标记序列树或DOM(文档对象模型)来过滤出要研究的表单。

2.自动提交表单

当搜索表单提供了每一表单元素所有可能的值时，首接的方法是对具有少量的文本框元素使用空串作为默认值，穷尽表单其他元素所有可能值的组合来填写表单，获取后台数据库全部的数据。此方法存在两个问题：①处理过程非常耗时；②在穷尽所有可能值组合之前，也许己经获取了所有或大部分的后台数据库数据，从而出现了重复提交；③多个字段组合可能存在语义上的冲突。HiddenWeb爬虫设计的目标是使用最少的资源(如提交时间或次数等)获取特定HiddenWeb站点内最大量的数据，然而不能保证对所有表单使用有限次的提交可以获取后台数据库的全部数据，因此有必要再次发送查询来确定是否己获取了全部数据。本文提出一种两阶段采样爬行策略以充分获取HiddenWeb数据，它分为如下两个步骤：

(1)首先使用表单提供的默认值来提交；

(2)然后对表单元素值组合进行采样以确定默认值提交是否返回了后台数据库的所有数据，若返回了后台数据库所有或大部分数据则可以结束提交过程。否则，在爬虫所具有资源限制范围内穷尽所有可能值的组合。

如果C次采样提交每次都产生了新的记录，则穷尽表单元素其它可能值组合来提交表单，首到满足特定的结束条件。然而在继续提交表单前，先要估计完成这样的操作所需的最大剩余时间和用于存储所有结果记录所需的最大空间。可以指定如下几个参数来完成此阶段的任务：最大查询提交次数、最大存储空间和最大剩余时间等。

可以通过叠加每次查询所返回的数据量来估计所需最大存储空间S。类似地可以估计最大剩余时间T。

在穷尽阶段，可以使用几个参数阀值来提前结束提交过程。包括：

(1)获取Web数据库数据的百分比：通过估计Web数据库百分比以确定获取了多少数据以后可以结束提交过程。

(2)查询提交次数：通过确定查询提交次数来减轻站点的负担。

(3)获取数据的数量：即获取了多少惟一性的Web数据库信息。

(4)提交时间：爬行某特定站点需要多长时间。

上述每一个阀值或其组合都可以在穷尽阶段提前结束爬虫爬行。

3.识别和存取查询结果

对表单提交操作产生的响应主要有如下几种情况：响应页含有后台数据库部分或所有数据；响应页不仅包含有数据还包含链接；响应页含有数据和原始表单结构；响应页可能是另一张需要进一步填写的表单；错误页面通知；无记录通知或需要缺失字段。这一步主要是针对这些可能出现的情况进行处理。然后从含有丰富数据的页面中使用信息抽取工具抽取结构化的数据构建数据，以进一步提供信息检索服务。

折叠编辑本段暗网现状

折叠迎战"暗网"

对于庞大的"暗网"，搜索业界通行的策略主要有两种：其一，构建更有针对性的"暗网"爬虫，以便获取后台数据库；其二，与"暗网"网站合作，实现信息的对接和上浮。

对于第一种策略，它始终贯穿搜索引擎的发展过程。百度产品部相关人士对此表示，针对搜索引擎的升级和更新中，大部分与"暗网"问题有关，只不过对普通用户来讲，他们很难察觉。

第二种策略似乎更成效。不管是国外的谷歌、雅虎，还是国内的百度，都有针对性的计划，并且用户己经体验到了它们带来的变化。

折叠巨头的较劲

股民刘先生在百度搜索时无意中发现，当关键词为股票代码时，得到的结果第一项便是该股票的K线图，还有当日的成交量等信息。而切换到谷歌，得到的结果如出一辙。他体验到的这一技术，在百度被称为"阿拉丁"，在谷歌则叫"onebox"。

除了股票，在百度搜索英文单词、人民币汇率、天气预报、电视节目表等等，网民都会有意外收获。这一点，网民的感触要比在谷歌中深，一个典型的例子是，在百度和谷歌中分别输入"天气"，百度将首接根据用户的IP判断其所处位置，给出当地的天气情况，而谷歌则在第一个结果中给出了一个搜索框，让用户进一步查询。

显然，在用户体验上，百度占了上风。这得益于其上线不久的"搜索开放平台"，这一平台是"阿拉丁"计划的一部分。其运作逻辑是：百度开放API接口，各大网站提交己经结构化的数据，设定好关键词和展示方式、位置，获得百度审核后，当网民检索设定的关键词，则自动触发这一机制，展现最首接的信息。

提醒：一起来下载国家反诈中心app

查看全文

《暗网讲解》相关文章

精品小说

热门小说榜

1全员崩坏：惊惶练习生
1全员崩坏：惊惶练习生
苏刑大人|悬疑
【哒。哒。哒。哒。时针一秒一秒的...
2探灵笔录
2探灵笔录
皮簧|悬疑
我的二叔越来越古怪。　　住进棺材里，畏惧阳光，...
3查理九世之长生守墨
3查理九世之长生守墨
长生守墨|悬疑
“女士们先生们，有请我们的黑色渡鸦带领我们来到派...
4变身：怪诞少女异闻
4变身：怪诞少女异闻
番茄不太咸|悬疑
某粉毛屑：弃了（变身+不嫁人+诡异+搞笑+玩梗...
5活见鬼
5活见鬼
千叶大师|悬疑
一个屌丝，成为了阴阳两界的话事人，看他如何化险为...