暗網(wǎng)是什么? 暗網(wǎng)到底是怎樣的一張“網(wǎng)”?
時(shí)間:2020-03-23 17:37 來(lái)源:天晴資訊網(wǎng) 責(zé)任編輯:沫朵
原標(biāo)題:暗網(wǎng)是什么? 暗網(wǎng)到底是怎樣的一張“網(wǎng)”?
暗網(wǎng)(HiddenWeb)如其釋義所說(shuō),通常是指網(wǎng)絡(luò)上大部分內(nèi)容是不能通過(guò)靜態(tài)鏈接獲取的,特別是大部分隱藏在搜索表單之后的頁(yè)面只有通過(guò)用戶鍵入一系列關(guān)鍵詞才可以獲得。形象的理解是,這些頁(yè)面是目前搜索引擎所無(wú)法抓取的網(wǎng)頁(yè)、不能檢索到的信息,即“看不見(jiàn)”的網(wǎng)站,由于當(dāng)前的搜索引擎不能索引到或不能在它們的返回結(jié)果中顯示這些頁(yè)面,因此對(duì)用戶來(lái)說(shuō)這部分頁(yè)面是隱藏的。
來(lái)源
暗網(wǎng)(互聯(lián)網(wǎng))HiddenWeb最初由Dr.JillEllsworth于1994年提出,指那些由普通搜索引擎難以發(fā)現(xiàn)其信息內(nèi)容的Web頁(yè)面。從信息量來(lái)講,與現(xiàn)在能夠索引的數(shù)據(jù)相比,“暗網(wǎng)”更是要龐大得多。根據(jù)BrightPlanet公司此前發(fā)布的一個(gè)名為《TheDeepWeb-SurfacingTheHiddenValue》(深層次網(wǎng)絡(luò),隱藏的價(jià)值)白皮書中提供的數(shù)據(jù),“暗網(wǎng)”包含100億個(gè)不重復(fù)的表單,其包含的信息量是“非暗網(wǎng)”的40倍,有效高質(zhì)內(nèi)容總量至少是后者的1000倍到2000倍。更讓人無(wú)所適從的是,BrightPlanet發(fā)現(xiàn),無(wú)數(shù)網(wǎng)站越來(lái)越像孤立的系統(tǒng),似乎沒(méi)有打算與別的網(wǎng)站共享信息,如此一來(lái),“暗網(wǎng)”已經(jīng)成為互聯(lián)網(wǎng)新信息增長(zhǎng)的最大來(lái)源,也就是說(shuō),互聯(lián)網(wǎng)正在變得“越來(lái)越暗”。
當(dāng)然,所謂“暗網(wǎng)”,并不是真正的“不可見(jiàn)”,對(duì)于知道如何訪問(wèn)這些內(nèi)容的人來(lái)說(shuō),它們無(wú)疑是可見(jiàn)的。2001年,ChristSherman、GaryPrice對(duì)HiddenWeb定義為:雖然通過(guò)互聯(lián)網(wǎng)可以獲取,但普通搜索引擎由于受技術(shù)限制而不能或不作索引的那些文本頁(yè)、文件或其它通常是高質(zhì)量、權(quán)威的信息。根據(jù)最近對(duì)HiddenWeb的調(diào)查文獻(xiàn)得到了如下有意義的發(fā)現(xiàn):
(1)HiddenWeb大約有307,000個(gè)站點(diǎn),450,000個(gè)后臺(tái)數(shù)據(jù)庫(kù)和1,258,000個(gè)查詢接口。它仍在迅速增長(zhǎng),從2000年到2004年,它增長(zhǎng)了3~7倍。
(2)HiddenWeb內(nèi)容分布于多種不同的主題領(lǐng)域,電子商務(wù)是主要的驅(qū)動(dòng)力量,但非商業(yè)領(lǐng)域相對(duì)占更大比重。
(3)當(dāng)今的爬蟲(chóng)并非完全爬行不到HiddenWeb后臺(tái)數(shù)據(jù)庫(kù)內(nèi),一些主要的搜索引擎已經(jīng)覆蓋HiddenWeb大約三分之一的內(nèi)容。然而,在覆蓋率上當(dāng)前搜索引擎存在技術(shù)上的本質(zhì)缺陷。
(4)HiddenWeb中的后臺(tái)數(shù)據(jù)庫(kù)大多是結(jié)構(gòu)化的,其中結(jié)構(gòu)化的是非結(jié)構(gòu)化的3.4倍之多。
(5)雖然一些HiddenWeb目錄服務(wù)已經(jīng)開(kāi)始索引Web數(shù)據(jù)庫(kù),但是它們的覆蓋率比較小,僅為0.2%~15.6%。
(6)Web數(shù)據(jù)庫(kù)往往位于站點(diǎn)淺層,多達(dá)94%的Web數(shù)據(jù)庫(kù)可以在站點(diǎn)前3層發(fā)現(xiàn)。
暗網(wǎng)分類
一般情況下暗網(wǎng)可以根據(jù)其產(chǎn)生原因分為兩種:
一種是技術(shù)的原因,很多網(wǎng)站本身不規(guī)范、或者說(shuō)互聯(lián)網(wǎng)本身缺少統(tǒng)一規(guī)則,導(dǎo)致了搜索引擎的爬蟲(chóng)無(wú)法識(shí)別這些網(wǎng)站內(nèi)容并抓取,這不是搜索引擎自身就能解決的問(wèn)題,而是有賴整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的規(guī)范化,百度的“阿拉丁計(jì)劃”、谷歌的“云計(jì)算”就是要從根本解決這一問(wèn)題。
另一個(gè)原因則是很多網(wǎng)站根本就不愿意被搜索引擎抓取,比如考慮到版權(quán)保護(hù)內(nèi)容、個(gè)人隱私內(nèi)容等等,很多網(wǎng)站都在屏蔽百度、比如最近最大的視頻分享網(wǎng)站優(yōu)酷也宣布屏蔽百度一樣,這更不是搜索引擎能解決的問(wèn)題了。如果他們能被搜索引擎抓取到,就屬于違法了。
投稿郵箱:chuanbeiol@163.com 詳情請(qǐng)?jiān)L問(wèn)川北在線:http://m.fishbao.com.cn/