Læsetid: 3 min.

90 internetsider pr. verdensborger

7. august 2000

Sidste uge troede man, at Internettet havde rundet 2,1 milliard sider. Men tallet er snarere 500 gange større, viser nye 'dybe' søgemaskiner

Det dybe net
Sidste uge skrev vi i Information, at man på Internettet havde rundet 2,1 milliarder websider. Det tal er alt for lavt, viser en analyse foretaget af den amerikanske virksomhed BrightPlanet.
Hvis man til dagligt bruger standard søgemaskiner som Yahoo! og Google til at finde rundt i verdensvævet, surfer man kun i overfladen af Internettet. Nye såkaldte dybe søgemaskiner, der kan gnave sig ned i den voksende mængde information, som ligger i offentlige institutioners, universiteters og virksomheders databaser tyder på, at der i alt ligger 550 milliarder sider på nettet. Og altså 90 sider for hver mand, kvinde og barn her på jorden.

Sindssyg oploadshast
Internettet har dermed nået en størrelse hinsides, hvad der kan fattes. Nettet muterer og vokser med en vildskab, som kun få havde regnet med. Nye sider sendes ud på nettet hurtigere end det på nogen måde er muligt at nå at læse dem. Og hvad mere er: Det 'dybe net' har en langt bedre kvalitet og relevans, end hvad de gængse søgemaskiner typisk kan finde frem til ved en almindelig søgning.
Det skyldes den omstændighed, at mange websider, portaler og virksomheder arbejder med interne databaser, som ikke er tilstede på Internettet som statiske http-adresser (URL'er), men som dynamiske sider, der kun fremvises ved en direkte søgning på specielle baser.
De almindelige søgemaskiner, som for eksempel Altavista og Nothern Light, bruger 'crawlere' eller 'spidere' til at katalogisere Internettet ved at springe fra én hyperlink til den næste. Men de går aldrig dybere ned i de lokale og ofte højt specifikke databaser, og derfor mangler der ofte den mest relevante information om et givent emne.
Mængden af information i disse dybe databaselag er estimeret til at fylde omkring 7.500 terabyte (dvs. 240 bytes, eller cirka 1,1 trillion bytes) sammenlignet med blot 19 terabyte fra det statiske overflade-net. Og her er ikke engang medregnet de talrige andre Internetprotokoller som FTP, Gopher, news, telnet og email, som også indeholder en stor mængde informationer.

Dynamiske sider
Hvis man regner på, hvor meget den største søgemaskine i dag (som er Google) dækker, kommer man ned på blot et par promille af det samlede antal af websider. Men faktisk er omkring 95 procent af alle databaserne frit tilgængelige - bare ikke via søgemaskiner som Google eller andre. Det gælder derfor om at anvende bedre søgemetoder og udvikle 'fiske-teknikker', som er i stand til at lave intelligente forespørgsler på alle mulige og umulige databaser.
Mange videnskabelige databaser har stadig enorme lagre af tekster, men de arbejder primært med FTP. Siden 1996 har database-teknologier som Bluestones Sapphire/Web og Oracle flyttet de mere seriøse informationer væk fra de statiske http-adresser. Det blev også pludselig muligt for webservere at tillade dynamiske repræsentationer af websiderne ved hjælp af Microsofts ASP (Active Server Page) og UNIX's PHP teknologier (som begge er nogle scripts til at fortolke og fremvise dynamiske genererede html-sider - alt efter hvilken søgning, der foretages).
Siden deres fremkomst har de største vækstrater været centreret omkring databaser og deres design. Alene de 60 største "dybe" Internetdatabaser, hvor man blandt andre også finder NASA EOSDIS, mp3.com, amazon.com og NIH PubMed, fylder mere end 40 gange så meget som hele det kendte overflade-net.

Gennemstrømninger
Ifølge Internetfirmaet BrightPlanet.com er deres nyudviklede søgerutine LexiBot i stand til også at lave parallelle databasesøgninger.
I en test-søgning på det specifikke udtryk "percolating network" (som betyder gennemstrømmende netværk) blev der af Information kun fundet 57 hits på Google, mens der blev fundet 1.558 hits på Lexibot. I søgningen kunne man selv bestemme, hvor mange videnskabelige og andre databaser, man ville medtage i søgningen.
Det antages, at der i dag findes cirka 100.000 dybe websider, og deres vækstrate er endda større end væksten af det kendte overflade-net. Desuden er trafikken på disse dybe sider omkring 50 procent større, hvilket viser, at deres høje kvalitet og store informationsindhold er meget populær blandt brugerne.
Det mest overraskende resultat af undersøgelsen viser, at 97,4 procent af det dybe net er offentligt tilgængeligt uden restriktioner af nogen art. 1,6 procent er blandede med begrænset adgang, således at flere resultater betinges af gratis tilmelding og/eller betalt abonnement. Kun 1,1 procent er udelukkende baseret på betaling. Det er et overraskende fund, fordi mange af de synlige sites som Dialog, Lexis-Nexis og Wall Street Journal Interactive er abonnementsbegrænsede.

For yderligere information om det dybe net se:
-www.completeplanet.com/ Tutorials/DeepWeb/index.asp
-www.lexibot.com
-www.brightplanet.com

Følg disse emner på mail

Vores abonnenter kalder os kritisk, seriøs og troværdig.
Få ubegrænset adgang med et digitalt abonnement.
Prøv en måned gratis.

Prøv nu

Er du abonnent? Log ind her