SAP Global
SAP MAG 9, velja�a 2004.
Kontaktirajte SAP online ili
nazovite +(01)-4820-400
 
     
 

naslovnica | pošalji članak | ispis

Hrvatski web prostor nezadrživo raste

Prema najnovijem mjerenju Srca, hrvatski površinski web trenutno zauzima oko 548 GB podataka dok bi dubinski mogao iznositi 400 do 550 puta više. U 18 mjeseci naš je web prostor porastao za 41 posto

Piše: Robert Gelo


MWP ekipa: Penezić, Milinović,
Stipetić i Topolšćak (slijeva)
Srce, Sveučilišni računski centar, početkom veljače objavio je rezultate najnovijeg mjerenja hrvatskog web prostora, nazvanog MWP3. Globalni je web prostor vrlo teško izmjeriti, a autori ovog istraživanja pokušali su odrediti veličinu svih datoteka odnosno sadržaja dostupnog HTTP i HTTPS protokolom, a koji se nalazi pod hrvatskom vršnom internetskom domenom. S obzirom da je ovo bilo već treće mjerenje (drugo je istraživanje bilo kontrolno, za potrebe trećeg istraživanja), zanimljivo je usporediti rezultate prvog mjerenja iz ljeta 2002. godine s najnovijim, tek objavljenim podacima.

Tekst i dalje prevladava

Najnovije istraživanje MWP3 provedeno je u razdoblju od 8. rujna do 25. studenog 2003., dok je MWP2 (kontrolno mjerenje) proveden između 14. svibnja i 22. srpnja. Mjereni su veličina web resursa, korišteni formati zapisa prema MIME standardu te obim i sadržaj metapodataka. Dohvaćani su isključivo HTTP i HTTPS resursi na web poslužiteljima koji pripadaju .hr vršnoj domeni.

Najvažniji, ili barem najatraktivniji rezultat jest da je hrvatski web u posljednjih godinu i pol doživio kvalitativno povećanje od 41 posto. Kako je na tiskovnoj konferenciji povodom objavljivanja rezultata ustvrdio voditelj projekta mr.sc. Miroslav Milinović, ovo je vjerodostojan podatak iza kojega Srce stoji.

Dok je za prvog mjerenja hrvatskih web prostor procijenjen na 389 GB podataka, najnoviji podaci kazuju da vidljive internetske stranice s hr domenom trenutno zauzimaju oko 548 GB podataka.

Nedostatna obrana od robota

Srce pri mjerenju hrvatskog web prostora koristi takozvane robote odnosno softver za "skeniranje" stranica. To je ujedno zadalo nepotrebne probleme jer je bilo slučajeva da su roboti pregledavali stranice koje su trebale biti, a nisu bile zaštićene robot exclusion protocolom (REP). Naime ukoliko se na web stranicu ne postavi ovakva zaštita roboti, koje inače koriste i internetske tražilice, mogu neometano "rudariti" podatke koji se na njima nalaze.

Milinović je potvrdio da su njihovi roboti uznemirili određene vlasnike .hr stranica poslovnog sektora koji su se žalili, no postupak je potpuno u skladu s općim pravilima. Primjerice uopće nije skeniran dubinski web odnosno dinamički resursi koji se sami generiraju kao i podaci zaštićeni zaporkama i ostalim oblicima osiguranja.

Istraživanjem je ustanovljeno da robot exclusion protocol trenutno koristi manje od četvrtine web poslužitelja.

Najpopularnija programska podrška za web poslužitelje jesu inačice Apache Web poslužitelja dok se Microsoftov Internet Information Server koristi u tridesetak posto slučajeva. Gotovo 60 posto internetskih resursa pod .hr domenama, ako se gleda na njihov broj, otpada na HTML (s prosječnom veličinom nešto većom od 20 kb) koji, kada se gleda po obimu, zauzima oko 32 posto prostora. Na slikovne formate otpada nešto manje od 30 posto resursa po broju odnosno tek 10 posto po velilčini.

Vrh ledene sante

Pritom je bitno razlikovati "vidljivi" i "nevidljivi" web prostor. Kako je opisao Milinović, istraživanje Srca obuhvatilo je tek "vrh ledene sante" javne web stranice (surface web) koje su dostupne svima, dok takozvani deep web resursi koji obuhvaćaju resurse zaštićene REP-om, resurse koji se dinamički generiraju ili im se adresa dinamički generira kao i sve sadržaje zaštićene zaporkama, nisu "skenirani" iz tehničkih ali i iz etičkih razloga. Pritom je važno napomenuti veliki nerazmjer između površinskih i dubinskih web stranica; neke procjene ukazuju na činjenicu da je deep web između 400 i 550 puta veći od vidljivog weba.

U tom slučaju stvarni hrvatski web prostor mogao bi biti velik više od 300 terabajta.

Kada se govori o deep webu pod tim se pojmom između ostalog podrazumijevaju sadržaji odnosno resursi koji su iz bilo kojeg razloga skriveni pred neovlaštenim korisnicima. To primjerice mogu biti baze podataka ili osjetljivi podaci poput bankovnih računa. Zbog svega toga se mjerenja veličine weba mogu svesti samo na procjenjivanje stvarne veličine resursa na Internetu, no točne podatke nemoguće je dobiti zbog stalnih promjena.


Udio formata u ukupnom
broju web resursa pod
hrvatskom vršnom domenom
 

Opća slika hrvatskog (vidljivog) web prostora nije se bitno promijenila u posljednjih osamnaest mjeseci. I dalje veličinom i brojem prevladavaju tekstualni resursi dok grafički i ostali multimedijalni sadržaji zauzimaju tek manji dio resursa.

Ipak, brojčani udio slikovnih (image) formata povećao se u odnosu na prvo istraživanje s 22,98 na 29,4 posto, dok je udio tekstualnih resursa smanjen s 69,81 posto na 65,57 posto. Smanjen je i udio aplikacija sa 6,66 posto na 4,79 posto. Ako se gleda prema ukupnoj veličini resursa udio tekstualnog sadržaja je porastao s 24,52 posto na 45,87 posto, a slikovni su resursi porasli s 5,93 posto na 10,15 posto. Udio aplikacija u veličini resursa doživio je dramatičnu promjenu: pao je s 62,47 posto na 36,32 posto.

Zanimljiv je porast broja domena: u prvo istraživanje obuhvatilo je 9315 hr domena, dok je najnovije istraživanje obavljeno pri 15.305 domena. Porast broja hr domena u posljednjih godinu i pol iznosi 164,3 posto.

Pored toga, MWP3 je registrirao 10.884 web poslužitelja koji udomljavaju web stranice pod .hr vršnom domenom. Novo istraživanje registriralo je ukupno 6.006.105 resursa odnosno podataka u standardnim internetskim formatima.

Info: http://www.srce.hr/mwp

© grafike: Srce

 

 
 

Copyright/Trademark  |  Privacy  |  Impressum