Kako najti skrite strani na spletnih straneh

Leta 2016 je Google obdelal več kot 3,2 bilijona iskalnih poizvedb, vendar so rezultati, ki jih je ponudil iskalnik, predstavljali le del razpoložljive vsebine v spletu. Veliko informacij, ki so na voljo na spletu, ni dostopno iskalnikom, zato morate za iskanje teh skritih strani uporabiti posebna orodja ali sami raziskati spletna mesta. Te skrite informacije, znane kot globoki splet, predstavljajo do 5000-krat več kot so na voljo z običajnimi tehnikami iskanja.

Vrste skrite vsebine

Skrite strani spletnih strani spadajo v kategorije, ki opisujejo, zakaj ostajajo nevidne za iskalnike.

Nekateri predstavljajo dinamično vsebino, ki se prikaže le, ko obiskovalec na spletnem mestu izda posebno zahtevo, ki za ciljne rezultate uporablja kodo, ki temelji na zbirki podatkov. Kot primer bi lahko te strani vključevale rezultate nakupovanja na podlagi določenih kombinacij meril izdelkov. Iskalniki niso zasnovani za sledenje in shranjevanje informacij, shranjenih v teh zbirkah podatkov. Če želite poiskati te strani, morate obiskati spletno mesto in poiskati določene informacije, ki jih iščete, ali uporabiti storitev iskanja, usmerjeno v zbirko podatkov, kot je Bright Planet.

Nekatere strani nimajo povezav, ki jih povezujejo z viri, ki jih je mogoče iskati. V to kategorijo lahko spadajo začasni viri, na primer več različic nerazvitih spletnih mest, prav tako pa tudi slabo zasnovana spletna mesta. Če bi na primer nekdo ustvaril spletno stran in jo naložil na strežnik spletnega mesta, vendar na trenutnih straneh spletnega mesta ni dodal povezave do nje, nihče ne bi vedel, da je tam, vključno z iskalniki.

Še več strani zahteva prijavne poverilnice za ogled ali dostop do njih, kot so spletna mesta za naročanje. Spletni oblikovalci strani in odseke spletnih mest označujejo kot omejene za iskalnike, s čimer učinkovito odpravijo njihovo iskanje po običajnih sredstvih. Za dostop do teh strani morate običajno ustvariti račun, preden boste dobili dovoljenje za dostop do njih.

Uporaba datotek Robots.txt

Iskalniki plazijo po straneh spletnega mesta in indeksirajo njegovo vsebino, da se lahko prikaže kot odgovor na poizvedbe. Ko želi lastnik spletnega mesta iz teh postopkov indeksiranja izključiti nekatere dele svoje domene, doda naslove teh imenikov ali strani v posebno besedilno datoteko z imenom robots.txt, shranjeno v korenu svojega spletnega mesta. Ker večina spletnih mest vsebuje datoteko z roboti, ne glede na to, ali ji dodajo kakršne koli izključitve, lahko za prikaz njene vsebine uporabite predvidljivo ime dokumenta.

Če v lokacijsko vrstico brskalnika vnesete "[ime domene] /robots.txt" brez narekovajev, pri čemer "[ime domene]" nadomestite z naslovom spletnega mesta, se vsebina datoteke robotov pogosto prikaže v oknu brskalnika po pritisnete tipko "Enter". Vnosi, ki so pred "prepovedati" ali "ne sledi", predstavljajo dele spletnega mesta, ki ostanejo nedostopni prek iskalnika.

Skrbi za spletno stran naredi sam

Poleg datotek robot.txt lahko pogosto najdete tudi skrito vsebino, tako da v spletni brskalnik vnesete spletne naslove za določene strani in mape. Če ste na primer obiskali spletno mesto izvajalca in opazili, da vsaka stran uporablja enak dogovor o poimenovanju - na primer gallery1.html, gallery2.html, gallery4.html -, boste morda lahko našli skrito galerijo, tako da vtipkate stran " gallery3.html. " v vašem spletnem brskalniku.

Če vidite, da spletno mesto uporablja mape za organiziranje strani - na primer example.com/content/page1.html, pri čemer je mapa »/ content«, si boste morda lahko ogledali samo mapo, tako da vnesete spletno mesto in mapo , brez strani, na primer "example.com/content/" v vašem spletnem brskalniku. Če dostop do mape ni onemogočen, boste morda lahko krmarili po straneh, ki jih vsebuje, in straneh v vseh podmapah, da najdete skrito vsebino.