Pastaba: šis tekstas rašyti 1997 m. vasarą ir publikuotas "InfoBalt laike". Dirbtiniai Voratinklio vorai Ar niekad, aplankę paieškos sistemą, pvz. Altavistą, nesistebėjote, kaip ir iš kur ji gavo tą milžinišką informaciją apie visame plačiame pasaulyje esančius WWW puslapius? Po Voratinklį naršo ir WWW puslapius, tarsi museles, lanko, juos indeksuoja (išskiria ir įsimena kiekvieną arba beveik kiekvieną žodį) specialios programos, vadinamos robotais. Įprasta, kad robotai pradeda nuo kurio nors WWW knygos puslapio (geriausia, kai nuo pagrindinio) ir po to nuosekliai ir rekursyviai peržiūri visas jo nuorodas. Tai netikri robotai - jie patys neslenka Voratinklio gijomis. Tai kažkuriame viename Tinklo kompiuteryje veikianti programa, kuri pagal "aukštesniosios valios", t.y. programuotojo, sukurtą algoritmą pas save atsisiunčia WWW puslapius, juos analizuoja, ieškodamas svarbios informacijos, ir gautus rezultatus rašo į duomenų bazes. O iš kur jie sužino, kad kažkur pasaulyje atsirado naujas puslapis, į kurį irgi reikia "užmesti akį"? Gal į jį egzistuoja nuoroda iš anksčiau aplankytų puslapių? WWW puslapių adresų ieškoma "Usenet" diskusijų klubuose, el.pašto susirašinėjimų archyvuose. WWW puslapių autoriai taip pat gali nusiųsti savo puslapių adresus kai kuriems robotams. Robotai atlieka reikalingą juodą darbą, tačiau jie sukelia ir nemalonių šalutinių efektų. Savo užklausomis jie "apsunkina" WWW stočių darbą - ypač kenčia WWW stotys, turinčios nemaža populiarių WWW knygų. Pavyzdžiui, tuo metu, kai "Vartiklį" aplanko koks nors agresyvus robotas, "Vartiklio" skaitytojai gali pajusti, kad vidutinis puslapių atsiuntimo greitis sulėtėjo net du kartus. Antra, WWW stotyse gali būti tokių WWW puslapių, apie kurių turinį nereikia pranešti visam margam svietui. Pvz., jei jie skirti tik pabandymui, tebekuriami, trumpalaikiai arba, nors ir nėra tokie asmeniniai (ar tarnybiniai), kad reiktų juos slėpti, bet ir ne tokie, kad reiktų juos iškabinti viešai apžiūrai, kaip apatinius baltinius (pvz., siauro ratelio susitikimų tvarkaraštis). Jei yra reikmė, yra ir galimybė ją patenkinti. Kai ką galima paslėpti ir nuo robotų. Nors ne visi iš jų paiso visuotinių susitarimų, kuriuos dar 1994-ais pasiūlė M.Kostneris. Tereikia sukurti paprastą tekstinį robots.txt failą. Labai naudinga, kad jis visada būtų, net ir tuščias - taip sumažinamas atsakymų apie klaidą, neįvykdžius užklausos, kiekį. Labai naudingas gali būti ir toks robots.txt failo turinys: User-agent: * Disallow: / Pirmoje eilutėje žvaigždutė reiškia, kad faile esančios taisyklės yra taikomos
visiems robotams (veiksnių robotų vardų sąrašą)
o antroji - uždraudžia peržiūrėti visą WWW knygą.
Jei reikia uždrausti tik kai kuriuos WWW knygos katalogus ar konkrečius puslapius,
jie turi būti išvardijami atskirose eilutėse su "Disallow:" direktyva, pvz., User-agent: helpbot Disallow: User-agent: * Disallow: /privatus # mano asmeniniai reikalai Disallow: /mano/meiluziai.html Šiame pavyzdėlyje "helpbot" robotui leista peržiūrėti viską, o kitiems uždrausta žiūrėti į nurodytą katalogą ir konkretų WWW puslapį. Diezas ('#') nurodo, kad eilutės pabaiga yra komentaras. Tačiau vienas "bet". Šis robots.txt failas turi būti pagrindiniame WWW stoties kataloge. O ar leis administratorius jums, paprastam vartotojui, keisti svarbią informaciją? Tad kaip tvarkytis savo vidinių WWW knygų viduje? Vienintelė išeitis - META direktyvos jūsų WWW puslapių antraštėse (antraštė - tai tekstas <HEAD> ... </HEAD> viduje)! Darbui su robotais yra skirta metadirektyva NAME="ROBOTS". Joje galima nurodyti CONTENT parametrą, kuris gali įgyti NOINDEX ir (arba) NOFOLLOW reikšmes. NOINDEX nurodo robotui, kad nereikia įsiminti informacijos apie šį puslapį; NOFOLLOW - kad nereikia ieškoti ir analizuoti jame esančių nuorodų į kitus puslapius. Galima nurodyti abi šias ar tik vieną kurią šių reikšmių, pvz., <HEAD> <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> </HEAD> Žinoma, šios galimybės nepakankamos slaptos informacijos paslėpimui - tam skirti specialūs ir brangūs programinės įrangos paketai. Tačiau jos gali patikslinti "asmeniškumo" laipsnį ir sumažinti nereikalingų kreipinių į WWW serverį kiekį. |