Pažink išskirdamas

Pastaba: kartu su šiuo teksčiuku pateikiamas ir straipsnis apie tai, kaip Voratinklyje vyksta informacija paieška.

"Kas nori perlų, tas turi nerti gilyn".
Džonis Draidenas

Galima teigti, kad paieška Internete yra didžiausia Voratinklio veikla. Šešios populiariausios paieškos sistemos beveik niekada nepalieka 20-ies populiariausių svetainių sąrašo (jame nuolat pirmaujant Yahoo!, tarp kitko, suteikiantis ir nemokamus el.pašto adresus). Tačiau norint efektyviai surasti reikiamą informaciją, reikia žinoti jų silpnas bei stiprias puses ir jų skirtumus. Pirmiausia į akis krenta struktūros skirtumai:

  1. registruojančios svetainės - tai vieta, kur jūs galite nurodyti savo WWW svetainės adresą pateikiant jos aprašą bei raktinius žodžius ir priskiriant kuriai nors iš kategorijų. Geriausias tokio tipo paieškos sistemos pavyzdys yra Yahoo!, kurios darbuotojai "rankomis" paskirsto WWW svetaines pagal galimybes jas peržiūrėdami. Įtraukiamos ne visos pasiūlytos svetainės, o atrankos kriterijai yra labai subjektyvūs - tai jų pastangos "būti geriausiais tarp geriausiųjų". Tokio požiūrio privalumas - labai aiški ir patogi naudotis hierarchinė kategorijų sistema, kai WWW svetainės tiksliai sudėliotos į savo kerteles, o trūkumas - kad labai daug svetainių dingsta iš akiračio.
  2. naršančios svetainės, pašalinančios anksčiau minėtos grupės trūkumą. Jos naudojasi vorais, robotais ir kirminais, o tokios svetainės geriausias pavyzdys yra redaktoriaus pamėgta Altavista (mano manymu ji padengia didžiausią Voratinklio dalį, o įgudus naudoti galima "pataikyti į dešimtuką" - apie tai yra atskiras straipsnelis). Altavistai laikas nuo laiko galima pakartotinai nurodyti savo svetainės adresą - nelaukiant, kol ji "planingai" (tai gali trukti net kelis mėnesius) ateis pakartotinai patikrinti jūsų puslapių ("Add URL" nuoroda). Užregistravus savo svetainę, Altavista ją suindeksuoja per dvi dienas.

    Agentus naudojančių paieškos sistemų "bėda", kad jos į kiekvieną užklausą kartais grąžina tūkstančių WWW puslapių sąrašus su netiksliai paskaičiuotais tų puslapių "svoriais" - įvertinimais, kaip tiksliai tie WWW puslapiai tenkina užklausą. Tuo labiau, kad tą svorį galima NUSIPIRKTI (ir nepigiai) - nereikia būti naiviems…

Dėl aštrios konkurencinės kovos daugelis paieškos sistemų (Infoseek bei Excite ar Lycos) tapo hibridais, derinančiais naršymą su grupavimu į kategorijas (nusižiūrėjus į Yahoo!). Tačiau bet kuriuo atveju jos į Voratinklio chaosą (nepaisant, kad jame yra ir puikių "teminių" rinkinių, pvz., W3C) įnešė tvarkos elementų.

Tačiau yra dar viena paieškos sistemų grupė, kuri pati nieko nedaro, o tik naudojasi kitų paieškos sistemų pateiktais rezultatais juos rūšiuoja, analizuoja ir pateikia - tai METAieškikliai (skaitykite "Iškart keliese"). Pirmoji tokio pobūdžio sistema buvo "MetaCrawler" (nors redaktorius labiau mėgsta Dogpile - http://www.dogpile.com - jau neveiksni).

Pataikyk į dešimtuką

Pastaba: "Cat and dog life - šeimos nesklandumai, pjaunamasi kaip šuo su kate" (iš žodyno).

Leidiniuose (popieriuje ir Voratinklyje) pasirodė nemažai straipsniukų apie įvairius paieškos sistemų aspektus. Nemažai jų po to buvo surinkta į vieną vietą "Vartiklyje"). Tarp autoriaus mėgstamiausių, visad buvo "Altavista", nes ji yra ir geriausia, ir blogiausia - ir viskas dėl jos indeksų bazės dydžio ir paieškos greičio. Ir net įsiminusi bei išanalizavusi per 100 mln. WWW puslapių, "Altavista" kasdien dar peržiūri po 10 mln. Voratinklio puslapių. Ir todėl dažnai nuleidžiate rankas, kai, pasiuntę paieškos užklausą, perskaitote, kad "Užklausą tenkina 259324 WWW puslapiai". Ar yra išeitis?

Be abejo! Reikia klausti labai tiksliai. Jau esu rašęs, kad ieškotino teksto fragmentą galima imti į kabutes, pvz., "cat and dog" užklausa ras 3109 puslapius, o jeigu surinktume be kabučių
cat dog

tai "Altavista" mums pateiktų, be tų, kuriuose yra abu šie žodžiai, ir tuos puslapius, kuriuose yra vien tik žodis "cat" bei tuos, kuriuose yra vien tik "dog" - per 3,5 mln. puslapių bendras sąrašas. Per kiek laiko jį galima peržiūrėti? Tada naudokime pliusiukus, kuriuos reikia dėti prieš tuos žodžius ar frazes, kurie PRIVALO būti kiekviename užklausą tenkinančiame puslapyje. Pabandom:
+life +"cat and dog"

"Altavista" atsakys, kad yra 1379 tokie puslapiai. Dažnai būna, kad mes žinome, kad ieškomame puslapyje neturėtų būti kokio nors žodžio. Pašalindami tokius puslapius rezultatų aibę gerokai susiaurintume. Ir tai atlikti labai paprasta - prieš žodį (ar frazę) tereikia padėti minusiuką, kurs nurodo, kad nereikia pateikti tų puslapių, į kuriuos įeina šis žodis. Pabandom:
+"cat and dog" -whiskas -life -pet -pets -child -children

Puslapių, kuriuose yra ir "cat" ir "dog", bet nėra žodžio "whiskas" (aš nesidomiu šių gyvūnų maistu ir nenoriu, kad jie būtų žaisliukai vaikams) yra mažiau 1000 (pateikus vien tik "+cat +dog", "Altavista" praneštų, kad yra 304 tūkst. tokių puslapių). O užbaigdamas šią "šuns ir katės" temą, priminsiu tokią anglišką patarlę: "It rains cats and dogs" - pila kaip iš kibiro.

Tolimesni paieškos patikslinimai susiję su puslapių adresų aibės nurodymu. Jei noriu rasti žinių apie teatro festivalį LIFE, nėra prasmės šio žodžio po visą platų Voratinklį - apsiribokim Lietuva (o antrąkart peržiūrėkim vien tik "Omnitel"):
+life +domain:lt
+life +host:omnitel.net

Tvarkingi WWW svetainių šeimininkai savo WWW puslapiuose neužmiršta antraščių. Tikint, kad visi jose pateikia tikslią informaciją, užklausoje galima naudoti "title" priešdėlį, pvz., paprašant surasti viso Voratinklio puslapius, kurių antraštėje yra žodis "life":
+title:life

Jei reikia ieškoti piešinių, nebūtina "kreipti ienas" link "Lycos". Tereikia užklausoje panaudoti priešdėlį "image". Štai pora pavyzdžių:
image:aurora.gif
+image:comet* +host:nasa.gov

Kartais vieną ar kitą smalsiuką sudomina, kiek yra nuorodų į jo (ar kokį kitą puslapį), - tada reikia naudoti "link" priešdėlį, o priešdėlis "url" naudojamas, kai reikia surasti kokį nors nuorodos į kitą "Internet" adresą elementą, pvz.,
link:elnet.lt
url:vartiklis

Derindami šiame straipsnelyje aprašytas galimybes, galite sukurti sudėtingą užklausą ir pataikyti tiksliai į "dešimtuką" - galite laikyti sėkme, jei "Altavista" pateiks mažiau nei 32 puslapių sąrašą. Tiek jau galite patikrinti neprarasdami dienos, knisdamiesi nuorodų šūsnyje "nuo ryto iki vakaro".

Straipsnis "Pataikyk į dešimtuką" pirmiausia (1997-ais) buvo atspausdintas "Naujojoje komunikacijoje"

Iškart keliese

Ne visi nardantys Voratinklyje atskiria tikrą paieškos sistemą nuo meta-ieškiklio, kuris ne pats vykdo užklausą, o ją vienu metu perdavęs kitoms kelioms paieškos sistemoms grąžina bendrą rezultatą. Jų pagrindinis privalumas, kad jie ne aklai į vieną šūsnį sudeda visus gautus rezultatus, o juos analizuoja atrinkdami tinkamiausius. Pavyzdžiui, kuo daugiau paieškos sistemų grąžina to paties puslapio adresą, tuo jis svarbesnis meta-ieškikliui. Atsižvelgiama ir į skirtingų paieškos sistemų privalumus, pvz., į priekį iškeliami tie puslapiai, kurių antraštės ("title") tenkina užklausą.

Savaime norisi paklausti: o kodėl tikrosios paieškos sistemos leidžia naudotis jų technologijų pasiekimais? Atsakymo reikia paieškoti istorijos savašynuose. Pirmieji meta-ieškikliai buvo sukurti universitetuose ir, kadangi jie tiesiogiai nekunkuravo rinkoje, paieškos sistemos paslaugiai atvėrė jiems "duris", kad skatintų jų naudojimą mokymo sistemoje (o kartu ir kad galėtų veltui pasireklamuoti). Tačiau Voratinklis augo, ir lėti, nekomerciniai ir mažai žinomi tinklo mazgai išsiplėtė ir virto pelningo verslo konkurentais. Atsakydamos į pasikeitusią situaciją, kai kurios paieškos sistemos įvedė licencijas ir kitokias jų panaudojimo taisykles.

Norite juos išbandyti? Tada užsukite į mano mėgiamą "Dogpile" arba "Starting Point", kuris, beja, yra panaudojamas ir "Vartiklyje".

Visi praeitų metų straipsniai apie paieškos sistemas
Apie "Internet" robotus
Pagrindinis Vartiklio puslapis