Normat 3/2003 D. Laksov 121
skriver inn ett, eller flere, ord vi vil søke på, leter søkemaskinen i ordlisten til den
finner alle ordene, og den vet da også hvilke nettsider ordene forekommer på. Med
de hurtigste søkemaskinene tar det mindre enn et sekund å finne ordkombinasjoner
med 5–6 ord.
Det tar selvsagt lang tid å sette opp en ordliste over ordene som forekommer
i en database med milliarder av dokumenter, men det er mindre krevende e nn å
finne og laste ned dokumentene i databasen.
3. Rangordning. Den tredje ingrediensen består i å rangordne nettsidene etter hvor
viktige de er. Hver gang vi søker på et, eller flere, ord, finnes ordet, eller ordene,
oftest på tusentalls nettsider. For at et søk skal være meningsfull er de t derfor helt
avgj ørende at de nettsidene som kommer først opp på skjermen er de som har
størst betydning for den som søker. Prøver vi for eksempel å finn e opplysninger om
Edvard Grieg vil vi ikke gjerne komme til tusenvis av nettsider som handler om
noe h elt annet, og der Grieg bare er nevnt i forbifarten. Vi vil komme direkte til de
store sentrale arkivene som inneholder viktig informasjon om Grieg og hans verk.
Det er lett å forstå at det er en vanskelig oppgave å rangordne alle nettsidene
på nettet. At en nettside er «viktigere» enn en annen virker å bero på en subjektiv
vurdering. Men subjektive bedømmelser av milliarder av nettsider, mange av dem
med store mengder dokumenter, er selvsagt umulig. Dessuten er nettsidene veldig
ulike. De spenner fra personlige n ettsider som innholder noen få linjer tekst til
store databaser med millioner av dokumenter. For å rangordne sidene må vi derfor
prøve å finne objektive kriterier for hva som er «viktig», og som bare avhenger
av den formelle strukturen av dokumentene, og ikke beror på deres innhold. Det
finnes en rekke forslag på hvordan man skal rangordne nettsider etter «viktighet»,
og leseren kan selv tenke gjennom hvilke løsninger som kan være interessante. Skal
man bruke antallet ganger et ord forekommer på en nettside, eller kanskje antallet
henvisninger til andre sider, eller kanskje antallet dokumenter på nettsiden? Den
store forskjellen mellom de ulike søkemaskinene ligger nettopp i hvordan de løser
denne oppgaven. De som klarer det best blir mes t benyttet kommersielt og får
derfor best råd til å kjøpe inn flere datamaskiner og mer minne, og dermed bli
markedsledende. I dag har de største søkemaskinene titusentalls datamaskiner som
arbeider parallellt med å søke og lagre d ata.
De fleste søkemaskinene bruker mange ulike kriterier for å rangordne nettsider,
som ordfrekvens, plassering av ordene i dokumentene, og avstanden mellom ord. Vi
skal i resten av denne artikkelen forklare en metode for å rangordne nettsider, eller
i det hele tatt store datamengder, som bare avhenger av lenkene på nettsidene.
Metoden kalles PageRank og ble foreslått av Sergey Brin og Larry Page [1] for
omkring 5 år siden, da de var studenter ved Stanford Un iversity. PageRank er
hjertet i den fenomenale søkemotoren google og bygger på enkle og fundamentale
matematiske idéer og resultater.
1.3 «Viktighet»/relevans. Vi har brukt adjektivet viktig om nettsider for en egen-
skap som brukes til å rangordne nettsidene. Ordet viktig er sterkt følelseladet.
Derfor vil vi påpeke at ordet i denne forbindelsen betyr at informasjonen på nett-
siden har stor betydning for det spesielle søket vi gjør, og ikke er noe forsøk til
en subjektiv e ller objektiv bedømning av nettsiden. Når vi sier at «en nettside er
viktig» betyr det at «nettsiden har stor relevans, eller betydning, for den aktuelle
søkningen».
laksov.tex,v 1.6