Tag Cloud

TrustRank: la nuova indicizzazione

3 marzo 2006

ATTENZIONE: Questo articolo è stato scritto circa 2 anni fa. Alcuni links e argomenti trattati potrebbero non essere più validi.

IL PAGE RANK INVECCHIA: LUNGA VITA AL TRUSTRANK!

Il 16 marzo 2005 Google Inc. ha acquistato il brevetto pr la tecnologia TrustRank, ma prima di spiegarne la definizione ed il funzionamento, è necessario fare qualche precisazione.

Si parla di web-spam quando ci si riferisce a diverse tecniche utilizzate da siti di varia natura che integrano parole chiave non attinenti al loro proprio contenuto, pur di poter essere visualizzati ai primi posti sui motori di ricerca.
Il modus operandi del web-spam agisce essenzialmente attraverso due vie:
1) link e parole chiave nascoste, che vengono comunque indicizzate dai motori di ricerca;
2) creazione di numerose pagine che linkano ad un’unica pagina designata in precedenza, in modo da rendere suddetta pagina rilevante per la classificazione da parte del motore.

L’identificazione di tali “truffe” ad occhio umano sarebbe estremamente facile, ma praticamente impossibile e troppo onerosa; inoltre il gran numero di siti indicizzati richiede comunque una gestione automatizzata e pertanto più sicura.
Per un sistema automatico, al contrario, riconoscere l’inganno risulta più complesso, pertanto si è cercato di arrivare ad una classificazione semi-automatica, che è poi alle basi della citata tecnica del TrustRank: esso infatti ha lo scopo di aiutare nella classificazione di una pagina o sito web, attraverso un processo che prevede diverse fasi:
1) l’algoritmo seleziona un gruppo di pagine delle quali non è chiaro lo “spam status”, chiamate seed;
2) un esperto umano esamina le pagine e comunica all’algoritmo quali possono essere definite spam (bad pages) e quali no (good pages);
3) l’algoritmo infine identifica le altre pagine sulle basi della precedente classificazione umana.

Facciamo un piccolo passo indietro: ricordiamo che il PageRank è un diffuso algoritmo, sul quale si è fondata per anni (e si basa tuttora) l’indicizzazione di Google, che assegna un punteggio ad ogni pagina Web, basandosi sul numero di link che riportano ad essa. Il fondamento è che, se molte pagine linkano tutte ad uno stesso indirizzo, esso DEVE essere ovviamente importante; quest’attività può essere considerata una versione più raffinata e complessa della “Link Popularity” (LP).
Il PageRank di un sito aumenta poi in relazione alla qualità delle pagine web che linkano il sito, dove per “pagine web di qualità” si intendono quelle che a loro volta hanno un alto PageRank.
Come abbiamo detto, in questa tecnologia è insita una tendenza al non-riconoscimento di possibile web-spam, dunque, per aumentare la capacità del motore di indicizzare correttamente le pagine, si ricorre ad una valutazione da parte di un esperto umano, chiamato Oracolo. Dal suo lavoro si ricava un nuovo algoritmo che assegna un valore binario pari a 0 se la pagina contiene spam (bad page), oppure pari a 1 se di buona qualità (good page).
Per limitare i costosi interventi di un Oracolo, spesso si considera anche l’esperienza empirica degli utenti, basandosi sull’assunto che una buona pagina difficilmente linka ad una spam-page (un sito di qualità non ha alcun interesse ad essere collegato con pagine cattive).
Questa convinzione ha prodotto un’evoluzione delle tecniche di spamming che ora adottano sistemi che collegano siti di qualità a pagine che a prima vista sembrano buone, ma in realtà contenengnono spam, in svariati modi:
1) nei siti che offrono la possibilità di lasciare commenti (forum, newsgroup) introducono un gran numero di link verso pagine di spam (problema risolvibile con la moderazione dei commenti o con la futura introduzione del tag link rel=”nofollow”);
2) creano vere e proprie pagine con contenuti interssanti, ma che sono piene di link nascosti verso siti equivoci (tecnica dell’Honey Pot, che viene anche resa meno evidente attraverso altrettanti links a pagine buone);
3) creano delle directory basate sui risultati dei principali motori di ricerca, che utilizzano motori chiamati spam-engine, per piazzarsi ai primi posti nelle ricerche.

Con la crescita smisurata delle fonti e dei siti sul web, i motori giocano un ruolo fondamentale per la ricerca, ma soprattutto per l’effettivo successo nell’ottenimento di informazioni. Dal momento che il web-spam demolisce questa capacità di successo nella ricerca di informazioni utili, i motori di ricerca devono necessariamente subire un’evoluzione.
Il sistema TrustRank, anche in combinazione al PageRank o altri algoritmi, sembra essere attualmente la tecnica più adatta a contribuire a questo cambiamento auspicato.

I commenti sono disabilitati.