Come farsi trovare sul Web di Giuseppe Sturiale, ingegnere, esperto di NLP, Natural Language Processing.

Come farsi trovare sul Web di Giuseppe Sturiale, ingegnere, esperto di NLP, Natural Language Processing.

Come farsi trovare sul Web di Giuseppe Sturiale, ingegnere, esperto di NLP, Natural Language Processing.

    L'arte di galleggiare nel mare del web consiste nel capire quali sono i criteri usati dai motori di ricerca per determinare il ranking e sfruttarle. Il ranking il punteggio assegnato ad ognuna delle pagine trovate e serve a stabilire il loro ordine di presentazione, in modo che le prime della lista siano le pi utili. Utili a chi legge e utili a chi scrive, ma anche a chi pubblica. I soggetti che devono mettere in piedi il win-win-win sono dunque tre, ma i criteri e gli scopi del calcolo del ranking sono molti. Ad essere meticolosi, alla fine di queste considerazioni si potrebbe creare una tabella con tre colonne (i tre soggetti) e diverse righe (le tecniche utili) e stabilire che cosa si deve fare secondo il proprio ruolo. Queste considerazioni sono dedicate a chi scrive e ambisce a farsi trovare e leggere dal numero pi alto possibile di lettori, ma sono utili anche quando si cerca. Chi indicizza e pubblica le conosce gi perch questo il suo mestiere e Google di fatto il sistema di riferimento che detiene oltre il 90% del marcato globale.

   Alle origini lo scopo del calcolo del ranking era la misura della pertinenza teorica di ogni pagina trovata rispetto allargomento della ricerca dell'utente, confrontata con quella di tante altre pagine. Con le pagine pi promettenti in testa alla lista di quelle trovate, la ricerca sarebbe stata veloce ed efficace. A cavallo fra gli anni 80 e 90 del secolo scorso lavoravo al miglioramento continuo del motore di ricerca Fulcrum, in un certo senso il pap di Google, un motore di indicizzazione e di ricerca per vaste collezioni di documenti usato allinterno di grandi organizzazioni pubbliche e private. Ecco un primo aspetto da non trascurare: per quanto cresca la velocit dei computer moderni, il numero di documenti cresce ancora di pi, quindi bene che il motore di ricerca possa usare indici creati dal suo gemello, il motore di indicizzazione, meno visibile ma importantissimo, che legge instancabilmente tutto il web e aggiorna gli indici.

   Allinizio dellera dei motori di indicizzazione e ricerca il soggetto era solo uno, il ricercatore delle informazioni, e chi raccoglieva e indicizzava i documenti lavorava per lui e aveva i suoi stessi obiettivi. Non cerano quindi conflitti da temperare. In questa situazione il ranking era ben calcolato se si teneva alto il richiamo (recall), cio la capacit del sistema di non perdere documenti rilevanti, e di ridurre il rumore (noise), cio il ritrovamento erroneo di documenti non pertinenti.

   Siccome il motore di indicizzazione non capisce quello che legge e non sa creare abstract automatici che migliorino lindicizzazione, il buon funzionamento del sistema legato alla sua capacit di isolare le parole del documento e di creare un dizionario delle parole trovate dotato di rimandi alle liste dei documenti che le contengono, in modo che il simmetrico motore di ricerca possa creare la lista di documenti rilavanti a fronte di un insieme di parole di interesse. Il primo concetto importante che risulta da questo scenario che chi cerca dovrebbe anche usare sinonimi alternativi, chi prepara i documenti per lindicizzazione dovrebbe creare un tesauro di sinonimi destinato ad aiutare il motore di ricerca ad arricchire automaticamente la richiesta, e chi scrive dovrebbe aiutare il motore di indicizzazione aggiungendo sezioni supplementari al documento con parole aggiuntive di soggettazione, che descrivano il documento e creino agganci potenziali per le future ricerche, anche se il suo testo non le contiene.

   Questi elementi sul funzionamento dellindicizzazione e della ricerca permettono di ricavare le prime regole importanti. Siccome anche il motore di ricerca non capisce quello che stiamo cercando ma si basa solo sulle parole, occorre aiutarlo, e dato che non sappiamo quanto buono il tesauro dei sinonimi scritto dagli esperti che pubblicano, occorre usare diversi sinonimi insieme alle parole chiave che stiamo usando per orientare la ricerca. La mancata comprensione di grammatica e sintassi rende inutile (e spesso dannoso) un costrutto grammaticale o sintattico: Vorrei sapere quali sono i diametri pi diffusi per i dischi, una richiesta che produrr molto rumore. Meglio scrivere disco diametro centimetri cm millimetri mm, che trover le pagine dei cataloghi che rispondono alla nostra domanda.

  Morale: Chi cerca deve rimediare a quello che stato trascurato da chi scrive (o indicizza) usando parole chiave alterative. Chi scrive gli articoli, se vuole essere trovato, deve prevedere gli errori e le dimenticanze di chi cerca, arricchendo il documento.

  Resta da discutere il metodo di generazione del ranking e come alzarlo se siamo quelli che scrivono e che vogliono essere trovati.

   Il criterio di base per un sistema di ricerca documentale interno ad una organizzazione (un solo soggetto, il ricercatore) era di generare il ranking, cio la rilevanza di un documento, sommando i numeri delle occorrenze presenti di ognuna delle parole cercate, moltiplicati per un indice di rarit della parola (misurato dal dizionario con la tavola delle occorrenze). Quindi a parit di parole presenti quelle che contribuiscono di pi al peso sono quelle pi rare.

   Quando si usa un motore commerciale come Google, ci si trova a far parte di un sistema dove si distinguono e si temperano gli interessi dei tre soggetti (autore, ricercatore e intermediario ovvero fornitore del servizio) e il motore di ricerca aggiunge ai criteri di un sistema scientifico usato all'interno di una organizzazione una serie di altri fattori che contribuiscono al ranking, legati al gradimento della pagina mostrato dagli utenti (di cui tenuta traccia) e alla reputazione acquisita dal sito che la ospita. Tutte queste considerazioni formano ormai una scienza chiamata SEO, cio Search Engine Optimization, che guida la redazione del contenuto e determina la scelta delle parole da usare nel testo o da aggiungere nella sezione del documento che non visibile se non al motore di indicizzazione. I video, per esempio, sono valutati da Youtube sulla percentuale realmente vista dagli utenti (minuti visti, cio momento dellinterruzione rispetto alla durata totale del video) e i suoi analytics forniscono in una curva solo discendente le statistiche del livello di attenzione ad ogni minuto e secondo del video. Dopo averlo selezionato, tutti iniziano a vederlo, ma nella sua durata molti vanno interrompendo la visione. Quando si va a cercare la causa di un brusco gradino discendente nel grafico a segnalare una forte caduta di interesse a un certo minuto e secondo, si va poi a controllare e si scopre che c un colpo di tosse o una affermazione un po troppo divisiva o altri problemi che hanno fatto cambiare canale allascoltatore. Per il momento ancora impossibile capire quando invece il gradimento sale e quindi poter avere una curva che va su e gi.

   Non si devono infine dimenticare le cruciali esigenze delleditore, che per offrire il servizio gratuitamente deve guadagnare non solo sulla pubblicit che accompagna le liste o i documenti trovati ma anche sullinteresse pagante dellautore (o del titolare del sito) a farsi leggere. Quindi un addendo che pu alzare in modo decisivo il ranking di un articolo, oltre al suo valore scientifico e alla reputazione del sito ospite, il livello di sostegno economico alla sua visibilit, cio il denaro pagato al publisher per alzare il ranking ancora di pi rispetto al valore gi raggiunto con la pertinenza sulla richiesta, il valore scientifico e la reputazione del sito ospite. Questo il motivo per cui i contenuti ad alta visibilit (cio i primi della lista o quelli che stanno ancora pi sopra della lista) in un motore di ricerca commerciale somigliano a quelli della televisione commerciale, cio sono prodotti che risultano da investimenti pi orientati al sostegno pubblicitario che alla qualit.

  Inoltre, ogni contenuto che si pubblica ha una impennata di letture dovuta al peso della novit (un'altra componete del ranking ricavata dalla data di pubblicazione, per cui una pagina nuova sale nel ranking rispetto a una vecchia). Altre impennate possono dipendere da motivi di attualit, che determinano un rinnovato interesse del pubblico per un certo argomento, ma questa componente pesa meno rispetto alla novit, quindi lesortazione quella a pubblicare continuamente, che poi il vecchio publish or perish del mondo accademico, un altro contesto dove si parla di ranking.

  L'impennata iniziale negli analytics resi disponibili dal service provider responsabile del sito indica il richiamo iniziale di lettori e poi il successivo stabilizzarsi ad un valore asintotico che indica il vero pubblico degli specialisti interessati ai contenuti pubblicati. Il service provider che offre lhosting del nostro dominio in realt un quarto soggetto che potrebbe avere servizi rilevanti da offrire o sulle politiche del quale poter fare leva, ma non un elemento chiave per le nostre riflessioni.

  Quindi occorrono eventi che suscitino altre impennate iniziali per poi guadagnare nuovi lettori, ma servono nuovi argomenti o un nuovo taglio o una revisione editoriale per cambiare il ranking di sito.

  Di tutti gli stratagemmi descritti, quello importante, che non costa niente e che offre eccellenti risultati consiste nel farsi carico di quello che un bravo indicizzatore farebbe allinterno di un sistema privato, cio scrivere un documento capace di farsi trovare, con un ricco abstract che contenga tutte le parole che potrebbero offrire agganci verso i lettori. Meglio usare molte parole specifiche e selettive (rare), anche solo una delle quali pu alzarci di molto il recall che poche generali e potenzialmente ambigue e quindi fonte di rumore.

  La scelta di queste keyword fondamentale. Fra i tanti sinonimi conviene opportunisticamente scegliere anche quelli pi alla moda e soprattutto, nello stile redazionale, tornare ad esprimere lo stesso concetto, o rifinirlo, usando altre parole che potrebbero "agganciare" altri lettori che usano il motore di ricerca. Questa davvero la regola numero uno. Lo stile nel condurre questa attivit in tutto parallelo al codice etico che ci si prefigge, indipendentemente dallaverlo esplicitato. Siti di prodotti commerciali non si fanno scrupoli nellapprofittare della non visibilit delle sezioni per le keyword inserendovi i nomi di prodotti e aziende concorrenti in modo da dirottare su di s i clienti di altri produttori. un modo per ottenere intenzionalmente il controllo del rumore, quando la pagina trovata ma lutente non capisce perch.

torna alla pagina precedente
torna su