osservazioni medico oculistiche - Come farsi trovare sul Web di Giuseppe Sturiale, ingegnere esperto di NLP Natural Language Processing

L'angolo della lettura

08/04/2024 - Come farsi trovare sul Web di Giuseppe Sturiale, ingegnere esperto di NLP Natural Language Processing


Come farsi trovare sul Web

di Giuseppe Sturiale

Ingegnere, esperto di NLP, Natural Language Processing, e su tematiche di ingegneria cognitiva.

   L'arte di galleggiare nel mare del web consiste nel capire quali sono i criteri usati dai motori di ricerca per determinare il ranking e sfruttarle. Il ranking è il punteggio assegnato ad ognuna delle pagine trovate e serve a stabilire il loro ordine di presentazione, in modo che le prime della lista siano le più utili. Utili a chi legge e utili a chi scrive, ma anche a chi pubblica. I soggetti che devono mettere in piedi il win-win-win sono dunque tre, ma i criteri e gli scopi del calcolo del ranking sono molti. Ad essere meticolosi, alla fine di queste considerazioni si potrebbe creare una tabella con tre colonne (i tre soggetti) e diverse righe (le tecniche utili) e stabilire che cosa si deve fare secondo il proprio ruolo. Queste considerazioni sono dedicate a chi scrive e ambisce a farsi trovare e leggere dal numero più alto possibile di lettori, ma sono utili anche quando si cerca. Chi indicizza e pubblica le conosce già perché questo è il suo mestiere e Google è di fatto il sistema di riferimento che detiene oltre il 90% del marcato globale.

   Alle origini lo scopo del calcolo del ranking era la misura della pertinenza teorica di ogni pagina trovata rispetto all’argomento della ricerca dell'utente, confrontata con quella di tante altre pagine. Con le pagine più promettenti in testa alla lista di quelle trovate, la ricerca sarebbe stata veloce ed efficace. A cavallo fra gli anni ’80 e ’90 del secolo scorso lavoravo al miglioramento continuo del motore di ricerca Fulcrum, in un certo senso il papà di Google, un motore di indicizzazione e di ricerca per vaste collezioni di documenti usato all’interno di grandi organizzazioni pubbliche e private. Ecco un primo aspetto da non trascurare: per quanto cresca la velocità dei computer moderni, il numero di documenti cresce ancora di più, quindi è bene che il motore di ricerca possa usare indici creati dal suo gemello, il motore di indicizzazione, meno visibile ma importantissimo, che legge instancabilmente tutto il web e aggiorna gli indici.

   All’inizio dell’era dei motori di indicizzazione e ricerca il soggetto era solo uno, il ricercatore delle informazioni, e chi raccoglieva e indicizzava i documenti lavorava per lui e aveva i suoi stessi obiettivi. Non c’erano quindi conflitti da temperare. In questa situazione il ranking era ben calcolato se si teneva alto il richiamo (recall), cioè la capacità del sistema di non perdere documenti rilevanti, e di ridurre il rumore (noise), cioè il ritrovamento erroneo di documenti non pertinenti.

   Siccome il motore di indicizzazione non capisce quello che legge e non sa creare abstract automatici che migliorino l’indicizzazione, il buon funzionamento del sistema è legato alla sua capacità di isolare le parole del documento e di creare un dizionario delle parole trovate dotato di rimandi alle liste dei documenti che le contengono, in modo che il simmetrico motore di ricerca possa creare la lista di documenti rilavanti a fronte di un insieme di parole di interesse. Il primo concetto importante che risulta da questo scenario è che chi cerca dovrebbe anche usare sinonimi alternativi, chi prepara i documenti per l’indicizzazione dovrebbe creare un tesauro di sinonimi destinato ad aiutare il motore di ricerca ad arricchire automaticamente la richiesta, e chi scrive dovrebbe aiutare il motore di indicizzazione aggiungendo sezioni supplementari al documento con parole aggiuntive di soggettazione, che descrivano il documento e creino agganci potenziali per le future ricerche, anche se il suo testo non le contiene.

   Questi elementi sul funzionamento dell’indicizzazione e della ricerca permettono di ricavare le prime regole importanti. Siccome anche il motore di ricerca non capisce quello che stiamo cercando ma si basa solo sulle parole, occorre aiutarlo, e dato che non sappiamo quanto è buono il tesauro dei sinonimi scritto dagli esperti che pubblicano, occorre usare diversi sinonimi insieme alle parole chiave che stiamo usando per orientare la ricerca. La mancata comprensione di grammatica e sintassi rende inutile (e spesso dannoso) un costrutto grammaticale o sintattico: “Vorrei sapere quali sono i diametri più diffusi per i dischi”, una richiesta che produrrà molto rumore. Meglio scrivere “disco diametro centimetri cm millimetri mm”, che troverà le pagine dei cataloghi che rispondono alla nostra domanda.

   Morale: Chi cerca deve rimediare a quello che è stato trascurato da chi scrive (o indicizza) usando parole chiave alterative. Chi scrive gli articoli, se vuole essere trovato, deve prevedere gli errori e le dimenticanze di chi cerca, arricchendo il documento.

Resta da discutere il metodo di generazione del ranking e come alzarlo se siamo quelli che scrivono e che vogliono essere trovati.

   Il criterio di base per un sistema di ricerca documentale interno ad una organizzazione (un solo soggetto, il ricercatore) era di generare il ranking, cioè la rilevanza di un documento, sommando i numeri delle occorrenze presenti di ognuna delle parole cercate, moltiplicati per un indice di rarità della parola (misurato dal dizionario con la tavola delle occorrenze). Quindi a parità di parole presenti quelle che contribuiscono di più al peso sono quelle più rare.

   Quando si usa un motore commerciale come Google, ci si trova a far parte di un sistema dove si distinguono e si temperano gli interessi dei tre soggetti (autore, ricercatore e intermediario ovvero fornitore del servizio) e il motore di ricerca aggiunge ai criteri di un sistema scientifico usato all'interno di una organizzazione una serie di altri fattori che contribuiscono al ranking, legati al gradimento della pagina mostrato dagli utenti (di cui è tenuta traccia) e alla reputazione acquisita dal sito che la ospita. Tutte queste considerazioni formano ormai una scienza chiamata SEO, cioè Search Engine Optimization, che guida la redazione del contenuto e determina la scelta delle parole da usare nel testo o da aggiungere nella sezione del documento che non è visibile se non al motore di indicizzazione. I video, per esempio, sono valutati da Youtube sulla percentuale realmente vista dagli utenti (minuti visti, cioè momento dell’interruzione rispetto alla durata totale del video) e i suoi analytics forniscono in una curva solo discendente le statistiche del livello di attenzione ad ogni minuto e secondo del video. Dopo averlo selezionato, tutti iniziano a vederlo, ma nella sua durata molti vanno interrompendo la visione. Quando si va a cercare la causa di un brusco gradino discendente nel grafico a segnalare una forte caduta di interesse a un certo minuto e secondo, si va poi a controllare e si scopre che c’è un colpo di tosse o una affermazione un po’ troppo divisiva o altri problemi che hanno fatto “cambiare canale” all’ascoltatore. Per il momento è ancora impossibile capire quando invece il gradimento sale e quindi poter avere una curva che va su e giù.

   Non si devono infine dimenticare le cruciali esigenze dell’editore, che per offrire il servizio gratuitamente deve guadagnare non solo sulla pubblicità che accompagna le liste o i documenti trovati ma anche sull’interesse pagante dell’autore (o del titolare del sito) a farsi leggere. Quindi un addendo che può alzare in modo decisivo il ranking di un articolo, oltre al suo valore scientifico e alla reputazione del sito ospite, è il livello di sostegno economico alla sua visibilità, cioè il denaro pagato al publisher per alzare il ranking ancora di più rispetto al valore già raggiunto con la pertinenza sulla richiesta, il valore scientifico e la reputazione del sito ospite. Questo è il motivo per cui i contenuti ad alta visibilità (cioè i primi della lista o quelli che stanno ancora più sopra della lista) in un motore di ricerca commerciale somigliano a quelli della televisione commerciale, cioè sono prodotti che risultano da investimenti più orientati al sostegno pubblicitario che alla qualità.

   Inoltre, ogni contenuto che si pubblica ha una impennata di letture dovuta al peso della novità (un'altra componete del ranking è ricavata dalla data di pubblicazione, per cui una pagina nuova sale nel ranking rispetto a una vecchia). Altre impennate possono dipendere da motivi di attualità, che determinano un rinnovato interesse del pubblico per un certo argomento, ma questa componente pesa meno rispetto alla novità, quindi l’esortazione è quella a pubblicare continuamente, che è poi il vecchio publish or perish del mondo accademico, un altro contesto dove si parla di ranking.

   L'impennata iniziale negli analytics resi disponibili dal service provider responsabile del sito indica il richiamo iniziale di lettori e poi il successivo stabilizzarsi ad un valore asintotico che indica il vero pubblico degli specialisti interessati ai contenuti pubblicati. Il service provider che offre l’hosting del nostro dominio è in realtà un quarto soggetto che potrebbe avere servizi rilevanti da offrire o sulle politiche del quale poter fare leva, ma non è un elemento chiave per le nostre riflessioni.

   Quindi occorrono eventi che suscitino altre impennate iniziali per poi guadagnare nuovi lettori, ma servono nuovi argomenti o un nuovo taglio o una revisione editoriale per cambiare il ranking di sito.

   Di tutti gli stratagemmi descritti, quello importante, che non costa niente e che offre eccellenti risultati consiste nel farsi carico di quello che un bravo indicizzatore farebbe all’interno di un sistema privato, cioè scrivere un documento capace di farsi trovare, con un ricco abstract che contenga tutte le parole che potrebbero offrire agganci verso i lettori. Meglio usare molte parole specifiche e selettive (rare), anche solo una delle quali può alzarci di molto il recall che poche generali e potenzialmente ambigue e quindi fonte di rumore.

   La scelta di queste keyword è fondamentale. Fra i tanti sinonimi conviene opportunisticamente scegliere anche quelli più alla moda e soprattutto, nello stile redazionale, tornare ad esprimere lo stesso concetto, o rifinirlo, usando altre parole che potrebbero "agganciare" altri lettori che usano il motore di ricerca. Questa è davvero la regola numero uno. Lo stile nel condurre questa attività è in tutto parallelo al codice etico che ci si prefigge, indipendentemente dall’averlo esplicitato. Siti di prodotti commerciali non si fanno scrupoli nell’approfittare della non visibilità delle sezioni per le keyword inserendovi i nomi di prodotti e aziende concorrenti in modo da dirottare su di sé i clienti di altri produttori. È un modo per ottenere intenzionalmente il controllo del rumore, quando la pagina è trovata ma l’utente non capisce perché.

firma


torna su