Ricerca Full Text nelle Email con Apache Solr

Alessio Cecchi
12/01/2015

Le email stanno assumendo sempre più la funzione di archivio di contenuti ed informazioni, anche storico, per questo è necessario avere un sistema di ricerca che ci aiuti a trovare l’informazione che cerchiamo il più velocemente e precisamente possibile.

Apache Solr Email Full Text

Da un punto di vista logico le email non nascono come mezzo di archivio dell’informazione aziendale, per questo nativamente non è presente un sistema di indicizzazione dei loro contenuti, la classica ricerca delle email è un filtro mittente/destinatario/oggetto/data. Ma di fatto l’account email di ogni dipendente in azienda è la sua “memoria”, uno storico delle sue attività, per questo è diventato necessario “analizzare” queste informazioni con un algoritmo simile a quello di un motore di ricerca.

 

Una ricerca di tipo Full Text applicata alla propria casella email è la soluzione ideale. Rispetto alla ricerca tradizionale è assolutamente più veloce, il motore di indicizzazione analizza prima le email così che il risultato della ricerca è quasi in tempo reale, inoltre i risultati sono molto più accurati grazie agli algoritmi di indicizzazione sempre più evoluti.

 

Una delle novità del 2015, per gli utenti di Qboxmail, è proprio l’abilitazione della ricerca Full Text per le loro caselle email. I vantaggi gli abbiamo già citati sopra, vediamo adesso come funziona tecnicamente.

 

Il motore di ricerca che abbiamo deciso di utilizzare è Apache Solr, che a sua volta si basa sulla libreria Apache Lucene. L’indicizzazione delle email avviene alla prima ricerca eseguita dall’utente (quindi la prima ricerca sarà più lenta) e nelle successive ricerche vengono indicizzate in tempo reale solo le email nuove. Da un punto di vista infrastrutturale è stato dedicato un intero server al motore Apache Solr e gli indici delle email occupano uno spazio in costante crescita e non trascurabile (per questo molti concorrenti low-cost non offrono questo servizio).

 

La ricerca Full Text è sfruttata ogni volta che viene eseguita una ricerca via IMAP sull’intero corpo del messaggio (Boby), sia via Webmail che via client. E’ importante sapere che alcuni client email, come Thunderbird, sfruttano un loro sistema di indicizzazione e tendono a sfruttare solo quello quando possibile, questo si traduce nel fatto che se Thunderbird ha già in locale la sua indicizzazione pronta non invierà al server IMAP la richiesta di ricerca.

Utilizziamo i cookie per fornirti una migliore esperienza di navigazione, continuando ne accetti l’utilizzo. Per maggiori informazioni visita la pagina Privacy policy.

Accetta