Parole, parole, parole
Rifacendomi al post di qualche giorno fa sul progetto web di Peter Gabriel, The Filter, e alla problematica della ricerca e dell’analisi dei contenuti della miriade di informazioni disponibili su web vi segnalo questo progetto:
Bayes-Swarm è un progetto di ricerca che si propone di analizzare il contenuto delle fonti di informazione sul web. Il testo contenuto nelle fonti viene organizzato in un enorme database (l’ordine di grandezza è di alcune centinaia di migliaia di parole al giorno). Il database è poi analizzato utilizzando tecniche statistiche tradizionali e tecniche di data mining.
Il nome swarm, che in inglese sta per sciame, vuole richiamare il significato del progetto: la possibilità di estrarre dei significati da un aggregato di elementi che separatamente non sembrano avere alcun significato (le singole parole). In modo del tutto simile si muove lo sciame; anche se i singoli insetti sembrano descrivere delle traiettorie caotiche, l’intero sciame procede con una logica ben precisa.
Si inserisce una parola e il risultato e’ un grafico, con l’occorrenza di quella parola nelle varie settimane dalle sorgenti dati che si monitorano. Si puo’ anche avere l’elenco dettagliato delle fonti stesse: tipo il giornale su cui e’ apparsa la parola e quante occorrenze per ciascuno.
Nella foto un esempio: parola cercata Kabul su fonti in lingua italiana.


Grazie!
se qualche ricercatore è interessato a lavorare sui dati ci contatti.
aggiungo solo che se si clicca sul numero della fonte si può vedere la pagina originale che ha prodotto quelle occorrenze e rintracciare l’articolo (ma questa opzione è utilizzabile solo sull’ultimo mese, ci stiamo lavorando!)
paolo
(BayesFor.eu)