Data Dissemination e Data Sharing

Innanzitutto Buon Anno a tutti. Parliamo ancora una volta di dati statistici. In particolare, questa volta parleremo di come si sia evoluto nel tempo il concetto di “diffusione dati” negli Enti e nelle Organizzazioni che questi dati li producono.

Cercare di comprendere, studiare, conoscere fenomeni sociali ed economici anche complessi di un Paese o di un territorio è possibile grazie al lavoro quotidiano di Enti che fanno indagini, rilevano dati e li elaborano, diffondendone i risultati. La “diffusione” è il momento in cui tali Enti e Organizzazioni consegnano dati alla Comunità Scientifica, ai Governi, agli Enti Locali, alle Aziende, ai Professionisti, alla Politica e ai Cittadini. Che utilizzano questi dati per analizzare e capire cosa sta accadendo, per prendere coscienza della realtà del territorio, per prendere provvedimenti legislativi, per decidere i contenuti della prossima manovra Finanziaria.

L’avvento di Internet è stato “devastante” in tantissimi campi e settori della vita moderna. Con Internet nulla è più stato come prima, e questo è stato particolarmente vero per chi fa informazione, per chi produce dati, per i produttori di software. Ossia di tutto ciò che può essere consegnato a destinazione mediante la Rete stessa. Posso gestire attraverso Internet un ordine per, chessò, un monitor per PC o quello per l’acquisto di una cassa di vini pregiati. Ma resta comunque il problema di come farli arrivare a destinazione. Internet infatti non risolve questo tipo di problema, che invece può essere risolto affidandosi a ditte specializzate in spedizioni. Non è ovviamente così per i dati, la conoscenza, per il software, a cui la Rete ha dato una straordinaria opportunità: quella di poter circolare liberamente e di arrivare in modo istantaneo a destinazione senza intermediari e senza oneri o costi aggiuntivi.

Con Internet e con il Web, quelle che erano pubblicazioni “tradizionali” fatte di carta e inchiostro e che erano la modalità con cui venivano resi pubblici i dati e le tavole di dati statistici, si sono via via trasformate in “elettroniche”. Un link sul sito Web dell’Ente, un click da parte dell’utente e la pubblicazione veniva scaricata (a pagamento o meno) dal sito Web sul PC dell’utente. Che così ne poteva utilizzare a suo piacimento il contenuto, in genere tavole di dati. I dati venivano diffusi principalmente all’interno di documenti HTML, file Word e tavole Excel (con buona pace dei formati aperti). Ma anche mediante file di testo e file PDF. Un approccio di questo tipo delega all’Ente produttore tutte le decisioni a riguardo di che tipo di dati diffondere. Un certo numero di tavole vengono decise “a priori” a tavolino e l’utente quando andrà a scaricare il relativo file, si troverà “quelle” tavole e non altre. Questo è un approccio sicuramente molto facile da implementare da parte dell’Ente produttore di dati, ma ha un forte limite nel fatto che la pubblicazione va comunque fatta e le tavole di dati vanno comunque preparate, oltre al fatto che l’utente non può intervenire in nessun modo per ottenere i dati a cui è realmente interessato. E’ costretto a scaricarli e poi vedere se tra questi ci sono quelli desiderati.

Queste (e altre) ragioni hanno costituito la base per il successo nella diffusione dati (o “Data Dissemination”) dei cosiddetti “Data Warehouse” statistici. Organizzare cioè i dati in modo adeguato all’interno di Data Base per consentire all’utente di generare tavole in tempo reale. Non più dunque tavole predefinite ma tavole di dati generate a “run-time” sulla base di scelte fatte dall’utente. In questo caso è l’utente che decide, selezionando gli opportuni parametri, il tipo di dato a cui è interessato, l’anno di riferimento, il livello territoriale (ad esempio se vuole dati provinciali, regionali, comunali, …) e così via. In questo caso non ci sarà alcun limite al numero di tavole pubblicabili in quanto ognuna sarà generata in tempo reale sulla base dei parametri di input decisi dall’utente. Capite bene come i Data Warehouse su Web hanno generato una abbondanza di informazione inimmaginabile fino a qualche anno prima. E infatti, se fino a poco prima realizzare una pubblicazione (anche elettronica) contenente ad esempio i dati sulla popolazione o su qualunque altra cosa a livello comunale avrebbe richiesto 8100 pagine (il numero di Comuni in Italia) riducibili a 4050 pagine (supponendo di scrivere piccolo e di mettere due tavole per pagina), realizzare un Web Warehouse con i dati demografici di tutti i comuni italiani significa di fatto implementare un data base di piccole dimensioni.

Ora tutti gli Enti e le Organizzazioni più importanti diffondono i propri dati per mezzo di un ”Data Warehouse” più o meno sofisticato. Lo scrivo tra virgolette e in corsivo in quanto il termina viene utilizzato molto spesso in maniera impropria per indicare un qualunque data base per la diffusione dati, indipendentemente da come è stato progettato. (Diciamocela tutta: “Data Warehouse” è un termine più “figo”!)

Ma chi è l’utente dei dati? Sia che si tratti di pubblicazioni o di file contenenti tavole di dati, sia che si tratti di sistemi di Warehouse per la generazione a run-time di tavole l’utente è sempre stato visto come il punto finale del processo di diffusione. Questa è però una idea “storica” di utente che trova una collocazione sempre più marginale all’interno del Web. L’utente ha infatti cessato da tempo di essere un “lettore” o un “utilizzatore” del Web per diventarne invece protagonista. Un protagonista che a sua volta veicola l’informazione, la contestualizza, la condivide, la discute, la promuove, la valorizza. In questo nuovo contesto l’idea stessa di “diffusione dati” descritta fino ad ora diventa improvvisamente inadeguata. Questi nuovi scenari sono infatti il terreno ideale per quella che va sotto il nome di “condivisione dei dati” (Data Sharing) . E non è ovviamente un dettaglio lessicale, in quanto il “Data Sharing” ha delle forti implicazioni sia a livello tecnologico che a quello relativo ai comportamenti dell’”utente protagonista”.

In questo caso i dati non vengono più scaricati (e quindi replicati) sul PC dell’utente per poter essere utilizzati, ma vengono rilasciati attraverso modalità tali da consentire di essere facilmente “incorporati” in altri Blog e in altri siti Web oppure visualizzati on line attraverso sistemi di visualizzazione avanzati o ancora utilizzati direttamente da applicazioni e sistemi Web.

DEMO, il sistema che ISTAT utilizza per la diffusione dei dati demografici. Dal 1999, anno del suo rilascio ad oggi è diventato quello che a me piace chiamare un “sistema interconnesso”.

Fin dal suo esordio, sono stati “diffusi” dati in modo che ora definiremmo “tradizionale” attraverso il download di tavole predefinite, di file di dati o mediante i semplici Web Warehouse implementati. (es. Bilancio Demografico)

Ora mi scuso in anticipo con chi da tempo segue SegnalazionIT visto che gli esempi che seguono sono già comparsi in passato in altri articoli. Ma credo che raggrupparli ora tutti assieme possa servire a spigare meglio quanto detto fin’ora.

Nella figura seguente un output “classico” (con layout e stile di dieci anni fa :-) ) di quelli che si possono ottenere connettendosi a DEMO e interrogando il sistema. I dati in tabella sono quelli che riguardano il Bilancio Demografico per l’anno 2008 del comune di Roma.

demo.istat.it - Bilancio Demografico

Supponiamo poi di connetterci con il nostro BlackBerry o con il nostro Nokia N70 a istat.mobi (o mobile.istat.it). Seguendo i link riguardanti il Bilancio Demografico e selezionando il comune di Roma, troveremmo che

mobile.istat.it -  Bilancio Demografico

Ancora, dal sito ufficiale dell’Istat, inserendo il comune di Roma nell’apposito box in Home Page avremmo che

www.istat.it -  Home Page

www.istat.it - Bilancio Demografico

E se volessimo vedere come come questi dati possono essere utilizzati per la realizzazione di una applicazione mash-up con i dati di Google Maps, possiamo connetterci a http://cheapguru.org/comuni,  e ottenere il risultato in figura.

Google Maps e Bilancio Demografico

Oppure possiamo semplicemente copiareincollare il seguente codice su un qualunque blog/sito web

per incorporare all’interno del blog/sito la seguente tabella

Ovviamente gli esempi fatti non sono casuali. I dati infatti sono esattamente gli stessi. E provengono tutti dalle API pubbliche di DEMO. In nessun caso c’è stata una replicazione di dati. I dati sono stati semplicemente condivisi con altre applicazioni, su altri sistemi e attraverso l’utilizzo del codice di “embedding”. DEMO pertanto è stato “agganciato” tramite API agli altri siti web, diventandone parte integrante e condividendo con questi ultimi la parte dati.

In realtà i sistemi e i siti Web che condividono i dati di DEMO secondo queste logiche sono molti di più. Quando a Giugno 2010 saranno disponibili i dati del Bilancio 2009, DEMO e tutti i sistemi interconnessi di cui abbiamo parlato prima nonchè tutti i blog/siti che già hanno e quelli che nel frattempo avranno incorporato l’”embedded code” per la chart o la tabella del comune desiderato presenteranno istantaneamente i nuovi dati. Istantaneamente e senza intermediari. Dal “Data Dissemination” al “Data Sharing”.

3 Responses to “Data Dissemination e Data Sharing”

  1. [...] parlato in questo blog e che sono da tempo in produzione in altri paesi: nuove tecnologie per la diffusione e la condivisione di dati, tool di visualizzazione interattiva (anche esterni al sito, come nel caso di Google Public data) e [...]

  2. Molto interessante notare che qualcosa si muove anche da noi.
    Da PA Forum dello scorso anno, quindi, qualcosa è successo ;)

    E’ decisamente un buon segnale ;)