Category: Visualizzazione dati

AppsForItaly, avviso ai naviganti

Come possono essere utilizzati e che cosa è possibile fare con gli Open Data? Probabilmente nessuno meglio dei cittadini, delle community di sviluppatori software indipendenti, dei professionisti, delle aziende, di coloro cioè che i dati li utilizzano puo’ rispondere meglio a questa domanda. Ed e’ proprio grazie a questa considerazione che nasce AppsForItaly, la competizione tutta italiana sui Dati Aperti.

Ricordiamo che gli Open Data sono generalmente dati prodotti dalla Pubblica Amministrazione e che vengono resi pubblici su Web consentendone il riuso. Per avere una idea di quali sono i dati disponibili, è possibile partire da dati.gov.it, il catalogo nazionale degli Open Data, lanciato alcuni mesi fa e che si sta pian piano consolidando per diventare l’”entry point” dei dati pubblici in Italia. Sono attivi anche cataloghi regionali come dati.piemonte.it (il primo portale per il riutilizzo dei dati pubblici in Italia) o dati.emilia-romagna.it. Rilasciano Open Data anche il portale dati.istat.it ma anche www.istat.it e tutti i siti web tematici dell’Istituto Nazionale di Statistica. (Potete trovare una lista piu’ completa qui)

AppsForItaly nasce pertanto con l’obiettivo di stimolare i cittadini a progettare applicazioni Web, Apps per dispositivi mobili, a creare visualizzazioni ed infografiche, a progettare database. Ovviamente non tutti i cittadini sono degli specialisti e hanno quindi le competenze necessarie o magari non tutti gli specialisti hanno il tempo o la possibilita’ di realizzare e mettere a punto le proprie proposte.

E’ questo il motivo per cui la competizione prevede anche la categoria “Idee e Progetti” dove tutti, ma proprio tutti coloro che hanno semplicemente una bella idea o un progetto su come utilizzare i dati possono partecipare.

Ne vale la pena? Ricordo che ad oggi il montepremi è composto da 30.000 euro forniti dal Ministero per la pubblica amministrazione e l’innovazione e da 10.000 euro nonchè da numerosi premi in tecnologia e servizi messi a disposizione dai vari sponsor. Ma non va dimenticato il premio piu’ consistente e cioè quello di avere l’opportunita’ di portare le proprie proposte all’attenzione di aziende, delle community interessate, del mercato, della Pubblica Amministrazione.

Per fare questo, c’è ancora un mese di tempo. E’ infatti fissato per il 10 Febbraio prossimo il termine ultimo per inviare le proposte, che, ricordo, dovranno essere inviate registrandosi nell’apposita sezione del sito Web di AppsForItaly.

E se volete qualche suggerimento, potete “sbirciare” tra le proposte che sono risultate vincitrici ad esempio ad Open Data Challenge o quelle che hanno partecipato ad Apps For Developement.

Tutte le proposte pervenute saranno valutate da una commissione che si sta costituendo proprio in questi giorni, mentre l’evento/premiazione si terra’ presumibilmente durante la prima settimana di Marzo. Stay tuned per tutti gli ulteriori aggiornamenti!

3, 2, 1… Al via AppsForItaly, il contest italiano sugli Open Data

Ha preso il via  ufficialmente AppsForItaly, la competizione tutta italiana sugli Open Data. Un concorso quindi, con tanto di premi in denaro, rivolto ai cittadini, alle communities di sviluppatori, alle aziende e alle associazioni che proporranno le migliori soluzioni per l’utilizzo del patrimonio informativo pubblico.  Il concorso si articola in quattro categorie: Idee e Progetti, Applicazioni, Dataset e Visualizzazioni e potranno essere presentate anche proposte che in passato abbiano già partecipato ad altre competizioni simili.

Il montepremi? Al momento è arrivato a ben 40.000 euro, di cui buona parte messi dal Ministero per la Pubblica Amministrazione  e Innovazione  che ha supportato il lancio dell’iniziativa assieme a ForumPA e Formez e a cui sta subentrando  il MIUR in conseguenza del recente cambio di Governo. Il contest è organizzato dal Comitato AppsForItaly ma va detto che sono partner dell’iniziativa  enti del calibro di Regione Piemonte, ISTAT, Regione Emilia Romagna, ENEL  che mettono a disposizione i propri dati.

C’è una sola regola da seguire: le proposte inviate devono esser basate sui dati pubblici, ma se volete dare una occhiata al regolamento completo potete farlo visitando l’apposita pagina. Il  contest si chiuderà il 10 Febbraio 2012.  A partire da quella data una apposita giuria selezionerà le proposte vincitrici che verranno premiate a fine Febbraio all’interno di un apposito evento. Per il momento buon lavoro a chi avrà intenzione di partecipare e …. vinca il migliore!!

Contest di statistical graphics della Scuola SIS “Web e Statistica”

pie

A settembre, a Pisa, si è svolta la prima Scuola della Società Italiana di Statistica “Web e Statistica”, conclusa con un contest di statistical graphics tra i partecipanti. Ha vinto, di misura, Marco Calderisi, un brillante chimico (e statistico) fondatore di Terradata.

Qui riportiamo tutti i lavori del contest, (più che) meritevoli di pubblicazione. Complimenti!

§

Imprese italiane per settore di attività (Dina Alessandro)

I 6 grafici illustrano la situazione a Genova e provincia degli imprenditori “stranieri” (nati all’estero) per paese di nascita, per settore economico, per carica sociale, partendo dalle sedi d’impresa operanti sul territorio italiano fino agli imprenditori italiani operanti a Genova e provincia.

L’intento è stato di evidenziare il diverso andamento dei cittadini nati all’estero in paesi extracomunitari, in particolare delle nazionalità più corposamente presenti sul territorio genovese (marocchina, senegalese, albanese ed ecuadoriana), rispetto ai cittadini comunitari (esclusi gli italiani, francesi, inglesi e tedeschi).

Emerge che gli imprenditori nati in paesi extracomunitari preferiscono operare in qualità di titolari di imprese individuali, in realtà dimensionalmente più contenute e prevalentemente nei settori delle costruzioni e del commercio mentre gli imprenditori nati in paesi comunitari sono maggiormente attivi nell’ambito di strutture societarie più complesse in qualità di socio o di amministratore.

Dina Alessandro: nell’ambito delle attività del Servizio Statistica e Prezzi della Camera di Commercio di Genova mi occupo di elaborazione, analisi dati demografici, economici e non solo, preferibilmente fino al dettaglio comunale e della loro rappresentazione grafica, sempre alla ricerca di tecnologie innovative e visualizzazioni accattivanti.

 §

Come è gestita l’acqua in Italia? (Marco Calderisi)

L’elaborazione prova a rispondere alla domanda: come è gestita l’acqua in Italia? I dati sono relativi al 2003 e sono stati estratti dalle banche dati dell’ISTAT e dei Comuni Italiani. Un primo grafico mostra la distribuzione sul territorio nazionale del consumo di acqua per uso domestico, espresso in m3 per abitante. Le regioni del Sud sono quelle che hanno un minor consumo di acqua, mentre la regione con il consumo superiore è la Valle d’Aosta. Il secondo grafico invece da una indicazione della percentuale di popolazione servita da impianti di depurazione di acque reflue urbane. In questo caso la situazione è molto più omogenea della precedente. La Val d’Aosta ha il 100% della popolazione servita da impianti di trattamento, mentre la Liguria si attesta al 59%.

La due successive treemap mostrano rispettivamente quantità e tipologie di depuratori presenti sul territorio nazionale in termini assoluti e rapportati al numero di abitanti di ciascuna regione.

Si tenga presente che i depuratori possono essere di tre tipi diversi: i depuratori più semplici sono quelli che danno un trattamento primario (T1), mentre quelli più importanti per la depurazione ed il riutilizzo delle acque sono quelli che forniscono un trattamento terziario (T3).

Salta subito all’occhio come siano la Toscana e l’Emilia Romagna le regioni maggiormente attrezzate, ma che solo la Toscana abbia un numero di depuratori di tipo T3 percentualmente maggiore rispetto a quelli di altro tipo. D’altro canto, rapportando questi dati alla popolazione delle regioni si vede che sono la Lombardia e la Campania ad avere più impianti per abitante. La Lombardia ha più impianti di tipo primario, la Campania più impianti di tipo terziario.

Marco Calderisi, chimico/chemiometra, mi occupo di analisi statistica multivariata applicata alla chimica, all’ambiente e alla R&S. Socio fondatore di Terradata, società dedita all’analisi di dati ambientali. Borsista post-doc presso il Centro NMR dell’Università di Siena. Interessi attuali: Open Data, infografica.

 §

Studio di tipo osservazionale longitudinale per raccogliere i dati utili (Barbara Romani)

Il primo gruppo di dati consiste in una lista di enunciati che il soggetto esaminato (io) vorrebbe che gli fossero rivolti nell’arco di una giornata rilevando anche la frequenza con cui dovrebbero essere emessi.

Il secondo gruppo di dati è stato raccolto durante una giornata tipo, registrando gli enunciati che sono stati effettivamente rivolti al soggetto e la loro frequenza.

Barbara Romani, Psicologa-Psicoterapeuta, svolgo attività clinica come libero professionista e mi occupo -come borsista- di ricerca nell’ambito dell’umanizzazione delle cure presso l’Azienda Ospedaliera Universitaria Integrata di Verona. Interessi attuali: metodologia e strumenti per la ricerca.

§

Pil pro capite e la percentuale di acquisti di beni e servizi via web (Andrea Zedda)

Lo scatterplot interattivo mostra il legame tra Pil pro capite e la percentuale di acquisti di beni e servizi via web nelle regioni di alcuni stati europei. La grandezza dei punti è relativa
ad un ulteriore indicatore che descrive la percentuale di persone che utilizzano abitualmente internet. Per non appesantirne la lettura sono stati distinti per colore solo alcuni stati considerati più rilevanti. Si nota come la correlazione tra i due indicatori sia abbastanza modesta, mentre, di contro, le varie regioni tendono a raggrupparsi quasi naturalmente per Stato di appartenenza. Si può ipotizzare che la tendenza all’uso del web dipenda più da fattori culturali e infrastrutturali che dalle risorse economiche effettivamente disponibili in un dato territorio.

Andrea Zedda, laureato in Scienze Politiche, esperto in ricerca demo-sociale, mi occupo principalmente di elaborazione, trattamento, analisi dei dati e reportistica. Ho collaborato con ISTAT,  Provincia di Cagliari, Ablativ scrl, Camera di Commercio di Cagliari, e l’Università di Cagliari. Sono socio fondatore dell’associazione Sardinia Open Data.

(Andrea tornerà presto su SegnalazionIT con alcuni articoli da non perdere, ndr)

13 tool di visualizzazione dati

SegnalazionIT si è più volte occupato di tool di visualizzazione dati. Quella che segue è la traduzione di un post di Steve Doig sul blog businessjournalism.org.

Steve Doig è “Knight Chair” alla Walter Cronkite, Scuola di Giornalismo e Comunicazione di Massa presso l’Arizona State University. È specializzato in computer-assisted reporting, l’uso del computer e delle tecniche delle scienze sociali per aiutare i giornalisti a fare meglio il proprio lavoro.

———————-

Steve Doig’s best of CAR Conference: 13 free tools to analyze, display data

di Steve Doig

L’annuale conferenza Computer-Assisted Reporting Conference, che si è tenuta a Raleigh, Carolina del Nord, è stata straordinariamente ricca di tool utili e gratuiti per tutti i tipi di analisi e visualizzazione dei dati, grazie anche alla presenza degli informatici di Google, MIT, Stanford e simili.

Ecco i link a 13 di questi tool gratuiti che ho trovato essere particolarmente utili per l’analisi dei dati nel giornalismo:

Exhibit: Questo link porta ad una pagina con una raccolta di link del progetto Simile del MIT. Exhibit è un programma JavaScript che vi permetterà di partire dai dati in forma tabellare (righe e colonne) e vederli in una varietà di formati: tabella ordinabile e filtrabile, mappa, linea del tempo, ecc. Per avere un’idea di cosa si può ottenere si può vedere la sezione Examples. Nella sezione DataPress è presente un add-in di WordPress che vi permette di esporre le visualizzazioni di Exhibit sul proprio blog. L’uso di Exhibit richiede qualche conoscenza di html, basta semplicemente copiare il suo codice sorgente e modificarlo. Dido è un prototipo di interfaccia utente che permette di configurare Exhibit, senza dover entrare nel codice.

TimeFlow: Questo programma JavaScript consente di utilizzare tabelle che hanno un elemento temporale e creare linee di tempo interattive che possono essere filtrate e colorate tramite più variabili. È uno strumento puramente di analisi, non progettato per la presentazione web, può essere utile per progetti di indagine dei dati.

ManyEyes: Questo sito consente di caricare e visualizzare i dati utilizzando una vasta gamma di interessanti viste: mappe, alberi di parole, tag clouds, strutture ad albero, diagrammi a bolle, grafici, matrici, diagrammi di rete, ecc. Si possono vedere le oltre 84.000 visualizzazioni che gli utenti hanno creato con i propri dati, in modo da avere una idea di cosa è possibile ottenere.

Gapminder: Questo sito è stato creato da scienziato svedese Hans Rosling, che voleva rendere più facile per le persone esplorare gli effetti di centinaia di variabili relative alle diverse nazioni del mondo. Fondamentalmente, questi sono grafici a dispersione multivariati x-y che si animano attraverso il tempo. Ciò che è cool, oltre a giocare con le variabili già collegate al sito, è che Google ha recentemente comprato e aggiunto tali funzionalità ai fogli di calcolo di Google Docs in modo che gli utenti possano caricare i propri dati con variabili temporali.

Tableau Public (solo Windows): La versione completa di Tableau Public è commerciale, ma l’azienda ha creato questa versione pubblica disponibile a chiunque. Fa molte delle stesse cose che fa Exhibit, cliccare su Gallery per vedere alcuni esempi. La versione gratuita è limitata, può contenere fino a 100.000 record.

Protovis: Questo programma, scaricabile dal laboratorio di visualizzazione di Stanford, è simile a ManyEyes ma con una varietà ancora più ampia di tabelle e grafici che possono essere creati, cliccare su Examples per visualizzarli. L’uso di Protovis richiede però notevoli capacità di scrittura di codice software.

Google Refine: Google definisce questo “uno strumento per lavorare con dati disordinati”. I data journalist lo usano per pulire le incongruenze database “campaign-contributions”, per esempio. Rende semplice standardizzare nomi come “Steve Doig” e “Stephen Doig” e “Steven Doig” in uno di questi. Inoltre aiuta con alcune analisi di base, come l’equivalente delle tabelle pivot di Excel.

Google Fusion Tables: Questo è un altro strumento Exhibit- like e rende possibile associare i dati come le mappe, le linee di tempo e/o grafici. A differenza di Exhibit non c’è bisogno di sporcarsi le mani con il codice HTML e JavaScript.

DataWrangler: Un altro buono strumento di Stanford, è simile a Google Refine. È buono per la trasformazione di dati in formati scomodi in qualcosa che può essere analizzato più facilmente.

TwitInfo: Un altro strumento del MIT, questo è progettato per prendere una grande quantità di tweet su Twitter in tempo reale e mostrare loro come una timeline grafica con picchi di attività. Esso comprende un “sentiment algorithm” che classifica i tweets negativi o positivi. Viene descritto come potrebbe essere usato per raccogliere le notizie, come la localizzazione terremoti in anticipo rispetto ai geologi.

NodeXL: Questo è un componente aggiuntivo di Excel che effettua una visualizzazione grafica dei social network. Le visualizzazioni mostrano come le persone sono interconnesse. Un esempio potrebbero essere i collegamenti tra i membri dei vari consigli di amministrazione. Un altro esempio è quello che mio figlio Matt creato per il Sarasota Herald-Tribune dello scorso anno che coinvolgono gruppi di acquirenti e venditori che sono stati coinvolti in massa dai mutui con meccanismi di frode. Queste visualizzazioni si possono ottenere rapidamente ma possono essere molto sgraziate, il nome usato dai giornalisti per i più complicati è “palla di pelo”.

Jigsaw: Non ho visto questa offerta di Georgia Tech, ma si suppone che sia utile per dare un senso alle grandi collezioni di documenti. Non è un programma scaricabile o una applicazione sulla quale caricare i propri dati, ma lo staff di Tech invitare le persone con i dati ad entrare in contatto con loro riguardo al suo utilizzo.

DocumentCloud: Questo è un servizio creato dagli sviluppatori di news-app di The New York Times e ProPublica.org. È progettato per mettere i documenti originali (anche quelli scritti a mano) sul Web e annotarli. L’idea è di permettere ai consumatori di notizie vedere questi documenti – documentazione processuale, legislazione, trascrizioni, dati sugli arresti, controlli, e-mail, ecc – con annotazioni dettagliate e le spiegazioni aggiunte dai giornalisti che seguono la notizia o altri esperti. Ecco un esempio da Arizona Republic in materia di immigrazione, di applicazione della legge sull’immigrazione, SB 1070.

Scuola SIS “Web e Statistica”

Dal 5 al 9 settembre 2011, a Pisa, presso l’ex Convento S. Croce di Fossabanda, si terrà la Scuola SIS “Web e Statistica”, che si propone di presentare i principali strumenti web per la produzione statistica ed analizzare come questi incidono sui processi di produzione e diffusione statistica (qui la locandina).

La Scuola affronterà tutte le fasi del processo statistico: progettazione dell’indagine e definizione del target, raccolta dati, analisi quantitativa e data mining, diffusione dei dati statistici. Una particolare attenzione sarà dedicata alle tematiche emergenti dell’open data e della tecnoetica. Tutti gli argomenti saranno presentati da un punto di vista teorico e compendiati da esempi applicativi.

Per partecipare sono necessarie conoscenze base di produzione, analisi e diffusione statistica. La Scuola è rivolta ai soci SIS, laureati, dottorandi, ricercatori e funzionari di uffici studi e ricerche coinvolti nei processi di raccolta, produzione e diffusione dei dati e delle informazioni statistiche e che operano in Enti ed Amministrazioni pubbliche, Aziende private, Aziende sanitarie ed organizzazioni del terzo settore.

La Scuola è limitata ad un numero massimo di 20 partecipanti e le iscrizioni possono essere effettuate online, sul sito della Società Italiana di Statistica, entro il 13 luglio. L’organizzazione è curata da alcuni Soci SIS insieme ad alcuni docenti del Dipartimento di statistica e matematica applicata all’economia e del Dipartimento di Economia Aziendale della Facoltà di Economia dell’Università di Pisa.

Tutti i docenti si occupano a livello professionale degli argomenti trattati, come liberi professionisti, nell’ambito del propria attività lavorativa presso l’Istituto Nazionale di Statistica o come docenti universitari presso la Facoltà di Economia dell’Università di Pisa.

Il programma della Scuola SIS “Web e Statistica” è il seguente:

Sessione mattutina
(09.30/13.30)
——————————————————-
Sessione pomeridiana
(14.30/18.00)
——————————————————-
Lunedì
5 settembre
Introduzione al corso. Strumenti web per la produzione statistica. Indagini statistiche on line: web aperto, web chiuso, indagini integrate. 

M. Pratesi – S. Marchetti

Come il web cambia i processi di produzione e diffusione statistica. Indagini statistiche: individuazione del target (popolazione obiettivo e errore di copertura); partecipazione all’indagine web (non risposta), mode-effect sulle risposte (errore di misura) 

M. PratesiC. Giusti

Martedì
6 settembre
Strumenti per la raccolta dati via web: questionari on line, trasmissione dati da siti web. La struttura e la tipicità dei questionari on line. 

M. PratesiM. Serrecchia

Analisi qualitative via web, netnografia e raccolta ed analisi dati testuali e grafici. Alcuni casi di ricerca accademica. 

D. DalliM. Corciolani

Mercoledì
7 settembre
Strumenti web per la statistica e la visualizzazione dati. 

D. Frongia

Il Data Mining ed il Web: le nuove frontiere dell’analisi predittiva. 

D. Schiavon

Giovedì
8 settembre
Open data, privacy e copyright. Profili di tecno etica. 

F.R. Fuxa Sadurny

Data Sharing, DataGov ed Open data. 

V. Patruno

Venerdì
9 settembre
I datawarehouse statistici. 

S. Bergamasco

La statistica per tutti attraverso un sito web. 

G. Mottura

Grazie alla collaborazione offerta dal Master di Audit e Controllo, che ha messo a disposizione locali ed infrastrutture, i partecipanti potranno beneficiare di uno sconto laddove decidessero di soggiornare presso l’albergo collocato all’interno della struttura. Inoltre, i partecipanti dotati di un proprio PC portatile avranno la disponibilità di un account wifi per tutta la durata del corso.

Per eventuali informazioni contattare: scuola-web-statistica@sis-statistica.org

Tecnologie e servizi per la condivisione dei dati

di Daniele Frongia e Vincenzo Patruno

Gli Istat Working Papers sono la nuova collana scientifica dell’Istituto nazionale di statistica. Nati con lo scopo di promuovere la diffusione dell’attività svolta all’interno dell’Istat e nell’ambito dell’intero Sistema statistico nazionale, sono dedicati a raccogliere contributi teorici o applicativi di interesse per la statistica ufficiale. Da gennaio 2011 gli Istat Working Papers sostituiscono i Contributi Istat e i Documenti Istat.

 

 

Il numero 3 è un articolo di Daniele Frongia e Vincenzo Patruno del 2009 (poi aggiornato nel 2010, infine pubblicato ora):

 

Tecnologie e servizi per la condivisione dei dati

Abstract


Uno dei fattori che ha contribuito maggiormente al successo di YouTube sta nella porzione di codice all’interno dei tag  <object> e </object> che compare a fianco di ogni video. Copiare e incollare questa riga all’interno di una pagina web ha l’effetto di incorporare il filmato desiderato all’interno di qualunque sito o blog. Queste porzioni di codice così come altri tipi di tecnologie come i feed RSS e le API stanno offrendo delle importanti opportunità di condivisione sia per gli utenti che per aziende e istituzioni. Per queste ultime vedremo il modello di condivisione dei dati nell’ambito del Census Hub Project per la diffusione dei risultati del prossimo Censimento 2011. Valuteremo inoltre le esperienze di alcune organizzazioni internazionali come OCSE e Nazioni Unite, che confermano come l’utilizzo di nuovi servizi e tecnologie online possa costituire un’ottima opportunità per condividere dati e per raggiungere un pubblico più diffuso e partecipe.

Leggi il paper completo

 


Open Data, trasparenza e data visualization

L’avventura degli Open Data in Italia è agli inizi e si intreccia, fra le altre, con le norme sulla trasparenza dell’azione amministrativa contenute nel c.d. Decreto Brunetta (D.Lgs. n. 150/2009). Un piccolo esempio può dimostrare come, pur rispondendo pienamente alle norme di legge sulla trasparenza e pubblicando i dati richiesti dal Decreto, si possa essere ancora ben lontani dall’effettiva creazione di Open Data, ovvero di “dati pubblici in formato aperto, in modo da renderne facile l’accesso e il riuso” (definizione di Spaghetti Open Data).

Prendiamo in considerazione la sezione Trasparenza del sito del Consiglio Nazionale delle Ricerche: http://www.dcp.cnr.it/Trasparenza.asp. Supponiamo di voler costruire un prospetto o tracciare un grafico dell’andamento delle percentuali di assenza del personale del CNR nel corso del 2010, suddiviso per struttura organizzativa.

Andiamo dunque nella sottosezione “Tassi di assenza”, i dati sono ovviamente disponibili e aggiornati, ma sono veramente utili e facilmente riutilizzabili da tutti?

Se l’ intento è quello di costruire una tavola o un grafico dovranno esistere, come minimo, dei dati in un formato testo importabile da qualunque software di analisi di dati, o almeno in formato libero o proprietario importabile in un foglio di calcolo (es. OpenOffice Calc oppure Microsoft Excel).

I dati del CNR sono disponibili in formato .pdf, suddivisi per mese, e ogni pagina presenta i dati ed un grafico relativo alle presenze e assenze per struttura organizzativa, vediamo dunque di capire come utilizzarli.

Per prima cosa effettuiamo il download di tutti i dati sul PC e utilizziamo il comodo servizio http://www.pdftoexcelonline.com che effettua l’upload di un file .pdf e spedisce via email il relativo file .xls. Fatto questo abbiamo a disposizione 12 file Excel, il grafico iniziale non è stato convertito ma i dati sì, anche se i numeri sono interi e non decimali (es. 2158 anziché 21,58 che rappresenta il tasso di assenza della Direzione Generale nel mese di Gennaio). A questo punto sono necessarie svariate operazioni manuali per ottenere dei dati utilizzabili da un software di analisi o di visualizzazione dati: riportare su uno stesso foglio Excel tutti i dati, eliminare le righe di intestazione di ogni mese, inserire un codice per identificare il mese, applicare una trasformazione per far ridiventare decimali tutti i numeri interi, verificare i dati duplicati (es. per il mese di Luglio i dati della struttura 603.030 sono riportati due volte) e prendere in considerazione solo quelli più plausibili, depurare ciascuna riga dagli “a capo” derivanti dalle operazioni di trasformazione. Salviamo infine i dati in formato Excel e testo delimitato da tabulazione.

Siamo pronti per passare alla fase di analisi dei dati, utilizziamo per comodità Excel, in particolare le tabelle pivot, ed otteniamo finalmente la tabella dell’andamento annuale delle percentuali di assenza, suddivise per struttura organizzativa.

Il tempo impiegato finora per ottenere il file .xls ed file .csv del 2010 a partire dai singoli file .pdf mensili è di 40 minuti e nonostante la difficoltà di queste operazioni sia bassa per chi si occupa di dati, è a mio avviso al di fuori della portata della maggioranza dei navigatori di Internet.

Volendo poi effettuare un minimo di data visualization su tali dati, e magari renderla disponibile su Internet, si può utilizzare ad esempio il notevolissimo servizio Tableau Public (al quale verrà dedicato un successivo post per spiegarne il funzionamento). Il risultato è visibile a questi indirizzi:

Tavola 1, Grafico 1, Grafico 2, Grafico 3

In alternativa è possibile utilizzare la modalità widget, che consente di incorporare i risultati ottenuti su qualunque sito Internet o blog. Ecco di seguito le tavole ed i grafici ottenuti.

—————————————

Tabulazione delle percentuali di assenza 2010 per mese e struttura organizzativa.

—————————————

Grafico delle percentuali di assenza 2010 per mese e struttura organizzativa (facendo click sul nome della struttura viene evidenziato il corrispondente grafico e la relativa serie di dati).

—————————————

Grafico dell’andamento delle percentuali di assenza 2010 per ciascuna struttura organizzativa (facendo click sul nome della struttura viene evidenziato il corrispondente grafico e la relativa serie di dati).

—————————————

Visualizzazione delle percentuali massime e minime di assenza per ciascun mese.

Questa seconda parte dedicata alla data visualization ha richiesto circa 60 minuti per essere completata, ma era la prima volta che utilizzavo Tableau Public.

Tramite l’apposita barra posta nella parte bassa di ciascuna visualizzazione è possibile esportare i dati in formato .csv, aderendo pienamente alla filosofia degli Open Data.

Ulteriormente, essendo Tableau Public un servizio offerto da uno stesso data center, ogni modifica ai dati e alle visualizzazioni fatta sul repository centrale viene immediatamente recepita dai vari widget sparsi per tutta Internet, senza ripubblicare manualmente alcunchè.

Facendo un po’ di conti, chi avesse voluto cimentarsi nel trasformare in Open Data dei dati disponibili in formato chiuso e rilasciati per singolo mese, avrebbe dovuto impiegare oltre 1h30′ del suo tempo e possedere un po’ di dimestichezza nel trattare i dati e nell’utilizzare qualche tool di visualizzazione. Questo tipo di risorse sono in genere largamente disponibili negli Istituti, Enti, Amministrazioni Centrali o Locali (es. Regioni, grandi Comuni) che producono quei dati ma difficilmente disponibili per le singole persone che accedono a quei dati.

Allora, pur avendo considerato un esempio limitato a dei dati gestionali-amministrativi, penso di essere riuscito a far capire come la strada per gli Open Data, in Italia, sia ancora lunga. Non manca a mio avviso l’impegno di Enti, Istituzioni e Amministrazioni italiane, sono infatti sicuro che il CNR impiegherebbe le stesse risorse per fornire i dati in formato aperto e cumulativo piuttosto che in formato .pdf  e mensile. Quello che forse manca è la cultura del servizio, il provare a mettersi nei panni di chi dovrebbe utilizzare quei dati e immaginare di cosa avrebbe bisogno e di quali dovrebbero essere le modalità di rilascio più utili per una vera disponibilità, accessibilità e riuso dei dati.

L’Istat su Google Public Data Explorer

Negli ultimi anni abbiamo spesso parlato di Google Public Data Explorer su questo blog. Ora il servizio si è arricchito di nuove funzionalità e si è aperto al grande pubblico: anche gli utenti generici – e non solo i produttori di statistiche ufficiali – possono caricare i propri dati sulla piattaforma di Big G.

Oggi apriamo il servizio Public Data Explorer ai tuoi dati. Abbiamo definito un nuovo formato di dati, il Dataset Publishing Language (DSPL), e abbiamo creato un’interfaccia per chiunque voglia caricare i propri dataset. DSPL è un formato open  - basato su XML – creato appositamente per supportare potenti visualizzazioni dinamiche come quelle offerte da Public Data Explorer.

 

Recentemente anche l’Istituto Nazionale di Statistica (Istat) ha aderito – in via sperimentale – a questo servizio, pubblicando i dati relativi  al tasso di disoccupazione. Nella Directory di Public Data, il canale riservato ai produttori di statistiche ufficiali, è ora presente il dataset:

 

Istituto Nazionale di Statistica

E’ possibile confrontare i dati provinciali:

 

Oppure quelli regionali con un istogramma:

 

Oppure con un diagramma a bolle:

 

Inoltre è possibile riutilizzare questi grafici dinamici e incorporarli nel proprio sito o blog, attraverso un semplice copia incolla del codice prodotto dal servizio, come è stato fatto su questo post. Nelle prossime settimane il servizio si arricchirà di nuove funzionalità. Stay tuned!


Per saperne di più:

Visualize your own data in the Google Public Data Explorer

Data-driven policy-making

Dataviz, democratized: Google opens Public Data Explorer

Torino Open Data Contest

Il movimento Open Data si espande a macchia d’olio anche nel nostro Paese,  guidato da alcuni “evangelist” come Lorenzo Benussi, Ernesto Belisario e Flavia Marzano, che abbiamo incontrato al BarCamp in occasione della Prima Giornata Mondiale della Statistica, e altri come Alberto Cottica e gli amici di Spaghetti Open Data, che abbiamo conosciuto in occasione dello StatCamp della Decima Conferenza Nazionale di Statistica. Il nostro Vincenzo Patruno non perde poi occasione di vederli in giro per l’Italia e il nostro blog cerca di dare ampio spazio a idee ed eventi collegati all’Open Data.

Per l’appunto Lorenzo Benussi ci segnala una importante iniziativa che vede, ancora una volta, il Piemonte come uno dei principali centri di diffusione della cultura Open Data in Italia. Dal 13 al 17 Aprile 2011 si terrà infatti a Torino, nel quadro delle celebrazioni per l’unità d’Italia, la Seconda Biennale per la Democrazia «uno strumento per la formazione e diffusione di una cultura della democrazia che si traduca in pratica democratica: un laboratorio pubblico permanente, radicato nel territorio e rivolto alle grandi dimensioni della politica odierna, aperto al dialogo, capace di coinvolgere i giovani delle scuole e delle università, destinato a tutti i cittadini. Si articola in una serie di momenti preparatori – laboratori per le scuole, iniziative destinate ai giovani, workshop di discussione – che culminano, ogni due anni, in cinque giorni di appuntamenti pubblici: lezioni, dibattiti, letture, forum internazionali, seminari di approfondimento e momenti diversi di coinvolgimento attivo della cittadinanza».

«In questo contesto, la Biennale Democrazia 2011, la Città di Torino, CSI-Piemonte e Centro Nexa su Internet e Società del Politecnico di Torino promuovono il concorso d’idee “Torino Open Data Contest – Idee e tecnologie per la democrazia”».

«Il concorso ha come fine quello di presentare al pubblico durante la manifestazione Biennale Democrazia 2011 idee, prototipi o versioni complete di applicazioni software per qualsiasi piattaforma – siti web, applicazioni mobili, widget, mashups, infografiche interattive – che utilizzino almeno uno dei dataset della Città di Torino messi a disposizione sul sito di Biennale Democrazia, anche in combinazione con altri dati e servizi disponibili on line».

Insomma, il Torino Open Data Contest ci aspetta, dal 13 al 17 Aprile 2011!

Un plugin ufficiale WordPress per la visualizzazione dei dati ISTAT sulla popolazione

E’ da un po’ di tempo che su questo Blog parliamo di diffusione e condivisione di dati. Lo facciamo consapevoli di avere in mente una idea ben precisa di “data dissemination”, che va oltre quella “tradizionale” adottata abitualmente dagli Enti e dalle Organizzazioni che producono dati. Riteniamo infatti che il modello di diffusione che vede un Ente produttore di dati pubblicare questi ultimi sul proprio sito Web sotto forma di file scaricabili o di sistemi informativi da interrogare cominci pian piano a non rispondere più non solo alle esigenze dell’utenza in generale, ma soprattutto ad una idea di Web che sta cambiando rapidamente e sta aprendo a nuovi ed interessanti scenari.

L’evoluzione delle tecnologie, la straordinaria crescita e la diffusione dei dispositivi mobili ma soprattutto il nuovo ruolo degli utenti Internet che in un Web sempre più “social” veicolano a loro volta dati e informazioni promuovendole e valorizzandole, stanno infatti cambiando il modo di fare e di stare sul Web.

Diventa, tra le altre cose, sempre più strategico accedere in modo tempestivo a dati di qualità che vanno a misurare fenomeni sociali, economici, ambientali, ecc. Non è al momento una impresa semplice. Siamo sottoposti quotidianamente ad un diluvio di dati di ogni tipo per cui diventa oggettivamente un problema riuscire a trovare innanzitutto i dati che interessano e poi a capire se il dato in questione è effettivamente quello più aggiornato, se il dato è un dato di qualità, chi lo ha effettivamente prodotto.

Sarebbe auspicabile poter usufruire del dato nello stesso istante in cui questo viene reso pubblico dal produttore. Mission Impossible? Assolutamente no, se facciamo evolvere il nostro modello “tradizionale” di “data dissemination” andando a prevedere la possibilità di “connettersi” ai dati lì dove questi vengono prodotti e diffusi sulla Rete.

Fermiamoci un attimo e vediamo cosa sta accadendo sul Web. Da un po’ di tempo a questa parte stiamo assistendo ad una “widgettizzazione” dei contenuti digitali, ossia ad un modo diverso di produrre e fornire contenuti, utilizzarli ed interagire con essi. I contenuti vengono cioè veicolati attraverso piccole applicazioni, i Widgets, per l’appunto. Sono applicazioni che possono prelevare dati e informazioni direttamente nel punto della Rete dove questi vengono generati per consegnarli a chi invece li consuma, non disdegnando di consentire a questi ultimi di interagire con essi.

I Widgets possono facilmente essere incapsulati all’interno di siti Web e Blog e quindi essere visualizzati e utilizzati attraverso un Browser, ma possono anche essere  applicazioni standalone su desktop o applicazioni standalone su dispositivi mobili. Sono quel tipo di applicazioni che chi possiede ad esempio un iPhone o un iPad scarica da un “App Store” e che tutti chiamiamo semplicemente “App”.

Ne ho parlato più volte in passato in diversi post che, anche se un po’ datati, vi ripropongo alla fine di questo articolo in quanto evidenziano bene le possibilità dei Widgets e di quello che mi piace chiamare “Data Sharing”.

Ma veniamo (finalmente) all’argomento di oggi. WordPress è senza dubbio il CMS che nel mondo da diverso tempo sta riscontrando il successo maggiore. Sono centinaia di milioni i siti nel mondo costruiti con WordPress, tra cui siti Web di famose aziende e famosi marchi (oltre ovviamente a SegnalazionIT.org), come riportato dal post  “21 Popular Brands That Are Using WordPress. Pensato soprattutto per la gestione di Blog,  la versione 3.0 ha da poco sorpassato la soglia dei 30 milioni di downloads, e il trend è in costante aumento. Una delle caratteristiche che ha reso questo CMS vincente rispetto ai suoi diretti concorrenti (e che i diretti concorrenti hanno subito tentato di replicare) è la possibilità di aggiungere funzionalità al sito Web scrivendo dei plug-in aggiuntivi. La cosa ha funzionato talmente bene che ad oggi i plugin ufficiali disponibili sono oltre 13 mila.

Tra questi, da qualche mese, c’è anche un plugin che consente di visualizzare un Widget molto semplice che ho realizzato un paio di anni fa e che mostra i dati ISTAT sulla popolazione a livello comunale, provinciale e regionale.

L’installazione è veramente immediata. Dalla sezione plugin del back office di WordPress basta ricercare il plugin “istat”, installarlo e attivarlo per poi, dalla sezione “Widgets”, spostarlo sulla sidebar con un semplice “drag and drop”.

A questo punto va inserito il codice ISTAT del comune di cui si vogliono visualizzare i dati. Il codice è a sei cifre ed è ottenibile da qui, inserendo il comune desiderato, ma il plugin visualizza anche dati provinciali o regionali semplicemente immettendo il codice della provincia (a tre cifre) o quello della regione (a due cifre), come mostrato nella figura seguente.

La cosa interessante è che i dati provengono in tempo reale dal sito demo.istat.it, il sistema attraverso cui l’ISTAT diffonde i dati ufficiali sulla popolazione. Il Widget è in altre parole “agganciato” ai dati (attraverso un Web Service) direttamente al sito Web che il produttore, in questo caso l’ISTAT, utilizza per diffondere questo tipo di dati. Di conseguenza, quando verranno resi disponibili i nuovi dati relativi al 2010, questi verranno automaticamente visualizzati su tutti i Blog che nel frattempo avranno installato il plugin. Buon divertimento!

Articoli correlati: