Category: Web 2.0

Pubblicare con Lulu: come stampare i vostri libri

Abbiamo già parlato di Lulu, un servizio che consente di pubblicare online oppure in maniera cartacea qualunque documento vogliate.

Ho fatto un piccolo esperimento: volevo acquistare il libro “The elements of statistical learning” di Hastie, Tibshirani, Friedman, sono andato su Amazon ed il libro costava intorno ai 70$, idem su Springer, poi cercando su Google ho scoperto che l’Università di Stanford metteva a disposizione, gratuitamente, l’ebook in formato .pdf del libro.

A questo punto mi è venuto in mente un possibile utilizzo di Lulu per scopi strettamente personali: mandare in stampa cartacea il file .pdf messo a disposizione da Stanford. Ecco cosa ho fatto.

Per prima cosa ho registrato una mia utenza su Lulu.com ed avviato un nuovo progetto “Libro a copertina morbida”; come potete vedere sono disponibili da subito varie opzioni, tra cui anche quella di richiesta del codice ISBN, la qual cosa mi farebbe diventare -a tutti gli effetti- editore del libro.

A seguire sono andato alle opzioni di stampa: tipo di carta, formato, tipo di rilegatura, colori della stampa. Per ragioni di budget ho scelto la carta “Professionale economico” e sono andato avanti.

Ho poi scaricato da Stanford il file .pdf del libro che volevo stampare, l’ho caricato in Lulu ed associato al progetto.

A questo punto mi si è aperto il wizard per la creazione della copertina, ho scelto un tema, un layout, sono andato all’anteprima, ho generato la copertina ed ottenuto quindi due file .pdf (libro + copertina) pronti per la stampa.

Infine mi è apparso un riquadro riassuntivo del progetto, ho salvato e concluso la procedura.

Sono tornato alla pagina principale dei miei progetti ed ho ordinato una copia cartacea del libro tramite il pulsante “aggiungi al carrello”. Il prezzo previsto è di 10,49 Euro, che è salito a 20,48 Euro comprese le spese di spedizione dagli Stati Uniti.

In totale mi sono arrivate tre email di conferma, la prima riguardava l’avvenuta pubblicazione, la seconda la ricezione dell’ordine, la terza l’avvenuta spedizione.

Dopo circa 20gg dall’ordine (che ho fatto però poco prima di Natale) il libro mi è stato recapitato a casa. Eccolo qui sotto.

Il risparmio netto a seguito dell’operazione è stato il seguente: (70$ valgono oggi 51,4 Euro) 51,4 Euro – 10,5 Euro = 40,9 Euro, ipotizzando che le spese di spedizione di Amazon o Springer equivalgano a quelle di Lulu.

Il servizio di stampa di Lulu funziona molto bene, scegliendo le opzioni di stampa a qualità inferiore i costi sono contenuti ed il prodotto finale è più che accettabile. Se avete idee, appunti, monografie, libri autoprodotti o di cui avete disponibile il file .pdf, stamparli con Lulu è facile ed economico e poi -diciamolo- un libro stampato è sempre un’altra cosa rispetto ad un ebook.

L’evoluzione del Knowledge Management: il progetto ThinkTag

di Germano Paini

Sempre più il Knowledge Management è diventato un fattore critico di successo per le organizzazioni. Rendere disponibile il proprio patrimonio informativo ed evitare che venga perduto è un obiettivo strategico per la competitività.

Il Progetto ThinkTag è uno strumento innovativo a supporto di professionisti e organizzazioni che sviluppa sinergie e integrazioni tra Knowlegde Management e Social Networking per lo sviluppo delle conoscenze e delle competenze.

Le informazioni vengono scambiate in un ambiente di confronto dinamico e non gerarchizzato che si offre come “connettore dei saperi”, in grado di evidenziare il contributo di ciascun soggetto coinvolto e di valorizzarne le esperienze personali, spesso trascurate e poco utilizzate dalle organizzazioni.

Per supportare gli utenti nell’affrontare il quotidiano “overload informativo” ThinkTag adotta la metodologia dell’Iper-Pertinenza, capace di arricchire in modo esponenziale la pertinenza delle informazioni grazie alla condivisione di esperienze in rete.

Una risorsa, infatti, diventa più pertinente se è condivisa, commentata, arricchita e organizzata dai membri di un social network.

Si tratta di un modo nuovo di gestire le conoscenze rispetto ai principali Social Network, più orientati alla relazione tra le persone e privi di sistemi per strutturare e organizzare i contenuti.

Grazie a ThinkTag è  possibile, con modalità bottom-up, ricercare, consultare, commentare, catalogare e pubblicare le informazioni per tag, servendosi di scaffali virtuali e attraverso più di 50 tipi di risorse tra testi, web, video, ecc.

In particolare Think Tag combina le logiche del Web 2.0 e dello “user generated content” con quelle del web semantico, rendendo l’ambiente di Knowledge Management in grado di offrire una ricerca più veloce e consapevole. La gestione semantica delle tag facilita la navigazione fornendo risultati sulla base delle relazioni di significato tra i parametri di ricerca.

La semplicità  di utilizzo è offerta anche da una Startpage flessibile e personalizzabile che permette di accedere subito alle informazioni di interesse. A questo si aggiunge la presenza dei portlet, che generano contenuti diversi e dinamici in linea con le esigenze di ciascuno.

thinktag

Posterous, una piattaforma di instant blogging

Supponiamo che abbiate delle comunicazioni o dei materiali da rendere disponibili su Internet in tempi rapidissimi e con minimo dispendio di energie.

Se non avete tempo o voglia di impelagarvi nella creazione e relativa gestione di un blog su piattaforme complesse, se avete un account qualunque di posta elettronica, se avete comunque la necessità di caratteristiche avanzate come la possibilità di configurare l’aspetto grafico, di far commentare i vostri post, di aggiornare con il post i vostri social network, di inoltrare via email la notizia ai vostri affezionati lettori, di allegare video e foto, posterous.com è ciò che fa per voi.

Posterous è, in sostanza, una piattaforma di instant blogging. Basta semplicemente mandare una email all’indirizzo post@posteur.com e il contenuto dell’email, senza ulteriori passaggi come registrazioni o login, viene immediatamente pubblicato su Internet ad un indirizzo di comodo del dominio posterous.com.

Come potete vedere dall’immagine, nel mio caso ho provato a mandare due email ed il risultato è stata la pubblicazione di due post all’indirizzo eric-if6rd.posterous.com.

Pur continuando a non effettuare alcuna registrazione presso il sito, la presenza del nuovo blog e dei relativi post viene notificata tramite una email di risposta da parte di posterous.com, che contiene svariati link tramite i quali è possibile visualizzare il blog, modificare o cancellare i post, scegliere un nome più amichevole in luogo di “eric-if6rd” e settare una password.

Supponendo di aver seguito il link “Click here to set a password for this site”, di aver impostato il nome del nuovo blog, vi verrà inviata una email per la conferma dei dati inseriti, rispondendo alla quale avrete completato la registrazione del vostro nuovo blog su Posterous.

A questo punto, dopo aver speso solo 5 minuti dall’inizio delle operazioni (post compresi), potrete configurare a piacimento la vostra piattaforma di instant blogging, aggiungendo ad esempio qualche servizio di re-posting su altri siti o applicazioni.

Come potete vedere non manca niente: twitter, wordpress, flickr, facebook, ecc.

Oppure potete modificare il tema ed i colori del sito, aggiungere dei “contributors” al vostro blog, o degli affezionati “subscribers” ai quali inoltrare via email i vostri post.

Posterous è una piattaforma molto avanzata, molto semplice da utilizzare anche se forse un po’ troppo spartana, ma consente un livello tale di interazione con altre applicazioni e servizi oggi presenti in Internet che piattaforme ben più blasonate si sognano oppure ottengono a prezzo di installazioni di appositi plugin.

Questo è il sito d’esempio che ho creato: http://ericstat.posterous.com

Saldo migratorio nei comuni italiani – parte II

In questo post abbiamo copiato/incollato l’”embed code” di cui abbiamo parlato nell’articolo precedente. In realta’ il codice e’ un po’ diverso in quanto nel frattempo ho realizzato una versione parziale in italiano dell’applicazione per la visualizzazione del saldo migratorio. Il codice utilizzato e’ pertanto il seguente:




Ovviamente se gestite un Blog o un Sito Web, potete anche voi copiare/incollare il codice all’interno della pagina. Quello che apparira’ lo potete vedere qui di seguito:

Saldo migratorio nei comuni italiani – parte I

Questo  e’ un esempio di come e’ possibile, con un semplice Copia/Incolla, condividere sul Web una intera applicazione. In questo caso, i dati visualizzati provengono in tempo reale dal sito Istat per la diffusione dei dati sulla popolazione (demo.istat.it)

Istruzioni:

1) Aprire “WordPad” o “Blocco Note” sul vostro PC.  (No Windows? Ovviamente qualunque Editor di  testo va bene)

2) Copiareincollare il seguente “embed code”

3) Salvare sul Desktop il documento con estensione .html (es. saldo.html)

4) Doppio Click  sull’icona “saldo.html” che sara’  apparsa sul Desktop

Ovviamente potete incollare il codice anche su qualunque pagina Web o su qualunque Blog.

SPARQL – Simple Protocol And RDF Query Language

Nel post precedente ho parlato di RDF (Resource Description Framework) ed illustrato i risultati della visita della sezione musica del sito della BBC. La figura seguente mostra il risultato del progetto Linking Open Data, una iniziativa che ha l’obiettivo di raccogliere e rendere fruibili i dati che sono stati pubblicati finora. Nel complesso essi consistono di oltre 4.7 miliardi di triple RDF (costituite da soggetto, predicato, oggetto) connesse da circa 142 milioni di link RDF (dati aggiornati a maggio 2009).

Post_DFonte Wikipedia

La disponibilità di dati in formato RDF sarebbe però poco utile se non fosse possibile accedervi  in maniera semplice. SPARQL – Simple Protocol And RDF Query Language, è un linguaggio di query dal sapore SQL per interrogare sorgenti di dati RDF. Seguendo questo standard è possibile creare dei punti di accesso ai dati  (endpoints) che sono in grado di ricevere query via http e di restituire i risultati in vari formati RDF/XML, JSON ecc. Cercando in rete ho trovato svariati esempi di questo tipo che espongono dati anche molto eterogenei: dai dati biologici di bio2rdf.org all’importante  sito inglese data.gov.uk che espone moltissimi dataset statistici con quasi 3000 dataset (ecco  la lista completa) e più di tre milioni di triple. Per fare un esempio concreto, qui è possibile interrogare il dataset <http://www.w3.org/People/Berners-Lee/card>. La seguente query produce il nome e l’email delle persone contenute nel file FOAF di Berners Lee.

PREFIX foaf:  <http://xmlns.com/foaf/0.1/>
SELECT *
FROM <http://www.w3.org/People/Berners-Lee/card>
WHERE {
    ?person foaf:name ?name .
    ?person foaf:mbox ?email .
}

Ricordo che FOAF (acronimo di Friend of a Friend) è una ontologia “machine-readable” che descrive le persone, le loro attività e le loro relazioni con altre persone ed oggetti. L’accoppiata RDF-SPARQL va diffondendosi in Internet: Dbpedia è un progetto per estrarre informazione in forma strutturata da Wikipedia e renderla disponibile sul web (ovviamente è disponibile un endpoint SPARQL con cui interrogare la base dati);  DBTune fornisce un servizio SPARQL di accesso a dati strutturati (più di 14 milioni di triple) relativi al mondo della musica. Questo endpoint SPARQL contiene dati sui lanci dei vettori spaziali. Seguendo il link, oltre ai riferimenti per sottoporre interrogazioni, è possibile trovare numerosi esempi di codice ed una presentazione molto interessante.

Per interrogare contemporaneamente più dataset di dati si possono seguire diverse strategie,  ciascuna con i suoi vantaggi e svantaggi:

  1. Interrogare uno per uno i dataset
  2. Interrogare un repository centralizzato costituito da una collezione di dataset
  3. Creare delle copie locali di dataset
  4. Utilizzare un sistema intermedio

Il primo caso ha il vantaggio di avere i dati sorgente sempre aggiornati ma è necessario costruire una logica applicativa di supporto. Il secondo ha il vantaggio di non dover costruire una logica applicativa ma i dataset potrebbero essere non aggiornati. Il terzo caso lascia ampio margine di manovra come la disponibilità di scaricare interi dataset con cui popolare il database ed il mantenimento dei dati sincronizzati con la fonte originale. L’ultimo caso ha il grande vantaggio di avere un sistema ponte tra i vari endpoint SPARQL, che nasconde i problemi di aggiornamento e di costruzione della logica applicativa, ma necessita della costruzione di un sistema di “aggancio” dei vari endpoint SPARQL.

In definitiva la tecnologia promette bene ma probabilmente non è ancora perfettamente matura. Ai lettori interessati segnalo questo video di Tim Berners Lee e la prima e la seconda parte di questo video tutorial. Per finire segnalo un buon tutorial su SPARQL.

 

Il successo di un sito web? Non solo una questione di traffico

Qualche giorno fa SIS Magazine (la rivista online della Società Italiana di Statistica) ha pubblicato il mio articolo Il successo di un sito web? Non solo una questione di traffico: i casi Istat, SIS e Sistan (*) sui nuovi metodi e strumenti per misurare il successo di un sito.

Nell’articolo studio il caso di tre siti che si occupano di statistiche ufficiali e di promozione delle scienze statistiche: l’Istituto Nazionale di Statistica, il Sistema Statistico Nazionale e la Società Italiana di Statistica, siti che nel medio periodo verranno profondamente rinnovati. Come? Certamente si arricchiranno di nuovi servizi (in salsa Web 2.0 – lo so, il termine è un po’ inflazionato ma almeno ci capiamo), come ad esempio quelli di cui abbiamo parlato in questo blog e che sono da tempo in produzione in altri paesi: nuove tecnologie per la diffusione e la condivisione di dati, tool di visualizzazione interattiva (anche esterni al sito, come nel caso di Google Public data) e altro ancora su cui torneremo nelle prossime settimane.

Ma come misurare e dunque valutare l’introduzione di un nuovo servizio? Semplicente registrando le variazioni del traffico sul sito? Anche se prodotti per il monitoraggio del traffico come AWStats e Google Analytics offrono informazioni molto importanti (indispensabili), oggi esiste una nuova generazione di strumenti per misurare il successo di un sito che tengono meglio conto della sua natura multidimensionale. In particolare possiamo vedere il successo di un sito in funzione, oltre che del traffico, anche del suo posizionamento nella rete ovvero della sua solidità di carattere “infrastrutturale”. Il posizionamento è dunque uno dei presupposti per un successo solido e duraturo del sito e quindi anche per valutare l’eventuale miglioramento dopo l’introduzione di nuovi servizi online.

Per misurare il posizionamento e dunque l’efficacia di un sito, di pagine specifiche, di campagne di comunicazione e anche per l’analisi della reputazione sul Web, sono disponibili diversi strumenti. Io ho provato ad utilizzare CONDOR (il software del MIT mostrato nell’articolo) nel 2008, con Francesca Grippa, per monitorare il comportamento dei media durante le elezioni statunitensi, e i risultati sono stati soddisfacenti.  CONDOR consente inoltre di identificare la blogosfera di riferimento di un sito, cioè l’insieme dei blog che citano un determinato sito attraverso un collegamento ipertestuale. La figura seguente mostra la blogosfera del sito Istat.it nel periodo 1-20 settembre 2009.

Blogosfera Istat.it

Per l’analisi di un sito occorre quindi tenere in considerazione due fattori: il traffico e il posizionamento nella rete. In questi ultimi anni gli studi di fisici, matematici e sociologi stanno contribuendo a definire nuovi metodi e strumenti per l’analisi del posizionamento. Le potenzialità e le prospettive sono estremamente interessanti, anche per chi produce statistiche ufficiali e diffonde cultura statistica.

Per il successo di un sito non esiste una regola aurea ma,  specialmente in organizzazioni complesse, risultati soddisfacenti possono essere raggiunti solo con lo sforzo congiunto di esperti di comunicazione, informatici e produttori di contenuti, supportati da adeguati strumenti software. Con uno lavoro coordinato tra questi attori è possibile valutare se vengono intercettate correttamente le aspettative degli utenti, aumentare la propria rilevanza online e costruire la propria reputazione di opinion leader del settore di appartenenza.

(*) = Ne approfitto per ringraziare i ricercatori che hanno contribuito all’articolo del SIS Magazine: Matteo Mazziotta, Davide Bennato, Francesca Grippa, Daniela Cocchi e Fabio Crescenzi.

Resource Description Framework

ll web semantico vuole rendere disponibili tecnologie e protocolli per modellare e classificare le informazioni così che esse possano essere “comprese” da agenti software automatici. E’ un vero salto in avanti: da un web sintattico di documenti costruito dalle persone ad uso delle persone ad un web semantico costruito dalle macchine ad uso delle macchine. In questo post vi parlerò di RDF (Resource Description Framework), un modello basato sul concetto di grafo orientato etichettato. La tecnologia basata su XML è utile per scambiare dati ed integrare applicazioni che utilizzano il web come canale di comunicazione. Tuttavia XML non si presta bene ad essere utilizzato come modello generale per rappresentare sul web le relazioni tra i dati.  In RDF le relazioni sono  trattate  come enunciati (statements) composti da soggetto, predicato ed oggetto. Ad esempio per esprimere il concetto che Mario Rossi è autore di una certa pagina web si potrebbe produrre la tripletta: Mario Rossi – Autore – URL della pagina web.  Affinchè le relazioni possano essere elaborate in modo automatico è fondamentale che i singoli termini siano rappresentati ed individuati in modo univoco in tutto il web mediante un URI. In proposito può  essere utile rileggere questo post.

post2

Lo stack del Web Semantico – Fonte Wikipedia

Tra i vocabolari più diffusi ed utilizzati per rappresentare schemi concettuali ci sono:

Dublin Core (dal nome della città americana nell’Ohio) – Un sistema di metadati costituito da un nucleo di elementi essenziali ai fini della descrizione di qualsiasi materiale digitale accessibile in rete. Per esempio, tra gli elementi del vocabolario si trova http://purl.org/dc/elements/1.1/creator che si riferisce ad una persona, una organizzazione o un servizio responsabile della costruzione della risorsa.

FOAF – Un vocabolario nato per rappresentare le relazioni sociali. Qui c’è il sito di riferimento del progetto. Nella sezione docs potrete trovare documentazione ed anche il riferimento ad una utility (foaf-a-matic) che utilizzerò in seguito.

SIOC Semantically Interlinked Online Communities – Una iniziativa nata dalla volontà di integrare le informazioni della comunità online.

Non è complicato produrre manualmente un file in formato RDF a patto di conoscerne la sintassi. Per quanto riguarda FOAF esiste un servizio automatico che è possibile utilizzare per creare facilmente un file RDF attraverso il quale esprimere una relazione di conoscenza tra persone, ad esempio  il fatto che Mario Rossi (di cui è possibile riportare anche informazioni personali) conosce Giorgio Bianchi. Per pubblicare dati RDF non si deve fare altro che memorizzarli all’interno di un file di testo contenuto nella document root del proprio web server. Analogamente a come gli utenti trattano  le pagine web ordinarie, adeguati strumenti software possono seguire autonomamente i link ad altri file RDF e costruire così il grafo orientato etichettato che rappresenta le relazioni trovate. In alternativa è possibile navigare manualmente i documenti trovati mediante appositi browser come, per esempio Tabulator (disponibile come estensione di Firefox).

Post_D

Fonte Progetto Linking Open Data

Uno degli strumenti software che ho esaminato è rdflib, una libreria python con cui si può costruire, leggere, manipolare e cambiare il contenuto ed anche il formato di un file RDF. Il suo utilizzo è abbastanza semplice: si crea un grafo, si fa il parsing dei file RDF leggendoli sia da disco che mediante protocollo HTTP e poi si applicano al grafo generato le operazioni desiderate. Un altro strumento utile è la libreria Triplify, scritta in PHP, con cui è possibile esporre dati RDF prendendoli da un database relazionale e che dispone di file di configurazione già predisposti per l’integrazione con i più diffusi strumenti come: OpenConf, Drupal, WackoWiki, WordPress, OpenJournalSystems, Joomla!, osCommerce, OMDB, phpBB, Gallery.

Sul web ci sono molti insiemi di dati interessanti  e le connessioni RDF permettono di passare da un elemento all’interno di una fonte di dati agli elementi di altre fonti.  Un esempio illuminante e molto avanzato che riprenderemo nel seguito è rappresentato dal sito della BBC.  Il risultato della visita della sezione musica e della quick search sull’artista Sting è una normale pagina web. Tuttavia se si visualizza il codice sorgente della pagina web si troveranno i seguenti valori: type=”application/rdf+xml” href=”/music/artists/7944ed53-2a58-4035-9b93-140a71e41c34.rdf“. Cliccandoci sopra si otterrà il caricamento del file in formato RDF.

Se si aggiunge all’url nella barra degli indirizzi l’estensione .rdf e se è stata già installata l’estensione Tabulator, si potrà navigare lo stesso file come una normale pagina web. La chiave 7944ed53-2a58-4035-9b93-140a71e41c34 nella parte finale dell’url è l’identificatore URI della “risorsa” Sting. Navigando il contenuto del file RDF possiamo scoprire che, sempre mediante questo identificatore univoco, esistono connessioni ad altri siti tra Musicbrainz, Muscimoz, Myspace e Wikipedia.

Su Musicbrainz la scheda di dettaglio di Sting riporta tra gli altri dati il valore MBID = 7944ed53-2a58-4035-9b93-140a71e41c34. MBID è un identificatore univoco per l’intero  database di Musicbrainz. Come riporta la documentazione tecnica reperibile sul wiki di Musicbrainz, conoscendo il valore MBID è possibile richiedere direttamente la risorsa sia utilizzando RDF che XML web service. Anche il sito Musicmoz riporta una pagina dedicata Sting in cui, visualizzandone il contenuto il XML, è possibile riscontrare un link con lo stesso ID  <resource name=”musicbrainz” link=”http://musicbrainz.org/artist/7944ed53-2a58-4035-9b93-140a71e41c34.html“/>

Ecco allora che i nodi colorati in blu del grafo riportato prima assumono un significato nuovo.

Ai lettori interessati segnalo questo video di Tim Berners Lee. A quelli molto interessati segnalo anche la prima e la seconda parte di questo video tutorial. Molte organizzazioni generano i contenuti dei propri siti web attraverso pagine composte dinamicamente. E’  lecito quindi chiedersi se come si possano generare dinamicamente file RDF dai contenuti limitati senza dover pubblicare un grande unico file RDF che potrebbe portare ad inefficienze e problemi di elaborazione. Nel prossimo post vi parlerò di SPARQL, un linguaggio simile ad SQL per l’interrogazione di dati RDF.

Data Dissemination e Data Sharing

Innanzitutto Buon Anno a tutti. Parliamo ancora una volta di dati statistici. In particolare, questa volta parleremo di come si sia evoluto nel tempo il concetto di “diffusione dati” negli Enti e nelle Organizzazioni che questi dati li producono.

Cercare di comprendere, studiare, conoscere fenomeni sociali ed economici anche complessi di un Paese o di un territorio è possibile grazie al lavoro quotidiano di Enti che fanno indagini, rilevano dati e li elaborano, diffondendone i risultati. La “diffusione” è il momento in cui tali Enti e Organizzazioni consegnano dati alla Comunità Scientifica, ai Governi, agli Enti Locali, alle Aziende, ai Professionisti, alla Politica e ai Cittadini. Che utilizzano questi dati per analizzare e capire cosa sta accadendo, per prendere coscienza della realtà del territorio, per prendere provvedimenti legislativi, per decidere i contenuti della prossima manovra Finanziaria.

L’avvento di Internet è stato “devastante” in tantissimi campi e settori della vita moderna. Con Internet nulla è più stato come prima, e questo è stato particolarmente vero per chi fa informazione, per chi produce dati, per i produttori di software. Ossia di tutto ciò che può essere consegnato a destinazione mediante la Rete stessa. Posso gestire attraverso Internet un ordine per, chessò, un monitor per PC o quello per l’acquisto di una cassa di vini pregiati. Ma resta comunque il problema di come farli arrivare a destinazione. Internet infatti non risolve questo tipo di problema, che invece può essere risolto affidandosi a ditte specializzate in spedizioni. Non è ovviamente così per i dati, la conoscenza, per il software, a cui la Rete ha dato una straordinaria opportunità: quella di poter circolare liberamente e di arrivare in modo istantaneo a destinazione senza intermediari e senza oneri o costi aggiuntivi.

Con Internet e con il Web, quelle che erano pubblicazioni “tradizionali” fatte di carta e inchiostro e che erano la modalità con cui venivano resi pubblici i dati e le tavole di dati statistici, si sono via via trasformate in “elettroniche”. Un link sul sito Web dell’Ente, un click da parte dell’utente e la pubblicazione veniva scaricata (a pagamento o meno) dal sito Web sul PC dell’utente. Che così ne poteva utilizzare a suo piacimento il contenuto, in genere tavole di dati. I dati venivano diffusi principalmente all’interno di documenti HTML, file Word e tavole Excel (con buona pace dei formati aperti). Ma anche mediante file di testo e file PDF. Un approccio di questo tipo delega all’Ente produttore tutte le decisioni a riguardo di che tipo di dati diffondere. Un certo numero di tavole vengono decise “a priori” a tavolino e l’utente quando andrà a scaricare il relativo file, si troverà “quelle” tavole e non altre. Questo è un approccio sicuramente molto facile da implementare da parte dell’Ente produttore di dati, ma ha un forte limite nel fatto che la pubblicazione va comunque fatta e le tavole di dati vanno comunque preparate, oltre al fatto che l’utente non può intervenire in nessun modo per ottenere i dati a cui è realmente interessato. E’ costretto a scaricarli e poi vedere se tra questi ci sono quelli desiderati.

Queste (e altre) ragioni hanno costituito la base per il successo nella diffusione dati (o “Data Dissemination”) dei cosiddetti “Data Warehouse” statistici. Organizzare cioè i dati in modo adeguato all’interno di Data Base per consentire all’utente di generare tavole in tempo reale. Non più dunque tavole predefinite ma tavole di dati generate a “run-time” sulla base di scelte fatte dall’utente. In questo caso è l’utente che decide, selezionando gli opportuni parametri, il tipo di dato a cui è interessato, l’anno di riferimento, il livello territoriale (ad esempio se vuole dati provinciali, regionali, comunali, …) e così via. In questo caso non ci sarà alcun limite al numero di tavole pubblicabili in quanto ognuna sarà generata in tempo reale sulla base dei parametri di input decisi dall’utente. Capite bene come i Data Warehouse su Web hanno generato una abbondanza di informazione inimmaginabile fino a qualche anno prima. E infatti, se fino a poco prima realizzare una pubblicazione (anche elettronica) contenente ad esempio i dati sulla popolazione o su qualunque altra cosa a livello comunale avrebbe richiesto 8100 pagine (il numero di Comuni in Italia) riducibili a 4050 pagine (supponendo di scrivere piccolo e di mettere due tavole per pagina), realizzare un Web Warehouse con i dati demografici di tutti i comuni italiani significa di fatto implementare un data base di piccole dimensioni.

Ora tutti gli Enti e le Organizzazioni più importanti diffondono i propri dati per mezzo di un ”Data Warehouse” più o meno sofisticato. Lo scrivo tra virgolette e in corsivo in quanto il termina viene utilizzato molto spesso in maniera impropria per indicare un qualunque data base per la diffusione dati, indipendentemente da come è stato progettato. (Diciamocela tutta: “Data Warehouse” è un termine più “figo”!)

Ma chi è l’utente dei dati? Sia che si tratti di pubblicazioni o di file contenenti tavole di dati, sia che si tratti di sistemi di Warehouse per la generazione a run-time di tavole l’utente è sempre stato visto come il punto finale del processo di diffusione. Questa è però una idea “storica” di utente che trova una collocazione sempre più marginale all’interno del Web. L’utente ha infatti cessato da tempo di essere un “lettore” o un “utilizzatore” del Web per diventarne invece protagonista. Un protagonista che a sua volta veicola l’informazione, la contestualizza, la condivide, la discute, la promuove, la valorizza. In questo nuovo contesto l’idea stessa di “diffusione dati” descritta fino ad ora diventa improvvisamente inadeguata. Questi nuovi scenari sono infatti il terreno ideale per quella che va sotto il nome di “condivisione dei dati” (Data Sharing) . E non è ovviamente un dettaglio lessicale, in quanto il “Data Sharing” ha delle forti implicazioni sia a livello tecnologico che a quello relativo ai comportamenti dell’”utente protagonista”.

In questo caso i dati non vengono più scaricati (e quindi replicati) sul PC dell’utente per poter essere utilizzati, ma vengono rilasciati attraverso modalità tali da consentire di essere facilmente “incorporati” in altri Blog e in altri siti Web oppure visualizzati on line attraverso sistemi di visualizzazione avanzati o ancora utilizzati direttamente da applicazioni e sistemi Web.

DEMO, il sistema che ISTAT utilizza per la diffusione dei dati demografici. Dal 1999, anno del suo rilascio ad oggi è diventato quello che a me piace chiamare un “sistema interconnesso”.

Fin dal suo esordio, sono stati “diffusi” dati in modo che ora definiremmo “tradizionale” attraverso il download di tavole predefinite, di file di dati o mediante i semplici Web Warehouse implementati. (es. Bilancio Demografico)

Ora mi scuso in anticipo con chi da tempo segue SegnalazionIT visto che gli esempi che seguono sono già comparsi in passato in altri articoli. Ma credo che raggrupparli ora tutti assieme possa servire a spigare meglio quanto detto fin’ora.

Nella figura seguente un output “classico” (con layout e stile di dieci anni fa :-) ) di quelli che si possono ottenere connettendosi a DEMO e interrogando il sistema. I dati in tabella sono quelli che riguardano il Bilancio Demografico per l’anno 2008 del comune di Roma.

demo.istat.it - Bilancio Demografico

Supponiamo poi di connetterci con il nostro BlackBerry o con il nostro Nokia N70 a istat.mobi (o mobile.istat.it). Seguendo i link riguardanti il Bilancio Demografico e selezionando il comune di Roma, troveremmo che

mobile.istat.it -  Bilancio Demografico

Ancora, dal sito ufficiale dell’Istat, inserendo il comune di Roma nell’apposito box in Home Page avremmo che

www.istat.it -  Home Page

www.istat.it - Bilancio Demografico

E se volessimo vedere come come questi dati possono essere utilizzati per la realizzazione di una applicazione mash-up con i dati di Google Maps, possiamo connetterci a http://cheapguru.org/comuni,  e ottenere il risultato in figura.

Google Maps e Bilancio Demografico

Oppure possiamo semplicemente copiareincollare il seguente codice su un qualunque blog/sito web

per incorporare all’interno del blog/sito la seguente tabella

Ovviamente gli esempi fatti non sono casuali. I dati infatti sono esattamente gli stessi. E provengono tutti dalle API pubbliche di DEMO. In nessun caso c’è stata una replicazione di dati. I dati sono stati semplicemente condivisi con altre applicazioni, su altri sistemi e attraverso l’utilizzo del codice di “embedding”. DEMO pertanto è stato “agganciato” tramite API agli altri siti web, diventandone parte integrante e condividendo con questi ultimi la parte dati.

In realtà i sistemi e i siti Web che condividono i dati di DEMO secondo queste logiche sono molti di più. Quando a Giugno 2010 saranno disponibili i dati del Bilancio 2009, DEMO e tutti i sistemi interconnessi di cui abbiamo parlato prima nonchè tutti i blog/siti che già hanno e quelli che nel frattempo avranno incorporato l’”embedded code” per la chart o la tabella del comune desiderato presenteranno istantaneamente i nuovi dati. Istantaneamente e senza intermediari. Dal “Data Dissemination” al “Data Sharing”.

L’Istat verso il Web 2.0: da fenomeno episodico a sistema

Il Forum Pa 2009 è stato l’occasione per l’Istat per discutere dell’utilizzo delle nuove tecnologie Web 2.0 e del rapporto tra produttori e fruitori dell’informazione statistica

di Stefano De Francisci / Daniele Frongia / Giulia Mottura (Giornale del Sistan 41/2009)

web 2.0 istat sistan

Innovare il modo di rendere disponibile l’informazione statistica, migliorare il dialogo tra chi produce contenuti e chi ne fruisce, favorire il processo di condivisione della conoscenza. Con questi obiettivi gli Istituti nazionali di statistica si muovono nell’universo dei servizi online in direzione del Web 2.0. Ne sono un esempio l’esperienza dell’Ocse (Swivel e IBM Many Eyes per la condivisione di dataset e la rappresentazione grafica interattiva, Wikigender per dare visibilità al tema dell’uguaglianza di genere, in modalità wiki) e quella dell’Unece (Metis-wiki per condividere idee sui metadati statistici).
Tra le novità più rilevanti si segnalano inoltre il nuovo Google Public Data sperimentato dallo U.S. Bureau of Labor Statistics, il servizio Zoho per creare e condividere documenti di testo a carattere scientifico, alcuni tool per la creazione rapida e semplice di questionari online, piattaforme wiki per la gestione di progetti e software per la creazione di mappe mentali.

Ma cos’è il Web 2.0? Si tratta di uno stato di evoluzione di Internet caratterizzato dal passaggio da un insieme di siti statici collegati fra loro a un ambiente globale nel quale piattaforme online con potenti interfacce grafiche offrono contenuti ampi e una stretta interazione tra gli utenti che – ed è questa la vera novità – forniscono valore aggiunto all’informazione originaria. Solo in Italia i servizi 2.0 più noti (YouTube, Wikipedia, Google, Flickr ecc.) vengono utilizzati da oltre 10 milioni di utenti. Anche l’Istat sperimenta l’utilizzo delle tecnologie Web 2.0 tramite strumenti di lavoro cooperativo (wiki, l’espressione forse più democratica di diffusione della conoscenza attraverso la tecnologia) e di visualizzazione interattiva (Gapminder, Google Motion Chart), sito per smartphone e motori di ricerca (soluzioni enterprise Google); inoltre, è in corso il riadattamento in chiave 2.0 del sito web http://www.istat.it con l’introduzione di web services e mashup, forniture in XML, RSS e widgets (per approfondimenti su questi temi è disponibile una biblio/sitografia su http://www.wiki.istat.it/doku.php/ forumpaweb20: webografia).

Il Forum Pa 2009, che si è tenuto a Roma lo scorso maggio, è stato l’occasione per presentare riflessioni ed esperienze sulle applicazioni Web 2.0 in Istat e sul contributo delle nuove tecnologie per la statistica. L’obiettivo che l’Istituto si pone è trasformare il Web 2.0 da fenomeno episodico a sistema governato e orientato all’utenza, selezionando le opportunità 2.0 più utili per la produzione e la comunicazione statistica. Quest’ultima, in particolare, può trarre indubbi vantaggi dall’evoluzione del web, giocando un ruolo chiave nel rapporto tra produttore e fruitore dell’informazione. Del resto, individuare nuovi canali e modalità di risposta alla dilatazione della domanda di informazione statistica è importante al fine di incidere sull’aumento di un’audience partecipe e motivata.

La sfida che l’Istat oggi si trova ad affrontare consiste nel rendere identificabile la statistica ufficiale rispetto alla grande quantità di dati immessi in rete, riuscendo a comunicarne le caratteristiche di qualità. E per orientare l’utente, divenuto coprotagonista nella produzione dell’informazione, è fondamentale una chiara strategia di comunicazione. L’interpretazione sociale della rete determina, infatti, una stringente concorrenza dal basso che può generare ridondanza e perdita di controllo sull’informazione pubblicata: la fonte dei dati diventa difficilmente individuabile e aumenta il rischio di degenerazione della statistica online. Come la comunicazione della statistica ufficiale possa incidere su tale contesto tramite le opportunità del Web 2.0, resta un argomento di dibattito aperto.

Un primo approccio è stato avviato da alcuni Istituti di statistica con il monitoraggio della blogosfera, la realizzazione di prodotti editoriali ipertestuali in modalità wiki, l’animazione di community di settore e di blog tematici e la pubblicazione di video per la formazione online.
Certo è che l’introduzione di strumenti di collaborazione con siti esterni e l’apertura all’uso diretto dei dati sono elementi fortemente attesi dall’utenza. Per questo motivo l’integrazione dei propri sistemi informativi attraverso le tecnologie 2.0 è un’altra sfida fondamentale per l’Istat. L’Istituto è attualmente impegnato nello sviluppo di sistemi basati su nuovi modelli di disegno, condivisione e integrazione di conoscenza e di architettura dell’informazione. Elemento saliente di tale approccio è costituito dalla centralità degli utilizzatori, non più solo destinatari finali ma parte attiva dei sistemi informativi. Ciò avviene, da una parte, coinvolgendo i diversi segmenti di utenti in modo mirato tramite la costruzione di ambienti collaborativi, e dall’altra adeguando i sistemi informativi alla molteplicità di linguaggi, esigenze e modalità di interazione caratteristici degli utilizzatori.

Lo sviluppo di ambienti di ricerca specializzati, capaci di integrare simultaneamente informazioni statistiche a vari livelli di strutturazione (da testi liberi a dati formattati e rigidamente strutturati), l’adozione di sistemi aperti di classificazione dell’informazione, la costruzione di glossari tematici vicini al linguaggio di varie tipologie di utenti, sono al centro di tali esperienze. Questo approccio, sostenuto dal riuso di software generalizzato e di strumenti standard proposti in ambito internazionale per la condivisione e la visualizzazione, si propone come modello innovativo per migliorare i livelli di servizi offerti dall’Istituto e forte incentivo verso l’ottimizzazione delle risorse.

Le esperienze che l’Istat sta conducendo in ambito Web 2.0 stanno dimostrando come l’informazione statistica può trarre diretto beneficio ed arricchirsi ulteriormente dalla convergenza e integrazione dei nuovi concetti, metodi, sistemi e tecnologie di organizzazione, condivisione, rappresentazione e visualizzazione della conoscenza, costituendo una delle più significative innovazioni per la statistica del Paese.