Windows Sysinternals

In questo post vorrei segnalarvi il sito web Sysinternals, creato nel 1996 da Mark Russinovich e  Bryce Cogswell e successivamente acquisito da Microsoft nel luglio del 2006. Questo sito è una vera miniera di informazioni e di strumenti preziosi per la gestione dei sistemi Microsoft Windows. Scorrendo l’indice delle utilities alla ricerca di qualcosa che mi potesse tornare immediatamente utile sono stato incuriosito da Disk2vhd.

windows_sysinternals

Fonte:http://www.microsoft.com

Disk2vhd è una utility che crea un VHD (Virtual Hard Disk – Microsoft’s Virtual Machine disk format) da un disco fisico in modo che possa essere utilizzato all’interno di macchine virtuali Microsoft Virtual PC o Microsoft Hyper-V. A differenza di altri strumenti simili,  Disk2vhd può essere lanciato su un sistema online in quanto utilizza la funzionalità Windows’ Volume Snapshot , introdotta in Windows XP, per creare degli snapshot dei volumi che si desidera includere nella conversione. 

Disk2vhd

Fonte:http://www.microsoft.com

Su YouTube ho trovato un ottimo video tutorial in tre parti.

Vi consiglio anche la  lettura del Sysinternals Forum.

Bookmark and Share

Ecosia: il motore di ricerca ecologico

È attivo dallo scorso dicembre il motore di ricerca online ecosostenibile Ecosia. Eocosia lavora come tutti gli altri motori di ricerca, ma a differenza di loro dona il ricavato dei link sponsorizzati per proteggere le foreste pluviali il cui progetto di protezione della foresta è curato dal WWF (e localizzato nella fattispecie nel Juruena National Park in Amazzonia). Gli utenti di Ecosia possono salvare fino a 2 m² di foresta pluviale per ogni ricerca effettuata.

Navigate e fate le vostre valutazioni!

Sito ufficiale

Canale YouTube

motore di ricerca ecologico

Bookmark and Share

Il successo di un sito web? Non solo una questione di traffico

Qualche giorno fa SIS Magazine (la rivista online della Società Italiana di Statistica) ha pubblicato il mio articolo Il successo di un sito web? Non solo una questione di traffico: i casi Istat, SIS e Sistan (*) sui nuovi metodi e strumenti per misurare il successo di un sito.

Nell’articolo studio il caso di tre siti che si occupano di statistiche ufficiali e di promozione delle scienze statistiche: l’Istituto Nazionale di Statistica, il Sistema Statistico Nazionale e la Società Italiana di Statistica, siti che nel medio periodo verranno profondamente rinnovati. Come? Certamente si arricchiranno di nuovi servizi (in salsa Web 2.0 – lo so, il termine è un po’ inflazionato ma almeno ci capiamo), come ad esempio quelli di cui abbiamo parlato in questo blog e che sono da tempo in produzione in altri paesi: nuove tecnologie per la diffusione e la condivisione di dati, tool di visualizzazione interattiva (anche esterni al sito, come nel caso di Google Public data) e altro ancora su cui torneremo nelle prossime settimane.

Ma come misurare e dunque valutare l’introduzione di un nuovo servizio? Semplicente registrando le variazioni del traffico sul sito? Anche se prodotti per il monitoraggio del traffico come AWStats e Google Analytics offrono informazioni molto importanti (indispensabili), oggi esiste una nuova generazione di strumenti per misurare il successo di un sito che tengono meglio conto della sua natura multidimensionale. In particolare possiamo vedere il successo di un sito in funzione, oltre che del traffico, anche del suo posizionamento nella rete ovvero della sua solidità di carattere “infrastrutturale”. Il posizionamento è dunque uno dei presupposti per un successo solido e duraturo del sito e quindi anche per valutare l’eventuale miglioramento dopo l’introduzione di nuovi servizi online.

Per misurare il posizionamento e dunque l’efficacia di un sito, di pagine specifiche, di campagne di comunicazione e anche per l’analisi della reputazione sul Web, sono disponibili diversi strumenti. Io ho provato ad utilizzare CONDOR (il software del MIT mostrato nell’articolo) nel 2008, con Francesca Grippa, per monitorare il comportamento dei media durante le elezioni statunitensi, e i risultati sono stati soddisfacenti.  CONDOR consente inoltre di identificare la blogosfera di riferimento di un sito, cioè l’insieme dei blog che citano un determinato sito attraverso un collegamento ipertestuale. La figura seguente mostra la blogosfera del sito Istat.it nel periodo 1-20 settembre 2009.

Blogosfera Istat.it

Per l’analisi di un sito occorre quindi tenere in considerazione due fattori: il traffico e il posizionamento nella rete. In questi ultimi anni gli studi di fisici, matematici e sociologi stanno contribuendo a definire nuovi metodi e strumenti per l’analisi del posizionamento. Le potenzialità e le prospettive sono estremamente interessanti, anche per chi produce statistiche ufficiali e diffonde cultura statistica.

Per il successo di un sito non esite una regola aurea ma,  specialmente in organizzazioni complesse, risultati soddisfacenti possono essere raggiunti solo con lo sforzo congiunto di esperti di comunicazione, informatici e produttori di contenuti, supportati da adeguati strumenti software. Con uno lavoro coordinato tra questi attori è possibile valutare se vengono intercettate correttamente le aspettative degli utenti, aumentare la propria rilevanza online e costruire la propria reputazione di opinion leader del settore di appartenenza.

(*) = Ne approfitto per ringraziare i ricercatori che hanno contribuito all’articolo del SIS Magazine: Matteo Mazziotta, Davide Bennato, Francesca Grippa, Daniela Cocchi e Fabio Crescenzi.

Bookmark and Share

Alcune idee sulla virtualizzazione – parte prima

In questo post vi parlerò di virtualizzazione di server. Davvero sulla virtualizzazione si può ancora dire qualcosa che non sia già stato ampiamente detto e ridetto? Per quanto mi riguarda, più che avere la presunzione di dire qualcosa di nuovo e di interessante, cosa che lascio giudicare a voi, vi parlerò di una mia personale interpretazione e di alcune prove che ho condotto per verificare la fattibilità delle mie idee. Per Wikipedia la  virtualizzazione è la tecnologia che permette ad un server di gestire diversi sistemi operativi andando ad emulare le istanze dei sistemi operativi “ospiti”; questo agevola il mantenimento di un insieme di applicazioni su un singolo server e con un maggior livello di affidabilità. L’hypervisor è il componente chiave per un sistema basato appunto sulla virtualizzazione.

Nelle moderne architetture i dischi interni dei server contengono il sistema operativo e poco altro. Generalmente i dati risiedono su un disk array esterno, ad esempio organizzati in architettura DAS (Direct Attached Storage) o, ancora meglio, in SAN (Storage Area Network).

NAS_DAS_SAN

Fonte http://en.wikipedia.org

In questo post farò riferimento ad una architettura SAN, rappresentata in maggior dettaglio nella figura seguente.

san1

Fonte: http://www.allsan.com

Lo zoning ed il LUN masking sono meccanismi che consentono di controllare quali server hanno accesso a quali dispositivi e, per esempio, limitare un singolo server ad un gruppo di dispositivi di storage (anche un singolo storage) oppure associare un raggruppamento di server ad uno o più dispositivi di storage. Mi riferirò ad uno spazio di storage SAN visibile da un host con il termine LUN. Gli amministratori di sistema più scaltri, una volta che un server “vede” una LUN, preferiscono formattarla come partizione LVM perchè la gestione a livello sistemistico degli spazi fisici risulta molto semplificata e versatile. Le tipiche operazioni da compiere sono: formattazione della partizione, creazione del volume group, creazione dei volumi logici, creazione e formattazione dei filesystem, montaggio dei filesystem.

lvgFonte http://www.redhat.com

L’utilizzo di LVM presenta anche un altro grande vantaggio: il volume group è autodescrittivo, nel senso che una parte riservata del disco chiamata VGDA (Volume Group Descriptor Area), contiene i metadati di composizione del volume group e dei vari logical volumes. In caso di problemi ad un server fisico, “pubblicando” una LUN verso un altro server, possiamo tirarci dietro tutti i dati ed i filesystems già definiti. Se il driver della scheda in fibra HBA lo supporta (verificate con il costruttore della scheda come fare, se no è necessario fare reboot) , basta fare un rescan a caldo del bus SCSI ed il giuoco è fatto: la LUN diventa visibile al server. I comandi Linux vgscan, che esegue una scansione dinamica dei dischi e dei volume group,  vgchange, per attivare il volume group, e mount per il  montaggio dei filesystem, completeranno la sequenza delle operazioni.

Attraverso i moderni software di virtualizzazione si possono costruire architetture  dotate di caratteristiche sofisticate come Live Migration e Cluster High Availability. Come   amministratore dei sistemi, però, ho il timore che adottando uno strumento di virtualizzazione sarò  costretto ad eseguire operazioni di migrazione/riconversione degli spazi fisici già definiti,  certamente dispendiose e critiche anche per le implicazioni sulla continuità del servizio. E forse, in fin dei conti, di acquistare un biglietto di sola andata verso un software ed un formato proprietari.

Fatta questa lunga premessa, la mia domanda è la seguente:  supponiamo di avere un server che monta una serie di filesystem della dimensione di centinaia e centinaia di gigabyte, contenuti in uno o più volume group costituiti da dischi fisici appartenenti ad uno storage array raggiungibile in SAN.

lvolsFonte http://www.redhat.com

E’ possibile creare un server virtuale equipollente (magari facendo una conversione P2V – Physical to Virtual del solo disco interno) senza dover ricopiare o convertire i dati già registrati e conservando nel contempo funzionalità, codifica, formato dei dati e dei filesystem originali?

Sarebbe interessante sentire il parere dei vari produttori di tecnologia di virtualizzazione presenti sul mercato.  Per quanto mi riguarda  ho condotto alcune prove con RedHat KVM (vedi il mio post precedente su RedHat KVM) e la prossima volta  vi darò tutti i dettagli del caso.

Bookmark and Share

Riflessioni da Wikipedia: l’angolo più altruista della rete

Wikipedia1-204x300Come annunciato qualche post fa ci siamo rivolti agli amministratori di Wikipedia (7 in totale) per riflettere con loro sull’essere wikipediani. Riportiamo per punti sintetici le principali riflessioni emerse:

- Perché aderire a Wikipedia? Per condividere, condividere, condividere…

La condivisione delle conoscenze è la motivazione principale che spinge la quasi totalità degli intervistati ad aderire a Wikipedia. Mettere a disposizione le proprie competenze, esperienze ma anche energie e tempo libero è la spinta necessaria per far parte del progetto, consapevoli che nello scambio si contribuisce alla costruzione di un grande progetto, ma si riceve anche. Come sottolineato da un intervistato, far parte del progetto Wikipedia significa “…condividere, condividere, condividere…” (Carlo)

Se da un lato l’attrattività di Wikipedia, con i suoi obiettivi rivoluzionari, le sue caratteristiche (libera, gratuita, democratica, accessibile, ecc.), rappresenta una sfida per cui vale la pena impegnarsi e dedicarsi, allo stesso tempo gli intervistati garantiscono sul lato del ritorno: oltre a dare i wikipediani ricevono, in termini di conoscenze, capacità relazionali, di confronto e quindi di crescita personale.

- Wikipedia in 3 parole: collaborativa, libera e altruista

Sono questi i 3 aggettivi più indicati dagli intervistati per descrivere Wikipedia. Che l’enciclopedia più cliccata nel mondo fosse collaborativa e libera non sorprende (viene descritta in questo modo anche tra le sue pagine di definizione), confermando la sua natura partecipativa e quindi l’orientamento allo scambio, alla condivisione di chi vi aderisce. E’ interessante però osservare come tale partecipazione assuma, per gli intervistati, la forma dell’altruismo, superando in tal senso anche la dimensione della gratuità in termini economici.

Una caratteristica trasversale ai tre aggettivi sopra individuati è la grandezza: gli intervistati sono consapevoli infatti di partecipare ad un progetto “…enorme, favoloso, ambizioso, complesso, grande…” che sfrutta pienamente le possibilità offerte dalla grande rete fin dai suoi esordi (quali il superamento del concetto di tempo e di spazio) e quelle ancora più innovative della sua declinazione 2.0.

- AAA Wikipediano DOC cercasi: ottime competenze relazionali, apertura mentale, no perditempo, pronti al “lavoro sporco”

Per aspirare al ruolo di Wikipediano DOC è fondamentale, secondo gli amministratori intervistati, possedere in primis ottime capacità relazionali. La natura collaborativa del progetto richiede infatti un’indispensabile capacità di comprensione, di confronto e di interrelazione con gli altri utenti. Partendo dal presupposto che ogni concetto espresso su Wikipedia può essere messo in discussione, il buon wikipediano deve sapere “…accettare i rilievi altrui…” (Luca “Sannita”),  in che modo e fino a che punto portare avanti la propria posizione, nonché riuscire a mediare/sintetizzare i diversi contributi.

Conseguente a tale caratteristica è la capacità di sapere approcciarsi agli eventi/termini/personaggi oggetto di definizione tralasciando le proprie convinzioni ed esperienze personali (caratteristica questa che rimanda all’approccio metodologico del mondo della ricerca sociale). Non affezionarsi alle proprie idee/intuizioni inoltre rappresenta un passaggio essenziale nell’analisi di un fenomeno e ancora di più nella sua definizione. Interessante, in tal senso, come suggerito da un intervistato (Carlo), la possibilità di segnalare le pagini non neutrali.

Un buon wikipediano inoltre deve sapere gestire il proprio tempo, offrendo insieme quantità e qualità, trovando il modo di partecipare, anche attraverso il famoso lavoro sporco, senza mai abbassare la qualità dei propri contributi e quindi verificando sempre, attraverso fonti attendibili e ineccepibili, i concetti inseriti.

Infine il buon wikipediano, secondo gli intervistati, deve aiutare i nuovi arrivati trasferendo loro tutte le regole, più o meno tacite, necessarie al buon funzionamento del progetto nonché all’instaurazione di quel clima di fiducia che completa e supporta il lavoro dei wikipediani.

- Gli italiani, popolo di wikipediani superattivi, vitale, passionale… forse troppo

Gli intervistati, prima di tutto, hanno sottolineato l’impossibilità di fare delle differenze tra Paesi: “…non esiste un idealtipo italiano di collaborazione…” (Luca “Sannita”). Volendo individuare alcune differenze però si rileva una eccessiva passione nei confronti della propria attività ed identità di wikipediano, questo se da un lato porta ad un impegno e ad una partecipazione elevata da parte degli utenti italiani, allo stesso tempo può ostacolare il confronto, l’apertura verso posizioni diverse dalla propria, verso chi partecipa meno o l’integrazione di nuovi utenti.

Gli italiani vengono anche definiti “…tra i popoli più attivi e vitali di Wikipedia…” (Majid “Sirabder”), anche se sembrano comunque soffrire di una sorta di “persecuzione da complotto”, un atteggiamento che porta a vedere negli altri e nelle loro osservazioni dei fini e degli obiettivi non trasparenti. Atteggiamento che può quindi compromettere il clima di collaborazione.

In conclusione ciò che le interviste, a mio giudizio, sembrano sottolineare è la grande opportunità che Wikipedia, o i wiki o il web 2.0 in generale, possono offrire ai cittadini di “buona volontà”. La possibilità di diffondere la conoscenza alla portata di un click, passando per una costruzione condivisa del sapere, rappresenta una grande sfida per la società post-moderna. Una sfida a cui tutti possono partecipare, istituzioni comprese.

Ringrazio infine veramente di cuore tutti gli intervistati che hanno aderito e che ci hanno offerto la loro esperienza.

Bookmark and Share

Google stories 5

Google Fight

Dopo lo specchio, presentiamo un’altra variante di Google: google fight. Si tratta di un gioco basato sul numero di risultati trovati da Google. La battaglia si svolge tra due parole. Vince quella che, secondo Google, è più diffusa. Proviamo:

e dopo una breve attesa in cui si assiste a una lotta viene decretato il vincitore:

e non poteva essere altrimenti poiché come si sa «ferisce più la lingua che la spada»

Bookmark and Share

Resource Description Framework

ll web semantico vuole rendere disponibili tecnologie e protocolli per modellare e classificare le informazioni così che esse possano essere “comprese” da agenti software automatici. E’ un vero salto in avanti: da un web sintattico di documenti costruito dalle persone ad uso delle persone ad un web semantico costruito dalle macchine ad uso delle macchine. In questo post vi parlerò di RDF (Resource Description Framework), un modello basato sul concetto di grafo orientato etichettato. La tecnologia basata su XML è utile per scambiare dati ed integrare applicazioni che utilizzano il web come canale di comunicazione. Tuttavia XML non si presta bene ad essere utilizzato come modello generale per rappresentare sul web le relazioni tra i dati.  In RDF le relazioni sono  trattate  come enunciati (statements) composti da soggetto, predicato ed oggetto. Ad esempio per esprimere il concetto che Mario Rossi è autore di una certa pagina web si potrebbe produrre la tripletta: Mario Rossi – Autore – URL della pagina web.  Affinchè le relazioni possano essere elaborate in modo automatico è fondamentale che i singoli termini siano rappresentati ed individuati in modo univoco in tutto il web mediante un URI. In proposito può  essere utile rileggere questo post.

post2

Lo stack del Web Semantico – Fonte Wikipedia

Tra i vocabolari più diffusi ed utilizzati per rappresentare schemi concettuali ci sono:

Dublin Core (dal nome della città americana nell’Ohio) – Un sistema di metadati costituito da un nucleo di elementi essenziali ai fini della descrizione di qualsiasi materiale digitale accessibile in rete. Per esempio, tra gli elementi del vocabolario si trova http://purl.org/dc/elements/1.1/creator che si riferisce ad una persona, una organizzazione o un servizio responsabile della costruzione della risorsa.

FOAF – Un vocabolario nato per rappresentare le relazioni sociali. Qui c’è il sito di riferimento del progetto. Nella sezione docs potrete trovare documentazione ed anche il riferimento ad una utility (foaf-a-matic) che utilizzerò in seguito.

SIOC Semantically Interlinked Online Communities – Una iniziativa nata dalla volontà di integrare le informazioni della comunità online.

Non è complicato produrre manualmente un file in formato RDF a patto di conoscerne la sintassi. Per quanto riguarda FOAF esiste un servizio automatico che è possibile utilizzare per creare facilmente un file RDF attraverso il quale esprimere una relazione di conoscenza tra persone, ad esempio  il fatto che Mario Rossi (di cui è possibile riportare anche informazioni personali) conosce Giorgio Bianchi. Per pubblicare dati RDF non si deve fare altro che memorizzarli all’interno di un file di testo contenuto nella document root del proprio web server. Analogamente a come gli utenti trattano  le pagine web ordinarie, adeguati strumenti software possono seguire autonomamente i link ad altri file RDF e costruire così il grafo orientato etichettato che rappresenta le relazioni trovate. In alternativa è possibile navigare manualmente i documenti trovati mediante appositi browser come, per esempio Tabulator (disponibile come estensione di Firefox).

Post_D

Fonte Progetto Linking Open Data

Uno degli strumenti software che ho esaminato è rdflib, una libreria python con cui si può costruire, leggere, manipolare e cambiare il contenuto ed anche il formato di un file RDF. Il suo utilizzo è abbastanza semplice: si crea un grafo, si fa il parsing dei file RDF leggendoli sia da disco che mediante protocollo HTTP e poi si applicano al grafo generato le operazioni desiderate. Un altro strumento utile è la libreria Triplify, scritta in PHP, con cui è possibile esporre dati RDF prendendoli da un database relazionale e che dispone di file di configurazione già predisposti per l’integrazione con i più diffusi strumenti come: OpenConf, Drupal, WackoWiki, WordPress, OpenJournalSystems, Joomla!, osCommerce, OMDB, phpBB, Gallery.

Sul web ci sono molti insiemi di dati interessanti  e le connessioni RDF permettono di passare da un elemento all’interno di una fonte di dati agli elementi di altre fonti.  Un esempio illuminante e molto avanzato che riprenderemo nel seguito è rappresentato dal sito della BBC.  Il risultato della visita della sezione musica e della quick search sull’artista Sting è una normale pagina web. Tuttavia se si visualizza il codice sorgente della pagina web si troveranno i seguenti valori: type=”application/rdf+xml” href=”/music/artists/7944ed53-2a58-4035-9b93-140a71e41c34.rdf“. Cliccandoci sopra si otterrà il caricamento del file in formato RDF.

Se si aggiunge all’url nella barra degli indirizzi l’estensione .rdf e se è stata già installata l’estensione Tabulator, si potrà navigare lo stesso file come una normale pagina web. La chiave 7944ed53-2a58-4035-9b93-140a71e41c34 nella parte finale dell’url è l’identificatore URI della “risorsa” Sting. Navigando il contenuto del file RDF possiamo scoprire che, sempre mediante questo identificatore univoco, esistono connessioni ad altri siti tra Musicbrainz, Muscimoz, Myspace e Wikipedia.

Su Musicbrainz la scheda di dettaglio di Sting riporta tra gli altri dati il valore MBID = 7944ed53-2a58-4035-9b93-140a71e41c34. MBID è un identificatore univoco per l’intero  database di Musicbrainz. Come riporta la documentazione tecnica reperibile sul wiki di Musicbrainz, conoscendo il valore MBID è possibile richiedere direttamente la risorsa sia utilizzando RDF che XML web service. Anche il sito Musicmoz riporta una pagina dedicata Sting in cui, visualizzandone il contenuto il XML, è possibile riscontrare un link con lo stesso ID  <resource name=”musicbrainz” link=”http://musicbrainz.org/artist/7944ed53-2a58-4035-9b93-140a71e41c34.html“/>

Ecco allora che i nodi colorati in blu del grafo riportato prima assumono un significato nuovo.

Ai lettori interessati segnalo questo video di Tim Berners Lee. A quelli molto interessati segnalo anche la prima e la seconda parte di questo video tutorial. Molte organizzazioni generano i contenuti dei propri siti web attraverso pagine composte dinamicamente. E’  lecito quindi chiedersi se come si possano generare dinamicamente file RDF dai contenuti limitati senza dover pubblicare un grande unico file RDF che potrebbe portare ad inefficienze e problemi di elaborazione. Nel prossimo post vi parlerò di SPARQL, un linguaggio simile ad SQL per l’interrogazione di dati RDF.

Bookmark and Share

Lo statistico su YouTube

(Attenzione: questo articolo contiene pubblicità occulta alla Società Italiana di Statistica)

Lo scorso anno Duccio Schiavon ha riportato su Stat Project un’intervista ad Hal Varian (Google) che è subito diventata un cult per gli statistici; ecco cosa dice il guru di Google:

Continuo a sostenere che il lavoro più “sexy” nei prossimi dieci anni sarà quello dello statistico. Le persone credono che io scherzi, ma chi avrebbe mai immaginato che il lavoro dell’ingegnere informatico si sarebbe rivelato il lavoro più “sexy” degli anni 90? La capacità di acquisire i dati – essere in grado di comprenderli, di elaborarli, di estrarre un valore da essi, di visualizzarli, di comunicarli – queste sono le capacità più importanti che verranno richieste nei prossimi decenni, non solo a livello professionale ma anche a livello scolastico, alle elementari, alle superiori, all’università. In quanto adesso abbiamo davvero libero accesso a dati di ogni tipo. Quindi il fattore vincente risulterà la capacità di comprenderli e di estrarre del valore da essi. Credo che gli statistici saranno parte integrante di questo processo, sempre che non lo siano già.

Michael Driscoll aggiunge:

Il mondo sta assistendo a quella che Joe Hellerstein ha chiamato “La Rivoluzione Industriale dei Dati” dove le macchine, e non gli uomini, sono i primi generatori di dati. Abbiamo dunque bisogno di strumenti per dare un senso a questa enorme mole di dati, e di persone che sappiano utilizzarli. Come ha osservato Hal Varian, gli statistici rappresentano la guida per queste persone.

Ma se siete statistici e volete eccitarvi sin da subito, senza aspettare i prossimi anni, vi consiglio la lettura del discorso di insediamento di D. J. Hand alla Royal Statistical Society (2008), un testo che offre decine di spunti interessanti, tra i quali una riflessione sulla vera information technology, una semplice e strabiliante definizione di data mining e  l’elogio dell’ubiquità della statistica.

Se invece siete statistici più moderati e tradizionalisti, una rilettura della sempre verde Filosofia della Statistica di Melchiorre Gioia (1838) non potrà che irrobustire la vostra autostima.

Ma torniamo a YouTube. Qui trovate il video di Hal Varian e i divertentissimi commenti degli utenti (questo però non mi convince molto: “la parte sexy del lavoro dello statistico è l’ottimo stipendio. Se sei un uomo, i soldi ti faranno diventare subito sexy”).

Ma su YouTube la figura dello statistico viene presentata anche maniera meno lusinghiera: è questo il caso del cantante Todd Snider e del suo strepitoso Statistician’s Blues.

Il testo della canzone è indicativo della percezione che parte dell’opinione pubblica ha della statistica, ma soprattutto mi ha dato un paio di  buone idee sulla BNL sotto casa…

84 percent of all statisticians truly hate their jobs
They say the average bank robber lives within say about 20 miles of the bank that he robs
There’s this little bank not far from here I’ve been watching now for a while
Lately all I can think about’s how bad I wanna go out in style…

Ma YouTube non parla solo inglese: prossimamente pubblicheremo una canzone sugli statistici scritta e interpretata da un artista nostrano…

(Nel frattempo ringrazio Fabio Crescenzi per le segnalazioni e l’artista nostrano per la dedizione alla causa)

ubiquità
Bookmark and Share

Data Dissemination e Data Sharing

Innanzitutto Buon Anno a tutti. Parliamo ancora una volta di dati statistici. In particolare, questa volta parleremo di come si sia evoluto nel tempo il concetto di “diffusione dati” negli Enti e nelle Organizzazioni che questi dati li producono.

Cercare di comprendere, studiare, conoscere fenomeni sociali ed economici anche complessi di un Paese o di un territorio è possibile grazie al lavoro quotidiano di Enti che fanno indagini, rilevano dati e li elaborano, diffondendone i risultati. La “diffusione” è il momento in cui tali Enti e Organizzazioni consegnano dati alla Comunità Scientifica, ai Governi, agli Enti Locali, alle Aziende, ai Professionisti, alla Politica e ai Cittadini. Che utilizzano questi dati per analizzare e capire cosa sta accadendo, per prendere coscienza della realtà del territorio, per prendere provvedimenti legislativi, per decidere i contenuti della prossima manovra Finanziaria.

L’avvento di Internet è stato “devastante” in tantissimi campi e settori della vita moderna. Con Internet nulla è più stato come prima, e questo è stato particolarmente vero per chi fa informazione, per chi produce dati, per i produttori di software. Ossia di tutto ciò che può essere consegnato a destinazione mediante la Rete stessa. Posso gestire attraverso Internet un ordine per, chessò, un monitor per PC o quello per l’acquisto di una cassa di vini pregiati. Ma resta comunque il problema di come farli arrivare a destinazione. Internet infatti non risolve questo tipo di problema, che invece può essere risolto affidandosi a ditte specializzate in spedizioni. Non è ovviamente così per i dati, la conoscenza, per il software, a cui la Rete ha dato una straordinaria opportunità: quella di poter circolare liberamente e di arrivare in modo istantaneo a destinazione senza intermediari e senza oneri o costi aggiuntivi.

Con Internet e con il Web, quelle che erano pubblicazioni “tradizionali” fatte di carta e inchiostro e che erano la modalità con cui venivano resi pubblici i dati e le tavole di dati statistici, si sono via via trasformate in “elettroniche”. Un link sul sito Web dell’Ente, un click da parte dell’utente e la pubblicazione veniva scaricata (a pagamento o meno) dal sito Web sul PC dell’utente. Che così ne poteva utilizzare a suo piacimento il contenuto, in genere tavole di dati. I dati venivano diffusi principalmente all’interno di documenti HTML, file Word e tavole Excel (con buona pace dei formati aperti). Ma anche mediante file di testo e file PDF. Un approccio di questo tipo delega all’Ente produttore tutte le decisioni a riguardo di che tipo di dati diffondere. Un certo numero di tavole vengono decise “a priori” a tavolino e l’utente quando andrà a scaricare il relativo file, si troverà “quelle” tavole e non altre. Questo è un approccio sicuramente molto facile da implementare da parte dell’Ente produttore di dati, ma ha un forte limite nel fatto che la pubblicazione va comunque fatta e le tavole di dati vanno comunque preparate, oltre al fatto che l’utente non può intervenire in nessun modo per ottenere i dati a cui è realmente interessato. E’ costretto a scaricarli e poi vedere se tra questi ci sono quelli desiderati.

Queste (e altre) ragioni hanno costituito la base per il successo nella diffusione dati (o “Data Dissemination”) dei cosiddetti “Data Warehouse” statistici. Organizzare cioè i dati in modo adeguato all’interno di Data Base per consentire all’utente di generare tavole in tempo reale. Non più dunque tavole predefinite ma tavole di dati generate a “run-time” sulla base di scelte fatte dall’utente. In questo caso è l’utente che decide, selezionando gli opportuni parametri, il tipo di dato a cui è interessato, l’anno di riferimento, il livello territoriale (ad esempio se vuole dati provinciali, regionali, comunali, …) e così via. In questo caso non ci sarà alcun limite al numero di tavole pubblicabili in quanto ognuna sarà generata in tempo reale sulla base dei parametri di input decisi dall’utente. Capite bene come i Data Warehouse su Web hanno generato una abbondanza di informazione inimmaginabile fino a qualche anno prima. E infatti, se fino a poco prima realizzare una pubblicazione (anche elettronica) contenente ad esempio i dati sulla popolazione o su qualunque altra cosa a livello comunale avrebbe richiesto 8100 pagine (il numero di Comuni in Italia) riducibili a 4050 pagine (supponendo di scrivere piccolo e di mettere due tavole per pagina), realizzare un Web Warehouse con i dati demografici di tutti i comuni italiani significa di fatto implementare un data base di piccole dimensioni.

Ora tutti gli Enti e le Organizzazioni più importanti diffondono i propri dati per mezzo di un ”Data Warehouse” più o meno sofisticato. Lo scrivo tra virgolette e in corsivo in quanto il termina viene utilizzato molto spesso in maniera impropria per indicare un qualunque data base per la diffusione dati, indipendentemente da come è stato progettato. (Diciamocela tutta: “Data Warehouse” è un termine più “figo”!)

Ma chi è l’utente dei dati? Sia che si tratti di pubblicazioni o di file contenenti tavole di dati, sia che si tratti di sistemi di Warehouse per la generazione a run-time di tavole l’utente è sempre stato visto come il punto finale del processo di diffusione. Questa è però una idea “storica” di utente che trova una collocazione sempre più marginale all’interno del Web. L’utente ha infatti cessato da tempo di essere un “lettore” o un “utilizzatore” del Web per diventarne invece protagonista. Un protagonista che a sua volta veicola l’informazione, la contestualizza, la condivide, la discute, la promuove, la valorizza. In questo nuovo contesto l’idea stessa di “diffusione dati” descritta fino ad ora diventa improvvisamente inadeguata. Questi nuovi scenari sono infatti il terreno ideale per quella che va sotto il nome di “condivisione dei dati” (Data Sharing) . E non è ovviamente un dettaglio lessicale, in quanto il “Data Sharing” ha delle forti implicazioni sia a livello tecnologico che a quello relativo ai comportamenti dell’”utente protagonista”.

In questo caso i dati non vengono più scaricati (e quindi replicati) sul PC dell’utente per poter essere utilizzati, ma vengono rilasciati attraverso modalità tali da consentire di essere facilmente “incorporati” in altri Blog e in altri siti Web oppure visualizzati on line attraverso sistemi di visualizzazione avanzati o ancora utilizzati direttamente da applicazioni e sistemi Web.

DEMO, il sistema che ISTAT utilizza per la diffusione dei dati demografici. Dal 1999, anno del suo rilascio ad oggi è diventato quello che a me piace chiamare un “sistema interconnesso”.

Fin dal suo esordio, sono stati “diffusi” dati in modo che ora definiremmo “tradizionale” attraverso il download di tavole predefinite, di file di dati o mediante i semplici Web Warehouse implementati. (es. Bilancio Demografico)

Ora mi scuso in anticipo con chi da tempo segue SegnalazionIT visto che gli esempi che seguono sono già comparsi in passato in altri articoli. Ma credo che raggrupparli ora tutti assieme possa servire a spigare meglio quanto detto fin’ora.

Nella figura seguente un output “classico” (con layout e stile di dieci anni fa :-) ) di quelli che si possono ottenere connettendosi a DEMO e interrogando il sistema. I dati in tabella sono quelli che riguardano il Bilancio Demografico per l’anno 2008 del comune di Roma.

demo.istat.it - Bilancio Demografico

Supponiamo poi di connetterci con il nostro BlackBerry o con il nostro Nokia N70 a istat.mobi (o mobile.istat.it). Seguendo i link riguardanti il Bilancio Demografico e selezionando il comune di Roma, troveremmo che

mobile.istat.it -  Bilancio Demografico

Ancora, dal sito ufficiale dell’Istat, inserendo il comune di Roma nell’apposito box in Home Page avremmo che

www.istat.it -  Home Page

www.istat.it - Bilancio Demografico

E se volessimo vedere come come questi dati possono essere utilizzati per la realizzazione di una applicazione mash-up con i dati di Google Maps, possiamo connetterci a http://cheapguru.org/comuni,  e ottenere il risultato in figura.

Google Maps e Bilancio Demografico

Oppure possiamo semplicemente copiareincollare il seguente codice su un qualunque blog/sito web

per incorporare all’interno del blog/sito la seguente tabella

Ovviamente gli esempi fatti non sono casuali. I dati infatti sono esattamente gli stessi. E provengono tutti dalle API pubbliche di DEMO. In nessun caso c’è stata una replicazione di dati. I dati sono stati semplicemente condivisi con altre applicazioni, su altri sistemi e attraverso l’utilizzo del codice di “embedding”. DEMO pertanto è stato “agganciato” tramite API agli altri siti web, diventandone parte integrante e condividendo con questi ultimi la parte dati.

In realtà i sistemi e i siti Web che condividono i dati di DEMO secondo queste logiche sono molti di più. Quando a Giugno 2010 saranno disponibili i dati del Bilancio 2009, DEMO e tutti i sistemi interconnessi di cui abbiamo parlato prima nonchè tutti i blog/siti che già hanno e quelli che nel frattempo avranno incorporato l’”embedded code” per la chart o la tabella del comune desiderato presenteranno istantaneamente i nuovi dati. Istantaneamente e senza intermediari. Dal “Data Dissemination” al “Data Sharing”.

Bookmark and Share

Fondamenti di informatica natalizia

Prima di parlare di cloud computing, di pensare al calcolo parallelo, di generare materiali tramite il crowdsourcing, di operare secondo una logica web2.0, di twittare o facebookare, prima di tutto bisognerebbe conoscere “i fondamentali”, come si diceva una volta.

Una breve lezione ci aiuterà a capire meglio le tecnologie alla base dell’informatica moderna.

SegnalazionIT vi augura BUON NATALE!

Bookmark and Share