Torna a Eventi FPA

Programma Congressuale

Torna alla home

  da 14:00 a 15:30

Big Data [ ws.108 ]

La sessione prevede un intervento generale, sullo stato attuale e sulle prospettive di utilizzo dei Big Data in Istat, e due interventi specifici relativi a due tipologie di fonti Big, Internet as a Data Source e Social media.
Il primo intervento descrive la roadmap per l’utlizzo dei Big Data in Istat, con le azioni che l’Istat intraprenderà sul breve (dicembre 2016) e medio termine (dicembre 2020).
Il secondo intervento si focalizza sulle sfide metodologiche e tecnologiche relative all’uso di Internet as a Data Source. In particolare: uso di Web scrapers per l’accesso ai dati Web, memorizzazione e accesso a dati poco strutturati, tecniche di text processing e tecniche di classificazione supervisionata.
Infine, il terzo intervento illustra come le tradizionali statistiche mensili sul clima di fiducia dei consumatori, che datano dal 1985, potrebbero nei prossimi anni giovarsi delle tecniche di sentiment analysis applicate ai social media. Dall’Accademia dove sono nate, queste tecniche potrebbero presto entrare nella produzione corrente della Statistica ufficiale con il duplice fine di rendere più tempestivi gli indicatori prodotti e di raggiungere fasce di opinione pubblica sempre meno raggiungibili con le tradizionali tecniche d’indagine.

Programma dei lavori

L'utilizzo dei Big Data in Istat: stato attuale e prospettive

L’intervento mira ad illustrare le attività attualmente portate avanti all’interno dell’Istat, riguardanti:
o la prosecuzione di sperimentazioni dell’uso di fonti di Big Data a fini statistici in fase avanzata: on-line search data, Internet data e mobile phone data, per una messa in produzione nei prossimi 12-18 mesi, relativamente a domini statistici quali (i) l’indagine sulle Forze Lavoro (on-line search data), (ii) l’indagine sull’uso dell’ICT da parte di imprese ed istituzioni (Internet data), (iii) l’indagine sui  Prezzi al consumo (Internet data e scanner data), (iv) Statistiche sulla mobilità e turismo (mobile phone data);
o l’avvio di sperimentazioni con altre fonti Big Data, in particolare Social Network, Immagini (sia da sensori come le webcam che satellitari). I domini potenziali di produzione sono: statistiche sociali (ad esempio indice di fiducia dei consumatori - per i dati da Social Network) e statistiche sul traffico e sull’agricoltura (per le Immagini);
o La predisposizione di un Laboratorio Informatico interno, per “tuning” e analisi di applicazioni, e, in aggiunta, l’avvio di test di utilizzo di data center esterni all’Istat per elaborazioni su scala molto ampia;
o l’investimento in formazione su nuovi skill (riconducibili al filone della data science), sia mediante formazione interna sia mediante collaborazioni accademiche;
o la gestione delle problematiche connesse al trattamento ed alla privacy dei dati di fonte Big, mediante accordi specifici con il Garante per la Privacy;
o la gestione di accordi con Provider di dati Big per la fornitura secondo modelli di business da definire.

Barcaroli
Intervento di Giulio Barcaroli al seminario "Big Data"
Giulio Barcaroli Dipartimento per l'integrazione, la qualità e lo sviluppo delle reti di produzione e di ricerca - ISTAT Biografia Vedi atti


Lavora dal 1977 all’Istituto Nazionale di Statistica, inizialmente nel settore ICT, dal 1992 nel settore metodologico.

Attualmente è’ responsabile del Servizio MSS (“Metodi, Strumenti e Supporto metodologico”), avente l’obiettivo di garantire attività di ricerca, sviluppo e supporto nell’ambito dei metodi per
- la progettazione di strategie campionarie; 
- l’integrazione dei microdati;
- il trattamento degli errori non campionari;
- l’analisi e la sintesi dei dati;
- il disegno dei questionari;
- l’acquisizione e la codifica dei dati;
- la conduzione di indagini per il controllo della qualità;
- l’utilizzo di fonti amministrative e di Big Data  per la produzione di statistiche ufficiali.
Il servizio inoltre concorre allo sviluppo di software generalizzato che implementi i metodi sopra citati, ed è responsabile della gestione del repository di Metodi e Strumenti IT dell’Istituto.
Dal 2012 si occupa in modo particolare dell’uso dei Big Data a fini statistici, ed è uno dei coordinatori del gruppo di lavoro interno che si occupa di tale tematica.
Partecipa alle riunioni del DIME (DIrectors of MEthodology) di EUROSTAT, e fa parte dello Steering Group di tale organismo.
E’ membro del Comitato Metodologie dell’Istituto Nazionale di Statistica.
Ha partecipato a numerosi progetti internazionali di ricerca e sviluppo  nell’ambito dei metodi e degli strumenti per i processi  di produzione delle statistiche ufficiali, nonché a progetti di cooperazione in diversi paesi europei per attività di formazione e supporto alla conduzione di indagini e censimenti.

E’ autore di numerose pubblicazioni, disponibili nel sito  https://www.researchgate.net/profile/Giulio_Barcaroli

Chiudi

Atti di questo intervento

ws_108_giulio_barcaroli.pdf

Chiudi

Internet as a Data Source: scenari di uso di dati raccolti da internet per la produzione statistica

Tra le varie sorgenti di Big data, la fonte Internet è sicuramente tra le più accessibili e promettenti. In particolare, Internet As a Data source (IaD) sta sempre più emergendo come un paradigma che consente di complementare e/o sostituire le fonti tradizionali della Statistica Ufficiale, quali indagini e fonti amministrative.
In questo seminario, illustreremo alcuni esempi di possibili utilizzi di IaD a supporto della Statistica Ufficiale.
Inoltre, forniremo una panoramica delle sfide tecnologiche e metodologiche derivanti dall’utilizzo di tale fonte.
Come running example, illustreremo un progetto sperimentale condotto sotto la supervisione della Commissione Istat su Big Data, relativo all’uso di IaD nell’ambito dell’ ”Indagine sull’uso dell’ICT da parte delle Imprese”. In particolare, descriveremo:
• Sfide nell’utilizzo di Web scrapers per l’accesso ai dati Web.
• Problematiche di memorizzazione e accesso a dati poco strutturati.
• Tecniche di text processing.
• Tecniche di classificazione supervisionata.

Scannapieco
Intervento di Monica Scannapieco al seminario "Big Data"
Monica Scannapieco Direzione centrale per le tecnologie dell'informazione e della comunicazione - ISTAT Biografia Vedi atti

Monica Scannapieco è responsabile dell’Unità Operativa “Sviluppo Sistemi Informatici per la Statistica” della Direzione Centrale per le Tecnologie dell'Informazione e della Comunicazione dell’Istituto Nazionale di Statistica (Istat). Ha conseguito una laurea con lode (2000) ed un dottorato in Ingegneria Informatica (2004) presso SAPIENZA – Università di Roma. 

Come tematiche di ricerca si è occupata di qualità e integrazione dei dati, sistemi informativi cooperativi, modelli e linguaggi basati su XML, metodi e tecniche privacy-preserving. E’ autore di più di 80 pubblicazioni in ambito nazionale ed internazionale con un h-index pari a 20, ha partecipato a 13 progetti di ricerca, di 6 dei quali è stata principal investigator. E’ stata visiting researcher al Department of Computer Science and CERIAS (Center for Education and Research in Information Assurance and Security) dell’ University of Purdue (USA)  e agli AT&T Laboratories, USA.

E’ autore del libro “C. Batini and M. Scannapieco, Data Quality: Concepts, Methodologies, and Techniques, Springer, 2006”.

In Istat, conduce con ruoli di responsabilità diversi progetti che includono il Data Warehouse per la validazione e diffusione dei dati del XV Censimento Generale della Popolazione e delle Abitazioni ed una piattaforma a servizi per la standardizzazione e l’industrializzazione dei processi statistici (Progetto Common Reference Architecture – CORE). Nell’ambito del supporto all’ innovazione della produzione statistica, coordina progetti sperimentali sui temi Linked Open Data e Big Data.

Chiudi

Atti di questo intervento

ws_108_monica_scannapieco.pdf

Chiudi

Uso dei social media per lo studio del sentiment nella statistica ufficiale

Attraverso adeguate metodologie di analisi testuale, Internet e i Social media permettono di cogliere in tempo reale e in modo non sollecitato quello che gli utenti pensano su un certo fenomeno o argomento. Lo studio dell’intensità (positiva/negativa) del sentiment espresso nei Social media permette di avere risultati relativi a sotto popolazioni molto vaste e di creare indicatori quasi continui del sentiment del paese. Dall’Accademia dove sono nati, questi studi potrebbero presto entrare nella produzione corrente della Statistica ufficiale con il duplice fine di rendere più tempestivi gli indicatori prodotti e di raggiungere fasce di opinione pubblica sempre meno raggiungibili con le tradizionali tecniche d’indagine.
Proprio le tradizionali statistiche mensili sul clima di fiducia dei consumatori, che datano dal 1985, potrebbero nei prossimi anni giovarsi del contributo informativo delle opinioni espresse dagli internauti Nel caso della fiducia una fruttuosa sperimentazione dell’uso dei big data è stata realizzata da Statistics Netherlands e dall’ONS britannico raccogliendo dati per tre anni e mezzo hanno mostrato che i trend nella fiducia dei consumatori catturata dai Social media presentano un alto livello di correlazione con quelli del tradizionale indicatore mensile di fiducia.

Righi
Intervento di Alessandra Righi al seminario "Big Data"
Alessandra Righi Direzione centrale delle statistiche economiche congiunturali - ISTAT Biografia Vedi atti

Demografa economica, è responsabile delle Indagini del clima di fiducia della imprese e dei consumatori della Direzione centrale Statistiche economiche congiunturali dell’Istat, dove negli anni passati ha coordinato il Progetto di contabilità del capitale umano e del capitale sociale ed è stata responsabile, dell’European Community Household Panel Survey (ECHP) e di altre indagini, delle Statistiche demografiche del movimento naturale.

Chiudi

Atti di questo intervento

ws_108_alessandra_righi.pdf

Chiudi

Dibattito

De Francisci
Stefano De Francisci Direzione centrale per le tecnologie dell'informazione e della comunicazione - ISTAT Biografia

Stefano De Francisci lavora in Istat dal 1994. Opera in ambito informatico e attualmente dirige il servizio “Regolazione e sviluppo delle tecnologie ICT”. È stato docente a contratto dal 2004 al 2009 presso l’Università di Roma “Sapienza”, dove si è laureato in Scienze Statistiche (1979) e specializzato in Ricerca Operativa e strategie decisionali (1992). Ha tenuto numerose docenze in Master di primo e secondo livello (dal 2003 a oggi). Si occupa anche dell’utilizzo in ambito statistico delle nuove tecnologie informatiche, quali Big Data e Open Data, e del trattamento grafico dell’informazione statistica.

Chiudi

Torna alla home