Nell’ambito dei finanziamenti del “Bando Unico 2012″

SenTaClAus

Sentiment Tagging & Clustering Analysis on web & social contents

Onepage

Home

SenTaClAus il progetto di Ricerca Industriale e Sviluppo Sperimentale

ssenTaClAus è un progetto di Ricerca Industriale e Sviluppo Sperimentale presentato da Net7, insieme alle aziende Studio Flu Srl e SpazioDati Srl, alla Regione Toscana, nell’ambito dei finanziamenti del “Bando Unico 2012″.

Il progetto si è classificato undicesimo fra i circa 90 della linea A valutati ed è stato quindi ammesso al finanziamento.

SenTaClAus è un acronimo per “Sentiment Tagging & Clustering Analysis on web & social contents”, sigla che riassume i temi principali del progetto.

Da un lato infatti SenTaClAus verterà sull’analisi e sull’estrazione di semantica da documenti di testo (Text Analysis), mentre dall’altro si concentrerà sull’individuazione di tendenze, comportamenti e opinioni degli utenti a partire dall’analisi dei contenuti pubblicati sui Social Networks (Trend Analysis).

In SenTaClAus è poi prevista la collaborazione del gruppo Advanced Algorithms and Applications (A3) del Dipartimento di Informatica dell’Università di Pisa, che fa capo al Prof. Ferragina: la sua attività di ricerca nell’ambito di Entity Extraction e Semantic Tagging, che ha ottenuto numerosi riconoscimenti in ambito accademico, sarà alla base delle realizzazioni sperimentate nel progetto.



Il Progetto

Text and Trend Analysis

lla capacità di un elaboratore di manipolare grandi quantità di documenti di testo, che rappresentano la stragrande maggioranza dei contenuti digitali su web e non, dipende dalla possibilità di crearne delle “sintesi” machine-readable.

Esistono due approcci a questo problema: il primo, proveniente dal mondo dei motori di ricerca, consiste nell’indicizzare un insieme di parole senza tentare di carpirne il significato. Il secondo, più recente, punta sulla capacità di comprendere la semantica del testo individuando in esso i termini rilevanti e le relazioni che li legano.

L’affermarsi dei Social Network e la crescente importanza che essi rivestono nell’osservazione di dinamiche sociali e di mercato, ha portato ad un aumento vertiginoso della domanda di strumenti di Social Media Analysis.

Tali strumenti sono per lo più basati su analisi del testo di tipo sintattico, che, sebbene efficaci per i motori di ricerca, non sono sufficienti a catturare la complessità necessaria in questi contesti.

Il presupposto per poter realizzare strumenti efficaci di Social Media Analysis dipende quindi dalla qualità delle sottostanti tecnologie di analisi dei testi.

Sfruttando la conoscenza pregressa delle tre PMI coinvolte e del gruppo di ricerca A3 dell’Università di Pisa, diretto dal prof. Paolo Ferragina, il progetto SenTaClAus vuole svolgere delle attività di ricerca su sistemi software per:

– l’analisi e l’estrazione di semantica da documenti di testo (Text Analysis)
– l’individuazione di tendenze, comportamenti e opinioni degli utenti a partire dall’analisi dei contenuti pubblicati sui Social Networks (Trend Analysis).

Sulla base dei risultati sperimentali saranno costruiti dei prototipi volti a testare la possibilità di erogazione di servizi in ottica Cloud Computing sotto forma di software-as-a-service che, migliorando in modo significativo lo stato dell’arte, offriranno alle PMI un importante vantaggio competitivo.

I Partners

I Partners

Netseven
Netseven


Net7 nasce nel 2001 e si specializza subito come system integrator in ambiente Open Source.

Spazio Dati
Spazio Dati

Sfruttando tecnologie Big Data e Semantic Web, realizzano dataspace multidimensionali che aggregano centinaia di sorgenti dati Open e proprietarie.

Lab of Advanced Algorithms and Applications
Lab of Advanced Algorithms and Applications

Gruppo di ricerca dell’Università di Pisa, diretto dal prof. Paolo Ferragina

Documenti

Documentazione del progetto

Pubblichiamo di seguito una selezione dei deliverable di progetto.

  • Presentazione delle API di Text Analysis sviluppate in SenTaClAus. 2° Open Day di Progetto, Navacchio (Pisa) 02/10/2014

  • Presentazione del servizio di Trend Analysis sviluppato in SenTaClAus

Eventi e convegni SenTaClAus

  • 1° Open Day di progetto – Net7, Pisa, 14/02/2014
  • 2° Open Day di Progetto – Auditorium del Polo di Navacchio (Pisa), 02/10/2014
  • Conferenza di progetto, Dipartimento di Informatica dell’Università di Pisa, 23/03/2015


Pubblicazioni scientifiche prodotte in SenTaClAus

  • Ugo Scaiella, Michele Barbera, Stefano Parmesan, Gaetano Prestia, Emilio Del Tessandoro e Mario Verì, DataTXT at #Microposts 2014. In Proceedings of the 4th Workshop on Making Sense of Microposts (#Microposts2014) at International World Wide Web Conference (WWW ’14). [ref, pdf]
  • Marco Cornolti, Paolo Ferragina, and Massimiliano Ciaramita. 2013. A framework for benchmarking entity-annotation systems. In Proceedings of the 22nd international conference on World Wide Web (WWW ’13). International World Wide Web Conferences Steering Committee, Republic and Canton of Geneva, Switzerland, 249-260. [ref, pdf]

Seminari ed eventi

Il Prof. Paolo Ferragina, quale direttore del laboratorio A³ del Dipartimento di Informatica dell’Università di Pisa e partner del progetto SenTaClAus, ha avuto modo di presentare parte dei risultati del progetto ai seguenti eventi/seminari:

  • Invited talk su “Reti Sociali: algoritmi, analisi del linguaggio e applicazioni” nell’ambito dell’incontro su Social Banking organizzato da KPMG, svoltosi a Milano. Maggio 2013.
  • Invited speaker alla PhD School su “Computational Social Science: Big Data”, Lipari, Luglio 2013. Ha tenuto un corso su “Beyond the Bag-Of-Words Paradigm”.
  • Workshop su “ICT and Knowledge Acceleration” nell’ambito delle attività di valorizzazione della ricerca dell’Università di Pisa e del Polo ICT toscano, con la partecipazione di diversi stakeholder dell’ecosistema del Trasferimento Tecnologico regionale e nazionale. Settembre 2013.
  • Paolo Ferragina, Algorithmic challenges in data storage and indexing, workshop on Next Generation Data Center in the context of the European Conference on Network and Communication, Bologna, June 23,2014
  • Paolo Ferragina e Raffaele Perego, Motori di Ricerca, evento nell’ambito del T-Tour presso l’Internet Festival, Ottobre 2014, Pisa.
  • StartUp Saturday, Firenze 13 Dicembre 2014, Paolo Ferragina (Università di Pisa) e Gabriele Antonelli (founder SpazioDati), “Big Data e Motori di Ricerca”. (http://www.startupsaturday.it/events/come-utilizzare-i-big-data-per-il-business/ )

Altre pubblicazioni scientifiche attinenti al progetto

  • Daniele Vitale, Paolo Ferragina, and Ugo Scaiella. 2012. Classification of short texts by deploying topical annotations. In Proceedings of the 34th European conference on Advances in Information Retrieval (ECIR’12), Ricardo Baeza-Yates, Arjen P. Vries, Hugo Zaragoza, B. Barla Cambazoglu, and Vanessa Murdock (Eds.). Springer-Verlag, Berlin, Heidelberg, 376-387. [ref]
  • Ugo Scaiella, Paolo Ferragina, Andrea Marino, and Massimiliano Ciaramita. 2012. Topical clustering of search results. In Proceedings of the fifth ACM international conference on Web search and data mining (WSDM ’12). ACM, New York, NY, USA, 223-232. [ref]
  • Paolo Ferragina and Ugo Scaiella. 2012. Fast and Accurate Annotation of Short Texts with Wikipedia Pages. IEEE Softw. 29, 1 (January 2012), 70-75. [ref]
  • Paolo Ferragina and Ugo Scaiella. 2010. TAGME: on-the-fly annotation of short text fragments (by wikipedia entities). In Proceedings of the 19th ACM international conference on Information and knowledge management (CIKM ’10). ACM, New York, NY, USA, 1625-1628. [ref, tech. rep.]

Altri seminari ed eventi attinenti al progetto

  • Invited speaker alla Industrial-Track della European Conference on Information Retrieval (ECIR), Barcellona (ES), con un talk dal titolo “Topic-based annotation of short texts, with applications”. Aprile 2012.
  • Seminario di 8 ore dal titolo “I motori di ricerca: passato, presente e futuro prossimo”, svoltosi nell’ambito delle attività di scouting e marketing svolte da Lucense (Lucca) quale soggetto gestore del Polo di Innovazione INNOPAPER. Ottobre 2012.