Inizio della pagina -
Logo DISCO
|
Visita la Versione ad elevata leggibilità
|
Vai al Contenuto della pagina
|
Vai alla Fine dei contenuti
|
Vai al Menu Principale
|
Vai alla Barra di navigazione (sei in)
|
Vai al Menu di navigazione (albero)
|
Vai alla Lista dei comandi
|
Vai alla Lista degli approfondimenti
|
Vai al Menu inferiore
|
Logo Ateneo
   
Didattica
Text Mining

Codice Insegnamento: F1801Q029

Docente: Fabio Stella

PROGRAMMA

Obiettivi e contenuti:
Il corso ha l’obiettivo di fornire agli studenti conoscenze di base ed avanzate relativamente a modelli ed algoritmi per l’estrazione automatica di conoscenza a partire da dati semi e non strutturati.
Nello specifico Il corso presenta algoritmi di preprocessing per il testo semi e non strutturato; per la standardizzazione, tokenization, lemmatizzazione e generazione di rappresentazioni strutturate. Il corso presenta inoltre architetture software di Text Mining, orientate al dominio, modelli ed algoritmi per l’estrazione della conoscenza quali;  topic extraction, text categorization, documents clustering, information extraction. Circa un terzo del corso è dedicato a esercitazioni a calcolatore tramite codice progettato, implementato e distribuito dal docente.

Programma:
Il programma si compone dei seguenti moduli:

  1. Introduzione al Text Mining
  2. Importazione e preprocessing
  3. Classificazione supervisionata del testo
  4. Raggruppamento semantico di documenti
  5. Estrazione dell’informazione.

Risultati di apprendimento previsti:
Lo studente acquisirà competenze specifiche che gli consentiranno di formulare e risolvere diverse tipologie di problemi di Text Mining in differenti aree applicative quali finanza, business intelligence e bioinformatica. Sarà in grado di progettare, sviluppare e documentare modelli computazionali ed algoritmi per il supporto alle decisioni in condizioni di incertezza, di utilizzare sistemi software per l’estrazione automatica di conoscenza a partire da dati semi e non strutturati.

Prerequisiti:
Ricerca operativa, calcolo delle probabilità e statistica.

PROGRAM

Aims and contents:
The course aims to provide the student with basic and advanced skills in the design and development of computational models and algorithms for automatic extraction of knowledge from semi and unstructured data.
The course will present algorithms for text preprocessing, standardization, lemmatization, tokenization. Architecture of text mining software systems are presented with reference to different application domains. Models and algorithms for topic extraction, text categorization, document clustering and information extraction will be presented with the aim of the MATLAB programming environment. About one third of the course is devoted to hand-on text to extract knowledge from code made available by the teacher.

Program details:

  1. Introduction to Text Mining
  2. Text preprocessing
  3. Supervised classification of text
  4. Topic extraction
  5. Information extraction.

Learning outcomes:
The student will acquire specific skills which allow him/her to formulate and to solve several kinds of Text Mining problems in several areas including finance, business intelligence and bioinformatics. Furthermore, the students will be capable to design and to develop computational algorithms and software systems for automatic knowledge extraction from semi and unstructured data.

Prerequisites:
Operation research, probability and statistics.

Tipo esame:
Progetto e orale

Tipo valutazione:          
Voto finale

Examination:               
Project and oral

Evaluation Type:       
Final mark

Approfondimenti

Google Translate
Translate to English Translate to French Translate to German Translate to Spanish Translate to Chinese Translate to Portuguese Translate to Arabic
Translate to Albanian Translate to Bulgarian Translate to Croatian Translate to Czech Translate to Danish Translate to Dutch Translate to Finnish Translate to Greek Translate to Hindi
Translate to Hungarian Translate to Irish Translate to Japanese Translate to Korean Translate to Norwegian Translate to Polish Translate to Romanian Translate to Russian Translate to Serbian
Translate to Slovenian Translate to Swedish Translate to Thai Translate to Turkish

(C) Copyright 2016 - Dipartimento Informatica Sistemistica e Comunicazione - Viale Sarca, 336
20126 Milano - Edificio U14
redazioneweb@disco.unimib.it - ultimo aggiornamento di questa pagina 11/10/2011