L'assignatura introdueix les tècniques més establertes per la resolució de tres tipus de problemes fonamentals: anàlisi de dades binàries ("transaccions"), anàlisi de dades científiques (per exemple, de genòmica) i anàlisi de dades d'empreses, els quals configuren bona part dels problemes que tracta la disciplina. Com objectiu paral·lel està la utilització de l'R, un potent entorn de programació lliure.
De per què un estudiant del grau pot estar interessat en aquesta assignatura:
La Mineria de Dades és la disciplina que s'ocupa de processar grans quantitats de dades provinents de sistemes d'informació complexos de les grans organitzacions, per tal d'extreure'n coneixement rellevant, nou i comprensible, útil per a la presa de decisions en tota mena de contextes, des del comerç electrònic, fins a les xarxes socials, passant per la monitorització de sistemes ambientals, les targetes de fidelització de clients, consum en general, la salut pública, banca, finances o la producció industrial.
Es tracta d'un àrea paraigües on és necessari combinar tècniques i metodologies de diverses àrees informàtiques (com el disseny de data warehouses, el machine learning, la modelització estadística, l'anàlisi multivariant de dades, la visualització de dades, la computació intensiva, l'enginyeria del software) per a donar resposta a la complexitat de l'àrea.
Actualment és clar que el valor de les organitzacions està íntimament lligat a la informació que es pot extreure de les dades que disposa i que encara escasseja el perfil professional adequat per a fer-ho. La mineria de dades és precisament la ciència que transforma les dades en valor per les organitzacions i adquirir competències en aquest àmbit és un excel.lent complement per al professional de la informàtica sigui quina sigui la seva àrea d'especialització.
Per als estudiants de sistemes d'informació aquesta assignatura aporta capacitats per completar el procés de dades: sovint un excel.lent disseny del sistema d'informació de l'organització no és prou aprofitat per manca d'un bon servei d'explotació d'aquesta informació amb la mineria de dades adequada. D'altra banda, conèixer el que es pot haver d'extreure de les dades és un referent important a tenir en compte en el disseny de la pròpia estructura de dades. Als estudiants d'enginyeria del software, els aportarà criteri per poder identificar i estandarditzar serveis de mineria de dades a incloure en els grans aplicatius informàtics que donin suport a l'organització decidint i planificant quin consum de dades es proveeix.
Per als estudiants de l'àrea de tecnologies de la informació, resulta interessant el vincle entre la monitorització en temps real de sistemes fixes o mòbils, i les tècniques de data mining per reduir els senyals a indicadors rellevants, per detectar-ne els events a comunicar o per extreure'n la informació important de forma incremental (data stream mining). L'extracció de coneixement sobre dades distribuïdes o emmagatzemades al núvol és una area d'extrema projecció en el futur immediat.
Per als estudiants de computació, presenta reptes molt interessants relatius al desenvolupament de
nous algoritmes d'extracció d'informació més eficients i/o escalables per atacar conjunts de dades molt massius o altres estructures no tant clàssiques com grafs (social-nets mining) o documents (web mining).
Professorat
Responsable
- Caroline König ( caroline.leonore.konig@upc.edu )
- Karina Gibert Oliveras ( karina.gibert@upc.edu )
- Xavier Angerri Torredeflot ( xavier.angerri@upc.edu )
Altres
- Sergi Ramirez Mitjans ( sergi.ramirez@upc.edu )
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0.4
Aprenentatge autònom
5.6
Competències
Especialitat sistemes d'informació
- CSI2.2 - Concebre, desplegar, organitzar i gestionar sistemes i serveis informàtics, en contextos empresarials o institucionals, per a millorar-ne els processos de negoci; responsabilitzar-se'n i liderar-ne la posada en marxa i la millora contínua; valorar el seu impacte econòmic i social.
- CSI2.3 - Demostrar coneixement i capacitat d'aplicació dels sistemes d'extracció i de gestió del coneixement.
- CSI2.6 - Demostrar coneixement i capacitat d'aplicació dels sistemes d'ajuda a la presa de decisions i de bussines intelligence.
Raonament
- G9.3 - Capacitat crítica, capacitat d'avaluació.
Tercera llengua
- G3.2 - Estudiar amb materials escrits en anglès. Redactar un informe o un treball de tipus tècnic en anglès. Participar en una reunió tècnica en anglès.
Objectius
-
Coneixer la tipologia dels principals problemes de la Mineria de Dades
Competències relacionades: CSI2.3, CSI2.6, CSI2.2, -
Avaluació de la qualitat de les dades i la necessitat del seu preprocessat
Competències relacionades: CSI2.3, CSI2.6, CSI2.2, -
Identificar les tecniques estadístiques i/o d'aprenentatge automàtic més apropiades al problema a resoldre
Competències relacionades: G9.3, CSI2.3, CSI2.6, CSI2.2, -
Implementar algorismes senzills d'aprenentatge
Competències relacionades: G9.3, CSI2.3, CSI2.6, CSI2.2, -
Avaluació dels resultats obtinguts
Competències relacionades: G9.3, CSI2.3, CSI2.6, CSI2.2, -
Presentació dels resultats en un entorn professional per a la presa de decisions
Competències relacionades: G9.3, CSI2.3, CSI2.6, G3.2, CSI2.2,
Continguts
-
Introducció a la Mineria de Dades.
Modelització estadística i tipus de problemes: anàlisi de dades binàries ("transaccions"), anàlisi de dades científiques i anàlisi de dades d'empreses -
Visualització i reducció de la dimensionalitat
Métodes de selecció i extracció de variables. Visualització de dades multivariants. -
Clustering
Métodes de partició directa, jeràrquics i maximització de l'esperança -
Mètodes Predictius
Regressió lineal múltiple i generalitzada. Regressió Logística. Xarxes Neuronals -
Arbres de Decisió
Arbres de regressió i classificació (CART). -
Protocols de validació i remostreig de dades
Holdout, validació creuada i bootstrap -
Generació de regles d'associació
Algorismes A-priori i Eclat. -
Mètodes baiesians
Teoria de la decissió baiesiana. Anàlisi Discriminant LDA, QDA i Naïve Bayes -
Discriminació no paramètrica
Veïns més propers -
Métodes de contracció i selecció de variables en regressió
Regressió lineal regularitzada. Métodes LASSO i Elastic Net -
Anàlisi formal de conceptes
Mètode formal per trobar patrons en dades -
Preprocessament de dades
a -
Bagging i ensemble methods
Bagging i ensemble methods
Activitats
Activitat Acte avaluatiu
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Repas del llenguatge R
Teoria
0h
Problemes
0h
Laboratori
6h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Teoria
4h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h
Teoria
3h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h
Teoria
3h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h
Teoria
3h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h
Teoria
3h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h
Teoria
3h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h
Teoria
3h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Teoria
3h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h
Metodologia docent
L'aprenentatge es farà seguint la metodologia dels casos, a partir de l'anàlisi de conjunts de dades complexes provinents de problemes reals. A partir d'aquests problemes es desenvoluparan els coneixements científics necessaris en classe de teoria i la seva aplicació en les classes de laboratori, de tal manera que la programació i/o integració de funcions de mineria de dades reforçarà l'assimilació dels diferents conceptes explicats. Per això, s'utilitzarà l'entorn de programació lliure R.Les classes de laboratori es dedicaran a resoldre problemes relacionats amb els coneixements proporcionats a les classes de teoria i a la resolució per part dels alumnes (de forma autònoma) d'un problema similar. Aquest problema pot incloure la resolució de preguntes molt breus de caràcter conceptual i serà entregat per ser avaluat. Per últim, els alumnes hauran de realitzar dues pràctiques completes, una de modelització estadística i una altra per resoldre un problema del tipus "científic", "transaccions" o "marketing" (un a escollir). Aquesta darrera pràctica serà presentada de forma oral davant el conjunt de la classe.
Mètode d'avaluació
L'avaluació de l'assignatura es realitzarà a partir de la nota obtinguda en els exercicis desenvolupats durant les sessions de laboratori.Per altra banda es realitzaran dues pràctiques, una realitzada a partir d'un problema de modelització estadística, i l'altra pràctica sobre un dels altres tipus de problemes tractats en l'assignatura. Per cada pràctica l'alumne presentarà el corresponent informe. I per últim, al finalitzar el curs, l'alumne haurà de fer la presentació oral de la segona pràctica.
L'alumne haurà de demostrar en aquests informes i en la presentació haver adquirit els elements de raonament i d'anglès de l'assignatura. Aquests s'avaluaran mitjançant la corresponent rúbrica.
La nota global de laboratori és el promig de les avaluacions dels exercicis desenvolupats a partir de les sessions de laboratori.
La nota final s'obtindrà així:
Labo = nota global de laboratori
Pr1 = nota de la primera pràctica
Pr2 = nota de la segona pràctica
Nota final = 0.2*Labo + 0.4*Pr1 + 0.4*Pr2
En les dues pràctiques, i respecte el seu 40%, el 35% correspon a la correcció tècnica i el 5% correspon a la competència transversal 'raonament', de manera que s'obté un pes global del 10% d'aquesta competència transversal en la nota final.
Bibliografia
Bàsic
-
Construction and assessment of classification rules
- Hand, D.J,
Wiley,
1997.
ISBN: 978-0-471-96583-1
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001900839706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
The elements of statistical learning: data mining, inference, and prediction
- Hastie, T.; Tibshirani, R.; Friedman, J,
Springer,
2009.
ISBN: 0387952845
https://link-springer-com.recursos.biblioteca.upc.edu/book/10.1007/978-0-387-84858-7 -
Introducción a la minería de datos
- Hernández Orallo, J.; Ramírez Quintana, M.J.; Ferri Ramírez, C,
Pearson,
2004.
ISBN: 9788420540917
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002742379706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Data analysis and graphics using R: an example-based approach
- Maindonald, J.H.; Braun, J,
Cambridge University,
2010.
ISBN: 9780521762939
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003210549706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Pattern classification
- Duda, R.O.; Hart, P.E.; Stork, D.G,
John Wiley & Sons,
2001.
ISBN: 0-471-05669-3
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991002131619706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Complementari
-
Aprender de los datos: el análisis de componentes principales: una aproximación desde el Data Mining
- Aluja Banet, T.; Morineau, A,
EUB,
1999.
ISBN: 9788483120224
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991001877509706711&context=L&vid=34CSUC_UPC:VU1&lang=ca
Web links
- Es la pàgina per baixar-se i informar-se sobre el sistema R. http://www.cran.es.r-project.org
- Es la pàgina per baixar-se i informar-se sobre el sistema Weka. http://www.cs.waikako.ac.nz
- Informació general sobre software, cursos, actualitat de la mineria de dades als Estats Units. http://www.kdnuggets.com/