Vés al contingut

Mineria de Dades

Crèdits
6
Tipus
Optativa
Requisits
Departament
EIO
Web
https://www-eio.upc.edu/~karina/datamining/
Mail
karina.gibert@upc.edu
La filosofia de la Mineria de Dades és la conversió de dades en coneixement per a la presa de decisions i com a tal constitueix la fase central del procés d'extracció de coneixement a partir de bases de dades (KDD, Knowledge Discovery in Databases). La Mineria de Dades és un punt de trobada de diferents disciplines: l'estadística, l'aprenentatge automàtic (Machine Learning), les tècniques de bases de dades i els sistemes per a la presa de decisions. Juntes, permeten afrontar molts problemes actuals pel que fa al tractament de la informació.
L'assignatura introdueix les tècniques més establertes per la resolució de tres tipus de problemes fonamentals: anàlisi de dades binàries ("transaccions"), anàlisi de dades científiques (per exemple, de genòmica) i anàlisi de dades d'empreses, els quals configuren bona part dels problemes que tracta la disciplina. Com objectiu paral·lel està la utilització de l'R, un potent entorn de programació lliure.

De per què un estudiant del grau pot estar interessat en aquesta assignatura:
La Mineria de Dades és la disciplina que s'ocupa de processar grans quantitats de dades provinents de sistemes d'informació complexos de les grans organitzacions, per tal d'extreure'n coneixement rellevant, nou i comprensible, útil per a la presa de decisions en tota mena de contextes, des del comerç electrònic, fins a les xarxes socials, passant per la monitorització de sistemes ambientals, les targetes de fidelització de clients, consum en general, la salut pública, banca, finances o la producció industrial.

Es tracta d'un àrea paraigües on és necessari combinar tècniques i metodologies de diverses àrees informàtiques (com el disseny de data warehouses, el machine learning, la modelització estadística, l'anàlisi multivariant de dades, la visualització de dades, la computació intensiva, l'enginyeria del software) per a donar resposta a la complexitat de l'àrea.

Actualment és clar que el valor de les organitzacions està íntimament lligat a la informació que es pot extreure de les dades que disposa i que encara escasseja el perfil professional adequat per a fer-ho. La mineria de dades és precisament la ciència que transforma les dades en valor per les organitzacions i adquirir competències en aquest àmbit és un excel.lent complement per al professional de la informàtica sigui quina sigui la seva àrea d'especialització.

Per als estudiants de sistemes d'informació aquesta assignatura aporta capacitats per completar el procés de dades: sovint un excel.lent disseny del sistema d'informació de l'organització no és prou aprofitat per manca d'un bon servei d'explotació d'aquesta informació amb la mineria de dades adequada. D'altra banda, conèixer el que es pot haver d'extreure de les dades és un referent important a tenir en compte en el disseny de la pròpia estructura de dades. Als estudiants d'enginyeria del software, els aportarà criteri per poder identificar i estandarditzar serveis de mineria de dades a incloure en els grans aplicatius informàtics que donin suport a l'organització decidint i planificant quin consum de dades es proveeix.

Per als estudiants de l'àrea de tecnologies de la informació, resulta interessant el vincle entre la monitorització en temps real de sistemes fixes o mòbils, i les tècniques de data mining per reduir els senyals a indicadors rellevants, per detectar-ne els events a comunicar o per extreure'n la informació important de forma incremental (data stream mining). L'extracció de coneixement sobre dades distribuïdes o emmagatzemades al núvol és una area d'extrema projecció en el futur immediat.

Per als estudiants de computació, presenta reptes molt interessants relatius al desenvolupament de
nous algoritmes d'extracció d'informació més eficients i/o escalables per atacar conjunts de dades molt massius o altres estructures no tant clàssiques com grafs (social-nets mining) o documents (web mining).

Professorat

Responsable

Altres

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0.4
Aprenentatge autònom
5.6

Competències

Especialitat sistemes d'informació

  • CSI2 - Integrar solucions de Tecnologies de la Informació i les Comunicacions, i processos empresarials per a satisfer les necessitats d'informació de les organitzacions, permetent que assoleixin els seus objectius de forma efectiva.
    • CSI2.2 - Concebre, desplegar, organitzar i gestionar sistemes i serveis informàtics, en contextos empresarials o institucionals, per a millorar-ne els processos de negoci; responsabilitzar-se'n i liderar-ne la posada en marxa i la millora contínua; valorar el seu impacte econòmic i social.
    • CSI2.3 - Demostrar coneixement i capacitat d'aplicació dels sistemes d'extracció i de gestió del coneixement.
    • CSI2.6 - Demostrar coneixement i capacitat d'aplicació dels sistemes d'ajuda a la presa de decisions i de bussines intelligence.
  • Raonament

  • G9 [Avaluable] - Capacitat de raonament crític, lògic i matemàtic. Capacitat de resoldre problemes en la seva àrea d'estudi. Capacitat d'abstracció: capacitat de crear i utilitzar models que reflecteixin situacions reals. Capacitat de dissenyar i realitzar experiments senzills, i analitzar-ne i interpretar-ne els resultats. Capacitat d'anàlisi, de síntesi i d'avaluació.
    • G9.3 - Capacitat crítica, capacitat d'avaluació.
  • Tercera llengua

  • G3 [Avaluable] - Conèixer l'idioma anglès amb un nivell adequat de forma oral i escrita, i en consonància amb les necessitats que tindran els graduats i les graduades en Enginyeria Informàtica. Capacitat de treballar en un grup multidisciplinar i en un entorn multilingüe i de comunicar, tant per escrit com de forma oral, coneixements, procediments, resultats i idees relacionats amb la professió d'enginyer tècnic en informàtica.
    • G3.2 - Estudiar amb materials escrits en anglès. Redactar un informe o un treball de tipus tècnic en anglès. Participar en una reunió tècnica en anglès.
  • Objectius

    1. Coneixer la tipologia dels principals problemes de la Mineria de Dades
      Competències relacionades: CSI2.3, CSI2.6, CSI2.2,
    2. Avaluació de la qualitat de les dades i la necessitat del seu preprocessat
      Competències relacionades: CSI2.3, CSI2.6, CSI2.2,
    3. Identificar les tecniques estadístiques i/o d'aprenentatge automàtic més apropiades al problema a resoldre
      Competències relacionades: G9.3, CSI2.3, CSI2.6, CSI2.2,
    4. Implementar algorismes senzills d'aprenentatge
      Competències relacionades: G9.3, CSI2.3, CSI2.6, CSI2.2,
    5. Avaluació dels resultats obtinguts
      Competències relacionades: G9.3, CSI2.3, CSI2.6, CSI2.2,
    6. Presentació dels resultats en un entorn professional per a la presa de decisions
      Competències relacionades: G9.3, CSI2.3, CSI2.6, G3.2, CSI2.2,

    Continguts

    1. Introducció a la Mineria de Dades.
      Modelització estadística i tipus de problemes: anàlisi de dades binàries ("transaccions"), anàlisi de dades científiques i anàlisi de dades d'empreses
    2. Visualització i reducció de la dimensionalitat
      Métodes de selecció i extracció de variables. Visualització de dades multivariants.
    3. Clustering
      Métodes de partició directa, jeràrquics i maximització de l'esperança
    4. Mètodes Predictius
      Regressió lineal múltiple i generalitzada. Regressió Logística. Xarxes Neuronals
    5. Arbres de Decisió
      Arbres de regressió i classificació (CART).
    6. Protocols de validació i remostreig de dades
      Holdout, validació creuada i bootstrap
    7. Generació de regles d'associació
      Algorismes A-priori i Eclat.
    8. Mètodes baiesians
      Teoria de la decissió baiesiana. Anàlisi Discriminant LDA, QDA i Naïve Bayes
    9. Discriminació no paramètrica
      Veïns més propers
    10. Métodes de contracció i selecció de variables en regressió
      Regressió lineal regularitzada. Métodes LASSO i Elastic Net
    11. Anàlisi formal de conceptes
      Mètode formal per trobar patrons en dades
    12. Preprocessament de dades
      a
    13. Bagging i ensemble methods
      Bagging i ensemble methods

    Activitats

    Activitat Acte avaluatiu


    Desenvolupament del Tema 1


    Objectius: 1
    Continguts:
    Teoria
    2h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Repas del llenguatge R



    Teoria
    0h
    Problemes
    0h
    Laboratori
    6h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Desenvolupament deTema 2


    Objectius: 2
    Continguts:
    Teoria
    4h
    Problemes
    0h
    Laboratori
    4h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    8h

    Desenvolupament del Tema 3


    Objectius: 2
    Continguts:
    Teoria
    3h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    4h

    Desenvolupament del Tema 4


    Objectius: 2
    Continguts:
    Teoria
    3h
    Problemes
    0h
    Laboratori
    4h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    4h

    Desenvolupament del Tema 5


    Objectius: 2
    Teoria
    3h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    4h

    Desenvolupament del Tema 6


    Objectius: 2
    Continguts:
    Teoria
    3h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    4h

    Desenvolupament del Tema 7


    Objectius: 2
    Continguts:
    Teoria
    3h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    4h

    Desenvolupament del Tema 8


    Objectius: 2
    Teoria
    3h
    Problemes
    0h
    Laboratori
    4h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    4h

    Desenvolupament del Tema 9


    Objectius: 2
    Continguts:
    Teoria
    3h
    Problemes
    0h
    Laboratori
    2h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Desenvolupament del Tema 10


    Objectius: 5
    Continguts:
    Teoria
    3h
    Problemes
    0h
    Laboratori
    4h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    6h

    Practica 1


    Objectius: 2 5 4 3
    Setmana: 13
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Practica 2


    Objectius: 5 4 3 6
    Setmana: 15
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Metodologia docent

    L'aprenentatge es farà seguint la metodologia dels casos, a partir de l'anàlisi de conjunts de dades complexes provinents de problemes reals. A partir d'aquests problemes es desenvoluparan els coneixements científics necessaris en classe de teoria i la seva aplicació en les classes de laboratori, de tal manera que la programació i/o integració de funcions de mineria de dades reforçarà l'assimilació dels diferents conceptes explicats. Per això, s'utilitzarà l'entorn de programació lliure R.

    Les classes de laboratori es dedicaran a resoldre problemes relacionats amb els coneixements proporcionats a les classes de teoria i a la resolució per part dels alumnes (de forma autònoma) d'un problema similar. Aquest problema pot incloure la resolució de preguntes molt breus de caràcter conceptual i serà entregat per ser avaluat. Per últim, els alumnes hauran de realitzar dues pràctiques completes, una de modelització estadística i una altra per resoldre un problema del tipus "científic", "transaccions" o "marketing" (un a escollir). Aquesta darrera pràctica serà presentada de forma oral davant el conjunt de la classe.

    Mètode d'avaluació

    L'avaluació de l'assignatura es realitzarà a partir de la nota obtinguda en els exercicis desenvolupats durant les sessions de laboratori.
    Per altra banda es realitzaran dues pràctiques, una realitzada a partir d'un problema de modelització estadística, i l'altra pràctica sobre un dels altres tipus de problemes tractats en l'assignatura. Per cada pràctica l'alumne presentarà el corresponent informe. I per últim, al finalitzar el curs, l'alumne haurà de fer la presentació oral de la segona pràctica.

    L'alumne haurà de demostrar en aquests informes i en la presentació haver adquirit els elements de raonament i d'anglès de l'assignatura. Aquests s'avaluaran mitjançant la corresponent rúbrica.

    La nota global de laboratori és el promig de les avaluacions dels exercicis desenvolupats a partir de les sessions de laboratori.

    La nota final s'obtindrà així:

    Labo = nota global de laboratori
    Pr1 = nota de la primera pràctica
    Pr2 = nota de la segona pràctica

    Nota final = 0.2*Labo + 0.4*Pr1 + 0.4*Pr2

    En les dues pràctiques, i respecte el seu 40%, el 35% correspon a la correcció tècnica i el 5% correspon a la competència transversal 'raonament', de manera que s'obté un pes global del 10% d'aquesta competència transversal en la nota final.

    Bibliografia

    Bàsic

    Complementari

    Web links

    Capacitats prèvies

    Fonaments de probabilitat i estadística. Programació bàsica en R