Data-analyse en retrieval

Website:website met extra informatie
Vakcode:INFOB3DAR
Studiepunten:7.5 ECTS
Periode:periode 4 (week 17 t/m 27, dwz 20-4-2015 t/m 3-7-2015; herkansing week 34)
Timeslot:B
Deelnemers:tot nu toe 45 inschrijvingen
Rooster:De officiële roosters staan ook in Osiris
Docenten:
vormgroeptijdweekzaaldocent
college   di 9.00-10.4517-18 BBG-161 Ad Feelders
Hans Philippi
   
20-21 BBG-161
23-26 BBG-161
do 13.15-15.0017-19 BBG-023
21 BBG-023
23-26 BBG-023
practicum groep 1 do 15.15-17.0017-19 BBG-103 CLZ Ad Feelders
 
BBG-201
21 BBG-103 CLZ
BBG-201
23-26 BBG-103 CLZ
BBG-201
werkcollege groep 1        Hans Philippi
Mark Raasveldt
  
Tentamen:
week: 23di 2-6-201511.00-13.00 uurzaal: UNNIK-211
week: 27di 30-6-20158.30-10.30 uurzaal: EDUC-ALFA
week: 34di 18-8-20159.00-11.00 uurzaal: BBG-169aanvullende toets
Inhoud:

Veronderstelde en aanbevolen voorkennis:

  • Databases
  • Graphics (vanwege lineaire algebra)
  • Onderzoeksmethoden informatica of gametechnologie (vanwege statistiek)
Als je deze vakken (of andere vakken waarin je vergelijkbare voorkennis hebt opgedaan) niet hebt gehaald, dan raden we je af dit vak te kiezen.

Inhoud

In het eerste jaar heb je kennis gemaakt met database systemen. Daarmee kunnen grote hoeveelheden data efficient opgeslagen en bevraagd worden. In dit vak bouwen we hierop voort, waarbij twee belangrijke kwesties aan de orde komen.

De eerste vraag is hoe je omgaat met grote hoeveelheden data die niet de nauwkeurige recordstructuur hebben zoals in databases. De hoeveelheid ongestructureerde data (lees vooral: tekst) in de wereld is een veelvoud van de hoeveelheid gestructureerde data. Het zoeken in teksten vereist een heel andere aanpak, vooral omdat het aantal resultaten zeer groot kan zijn, waardoor ranking op basis van relevantie essentieel wordt. Deze tak van sport duiden we aan me Information Retrieval (IR). Hoewel deze discipline al vrij lang bestaat, is de relevantie in de laatste jaren toegenomen door de behoefte aan zoekmachines op het web.

We zullen kennis maken met basisbegrippen uit de IR: precision, recall, boolean search, indexering en posting lists, term weighting, vector-space-model en relevance feedback. Verder zullen we in detail kijken naar het PageRank-algoritme van Google.

Bij dit gedeelte hoort een practicumopgave waarbij we technieken uit de IR zullen toepassen bij het verwerken van queries op relationele databases, met als probleem dat het aantal resultaten of te groot, of te klein is.

De tweede vraag is hoe we interessante patronen en modellen uit deze data kunnen extraheren. Dit is het vakgebied van de data mining/machine learning. Ook hier zullen we het accent leggen op de analyse van ongestructureerde data (lees wederom: tekst), zoals het gebruik van data mining voor documentclassificatie en - clustering, alsmede voor het ranken van documenten op basis van hun relevantie voor een bepaalde query. Het begrip "document" moet je hier ruim opvatten: het kan bijvoorbeeld ook over webpagina's, e-mail berichten (spam of geen spam?), postings naar een nieuwsgroep of zelfs tweets gaan.

Technieken die hierbij aan de orde komen zijn o.a.: naive Bayes classificatie, nearest neighbour, support vector machines, hierarchisch clusteren en partitioneringsmethoden zoals k-means clustering.

Bij dit gedeelte hoort een practicumopgave waarbij we de in het college behandelde data-analyse technieken zullen toepassen op problemen zoals hierboven aangeduid. Hierbij zullen we gebruik maken van het data-analyse systeem R.

Literatuur:Christopher D. Manning, Prabhakar Raghavan en Hinrich Schuetze, Introduction to Information Retrieval, Cambridge University Press, 2008. Dit boek is hier online beschikbaar.

Verder bestaat de verplichte literatuur uit nader bekend te maken artikelen en de slides van de hoorcolleges.

Werkvorm:Hoorcolleges en practicumsessies.
Toetsvorm:Schriftelijk tentamen en practicumopdrachten.
Inspanningsverplichting voor aanvullende toets:Om aan de aanvullende toets te mogen meedoen moet de oorspronkelijke uitslag minstens 4 zijn.
wijzigen?