Data-analyse en retrieval

Website:website met extra informatie
Vakcode:INFOB3DAR
Studiepunten:7.5 ECTS
Periode:periode 4 (week 17 t/m 27, dwz 21-4-2014 t/m 4-7-2014; herkansing week 34)
Timeslot:B
Deelnemers:tot nu toe 60 inschrijvingen
Rooster:Let op: m.i.v. het collegejaar 2008/2009 is het rooster te vinden in Osiris
Docenten:
vormgroeptijdweekzaaldocent
college   di 9.00-10.4517-21 BBL-083 Ad Feelders
Hans Philippi
   
23-26 BBL-083
do 13.15-15.0017-18 BBL-161
19 BBL-065
20-21 BBL-161
23-26 BBL-161
practicum groep 1 di 11.00-12.4517-21 BBL-103 CLZ Ad Feelders
 
BBL-106 CLZ
23-26 BBL-103 CLZ
BBL-106 CLZ
do 15.15-17.0017-21 BBL-109 CLZ
17 BBL-112 CLZ
18-21 BBL-115 CLZ
23 MIN-025
23-26 BBL-115 CLZ
24 BBL-109 CLZ
25-26 MIN-025
groep 2        Hans Philippi
 
werkcollege groep 1        Mark Raasveldt
 
Tentamen:
week: 34di 19-8-20149.00-11.00 uurzaal: BBL-065aanvullende toets
Inhoud:Let op! Dit vak is de opvolger van data mining (INFODM) en Advanced Data Base Systems (INFOADB). Je kunt dit vak derhalve niet opvoeren voor je examen in combinatie met INFODM en/of INFOADB.

In het eerste jaar heb je kennis gemaakt met database systemen. Daarmee kunnen grote hoeveelheden data efficient opgeslagen en bevraagd worden. In dit vak bouwen we hierop voort, waarbij twee belangrijke kwesties aan de orde komen.

De eerste vraag is hoe je omgaat met grote hoeveelheden data die niet de nauwkeurige recordstructuur hebben zoals in databases. De hoeveelheid ongestructureerde data (lees vooral: tekst) in de wereld is een veelvoud van de hoeveelheid gestructureerde data. Het zoeken in teksten vereist een heel andere aanpak, vooral omdat het aantal resultaten zeer groot kan zijn, waardoor ranking op basis van relevantie essentieel wordt. Deze tak van sport duiden we aan me Information Retrieval (IR). Hoewel deze discipline al vrij lang bestaat, is de relevantie in de laatste jaren toegenomen door de behoefte aan zoekmachines op het web.

We zullen kennis maken met basisbegrippen uit de IR: precision, recall, boolean search, indexering en posting lists, term weighting, vector-space-model en relevance feedback. Verder zullen we in detail kijken naar het PageRank-algoritme van Google.

Bij dit gedeelte hoort een practicumopgave waarbij we technieken uit de IR zullen toepassen bij het verwerken van queries op relationele databases, met als probleem dat het aantal resultaten of te groot, of te klein is.

De tweede vraag is hoe we interessante patronen en modellen uit deze data kunnen extraheren. Dit is het vakgebied van de data mining/machine learning. Ook hier zullen we het accent leggen op de analyse van ongestructureerde data (lees wederom: tekst), zoals het gebruik van data mining voor documentclassificatie en - clustering, alsmede voor het ranken van documenten op basis van hun relevantie voor een bepaalde query. Het begrip "document" moet je hier ruim opvatten: het kan bijvoorbeeld ook over webpagina's, e-mail berichten (spam of geen spam?), postings naar een nieuwsgroep of zelfs tweets gaan.

Technieken die hierbij aan de orde komen zijn o.a.: naive Bayes classificatie, nearest neighbour, support vector machines, hierarchisch clusteren en partitioneringsmethoden zoals k-means clustering.

Bij dit gedeelte hoort een practicumopgave waarbij we de in het college behandelde data-analyse technieken zullen toepassen op problemen zoals hierboven aangeduid. Hierbij zullen we gebruik maken van het data-analyse systeem R.

Literatuur:Christopher D. Manning, Prabhakar Raghavan en Hinrich Schuetze, Introduction to Information Retrieval, Cambridge University Press, 2008. Dit boek is hier online beschikbaar.

Verder bestaat de verplichte literatuur uit nader bekend te maken artikelen en de slides van de hoorcolleges.

Werkvorm:Hoorcolleges en practicumsessies.
Toetsvorm:Schriftelijk tentamen en practicumopdrachten.
Inspanningsverplichting voor aanvullende toets:Om aan de aanvullende toets te mogen meedoen moet de oorspronkelijke uitslag minstens 4 zijn.
wijzigen?