Advanced database systems

Website:website met extra informatie
Vakcode:INFOADB
Studiepunten:7.5 ECTS
Periode:periode 4 (week 17 t/m 27, dwz 20-4-2009 t/m 3-7-2009; herkansing week 35)
Timeslot:B
Deelnemers:tot nu toe 51 inschrijvingen
Rooster:Let op: m.i.v. het collegejaar 2008/2009 is het rooster te vinden in Osiris
Docenten:Dit is een oud rooster!
vormgroeptijdweekzaaldocent
college          Hans Philippi
 
practicum          Nicola Barile
Rene Kersten
  
Inhoud:In dit vak, dat eens per twee jaar gegeven wordt, behandelen we nieuwe ontwikkelingen op databasegebied. Dit jaar gaan we wederom iets anders doen dan twee jaar geleden, hoewel er raakvlakken zijn.

We gaan kijken naar het grensgebied tussen twee onderwerpen: Information Retrieval (IR) en Database Systems. IR gaat over zoeken in textuele bronnen die niet de strakke structuur van relationele databases hebben, waardoor je deze data op een heel andere manier moet benaderen. Naast een algemene introductie in IR zullen we meer in detail gaan kijken naar twee kanten van de zaak: kan IR de DB-wereld helpen en vice versa?

Een bekend fenomeen uit de IR, dat iedere Google-gebruiker kent, is ranking. Uit een groot aantal mogelijke antwoorden op een query moet een ordening gemaakt worden op relevantie. Voor een query op een database kan eveneens gelden dat het aantal antwoorden veel te groot, of juist te klein is. We zullen kijken naar concepten uit de IR die toepasbaar zijn om dit probleem te lijf te gaan.

De andere kant van de zaak is dat DB-technologie IR kan ondersteunen. Een voorbeeld is de mapping van XML-data naar relationele databases. Een ander voorbeeld is full text search op basis van q-grams: kleine stringfragmenten van vaste grootte die het zoeken in tekstbestanden ondersteunen.

Literatuur:Er is een nieuw boek over IR dat online wordt aangeboden. Ik wil een aantal hoofdstukken uit dit boek als basis gebruiken. Het is geen gek idee om het alvast te downloaden. Daarnaast zal er ander materiaal online of via een reader worden aangeboden.
Werkvorm:We wisselen periodes van hoorcolleges af met periodes waarin je gericht aan het practicum werkt. Voor elke 'kant van de zaak' hebben we een uitgebreide practicumopgave. In concreto: ranking van database queries en q-gram based text search.
Toetsvorm:Het eindcijfer wordt vastgesteld aan de hand van de twee practicumresultaten en een eindtoets.
Inspanningsverplichting voor aanvullende toets:Om aan de aanvullende toets te mogen meedoen moet de oorspronkelijke uitslag minstens 4 zijn.
wijzigen?