Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών

HY463, Συστήματα Ανάκτησης Πληροφοριών

2004-2005 Εαρινό Εξάμηνο

 

1η Σειρά ασκήσεων  (Αξιολόγηση)

Ημερομηνία Παράδοσης:

Άσκηση 1 (5 βαθμοί)

Θεωρείστε ένα Σύστημα Ανάκτησης Πληροφοριών από μια συλλογή 40 εγγράφων. Υποθέστε ότι υποβάλλουμε μια επερώτηση q στο σύστημα και αυτό μας επιστρέφει την ακόλουθη λίστα όπου R συμβολίζει ένα συναφές έγγραφο και Ν ένα μη συναφές έγγραφο. 

 

R N N N R R N N N N R N N N R N N R N N R N N N N N N N R

 

Το αριστερότερο στοιχείο παριστάνει το υψηλότερα σταθμισμένο έγγραφο, αυτό που το σύστημα πιστεύει ως το πιο συναφές με την επερώτηση q. Η λίστα περιέχει 8 συναφή έγγραφα. Θεωρείστε ότι υπάρχουν ακόμα 2 συναφή έγγραφα τα οποία δεν ανακτήθηκαν από το σύστημα.

 

Βασιζόμενοι σε αυτή τη λίστα υπολογίστε τα ακόλουθα μέτρα:

  1. Μέση ακρίβεια (average precision)
  2. Ακρίβεια στο 50% της ανάκλησης
  3. Ακρίβεια στο 33% της ανάκλησης (interpolated)
  4. Σχεδιάστε την καμπύλη ανάκλησης-ακρίβειας.
  5. Υποθέτοντας ότι η διάταξη είναι απλή, υπολογίστε το μήκος αναζήτησης (search length) για n=4,
  6. Τo μέτρο R-precision (εδώ 10-Precision)
  7. To μέτρο Fallout

 

Άσκηση 2 (5 βαθμοί)

Υποθέστε ότι έχουμε μια συλλογή εγγράφων και κ διαφορετικά συστήματα ανάκτησης πληροφοριών από αυτή τη συλλογή. Ένας τρόπος για να βρούμε τα περισσότερα έγγραφα που είναι συναφή με ένα συγκεκριμένο ερώτημα είναι το «pooling». Σύμφωνα με τη μέθοδο αυτή, κρίνουμε (ως προς τη συνάφεια) τα κορυφαία Ν έγγραφα από αυτά που ανέκτησε το κάθε σύστημα και το σύνολο συναφών εγγράφων που προκύπτει από αυτή τη διαδικασία θεωρούμε ότι είναι πλήρες. Υποθέστε ότι Ν=100. Είναι πολύ πιθανόν ότι μερικά από τα συναφή έγγραφα της συλλογής θα μας έχουν ξεφύγει – οποιοδήποτε συναφές έγγραφο το οποίο δεν ανήκει στα κορυφαία 100 κανενός συστήματος, αποκλείεται.

 

Ποιο είναι το αντίκτυπο των απόντων συναφών εγγράφων στην αξιολόγηση βάσει μέσης ακρίβειας; Με άλλα λόγια, πώς αλλάζει η τιμή της μέσης ακρίβειας σε σχέση με την ιδανική περίπτωση στην οποία όλα τα συναφή έγγραφα ήταν γνωστά (προκύπτει μικρότερη ή μεγαλύτερη τιμή);

Απαντήστε αυτή την ερώτηση:

(α) για τα συστήματα που συμμετέχουν στο pool, και

(β) για τα συστήματα που δεν συμμετέχουν στο pool.

 Επίσης σχολιάστε την περίπτωση που Ν=20. Δικαιολογείστε τις απαντήσεις σας.

 

Καλή επιτυχία