Χρήστης:Papyrus/Οδηγός Δημιουργίας ψηφιακού ευρετηρίου βιβλιοθήκης

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια

Δημιουργία ψηφιακού ευρετηρίου βιβλιοθήκης

Ένας πρακτικός οδηγός για εύκολη και γρήγορη αναζήτηση στα βιβλία μας

Ο οδηγός αυτός αποσκοπεί στο να δώσει απλά μία γνώμη για την καλύτερη εκμετάλευση των δυνατοτήτων της ψηφιακής εποχής σε σχέση με την αναζήτηση λέξεων, ονομάτων, όρων κ.λπ. στα βιβλία που έχουμε στην κατοχή μας ή στα βιβλία που δανειζόμαστε. Το όφελος είναι μεγάλο, και δεν είναι άλλο, από την ταχύτητα και την ακρίβεια της αναζήτησης.

Πίνακας περιεχομένων

[Επεξεργασία] Σκεπτικό

Ακόμα και στην περίπτωση μιας μικρής προσωπικής βιβλιοθήκης που διαθέτει από 200 έως 500 βιβλία, από κάποιο σημείο και μετά η αναζήτηση των πληροφοριών γίνεται δύσκολη. Σίγουρα, έχοντας διαβάσει το κάθε βιβλίο, την ώρα που αναζητούμε μία πληροφορία, θυμόμαστε ότι "κάπου εκεί" την είχαμε δει, αλλά όσο ο αριθμός των βιβλίων μεγαλώνει, τόσο πιο δύσκολο είναι να βρεθεί το "πού ακριβώς".

Ο σκοπός λοιπόν είναι να δημιουργηθεί μια γενική άποψη του περιεχομένου του κάθε βιβλίου, που να είναι εύκολα και γρήγορα προσβάσιμη. Θα ονομάσω αυτή την "γενική άποψη" ως "Γνωστικό περίγραμμα" του βιβλίου.

Στην εργασία αυτή καλούμαστε να δείξουμε την υπομονή και επιμονή, να πραγματοποιήσουμε σε κάθε βιβλίο περίπου 10-20 σαρώσεις με το scanner μας, ώστε να αποθηκεύσουμε στον Η/Υ μας τα καίρια στοιχεία αναζήτησης που περιέχει το κάθε βιβλίο και αποτελούνται από:

  • Το εξώφυλλο
  • Το εσώφυλλο
  • Τα "Περιεχόμενα"
  • Το "Ευρετήριο"
  • και (προαιρετικά) τη "Βιβλιογραφία"


Εύρεση κειμένου σε αρχείο
Εύρεση κειμένου σε αρχείο

Αυτά τα λίγα αλλά απαραίτητα στοιχεία του κάθε βιβλίου, σε κάθε περίπτωση, θα αποθηκευτούν ως εικόνες στον Η/Υ και μετά θα περαστούν (εκτός από το εξώφυλλο) από ένα πρόγραμμα OCR, ώστε να μετατραπούν, από απλές εικόνες, σε επεξεργάσιμο κείμενο. Αυτά τα μικρά αρχεία κειμένου (σε μορφή .doc ή .txt κ.λπ.) θα είναι πλέον άμεσα προσβάσιμα για αναζήτηση από τον Η/Υ μας, χρησιμοποιώντας την ήδη υπάρχουσα δυνατότητα των Windows, "Έυρεση κειμένου μέσα σε αρχείο". Με τον τρόπο αυτό, η "Εύρεση" θα μας δώσει σε δευτερόλεπτα, σε ποιων βιβλίων τα Περιεχόμενα, ή το Ευρετήριο βρέθηκε η λέξη ή η φράση που ψάχνουμε.

Όπως γίνεται κατανοητό, από τη στιγμή που μιλάμε για ένα μεγάλο αριθμό βιβλίων, η δυνατότητα αυτή μας γλυτώνει από πολύτιμο χρόνο αναζήτησης. Η δουλειά αυτή είναι σίγουρα κουραστική, αλλά το σημαντικό είναι πως θα γίνει μία φορά για το σύνολο των βιβλίων, ενώ από κει και πέρα, η εργασία θα γίνεται κάθε φορά, μόνο στα 1-2 καινούργια βιβλία που αγοράζουμε ή δανειζόμαστε.


Για να είναι πιο χρηστική η λειτουργία αυτή, είναι απαραίτητο να έχουμε φτιάξει από πριν, μία ταξινόμηση "φακέλων" στον σκληρό μας δίσκο, με υποκαταλόγους και ονόματα. Τα ονόματα των φακέλων θα αφορούν γνωστικά αντικείμενα, χρονικές περιόδους κ.λπ.

π.χ.

ΙΣΤΟΡΙΑ (αρχικός φάκελος)

Αρχαία Ελλάδα (υποφάκελος)
Αρχαϊκή Εποχή (υποφάκελος-αντικείμενο 1)
Κλασική Εποχή (υποφάκελος-αντικείμενο 2)
Ελληνιστική Εποχή (υποφάκελος-αντικείμενο 3)

κ.ο.κ.

Επισημαίνω ότι ο οδηγός αυτός είναι σύντομος. Απορίες για την χρήση π.χ. του σαρωτή, μπορούν να λυθούν μετά από αναζήτηση στο διαδίκτυο ή από την επιλογή "Βοήθεια" του λογισμικού ή από τον πωλητή του υλικού. Εδώ δίνεται μόνο ένα κίνητρο για αναζήτηση μεθόδων που ταιριάζουν καλύτερα στον καθένα.

[Επεξεργασία] Τι χρειαζόμαστε

1. Έναν σαρωτή (scanner)

2. Λογισμικό για την ψηφιοποίηση κειμένου (δηλ. για αναγνώριση χαρακτήρων ή αλλιώς OCR)

Ένα τέτοιο πρόγραμμα, μπορεί να αναγνωρίσει μέσα σε μια εικόνα, τυπωμένους χαρακτήρες όπως γράμματα, σημεία στίξης κ.λπ. και να τα μετατρέψει σε επεξεργάσιμο κείμενο, σαν να το είχαμε γράψει στον επεξεργαστή κειμένου. Η τεχνολογία αυτή, στην περίπτωσή μας, προσφέρει την εξαιρετική δυνατότητα της εύρεσης λέξεων ή φράσεων μέσα στο κείμενο που έχει περάσει από OCR. Προγράμματα που να αναγνωρίζουν χαρακτήρες υπάρχουν αρκετά. Όμως, κατά την προσωπική μου άποψη η επιλογή ειδικά για αναγνώριση κειμένου είναι μόνο μία και λέγεται Finereader.


[Επεξεργασία] Δημιουργία ψηφιακού ευρετηρίου βιβλιοθήκης

Η προσωπική μου άποψη είναι ότι για να αποκτηθεί το Γνωστικό περίγραμμα ενός βιβλίου ώστε να δημιουργήσουμε ένα ψηφιακό ευρετήριο για την βιβλιοθήκη μας, χρειάζεται, από τα παρακάτω στοιχεία, να αποθηκευτούν οπωσδήποτε στον Η/Υ μας, τα 1., 2., 3., και 4.. Προαιρετικά, και το 5. το οποίο προσφέρει άλλου είδους σημαντικές υπηρεσίες:


[Επεξεργασία] 1. Το Εξώφυλλο

Σκοπός: αποθήκευση ως έγχρωμη εικόνα

Σάρωση του εξωφύλλου του βιβλίου με:

  • Χρώμα 24bit
  • Ανάλυση στα 72 ή 96 ή 100 dpi το πολύ
  • Αποθήκευση ως εικόνα jpg, με όνομα ίδιο με τον τίτλο του βιβλίου (προφανώς)

Ο ρόλος του εξωφύλλου είναι για πολλούς σημαντικός, αφού μπορεί κατά την αναζήτησή μας, να θυμηθούμε μόνο από το εξώφυλλο, το που βρίσκεται αυτό που ψάχνουμε.


[Επεξεργασία] 2. Η εισαγωγική/ές σελίδα/ες

Σκοπός: αποθήκευση ως ασπρόμαυρη εικόνα & πέρασμα από OCR

Αναφέρομαι στις σελίδες που περιέχουν τα εξής στοιχεία:

  • Έτος πρώτης έκδοσης,
  • Έτη επόμενων εκδόσεων,
  • Τον τίτλο και τον συγγραφέα,
  • Το όνομα του μεταφραστή και τον τίτλο του πρωτοτύπου (αν είναι μετάφραση),
  • Τον εκδοτικό οίκο
κ.λπ.

Οι σελίδες αυτές σαρώνονται με ρύθμιση:

  • Άσπρο-Μαύρο (αγγλ. Black & White ή B&W)
  • Ανάλυση στα 300 dpi
Κατόπιν, οι σελίδες αυτές πρέπει να "διαβαστούν" με το πρόγραμμα OCR και να αποθηκευτούν ως αρχείο .doc ή .rtf ή .txt

"Περιεχόμενα"
"Περιεχόμενα"

[Επεξεργασία] 3. Τα Περιεχόμενα

Σκοπός: αποθήκευση ως ασπρόμαυρη εικόνα & πέρασμα από OCR

Συνήθως οι σελίδες αυτές έχουν επάνω τον τίτλο "Περιεχόμενα" και ο αριθμός τους κυμαίνεται. Συνήθως αποτελούνται από 2 έως 5 σελίδες, αλλά μπορεί να είναι και περισσότερες. Οι σελίδες αυτές συνήθως περιέχουν τους τίτλους των κεφαλαίων και των ενοτήτων και δίπλα ακριβώς, τον αριθμό της σελίδας που θα τα βρούμε.

Οι σελίδες αυτές σαρώνονται επίσης με ρύθμιση:

  • Άσπρο-Μαύρο (αγγλ. Black & White ή B&W)
  • Ανάλυση στα 300 dpi
Κατόπιν, και οι σελίδες αυτές πρέπει να "διαβαστούν" με το πρόγραμμα OCR και να αποθηκευτούν ως αρχείο .doc ή .rtf ή .txt

"Ευρετήριο"
"Ευρετήριο"

[Επεξεργασία] 4. Το Ευρετήριο

Σκοπός: αποθήκευση ως ασπρόμαυρη εικόνα & πέρασμα από OCR

Είναι οι σελίδες που βλέπουμε συνήθως προς το τέλος του βιβλίου και περιέχουν λίστες με σημαντικές λέξεις, ονόματα, χωρία κειμένων κ.ά. και δίπλα τον αριθμό (ή τους αριθμούς) σελίδας που τα βρίσκουμε. Σχεδόν πάντα έχουν επάνω τον τίτλο Ευρετήριο.

Ομοίως, οι σελίδες αυτές σαρώνονται με ρύθμιση:

  • Άσπρο-Μαύρο (αγγλ. Black & White ή B&W)
  • Ανάλυση στα 300 dpi
Οι σελίδες αυτές, και πάλι, θα πρέπει να "διαβαστούν" με το πρόγραμμα OCR και να αποθηκευτούν ως αρχείο .doc ή .rtf ή .txt


[Επεξεργασία] 5. Η Βιβλιογραφία

Σκοπός: αποθήκευση ως ασπρόμαυρη εικόνα & πέρασμα από OCR

"Βιβλιογραφία"
"Βιβλιογραφία"

Η βιβλιογραφία που βρίσκουμε συνήθως προς το τέλος του κάθε βιβλίου, αποτελεί ένα βοηθητικό στοιχείο που εξυπηρετεί πολλαπλούς σκοπούς:

  • Προσφέρει αναγνωστικές επιλογές για περαιτέρω διερεύνηση του θέματος του βιβλίου
  • Δίνει κύρος και αξιοπιστία στο βιβλίο που διαβάζουμε καθώς μας δίνει τις πηγές του, τις οποίες μπορούμε να κρίνουμε
  • Ανάλογα με τον εκδοτικό οίκο και τον συγγραφέα, είναι δυνατόν να γίνεται και το αντίστροφο: Η αναφερόμενη βιβλιογραφία δηλ. να θεωρηθεί τουλάχιστον ενδιαφέρουσα, έως και αξιόπιστη, επειδή τη χρησιμοποίησε ο συγκεκριμένος συγγραφέας

Όπως και παραπάνω, οι σελίδες αυτές σαρώνονται με ρύθμιση:

  • Άσπρο-Μαύρο (αγγλ. Black & White ή B&W)
  • Ανάλυση στα 300 dpi
Ξανά, οι σελίδες αυτές πρέπει να "διαβαστούν" με το πρόγραμμα OCR και να αποθηκευτούν ως αρχείο .doc ή .rtf ή .txt




Βεβαίως, πέρα από το ψηφιακό ευρετήριο, η μελέτη του κάθε βιβλίου που έρχεται στην κατοχή μας είναι αναντικατάστατη. Για τον λόγο αυτό αναφέρω παρακάτω μια άποψη για να αποκομίσουμε όσο το δυνατόν περισσότερα από την ανάγνωση ενός βιβλίου.

[Επεξεργασία] Παραγωγική μελέτη του βιβλίου: ανάγνωση & σημειώσεις

  • Χρειαζόμαστε λογισμικό φύλλου εργασίας ή βάσης δεδομένων (όπως π.χ. το Ms Excel)

Για να αποκτήσουμε γνώση της θεματολογίας ενός βιβλίου, του ύφους του, των επιχειρημάτων του και τελικά της χρησιμότητάς του, δεν μπορούμε παρά να το διαβάσουμε με προσοχή. Ένας τρόπος για να μπορέσουμε να αξιοποιήσουμε τη γνώση που μας προσφέρει, είναι να διαβάσουμε έστω και μία φορά, ολόκληρο το βιβλίο με συγκέντρωση και εστίαση σε ένα σκοπό: Να κρατήσουμε λεπτομερείς σημειώσεις είτε απευθείας σε μια ηλεκτρονική βάση δεδομένων, είτε πρώτα στο χαρτί και μετά στον Η/Υ. Έτσι, αφού ξεκινήσουμε την προσεκτική μελέτη του κειμένου, των σημειώσεων, του κριτικού υπομνήματος κ.λπ., σε αυτή τη βάση δεδομένων (που μπορεί να είναι και ένα λογιστικό φύλλο), όπου θα έχουμε φτιάξει από πριν τις απαραίτητες στήλες και τους τίτλους που εμείς χρειαζόμαστε, θα γράφουμε κάθε τι που θεωρούμε σημαντικό και άξιο να σημειωθεί όπως βλέπουμε στο (πρόχειρο) παράδειγμα της εικόνας.

Παράδειγμα σημειώσεων σε Excel
Παράδειγμα σημειώσεων σε Excel










Η ταξινόμηση και αυτά που θα γράψουμε είναι καθαρά δική μας επιλογή και εξαρτιόνται από την οπτική γωνία που έχουμε και τους λόγους για τους οποίους αποκτήσαμε ένα βιβλίο. Κάποιος, διαβάζοντας το ίδιο κείμενο μπορεί να ενδιαφερθεί για ήθη και έθιμα ενώ άλλος να αναζητά στρατηγική και τεχνικές πολέμου.

Γενικά, όσο πιο λεπτομερής είναι η καταγραφή και κωδικοποίηση των πληροφοριών, τόσο πιο πολύτιμες γίνονται οι πληροφορίες μας. Η εργασία αυτή είναι κουραστική αλλά αξίζει τον κόπο να γίνει με προσοχή και λεπτομέρεια. Άλλλωστε, μετά από μια τέτοια εργασία, το βιβλίο θα το αισθανόμαστε κτήμα μας περισσότερο από κάθε άλλη φορά.


Papyrus