Monday, June 11, 2012

Διαύγεια OCR text extraction

Ένα από τα βασικά θέματα που με απασχόλησαν κατά την δημιουργία της ΥπερΔιαύγειας είναι το πως θα καταφέρω να εξάγω το κείμενο από τα PDFs που είναι δημοσιευμένα ώστε στην συνέχεια να προχωρήσω στη δημιουργία ευρετηρίων αναζήτησης. Αρχικά, χρησιμοποίησα τα poppler tools με πολύ καλά αποτελέσματα στα PDFs που περιείχαν κείμενο. Προσέξτε πολύ αυτό το σημείο: στα PDFs που είχαν κείμενο!

Κατά την υλοποίηση της ΥπερΔιαύγειας παρατήρησα ότι πολλά από τα έγγραφα που δημοσιεύονται στην Διαύγεια είναι PDFs που περιέχουν μόνο εικόνες. Πρόκειται δηλαδή για σκαναρισμένα έγγραφα που στην συνέχεια τα μετατρέπουν σε PDFs. Με αυτό τον τρόπο όμως, δεν υπάρχει οποιαδήποτε πληροφορία κειμένου, πράγμα που απαγορεύει την αναζήτηση, ακόμη και από την προσαρμοσμένη αναζήτηση του Google που χρησιμοποιείται πλέον στο επίσημο site της Διαύγειας.

Ένα τυχαίο παράδειγμα τέτοιων εγγράφων είναι αυτό: static.diavgeia.gov.gr/doc/ΒΟΝ1Γ-ΧΤΖ

Για να λύσω λοιπόν αυτό το ζήτημα προχώρησα στην υλοποίηση συστήματος OCR με βάση το λογισμικό ανοικτού κώδικα Tesseract. Το τελικό σύστημά μου δουλεύει ως εξής για κάθε έγγραφο που θέλω να επεξεργαστώ:
  1. Κατεβάζω το αρχείο PDF
  2. Επιχειρώ να εξάγω κείμενο με βάση το pdftotext (poppler tools)
  3. Αξιολογώ τα αποτελέσματα. Αν είναι ικανοποιητικά αποθηκεύω το κείμενο, τερματίζω και προχωρώ στο επόμενο. Αν όχι συνεχίζω.
  4. Επιχειρώ να εξάγω κείμενο με βάση το tesseract OCR.
  5. Αξιολογώ τα αποτελέσματα. Αν είναι ικανοποιητικά αποθηκεύω το κείμενο και τερματίζω.
  6. Διαφορετικά, δηλώνω σφάλμα και τερματίζω.

Παράδειγμα

Στην συνέχεια, παραθέτω ένα πρακτικό παράδειγμα εξαγωγής κειμένου από το έγγραφο static.diavgeia.gov.gr/doc/ΒΟΝ1Γ-ΧΤΖ

pdftotext output: κενό! Δεν επιστρέφει καμία πληροφορία για το κείμενο.

OCR output: 
AAA: BON1F-XTZ
AN APTHTEA ΣΤΟ AIAMKTYO


“p:
EAAHNIKH AHMOKPATIA Αθήνα 30 Δεκεμβρίου 2011
YFIOYPFEIO FIOAITIZMOY
KAI TOYPIZMOY
Ap. Πρωτ.: 8940
ι" ΕΦΟΡΕ|Α
BYZANTINQN APXAIOTHTQN
Ταχ. Διεύθυνση : Πανος 16
Ταχ. Κώδικας : 105 55
Πληροφορίες : F. Πίκουλης
Τηλέφωνο : 210-3315400
FAX : 210-3315644
e-mail: 1eba@culture.gr
ENTOAH ΠΛΗΡΩΜΗΣ
Έχοντας υποψιν:
Τον N. 1558/85 (ΦΕΚ 137/A/85) «Κυβέρνηση και Κυβερνητικα οργανα»
Το Π.Δ. 191/03 (ΦΕΚ 146/A/03) «Οργανισμος Υπουργείου Πολιτισμού»
To FLA. 186/09 (ΦΕΚ 213/A/O9) «Συγχώνευση των υπουργείων
Πολιτισμού και Τουριστικής Αναπτυξης»
4. Την Υ.Α. με αρ. Yl'll'lO/AOEYl'lY/TOl'lYNZ/1 5/3696/20012004 (ΦΕΚ
180/B/O4) «Μεταβίβαση αρμοδιοτήτων του Υπουργείου Πολιτισμού στις
Περιφερειακές και Ειδικές Περιφερειακές Υπηρεσίες αρμοδιοτητας της
Γενικής Διεύθυνσης Αρχαιοτήτων και Πολιτιστικής Κληρονομιας και
Γενικής Διεύθυνσης Αναστήλωσης Μουσείων και Τεχνικών 'Εργων του
Υπουργείου Πολιτισμού»
5. To Π.Δ. 99/92 (ΦΕΚ 46/A/92) «Μελέτη και Εκτέλεση Αρχαιολογικών εν
γένει έργων»
6. Tov N. 2362/95 (ΦΕΚ 247/A/95) «Περί Δημοσίου Λογιστικού. ελέγχου
των δαπανών του Κρατους και αλλες διαταξεις»
7. Tov N. 2286/95 (ΦΕΚ 19/A/95) «Προμήθειες του δημοσίου τομέα και
ρυθμίσεις συναφών θεματων»
8. To Π.Δ. 118 (ΦΕΚ 150/A/O7) «Κανονισμος Προμηθειών Δημοσίου»
9. To Π.Δ. 134/96 (FEK A/105) τροποποίησης και συμπλήρωσης μερικών
διαταξεων του Π.Δ. 186/92 «Κώδικας βιβλίων και στοιχείων», οπως
ισχυει
10.To Π.Δ. 113/10 (ΦΕΚ 194/A/10) ‹‹Αναληψη υποχρεώσεων απο τους
Διατακτες››
11.Tr]v Y.A. με αρ. 35130/739/10 (ΦΕΚ 1291/8/10) «Αύξηση των
χρηματικών ποσών του αρθρου 83 παρ. 1 του N. 2362/95 για την
σύναψη δημοσίων συμβασεων που αφορούν προμήθεια προιοντων,
παροχή υπηρεσιών ή εκτέλεση έργων»
12.Tov N. 3861/10 (ΦΕΚ 112/A/10) «Ενίσχυση της διαφανειας με την
υποχρεωτική αναρτηση νομων και πραξεων των κυβερνητικών,
P9P)?‘
AAA: BON1F-XTZ
διοικητικών και αυτοδιοικητικών οργανων στο διαδίκτυο «Προγραμμα
Διαύγεια›› και αλλες διαταξεις»
13.Tr]v TAFl/AIOIK/B/6954/39/22.07.2011, αποφαση έκδοσης Χρηματικού
Ενταλματος Προπληρωμής.
14.Tr]v υπ'αριθμ. 1" EBA/8745/21.12.2011 (AAA 45'~|»‘L|-'F-N41) Αναθεση
Προμήθειας Υλικών.
Εγκρίνουμε
Την πληρωμή ποσού τετρακοσίων είκοσι έξι ευρώ και είκοσι εξι λεπτών
(42626 €) με την επιταγή υπί αριθμ. 49394723-0, της Εμπορικής Τραπεζας
A.E., σε διαταγή ΠΕΡΜΕ FIEPIBAAAONTIKH METACDOPIKH A.E., για την
εξοφληση των τιμολογίων υπ' αριθμ. 2065/29.12.2011 και 2066/29.12.2011.
H δαπανη θα βαρύνει τις πιστώσεις του ΤΑΠΑ για δαπανες
διαμορφωσης αρχαιολογικών χώρων 2011.
H Προϊσταμένη
της της Εφορείας Βυζαντινών Αρχαιοτήτων
κ.α.α.
Βασιλική Παπαγεωργίου
Αρχαιολογος ΠΕ
Αν παρατηρήσετε, θα δείτε ότι το αποτέλεσμα δεν είναι τέλειο, σε πολλά σημεία υπάρχουν λάθος χαρακτήρες αλλά η γενική εικόνα του κειμένου είναι πολύ καλή με δεδομένο ότι πρόκειται για μια πλήρως αυτοματοποιημένη διαδικασία χωρίς ανθρώπινη παρέμβαση για training και error correction. 

Γενικά στατιστικά & συμπεράσματα

Εξετάζοντας το σύνολο των δεδομένων της ΥπερΔιαύγειας στις 10 Ιουνίου 2012 έχουμε τα εξής στοιχεία:
Τύπος εγγράφου Πλήθος Ποσοστό
Text PDF
4.566.445
96.9%
OCR PDF
133.568 
2.8%
Σφάλμα
10.433 
0.2%
Σύνολο
4.710.446 

Συμπερασματικά, βλέπετε ότι με την μέθοδο του OCR καταφέραμε να πάρουμε επιπλέον πληροφορίες από 133.568 έγγραφα, περίπου 3% των συνολικών δεδομένων. Ο αριθμός αυτός δεν είναι καθόλου αμελητέος αν σκεφτούμε την ιδιαίτερη σημασία των δεδομένων αυτών.

Το επόμενο βήμα θα της έρευνάς μου θα είναι να αναλύσω τι είδους αποφάσεις είναι αυτές που καταχωρούνται στην Διαύγεια ως εικόνες και αν υπάρχει ιδιαίτερος λόγος που γίνεται αυτό.