Showing posts with label ΔΙΑΥΓΕΙΑ. Show all posts
Showing posts with label ΔΙΑΥΓΕΙΑ. Show all posts

Monday, May 19, 2014

GRGOV Mobile Search - 3η θέση στο open data hackathon


Η εφαρμογή GRGOV Mobile Search που επιτρέπει σε όλους τους κατόχους κινητών τηλεφώνων με πρόσβαση στο διαδίκτυο να κάνουν αναζητήσεις και να έχουν πλήρη πρόσβαση στα σημαντικότερα ανοικτά δημόσια δεδομένα του ελληνικού κράτους κέρδισε την 3η θέση στο 1ο Open Data Hackathon που διοργάνωσε το Υπουργείο Δημοσίας Διοίκησης και Ηλεκτρονικής Διακυβέρνησης.

Η εφαρμογή δίνει τη δυνατότητα αναζήτησης από το κινητό:
  • Σε όλες τις αποφάσεις των δημόσιων φορέων που δημοσιεύονται στο πρόγραμμα Διαύγεια,
  • Στα Φύλλα Εφημερίδας της Κυβερνήσεως (Φ.Ε.Κ.) που δημοσιεύονται από το Εθνικό Τυπογραφείο
  • Σε όλες τις δημόσιες προκηρύξεις και συμβάσεις από το Κεντρικό Ηλεκτρονικό Μητρώο Δημοσίων Συμβάσεων.
    Βράβευση από τον Πρύτανη του Χαροκόπειου Πανεπιστημίου, Δημοσθένη Αναγνωστόπουλο
    Βράβευση από τον Πρύτανη του Χαροκόπειου Πανεπιστημίου, Δημοσθένη Αναγνωστόπουλο
Άρθρο για την ημερίδα στο openaccess.gr/blog/

Monday, December 30, 2013

ΥπερΔιαύγεια και στο Μητρώο Δημοσίων Συμβάσεων (ΚΗΜΔΗΣ) eprocurement.gov.gr

Η ΥπερΔι@ύγεια δημιουργήθηκε με στόχο να βελτιώσει την πρόσβαση στα δεδομένα που αναρτώνται στο πρόγραμμα Διαύγεια. Από σήμερα, ο ρόλος της διευρύνεται και μπορεί πλέον να πραγματοποιεί αναζητήσεις και στο Κεντρικό Ηλεκτρονικό Μητρώο Δημοσίων Συμβάσεων (ΚΗΜΔΗΣ), eprocurement.gov.gr. Όπως αναφέρεται στην ιστοσελίδα του ΕΣΗΔΗΣ:
Το Εθνικό Σύστημα Ηλεκτρονικών Δημοσίων Συμβάσεων (ΕΣΗΔΗΣ) αποτελεί το κεντρικό ηλεκτρονικό κόμβο - σημείο αναφοράς - για τις δημόσιες συμβάσεις στην Ελλάδα. Στόχος του είναι ο εκσυγχρονισμός και η απλοποίηση των διαδικασιών ανάθεσης και η υποστήριξη των ενδιαφερομένων (πολίτες, αναθέτουσες αρχές, προμηθευτές, εποπτικές αρχές).
Δυστυχώς όμως η ιστοσελίδα του συστήματος πάσχει και προβληματίζει ιδιαίτερα τους χρήστες της!

Πλέον, οι πολίτες μπορούν να επισκέπτονται την yperdiavgeia.gr, να επιλέγουν την καρτέλα ΚΗΜΔΗΣ και να πραγματοποιούν εύκολα και γρήγορα τις αναζητήσεις τους. Η ΥπερΔιαύγεια ευρετηριάζει όχι μόνο τα μεταδεδομένα των δημοσίων προκηρύξεων και συμβάσεων, αλλά και το πλήρες κείμενό τους.

Μπαίνοντας στο yperdiavgeia.gr, επιλέγεις αν θα ψάξεις στα δεδομένα της Διαύγειας ή του ΚΗΜΔΗΣ (eprocurement.gov.gr)
Η υλοποίηση αυτής της νέας λειτουργίας της ΥπερΔιαύγειας δεν θα ήταν δυνατή χωρίς την πολύτιμη συμβολή των δημιουργών του εργαλείου ανάκτησης δεδομένων από ιστοσελίδες DEiXTo. Δείτε πώς κατάφεραν να ανακτήσουν τα δεδομένα σε αυτό το άρθρο: Building an RSS feed for the Greek e-procurement platform.

Wednesday, December 26, 2012

ΥπερΔι@ύγεια: Τώρα και backup των αποφάσεων της Δι@ύγειας

Ένα από τα σημαντικότερα προβλήματα της Δι@ύγειας είναι ότι πολύ συχνά το site δεν είναι διαθέσιμο. Παραδείγματα υπάρχουν πολλά: http://www.inews.gr/63/epese-i-diavgeia.htm , http://news247.gr/eidiseis/sthles/paratypos/epese_h_diaugeia.2012444.html).

Τα προβλήματα αυτά όντως είναι αρκετά συχνά και εξηγούνται αν λάβουμε υπόψη τον μεγάλο αριθμό χρηστών, των μεγάλο όγκο των δεδομένων και την πολυπλοκότητα του συστήματος, καθώς επίσης και την δεδομένη αποδοτικότητα των ελληνικών δημοσίων υπηρεσιών που διαχειρίζονται την Δι@ύγεια :)

Τα προβλήματα αυτά επηρεάζουν πολλούς δημοσίους υπαλλήλους (και όχι μόνο) που χρησιμοποιούν την Δι@ύγεια καθώς δεν μπορούν να έχουν πρόσβαση στα έγγραφα για να κάνουν την δουλειά τους.

Η ΥπερΔι@ύγεια έρχεται να δώσει λύση σε αυτό το πρόβλημα κάνοντας backup των αποφάσεων της Δι@ύγειας.

Από σήμερα, η ΥπερΔι@ύγεια αποθηκεύει αντίγραφα των πιο πρόσφατων αποφάσεων της Δι@ύγειας και δίνει την δυνατότητα σε όλους να έχουν πρόσβαση όταν η Δι@ύγεια δεν λειτουργεί. Έτσι, στα αποτελέσματα μιας αναζήτησης στην ΥπερΔι@ύγεια θα δείτε πως σε πολλές εγγραφές θα υπάρχει ένα link με τίτλο "Αποθηκευμένο PDF" που δίνει πρόσβαση στο αποθηκευμένο αρχείο.

Το πρόβλημα για την ώρα είναι ότι λόγο του μεγάλου όγκου των δεδομένων, δεν είναι δυνατό να αποθηκευτούν όλα τα δεδομένα της Δι@ύγειας αλλά μόνο αυτά των τελευταίων μηνών κάθε φορά.

Tuesday, July 24, 2012

Προεπισκόπηση εγγράφων της Διαύγειας για ταχύτερη αναζήτηση

Δεν είναι λίγες οι περιπτώσεις που κάποιος χρήστης αναζητώντας πληροφορίες στην Διαύγεια χρειάζεται να κατεβάσει ένα ή περισσότερα μεγάλα αρχεία PDF για να διαπιστώσει τελικά ότι δεν ήταν αυτό που έψαχνε.
Η λύση σε αυτό το πρόβλημα δίνεται με την Προεπισκόπηση Εγγράφων που υλοποιήθηκε στην Υπερδιαύγεια.
Στα δεξιά των αποτελεσμάτων υπάρχουν μικρογραφίες της 1ης σελίδας των εγγράφων

Πατώντας στην μικρογραφία ενός εγγράφου, ο χρήστης βλέπει την πρώτη σελίδα του σε κανονικό μέγεθος
Στα δεξιά των αποτελεσμάτων αναζήτησης, ο χρήστης βλέπει μικρογραφίες της 1ης σελίδας όλων των εγγράφων που εμφανίζονται. Πατώντας σε μια μικρογραφία, ο χρήστης μπορεί να δει σε πλήρες μέγεθος την πρώτη σελίδα του εγγράφου και μετά να αποφασίσει αν θέλει να δει το έγγραφο στην Διαύγεια ή να το κλείσει.


Με την εφαρμογή της προεπισκόπησης, οι χρήστες γλυτώνουν πολύ χρόνο καθώς αποφεύγουν να κατεβάζουν μεγάλα αρχεία PDF που δεν χρειάζονται.


Τεχνικά, η προεπισκόπηση γίνεται με την βοήθεια του ghostscript
/usr/bin/gs -q -sDEVICE=pnggray -o "outputfile" -sPAPERSIZE=a4 -dFirstPage=1 -dLastPage=1 "inputfile"






Monday, June 11, 2012

Διαύγεια OCR text extraction

Ένα από τα βασικά θέματα που με απασχόλησαν κατά την δημιουργία της ΥπερΔιαύγειας είναι το πως θα καταφέρω να εξάγω το κείμενο από τα PDFs που είναι δημοσιευμένα ώστε στην συνέχεια να προχωρήσω στη δημιουργία ευρετηρίων αναζήτησης. Αρχικά, χρησιμοποίησα τα poppler tools με πολύ καλά αποτελέσματα στα PDFs που περιείχαν κείμενο. Προσέξτε πολύ αυτό το σημείο: στα PDFs που είχαν κείμενο!

Κατά την υλοποίηση της ΥπερΔιαύγειας παρατήρησα ότι πολλά από τα έγγραφα που δημοσιεύονται στην Διαύγεια είναι PDFs που περιέχουν μόνο εικόνες. Πρόκειται δηλαδή για σκαναρισμένα έγγραφα που στην συνέχεια τα μετατρέπουν σε PDFs. Με αυτό τον τρόπο όμως, δεν υπάρχει οποιαδήποτε πληροφορία κειμένου, πράγμα που απαγορεύει την αναζήτηση, ακόμη και από την προσαρμοσμένη αναζήτηση του Google που χρησιμοποιείται πλέον στο επίσημο site της Διαύγειας.

Ένα τυχαίο παράδειγμα τέτοιων εγγράφων είναι αυτό: static.diavgeia.gov.gr/doc/ΒΟΝ1Γ-ΧΤΖ

Για να λύσω λοιπόν αυτό το ζήτημα προχώρησα στην υλοποίηση συστήματος OCR με βάση το λογισμικό ανοικτού κώδικα Tesseract. Το τελικό σύστημά μου δουλεύει ως εξής για κάθε έγγραφο που θέλω να επεξεργαστώ:
  1. Κατεβάζω το αρχείο PDF
  2. Επιχειρώ να εξάγω κείμενο με βάση το pdftotext (poppler tools)
  3. Αξιολογώ τα αποτελέσματα. Αν είναι ικανοποιητικά αποθηκεύω το κείμενο, τερματίζω και προχωρώ στο επόμενο. Αν όχι συνεχίζω.
  4. Επιχειρώ να εξάγω κείμενο με βάση το tesseract OCR.
  5. Αξιολογώ τα αποτελέσματα. Αν είναι ικανοποιητικά αποθηκεύω το κείμενο και τερματίζω.
  6. Διαφορετικά, δηλώνω σφάλμα και τερματίζω.

Παράδειγμα

Στην συνέχεια, παραθέτω ένα πρακτικό παράδειγμα εξαγωγής κειμένου από το έγγραφο static.diavgeia.gov.gr/doc/ΒΟΝ1Γ-ΧΤΖ

pdftotext output: κενό! Δεν επιστρέφει καμία πληροφορία για το κείμενο.

OCR output: 
AAA: BON1F-XTZ
AN APTHTEA ΣΤΟ AIAMKTYO


“p:
EAAHNIKH AHMOKPATIA Αθήνα 30 Δεκεμβρίου 2011
YFIOYPFEIO FIOAITIZMOY
KAI TOYPIZMOY
Ap. Πρωτ.: 8940
ι" ΕΦΟΡΕ|Α
BYZANTINQN APXAIOTHTQN
Ταχ. Διεύθυνση : Πανος 16
Ταχ. Κώδικας : 105 55
Πληροφορίες : F. Πίκουλης
Τηλέφωνο : 210-3315400
FAX : 210-3315644
e-mail: 1eba@culture.gr
ENTOAH ΠΛΗΡΩΜΗΣ
Έχοντας υποψιν:
Τον N. 1558/85 (ΦΕΚ 137/A/85) «Κυβέρνηση και Κυβερνητικα οργανα»
Το Π.Δ. 191/03 (ΦΕΚ 146/A/03) «Οργανισμος Υπουργείου Πολιτισμού»
To FLA. 186/09 (ΦΕΚ 213/A/O9) «Συγχώνευση των υπουργείων
Πολιτισμού και Τουριστικής Αναπτυξης»
4. Την Υ.Α. με αρ. Yl'll'lO/AOEYl'lY/TOl'lYNZ/1 5/3696/20012004 (ΦΕΚ
180/B/O4) «Μεταβίβαση αρμοδιοτήτων του Υπουργείου Πολιτισμού στις
Περιφερειακές και Ειδικές Περιφερειακές Υπηρεσίες αρμοδιοτητας της
Γενικής Διεύθυνσης Αρχαιοτήτων και Πολιτιστικής Κληρονομιας και
Γενικής Διεύθυνσης Αναστήλωσης Μουσείων και Τεχνικών 'Εργων του
Υπουργείου Πολιτισμού»
5. To Π.Δ. 99/92 (ΦΕΚ 46/A/92) «Μελέτη και Εκτέλεση Αρχαιολογικών εν
γένει έργων»
6. Tov N. 2362/95 (ΦΕΚ 247/A/95) «Περί Δημοσίου Λογιστικού. ελέγχου
των δαπανών του Κρατους και αλλες διαταξεις»
7. Tov N. 2286/95 (ΦΕΚ 19/A/95) «Προμήθειες του δημοσίου τομέα και
ρυθμίσεις συναφών θεματων»
8. To Π.Δ. 118 (ΦΕΚ 150/A/O7) «Κανονισμος Προμηθειών Δημοσίου»
9. To Π.Δ. 134/96 (FEK A/105) τροποποίησης και συμπλήρωσης μερικών
διαταξεων του Π.Δ. 186/92 «Κώδικας βιβλίων και στοιχείων», οπως
ισχυει
10.To Π.Δ. 113/10 (ΦΕΚ 194/A/10) ‹‹Αναληψη υποχρεώσεων απο τους
Διατακτες››
11.Tr]v Y.A. με αρ. 35130/739/10 (ΦΕΚ 1291/8/10) «Αύξηση των
χρηματικών ποσών του αρθρου 83 παρ. 1 του N. 2362/95 για την
σύναψη δημοσίων συμβασεων που αφορούν προμήθεια προιοντων,
παροχή υπηρεσιών ή εκτέλεση έργων»
12.Tov N. 3861/10 (ΦΕΚ 112/A/10) «Ενίσχυση της διαφανειας με την
υποχρεωτική αναρτηση νομων και πραξεων των κυβερνητικών,
P9P)?‘
AAA: BON1F-XTZ
διοικητικών και αυτοδιοικητικών οργανων στο διαδίκτυο «Προγραμμα
Διαύγεια›› και αλλες διαταξεις»
13.Tr]v TAFl/AIOIK/B/6954/39/22.07.2011, αποφαση έκδοσης Χρηματικού
Ενταλματος Προπληρωμής.
14.Tr]v υπ'αριθμ. 1" EBA/8745/21.12.2011 (AAA 45'~|»‘L|-'F-N41) Αναθεση
Προμήθειας Υλικών.
Εγκρίνουμε
Την πληρωμή ποσού τετρακοσίων είκοσι έξι ευρώ και είκοσι εξι λεπτών
(42626 €) με την επιταγή υπί αριθμ. 49394723-0, της Εμπορικής Τραπεζας
A.E., σε διαταγή ΠΕΡΜΕ FIEPIBAAAONTIKH METACDOPIKH A.E., για την
εξοφληση των τιμολογίων υπ' αριθμ. 2065/29.12.2011 και 2066/29.12.2011.
H δαπανη θα βαρύνει τις πιστώσεις του ΤΑΠΑ για δαπανες
διαμορφωσης αρχαιολογικών χώρων 2011.
H Προϊσταμένη
της της Εφορείας Βυζαντινών Αρχαιοτήτων
κ.α.α.
Βασιλική Παπαγεωργίου
Αρχαιολογος ΠΕ
Αν παρατηρήσετε, θα δείτε ότι το αποτέλεσμα δεν είναι τέλειο, σε πολλά σημεία υπάρχουν λάθος χαρακτήρες αλλά η γενική εικόνα του κειμένου είναι πολύ καλή με δεδομένο ότι πρόκειται για μια πλήρως αυτοματοποιημένη διαδικασία χωρίς ανθρώπινη παρέμβαση για training και error correction. 

Γενικά στατιστικά & συμπεράσματα

Εξετάζοντας το σύνολο των δεδομένων της ΥπερΔιαύγειας στις 10 Ιουνίου 2012 έχουμε τα εξής στοιχεία:
Τύπος εγγράφου Πλήθος Ποσοστό
Text PDF
4.566.445
96.9%
OCR PDF
133.568 
2.8%
Σφάλμα
10.433 
0.2%
Σύνολο
4.710.446 

Συμπερασματικά, βλέπετε ότι με την μέθοδο του OCR καταφέραμε να πάρουμε επιπλέον πληροφορίες από 133.568 έγγραφα, περίπου 3% των συνολικών δεδομένων. Ο αριθμός αυτός δεν είναι καθόλου αμελητέος αν σκεφτούμε την ιδιαίτερη σημασία των δεδομένων αυτών.

Το επόμενο βήμα θα της έρευνάς μου θα είναι να αναλύσω τι είδους αποφάσεις είναι αυτές που καταχωρούνται στην Διαύγεια ως εικόνες και αν υπάρχει ιδιαίτερος λόγος που γίνεται αυτό.

Tuesday, April 3, 2012

Η ΥπερΔιαύγεια παρουσιάζεται σε εργαστήριο του Υπ. Διοικητικής Μεταρρύθμισης και Ηλεκτρονικής Διακυβέρνησης

Η ΥπερΔιαύγεια θα παρουσιαστεί την Τετάρτη 04 Απριλίου 2012 στο εργαστήριο: «Πρόγραμμα Δι@ύγεια: Παρόν και Μέλλον της Διαφάνειας στο Δημόσιο Βίο» που θα πραγματοποιηθεί στο Εθνικό Κέντρο Δημόσιας Διοίκησης (ΕΚΔΔΑ).ΥπερΔιαύγεια
View more presentations from Vangelis Banos

Monday, February 20, 2012

greekspending.com

Ο κ. Χρήστος Τσίγκανος δημιούργησε μια θαυμάσια εφαρμογή με σκοπό την οπτικοποίηση των δεδομένων που αφορούν τις δαπάνες του Ελληνικού Κράτους.
http://www.greekspending.com

http://www.greekspending.com


Sunday, December 18, 2011

Η ΥπερΔιαύγεια στο επίσημο site της Δι@ύγειας

Η ΥπερΔιαύγεια αναφέρεται πλέον στο επίσημο site της Δι@ύγειας στην σελίδα Χρήσιμα Εργαλεία - Πληροφορίες - Επιλογές Αναζήτησης στην ενότητα "εφαρμογές που αναπτύχθηκαν από πολίτες".


Επιπλέον, αξίζει να αναφερθεί ότι μαζί με την ΥπερΔιαύγεια υπάρχει επιπλέον αναφορά σε μια πολύ χρήσιμη εφαρμογή για Μεταφόρτωση PDF αρχείων από τον Δικτυακό τόπο της Διαύγειας .

Monday, September 12, 2011

Οι τεχνολογίες που χρησιμοποιούνται στην ΥπερΔιαύγεια

Η ΥπερΔιαύγεια βασίζεται εξολοκλήρου σε τεχνολογίες ανοικτού κώδικα και δεν θα μπορούσε να υλοποιηθεί αν δεν υπήρχε το πραγματικά πολύ καλό REST API: Διαύγεια - API Ανοιχτών Δεδομένων, Έκδοση 0.2.1.

Πέρα από αυτό, η ΥπερΔιαύγεια βασίζεται στις εξής τεχνολογίες:




Sunday, August 21, 2011

ΥπερΔιαύγεια - Αναζήτηση στα άδυτα της ΔΙΑΥΓΕΙΑΣ


Η ΥπερΔιαύγεια δίνει τη δυνατότητα αναζήτησης στο περιεχόμενο όλων των εγγράφων PDF - και όχι μόνο στους τίτλους τους - όπως αναρτώνται στo πρόγραμμα ΔΙΑΥΓΕΙΑ του Υπουργείου Εσωτερικών.
Σκοπός της ΥπερΔιαύγειας είναι η προώθηση της διαφάνειας και η καλύτερη πρόσβαση στα δημόσια δεδομένα από όλους τους πολίτες.
Τα Ανοιχτά Δημόσια Δεδομένα αποτελούν κτήμα όλων μας και η ανοιχτή και ελεύθερη πρόσβαση σε αυτά συνταγματικά κατοχυρωμένο (άρθρο 5 Α του Συντάγματος), θεμελιώδες δικαίωμα όλων των Ελλήνων πολιτών.