Unicode
Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Αυτό το άρθρο χρειάζεται μετάφραση. Αν θέλετε να συμμετάσχετε, μπορείτε να επεξεργαστείτε το άρθρο μεταφράζοντάς το ή προσθέτοντας δικό σας υλικό και να αφαιρέσετε το {{μετάφραση}} μόλις το ολοκληρώσετε. |
Στους υπολογιστές, το διεθνές πρότυπο Unicode στοχεύει στην κωδικοποίηση όλων των αλφάβητων που χρησιμοποιούνται στον πλανήτη ώστε να γίνει δυνατή η αποθήκευση στη μνήμη ενός υπολογιστή το κείμενο μιας οποιασδήποτε γλώσσας συμπεριλαμβανωμένων και συμβόλων επιστημών,όπως μαθηματικά,φυσική κτλ.
Η καθιέρωση του Unicode είναι ένα φιλόδοξο σχέδιο αφού σκοπεύει να αντικαταστήσει όλες τις υπάρχοντες κωδικοποιήσεις συνόλων χαρακτήρων,οι οποίες έχουν περιορισμούς που τις καθιστούν προβληματικές για χρήση σε πολυγλωσσικά υπολογιστικά συστήματα.
Παρά τα τεχνικά προβλήματα που έχουν παρουσιαστεί το Unicode έχει καθιερωθεί σαν το πιο πλήρες σύνολο χαρακτήρων και σαν η προτιμότερη κωδικοποίηση σε πολυγλωσσικό λογισμικό. Πολλά πρόσφατα πρότυπα όπως το XML, καθώς και λογισμικό συστήματος όπως λειτουργικά συστήματα, έχουν υιοθετήσει το Unicode για να αναπαραστούν εσωτερικά κείμενο.
Πίνακας περιεχομένων |
[Επεξεργασία] Γέννηση και ανάπτυξη του προτύπου
Το Unicode στάνταρντ είχε τον ρητό στόχο να ξεπεράσει τους περιορισμούς των παραδοσιακών κωδικοποιήσεων χαρακτήρων όπως αυτοί ορίζονται από το ISO 8859 πρότυπο που χρησιμοποιήθηκε ευρέως σε πολλές χώρες στον κόσμο αλλά παρουσίαζε προβλήματα ασυμβατότητας μεταξύ των διαφορετικών υλοποιήσεών του. Πολλές παραδοσιακές κωδικοποιήσεις χαρακτήρων μοιράζονται ένα κοινό πρόβλημα στο ότι επιτρέπουν υποστήριξη δύο άλφαβήτων ,συνήθως του ρομανικού και ενός τοπικού, αλλά δεν υποστηρίζουν πολλές γλώσσες.
Το Unicode κωδικοποιεί αφηρημένους χαρακτήρες προμηθεύοντας ένα κωδικό σημείο — σε καθέναν τους, όχι συγκεκριμένες μορφές που αυτοί μπορούν να πάρουν σε διάφορες γραμματοσείρες. Με άλλα λόγια το Unicode πρότυπο αφήνει το ανάλογο λογισμικό πλοηγός διαδικτύου,επεξεργαστής κειμένου να αποφασίσει αυτό την οπτική αναπαράσταση (στύλ,μέγεθος,γραμματοσειρά) των χαρακτήρων
Επίσης στο πρότυπο περιλαμβάνει και σχετικά θέματα όπως ιδιότητες χαρακτήρων, φόρμες κανονικοποίησης κειμένου,κατεύθυνση εμφάνισης(για γλώσσες που διαβάζονται και από τα δεξιά προς τα αριστερά όπως η Αραβική γλώσσα και τα Εβραϊκά.
[Επεξεργασία] Αλφάβητα που περιλαμβάνονται
Το Unicode περιλαμβάνει σχεδόν όλα τα αλφάβητα που είναι σε χρήση σήμερα. Αυτά είναι τα:
|
|
και άλλα |
Το Unicode έχει προσθέσει και άλλα αλφάβητα όπως ιστορικά αλφάβητα και εξαφανισμένα αλφάβητα για ακαδημαϊκούς λόγους:
... |
Επίσης περιλαμβάνει και άλλα σύμβολα που χρησιμοποιούνται στα μαθηματικά και την μουσική.
[Επεξεργασία] Διάφορα
Το 1997 Michael Everson πρότεινε να κωδικοποιηθούν και οι χαρακτήρες της φανταστικής Κλίνγκον γλώσσας στο Επίπεσο 1 του ISO/IEC 10646-2. Αλλά η πρόταση αυτή απορρίφθηκε όπως και η πρόταση για συμπερίληψη γλωσσών του Τόλκιν.
[Επεξεργασία] Κωδικοποιήσεις
[Επεξεργασία] Πρότυπα
Η κοινοπραξία Unicode με έδρα την Καλιφόρνια, αναπτύσσει το πρότυπο Unicode. Οποιαδήποτε οργάνωση ή ιδιώτης μπορεί να γίνει μέλος της εφόσον πληρώσει συνδρομή. Στα μέλη συμπεριλαμβάνονται σχεδόν όλες τις μεγάλες εταιρίες λογισμικού και υλικού που ενδιαφέρονται σχετικά όπως οι Apple, Microsoft, IBM, Xerox, HP, Adobe Systems και πολλές άλλες.
Η κοινοπραξία δημοσίευσε πρώτη φορά Το πρότυπο Unicode(ISBN 0321185781) το 1991,και συνεχίζει να αναπτύσσει πρότυπα βασισμένα στην αρχική αυτή εργασία.Η κοινοπραξία Unicode αναπτύχθηκε σε συνδυασμό με τον Διεθνή Οργανισμό Τυποποίησης ISO,και το πρότυπό της μοιράζεται το σύνολο χαρακτήρων της με το πρότυποISO/IEC 10646. Το Unicode και το ISO/IEC 10646 είναι ισοδύναμα σαν κωδικοποιήσεις χαρακτήρων αλλά το Unicode παριέχει πολύ περισσότερες πληροφορίες για προγραμματιστές που το υλοποιούν ,καλύπτοντας σε βάθος θέματα όπως κωδικοποίηση βασισμένη σε μπιτ, Unicode collation αλγόριθμοι, και γραφική απόδοση. Το Unicode απαριθμεί αρκετές ιδιότητες χαρακτήρων,περιλαμβάνοντας και αυτές που χρειάζονται για BiDi υποστήριξη. Τα δυο πρότυπα χρησιμοποιούνε μερικώς διαφορετική ορολογία.
Όταν γράφουμε για κωδικά σημεία του Unicode είναι σύνηθες να χρησιμοποιούμε την μορφή U+xxxx or U+xxxxxx όπου xxxx ή xxxxxx είναι το κωδικό σημείο στο δεκαεξαδικό σύστημα
[Επεξεργασία] Unicode ιστορίκο αναθεωρήσεων
- 1991 Unicode 1.0
- 1993 Unicode 1.1
- 1996 Unicode 2.0
- 1998 Unicode 2.1
- 1999 Unicode 3.0
- 2001 Unicode 3.1
- 2002 Unicode 3.2
- 2003 Unicode 4.0
- 2005 Unicode 4.1
[Επεξεργασία] Αποθήκευση μεταφορά και επεξεργασία
Μέχρι τώρα το Unicode παρουσιάστηκε απλά σαν μια απεικόνιση κάθε χαρακτήρα που χρησιμοποιείται σε κάποιο αλφάβητο στη Γη σε έναν μοναδικό αριθμό, το κωδικό σημείο.Όμως η αποθήκευση αυτών των αριθμών κατά την επεξεργασία κειμένου είναι ένα εντελώς διαφορετικό θέμα. Προβλήματα ανακύπτουν από το γεγονός ότι το λογισμικό που γράφεται στον δυτικό κόσμο χειρίζεται μόνο κωδικοποιήσεις 8-bit με την unicode υποστήριξη να προστίθεται πολύ αργότερα.
Η εσωτερική λογική παραδοσιακών 8-μπιτ εφαρμογών επιτρέπει μόνο 8 μπιτς για κάθε χαρακτήρα κάνοντας αδύνατη την χρησημοποίηση περισσότερων των 256 κωδικών σημείων χωρίς ειδική επεξεργασία. Έτσι οι μηχανικοί λογισμικού έχουν προτείνει διάφορους μηχανισμούς για την υλοποίηση του Unicode.Ποιά υλοποίηση χρησιμοποιεί ο κάθε προγραμματιστής από θέματα χωρητικότητας,συμβατότητας πηγαίου κώδικα και διαλειτουργικότητας με άλλα συστήματα.
Το Unicode ορίζει δυο τρόπους απεικόνισης:
- Τις UTF (Unicode Transformation Format) κωδικοποιήσεις
- Και τις UCS (Universal Character Set) κωδικοποιήσεις
Αυτές οι κωδικοοιήσεις περιλαμβάνουν τις εξείς κύριες:
- UTF-32
- UCS-4
- UTF-16
- UCS-2
- UTF-8
- UTF-EBCDIC
- UTF-7
(Ο αριθμός υποδηλώνει τον αριθμό των μπιτς σε κάθε μονάδα (για UTF κωδικοποιήσεις) ή byter ανα μονάδα (για UCS κωδικοποιήσεις).)
In UTF-32 or UCS-4, one unit suffices for any character; in the other cases, each character may use a variable number of units. UTF-8 provides the de-facto standard encoding for interchange of Unicode text with UTF-16. UTF-32 occurs mainly in internal processing.
The UCS-2 and UTF-16 encodings specify the Unicode byte order mark (BOM) for use at the beginnings of text files. Some software developers have adopted it for other encodings, including UTF-8, which does not need an indication of byte order. In this case it attempts to mark the file as containing Unicode text. The BOM, code point U+FEFF
, has the important property of unambiguity, regardless of the Unicode encoding used. The units FE
and FF
never appear in UTF-8; U+FFFE
(the result of byte-swapping U+FEFF
) does not equate to a legal character, and U+FEFF
conveys the Zero-Width No-Break Space (a character with no appearance and no effect other than preventing the formation of ligatures). The same character converted to UTF-8 becomes the byte sequence EF BB BF
.
See also: Mapping of Unicode characters
[Επεξεργασία] Έτοιμοι και σύνθετοι χαρακτήρες
Το Unicode περιλαμβάνει ένα μηχανισμό τροποποίησης του σχήματος των χαρακτήρων κι έτσι επεκτείνει το ρεπερτόριο των υποστηριζόμενων γλυφών. Αυτό καλύπτει την χρήση συνδυαζόμενων διακριτικών χαρακτήρων. Αυτοί εισάγονται μετά τον κύριο χαρακτήρα (μπορεί κανείς να σωρρεύσει περισσότερους συνδυαζόμενους διακριτικούς χαρακτήρες στον ίδιο χαρακτήρα). Ωστόσο, για λόγους συμβατότητας, το Unicode περιλαμβάνει επίσης μια μεγάλη ποσότητα από προσυντεθιμένους χαρακτήρες. Έτσι, σε πολλές περιπτώσεις, οι χρήστες έχουν στη διάθεσή τους πολλούς τρόπους κωδικοποίησης του ίδιου χαρακτήρα Για να το αντιμετωπίσει αυτό, το Unicode παρέχει τον μηχανισμό των μετασχηματισμών κανονικής ισοδυναμίας. Παρόμοια κατάσταση ισχύει και με το Hangul. Το Unicode παρέχει τον μηχανισμό σύνθεσης συλλαβών Hangul με το Hangul Jamo. Ωστόσο, παρέχει επίσης προσυντεθιμένες συλλαβές Hangul (11,171 συλλαβές) Τα ιδεογράμματα CJK (Κίνα, Ιαπωνία, Κορέα) έχουν επί του παρόντος κώδικες μόνο για την προσυντεθιμένη μορφή τους. Ακόμα όμως, τα περισσότερα από αυτά τα ιδεογραφήματα τελικώς αποτελούνται από απλούστερα στοιχεία, έτσι, κατ' αρχήν το Unicode μπορεί να τα αποσυνθέσει όπως συμβαίνει με τα Hangul. Αυτό θα μείωνε σε μεγάλο βαθμό τον αριθμό των απαιτούμενων κωδικών σημείων, ενώ ταυτόχρονα επιτρέπει την εμφάνιση στην πραγματικότητα κάθε νοητού ιδεογραφήματος (καταργώντας έτσι τα προβλήματα της Han unification) Μια παρόμοια ιδέα καλύπτει ορισμένες μεθόδους εισαγωγής όπως η μέθοδος Cangjie και Wubi. Ωστόσο, οι προσπάθειες να γίνει αυτό για κωδικοποίηση χαρακτήρων σκόνταψαν πάνω στο γεγονός ότι τα ιδεογραφήματα δεν αποσυντίθενται τόσο απλά ή τόσο κανονικά όσο δείχνουν.
Οι συνδυαζόμενοι χαρακτήρες, όπως η περίπλοκη μορφοποίηση του script που απαιτείται για να αποδώσει κανείς σωστά ένα Αραβικό κείμενο και πολλά άλλα scripts, συχνά εξαρτώνται από περίπλοκες τεχνολογίες γραμματοσειρών, όπως η Open Type (από την Adobe και τη Microsoft), την Graphite (από την SIL International) και την Apple Advanced Typography AAT (από την Apple Computer), μέσω της οποίας ο σχεδιαστής γραμματοσειράς περιλαμβάνει οδηγίες σε ένα λογισμικό δημιουργίας γραμματοσειρών για το πως θα παράγει διαφορετικές σειρές χαρακτήρων. Μια άλλη μέθοδος που χρησιμοποιείται σε γραμματοσειρές με σταθερό πλάτος είναι να τοποθετείται το σύμβολο του συνδυαζόμενου χαρακτήρα πριν τα δεξιά του (sidebearing). Αυτή η μέθοδος, ωστόσο, λειτουργεί μόνο για ορισμένα διακριτικά και η σώρρευση δεν θα γίνει σωστά.
Μέχρι και το 2004, τα περισότερα λογισμικά ακόμα δεν μπορούσαν να χειριστούν αξιόπιστα πολλά χαρακτηριστικά που δεν υποστηρίζονταν από παλαιότερες τυποποιήσεις γραμματοσειρών, έτσι το να συνδυαζεί κανεις χαρακτήρες, γενικώς δεν λειτουργούσε σωστά. Υποθετικά, το ḗ (προσυντεθιμένο e με περισπωμένη και οξεία) και το ḗ (e που ακολουθείται από συνδυαζόμενη περισπωμένη επάνω και συνδυαζόμενη οξεία επάνω) είναι πανομοιότυπα στην εμφάνιση, δίνοντας και τα δύο ένα e με περισπωμένη και οξεία, αλλά η εμφάνιση μπορεί να διαφοροποιείται σε μεγάλο βαθμό κατά την εφαρμογή εφαρμογών λογισμικού.
Επίσης, οι κάτω τελείες, οι οποίες χρειάζονται στα Ινδικά Romanization, συχνά θα τοποθετούνται λανθασμένα ή ακόμα χειρότερα. Παράδειγμα:
- ṃ - ṇ - ḷ
Βέβαια, αυτό δεν είναι στην πραγματικότητα μια αδυναμία του ίδιου του Unicode, αλλά απλώς αποκαλύπτει κενά της τεχνολογίας απόδοσης και των γραμματοσειρών.
[Επεξεργασία] Διάφορα θέματα
Some people, mostly in Japan, oppose Unicode in general, claiming technical limitations and political problems in process, which people working on the Unicode standard claim are simply misunderstandings of the Unicode standard and the process by which it was created. The most common mistake, according to this view, is confusion between abstract characters and their highly variable visual forms (glyphs). On the other hand, whereas Chinese can readily read most types of glyphs used by Japanese or Koreans, Japanese often can recognize only a particular variant. Unicode has been decried as a plot against Asian cultures perpetrated by Westerners with no understanding of the characters as used in Chinese, Korean, and Japanese, in spite of the presence of a majority of experts from all three countries in the Ideographic Rapporteur Group. The IRG advises the consortium and ISO on additions to the repertoire and on Han unification, the identification of forms in the three languages which will be treated as stylistic variations of the same historical character. This unification is one of the most controversial aspects of Unicode.
Unicode is criticized for failing to allow for older and alternate forms of kanji, which, it is said, complicates the processing of ancient Japanese and uncommon Japanese names, although it follows the recommendations of Japanese scholars of the language and of the Japanese government. There have been several attempts to create an alternative to Unicode. [1] Among them are TRON (although it is not widely adopted in Japan, some, particularly those who need to handle historical Japanese text, favor this), UTF-2000 and Giga Character Set (GCS). It is true that many older forms were not included in early versions of the Unicode standard, but Unicode 4.0 contains more than 90,000 Han characters, far more than any dictionary or any other standard, and work continues on adding characters from the early literature of China, Korea, and Japan.
Thai language support has been criticized for its illogical ordering of Thai characters. This complication is due to Unicode inheriting the Thai Industrial Standard 620, which worked in the same way. This ordering problem complicates the Unicode collation process. [2]
Opponents of Unicode sometimes claim even now that it cannot handle more than 65,535 characters, a limitation that was removed in Unicode 2.0.
[Επεξεργασία] Χρήση του Unicode
[Επεξεργασία] Λειτουργικά συστήματα
Παρά τα τεχνικά προβλήματα τους περιορισμούς και την κριτική στη πορεία ,το Unicode έχει επικρατήσει σαν το κυρίαρχο σχήμα κωδικοποίησης χαρακτήρων. Τα Windows NT και οι απόγονοί του Windows 2000 και Windows XP κάνουν εκτεταμένη χρήση του σχήματος κωδικοποίησης UTF-16 για εσωτερική αναπαράσταση κειμένου. UNIX λειτουργικά συστήματα όπως GNU/Linux, Plan 9 από Bell Labs, BSD και Mac OS X έχουν υιοθετήσει το σχήμα UTF-8, σαν τη βάση για την αναπαράσταση πολυγλωσσικό κείμενο.
[Επεξεργασία] Ηλεκτρονική αλληλογραφία
Το πρότυπο MIME ορίζει δυο διαφορετικούς μηχανισμούς για κωδικοποίηση όχι-ASCII χαρακτήρων στα μηνύματα ηλεκτρονικής αλληλογραφίας,e-mails, ανάλογα με το αν οι χαρακτήρες είναι στις επικεφαλίδες του ηλ.μηνύματος όπως πχ η επικεφαλίδα "Θέμα:" ή βρίσκονται στο κυρίος κείμενο του ηλεκτρονικού μηνύματος. Και στις δυο περιπτώσεις, προσδιορίζεται το αρχικό σύνολο χαρακτήρων καθώς και η κωδικοποίηση μεταφοράς.Για ηλεκτρονική αλληλογραφία με Unicode χαρακτήρες προτείνονται το σχήμα κωδικοποίησης UTF-8 και η κωδικοποίηση μεταφοράς Base64 . Οι λεπτομέρειες των δύο μηχανισμών καθορίζονται στο πρότυπο MIME και γενικά είναι κρυμμένοι από τον απλό χρήστη λογισμικού ηλ.αλληλογραφίας.
Η υιοθέτηση του Unicode στην Ηλεκτρονική αλληλογραφία είναι πολύ αργή.Τα περισσότερα κείμενα στην ανατολική Ασία κωδικοποιούνται άκομα σε τοπικές κωδικοποιήσεις όπως η Shift-JIS,και πολλά δημοφιλή προγράμματα ηλ.αλληλογραφίας ακόμα και αν έχουν κάποια unicode υποστήριξη εντούτοις δεν μπορούν να χειριστούν Unicode δεδομένα σωστά. Η κατάσταση αυτή δεν προβλέπεται να αλλάξει το προσεχές μέλλον.
[Επεξεργασία] Διαδίκτυο
Οι καινούργιοι πλοηγοί διαδικτύου μπορούν και απεικονίζουν σωστά ιστοσελίδες με Unicode χαρακτήρες εφόσον έχει εγκατασταθεί η ανάλογη γραμματοσειρά.
Παρόλο που συντακτικοί κανόνες μπορεί να επηρεάζουν την σειρά με την οποία οι χαρακτήρες επιτρέπεται να εμφανίζονται και η γλώσσα HTML 4.0 αλλά και η XML 1.0 εξ'ορισμού υποστηρίζουν έγγραφα που αποτελούνται από χαρακτήρες από όλο το εύρος των κωδικών σημείων του Unicode εξαιρουμένων μόνο κάποιων χαρακτήρων ελέγχου τα μόνιμα μη-διαθέσιμα κωδικά σημεία D800-DFFF, οποιοδήποτε κωδικό σημείο που τελειώνει σε FFFE or FFFF και οποιοδήποτε κωδικό σημείο πάνω από 10FFFF. Αυτοί οι χαρακτήρες παρουσιάζονται είτε απευθείας σαν μπάιτς σύμφωνα με την κωδικοποίηση του εγγράφου,εφόσον υποστηρίζονται από την κωδικοποίηση,ή μπορούν να γραφτούν σαν αριθμητικές αναφορές χαρακτήρων βασισμένες στο κωδικό σημείο του Unicode χαρακτήρα,εφόσον η κωδικοποίηση που χρησιμοποιεί το έγγραφο επιτρέπει τα ψηφία και τα σύμβολα που χρειάζονται για να γράψουμε τις αναφορές(κάτι που συμβαίνει με όλες τις κωδικοποιήσεις που έχουν υιοθετηθεί στο διαδίκτυο) Για παράδειγμα οι αναφορές : Δ
Й
ק
م
๗
あ
叶
葉
냻
(ή η ίδια τιμή στο δεκαεξαδικό με πρόθεμα &#x
) εμφανίζεται στον πλοηγό σου σαν Δ, Й, ק, م, ๗, あ, 叶, 葉 και 냻—εφόσον έχεις την κατάλληλη γραμματοσειρά, αυτά τα σύμβολα φαίνονται σαν Greek capital letter "Delta", Cyrillic capital letter "Short I", Arabic letter "Meem", Hebrew letter "Qof", Thai numeral 7, Japanese Hiragana "A", simplified Chinese "Leaf", traditional Chinese "Leaf", and Korean Hangul syllable "Nyaelh", αντίστοιχα.
[Επεξεργασία] Γραμματοσειρές
Ελεύθερες και εμπορεύσιμες γραμματοσειρές που βασίζονται στο Unicode πρότυπο είναι κοινές, με πρώτες τις TrueType και τώρα τις OpenType γραμματοσειρές που υποστηρίζουν και οι δύο Unicode απεικονίζοντας κωδικά σημεία σε συγκεκριμένες εμφανίσεις χαρακτήρων.
Υπάρχουν χιλίαδες γραμματοσειρές στην αγορά,αλλά λιγότερες από δώδεκα προσπαθούν να υποστηρίξουν την πλειοψηφία του συνόλου χαρακτήρων του προτύπου Unicode. Αντίθετα οι βασισμένες στο Unicode γραμματοσειρές συνήθως υποστηρίζουν μόνο βασικό ASCII και κάποια συγκεκριμένα αλφάβητα.Αυτό γίνεται κυρίως για λόγους οικονομίας των δημιουργών γραμματοσειρών και απόδοσης των προγραμμάτων που μπορεί να γονατίσουν καθώς η απόδοση γραμματοσειρών είναι μια διαδικασία που καταναλώνει πολλούς πόρους ενός υπολογιστή.
Χαρακτήρες Unicode που δεν μπορούν να αποδωθούν γραφικά απεικονίζονται με ένα λευκό τετράγωνο.
[Επεξεργασία] Μηχανές γραφικής απόδοσης πολυγλωσσικού κειμένου
- Uniscribe - Windows
- Apple Type Services for Unicode Imaging - νέα μηχανή για Macintosh
- WorldScript - παλία μηχανή για Macintosh
- Pango - λογισμικό ανοιχτού κώδικα
- ICU Layout Engine - λογισμικό ανοιχτού κώδικα
- Graphite - (open source renderer from SIL)
[Επεξεργασία] Μέθοδοι εισαγωγής
Οι επεξεργαστές κειμένου Microsoft Word επιτρέπουν την εισαγωγή χαρακτήρων Unicode με δυο τρόπους:
- πληκτρολογώντας το δεκαεξαδικό κωδικό σημείο,πχ
014Β(ή U+014b) για τον ŋ, and then pressing alt + x
προκειμένου να αντικατασταθεί η συμβολοσειρά στα αριστερά του δρομέα με τον αντίστοιχο χαρακτήρα unicode. Συνήθως γίνεται και το αντίστροφο,δηλαδή άν έχεις έναν unicode χαρακτήρα στα αριστερά του δρομέα και πατήσεις Alt + x
το Word θα αντικαταστήσει τον χαρακτήρα με το ισοδύναμό του κωδικό σημείο στο δεκαεξαδικό ή ακόμα
-
- πληκτρολογώντας
Alt + #
, όπου # είναι το δεκαδικό κωδικό σημείο, πχAlt + 0331
θα μας δώσει τον χαρακτήρα Unicode ŋ.
- πληκτρολογώντας
Το Gnome2 ακολουθεί το πρότυπο ISO 14755. Κράτησε πατημένα τα πλήκτρα Ctrl and Shift και εισήγαγε στο δεκαεξαδικό το κωδικό σημείο του unicode χαρακτήρα που θέλεις να εμφανιστεί.
[Επεξεργασία] Δείτε επίσης
- Unicode γραμματοσειρές ελεύθερου λογισμικού
[Επεξεργασία] Εξωτερικοί σύνδεσμοι
- [http://graphis.hellug.gr/el/index.html Συλλογή ελληνικών γραμματοσειρών
για X Window System που περιλαμβάνει και unicode γραμματοσειρές]
- The Unicode Consortium
- Unicode versions: 3.1, 3.2, 4.0, 4.0.1, 4.1
- new characters, scripts and characters and scripts under investigation
- Code Charts (PDF)
- Table of Unicode characters from 1 to 65535
- UTF-8, UTF-16, UTF-32 Code Charts and a character map (JavaScript)
- The Letter Database Uses forms to present groups in list or grid format by hexadecimal.
- Example text files using Unicode
- Unicode special character map is similar to the Windows version. Click a symbol to obtain either the named or numeric code for HTML.
- ConScript Unicode Registry a project to standardize part of the Private Use Area for use with artificial scripts and artificial languages. An explanation of how to propose character names in Unicode is available here.
- The secret life of Unicode "A peek at Unicode's soft underbelly" Describes problems requiring resolution. Includes links to Unicode resources.
- Tim Bray's Characters vs Bytes explains how the different encodings work.
- Alan Wood's Unicode Resources Contains lists of word processors with Unicode capability; fonts and characters are grouped by type; characters are presented in lists, not grids.
- The strongest denunciation of Unicode, and a response to it
- Software engineering:
- International Components for Unicode (ICU) An open source set of libraries that provide robust and full-featured Unicode services for your applications on a wide variety of platforms.
- The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) by Joel Spolsky of JoelonSoftware.com (this is now outdated, but still a reasonable starting point).
- Freedesktop.Org's Project UTF-8's purpose is to document and promote proper Unicode support in free and Open Source software.
- Supplementary Characters in the Java Platform from Sun Microsystems
- Seeing the entirety of Unicode printed out as a single large poster gives a good feel for the size of the code.