Realizzare una stampa in lingua Cinese, ma anche in Giapponese o in Coreano, significa utilizzare dei simboli che escono dal tradizionale contesto di stampa delle lingue occidentali.
Queste lingue, infatti, utilizzano un simbolo per rappresentare una parola mentre noi occidentali utilizziamo un simbolo per rappresentare una lettera e, componendo le lettere, realizziamo le parole.
Per descrivere il concetto di “PERSONE”, noi italiani utilizziamo i simboli “P”, “E”, “R”, “S” , “O” , “N” ed “E”.
Un cinese userebbe il solo simbolo:
Apparentemente sembra un sistema molto funzionale e coinciso. Però, c’è un rovescio di medaglia. Per essere in grado di scrivere con sufficiente padronanza, si deve conoscere almeno 2/3 mila simboli. Uno per ogni concetto base che vogliamo descrivere.
Il Cinese “semplificato” possiede quasi settemila simboli. Ed il Cinese “tradizionale” circa ventimila.
La rappresentazione con un computer di un alfabeto occidentale richiede la capacità di rappresentare, nella forma minima, una ottantina di simboli: lettere maiuscole, lettere minuscole, lettere accentate, numeri e qualche simbolo di interpunzione.
Questo ha dato luogo alla nascita di prime rappresentazioni, nei computer, degli alfabeti occidentali con soli 128 caratteri (128 perchè si usava solo 7 bit degli otto disponibili in un byte).
Poi, la rappresentazione è stata estesa a 256 caratteri (utilizzando tutti e gli 8 bit) per avere anche alcuni caratteri grafici.
Per adattarsi alla presenza di differenze anche marcate tra l’uso delle lettere accentate tra le varie zone dei paesi occidentali, ma anche alla presenza di una serie di simboli non usati nel mondo occidentale (nel greco, cirillico, arabo, etc.) sono nate rappresentazioni diverse in base alle aree di utilizzo.
L’ISO ha canonizzato in 16 tipologie di rappresentazioni (o set di simboli), sotto lo standard 8859, queste varianti.
La più nota, nel mondo informatico, è la 8859-1, utilizzata nel mondo occidentale, altresì nota come “Latin-1”. La 8859-2 viene usata per il bacino delle lingue slave (Polonia, Slovacchia, Ungheria, etc.). La 8859-5 viene usata per le lingue che usano l’alfabeto cirillico. Altri set di simboli vengono usati per il greco, l’arabo, l’ebraico, etc.
Siamo, però, sempre nell’ambito dei 256 caratteri come numero massimo.
Perché ci si è limitati a 256 caratteri possibili nel set di simboli? Perché in questo modo, bastava un solo byte per ogni carattere.
Se si fosse optato per un set di caratteri con qualche migliaio di caratteri, sufficienti a coprire i 16 set dello standard ISO 8859, si sarebbe dovuto utilizzare due byte con conseguente spreco di spazi di memoria e con qualche penalizzazione in termini di velocità e complessità.
L’esigenza di rappresentare le lingue che, come il Cinese, scelgono di rappresentare con ogni simbolo una parola e non singoli caratteri, ha portato a rompere il muro del singolo byte che non è sufficiente a rappresentare migliaia di simboli, passando ad utilizzare due byte per ogni simbolo. Con due byte, infatti, è possibile rappresentare sino a 65536 caratteri diversi.
La scritta che vedete qui sotto viene rappresentata con 16 byte essendo composta da 8 simboli.
Se avessimo rappresentato la stessa frase con caratteri occidentali avremmo scritto “Stampa cinese giapponese coreano” consumando 32 Byte (uno per ognuno dei 32 caratteri spazi compresi).
Questi set di caratteri vengono chiamati “double-byte”. In ambito, soprattutto IBM, vengono identificati con la sigla DBCS (“double byte character set”).
L’aspetto della stampa dei caratteri double byte, si accompagna anche all’aspetto dell’input e dello storage dei dati.
Infatti, per imputare i simboli cinesi o di altri set double byte, serve un software di input che, in abbinamento alla tastiera, permetta di selezionare le giuste simbologie. Infatti, non è possibile digitare i testi “all’occidentale” in quanto non avrebbe senso una tastiera con un simbolo per tasto (dovrebbe avere migliaia di tasti).
Poi, serve salvare nel database i dati in modo che ogni simbolo utilizzi due byte e, quindi, i campi di database di destinazione di questi caratteri, vanno dichiarati in modo opportuno.
Da ultimo, anche nella stampa, ogni simbolo occuperà due byte e anch’esso va dichiarato con la corretta identificazione.
In ambito AS/400 (iSeries – IBM i), significa che si deve predisporre la giusta meccanica di input per caricare, tipicamente da Client Access, i dati con la selezione dei simboli double-byte. Poi, i dati vanno salvati in campi dichiarati double byte e stampati in campi double byte in spool grafici di tipo AFPDS.
Validoc permette di intercettare questo tipo di spool grafici e di gestirli con tutte le funzioni già previste dal prodotto (aggiunta di grafica, barcode, immagini dinamiche, creazione PDF, invio email, etc.) mantenendo le scritte in carattere double-byte presenti nella stampa.
Scarica il white paper.