Hoµng Nam H¶i
1. T¹i sao cÇn cã mét b¶ng m· chung trªn toµn thÕ giíi?
NÕu ghÐ th¨m níc NhËt th«ng qua Internet, b¹n sÏ thÊt väng v× nh÷ng g× b¹n thÊy ë ®ã. HÇu hÕt c¸c trang Web ®Òu cã h×nh ¶nh rÊt ®Ñp, nhng c¸c dßng ch÷ th× v« cïng lén xén, toµn lµ nh÷ng h×nh ch÷ nhËt, nh÷ng ký tù ®« la, ký tù nguyªn ©m l»ng nh»ng kh¸c. Qu¶ thËt, míi nh×n s¬ qua t«i ®· thÊy hoa m¾t,. T«i ch¾c r»ng ch¼ng ai cã thÓ ®äc ®îc dï lµ mét mÈu th«ng tin tõ nh÷ng kÝ tù ®ã cho dï hä ®· häc tiÕng NhËt hay lµ ngêi NhËt ch¨ng n÷a.
T¹i sao vËy? Cã thÓ gi¶i thÝch hiÖn tîng nµy nh sau: c¸c ®o¹n v¨n tiÕng NhËt trong c¸c trang Web ®îc viÕt b»ng mét bé m· kh¸c h¼n víi nh÷ng g× mµ b¹n ®ang dïng, cho nªn, nh÷ng g× ®ang ®îc hiÓn thÞ trªn mµn h×nh kh«ng ph¶i lµ nh÷ng g× mµ ngêi so¹n trang Web ®ã muèn ®a tíi cho b¹n. Tr×nh duyÖt Web cña b¹n kh«ng hiÓu thø lo¹i ph«ng ch÷ nµy v× thÕ, nã sÏ hiÓn thÞ tõng byte mµ nã ®äc ®îc víi nh÷ng biÓu tîng t¬ng øng (®· ®îc dùng s½n) trong bé m· Western (vèn ®îc sö dông mÆc ®Þnh trong c¸c tr×nh duyÖt). Víi nh÷ng ngêi sö dông m¸y tÝnh cho c«ng viÖc kinh doanh, vÊn ®Ò sÏ g©y khã chÞu h¬n nhiÒu. Hä sÏ ph¶i sö dông mét phÇn mÒm kh¸c hoÆc thùc hiÖn mét lo¹t c¸c thao t¸c mÊt thêi gian khi muèn xem th«ng tin cña c¸c ng«n ng÷ nµy (ch¾c b¹n còng biÕt, trong c«ng viÖc kinh doanh, hä kh«ng thÓ bá qua nh÷ng th«ng tin h÷u Ých, hä buéc ph¶i ®äc nã. Cßn nÕu nh t«i hoÆc c¸c b¹n th×.. thµ xem ®Þa chØ cßn h¬n).
T¸c gi¶ cña c¸c trang Web ë mét sè níc nµy nhËn thÊy r»ng hä sÏ ph¶i t¨ng gÊp ®«i dung lîng ®Üa, t¨ng gÊp ®«i c«ng viÖc cña m×nh ®Ó dÞch nh÷ng th«ng tin nµy sang tiÕng Anh. §èi víi mét vµi ng«n ng÷, kÓ c¶ Nga, Trung Quèc vµ ViÖt nam, hiÖn cã nhiÒu h¬n mét ph¬ng ph¸p m· ho¸ b¶ng ch÷ c¸i ®ang ®îc dïng, ®iÒu nµy khiÕn cho nh÷ng ai võa muèn xem tiÕng c¸c th«ng tin b»ng tiÕng Anh, võa muèn xem c¸c th«ng tin b»ng tiÕng NhËt, tiÕng ViÖt ph¶i cã tíi Ýt nhÊt hai bé ph«ng ch÷, vµ cã thÓ lµ hai bé phÇn mÒm øng dông - rÊt bÊt tiÖn vµ tèn kÐm.
Gi¶i ph¸p toµn vÑn nhÊt cho sù kh«ng t¬ng thÝch gi÷a c¸c b¶ng m·, ®ã lµ sö dông Unicode, gi¶i ph¸p ®· ®îc nhiÒu quèc gia chÊp nhËn vµ ®îc ®a vµo lµm chuÈn cho viÖc trao ®æi, sö dông th«ng tin. Díi ®©y, chóng ta sÏ cïng xem xÐt nh÷ng nguyªn nh©n, vµ mét sè u ®iÓm cña Unicode.
Ch¾c ch¾n, c©u hái sè mét thêng ®îc hái trong vÊn ®Ò nµy sÏ lµ: Unicode lµ g×? Unicode ®¬n gi¶n chØ lµ mét b¶ng ký tù chuÈn ®îc ®Æt ra ®Ó sö dông ®Ó biÓu thÞ c¸c ng«n ng÷ trªn thÕ giíi, nh vËy, nh÷ng phÇn mÒm sö dông Unicode ®Òu cã kh¶ n¨ng hiÓn thÞ mét thø tiÕng bÊt k× nµo (tÊt nhiªn lµ níc nµy ph¶i cã bé ký hiÖu biÓu diÔn ch viÕt cña h×nh trong ®ã). §Ó gióp b¹n hiÓu râ h¬n nguyªn nh©n vµ qu¸ tr×nh ph¸t triÓn, t«i xin ®îc nh¾c s¬ qua mét sè nÐt chÝnh trong lÞch sö Unicode. Tríc hÕt, Unicode lµ ®Ò ¸n cña Unicode Consortium, ®îc thùc hiÖn tõ th¸ng 1 n¨m 1991. §Ò ¸n cã ®îc nh÷ng nç lùc lín trong sù hîp t¸c gi÷a hÇu hÕt c¸c c«ng ty lín thuéc ngµnh c«ng nghiÖp m¸y tÝnh bao gåm Apple, IBM, Microsoft, Oracle, Sub, Xerox, vµ míi ®©y lµ Netscape. TiÒn th©n cña Unicode, ®ã chÝnh lµ b¶ng m· ISO 8859-1 (t¬ng tù nh b¶ng m· ASCII - American Standard Code for Information Interchange ®îc sö dông tõ nh÷ng n¨m 60) hiÖn vÉn ®îc coi lµ tiªu chuÈn cho viÖc hiÓn thÞ th«ng tin trong c¸c hÖ m¸y PC ngµy nay.
2. CÊu tróc cña Unicode
B¹n cã thÓ hiÓu mét c¸ch n«m na r»ng Unicode lµ b¶ng më réng cña b¶ng c¸c ký tù ASCII. §èi víi b¶ng m· ASCII còng nh c¸c b¶ng m· th«ng thêng kh¸c, mçi ký tù ®îc ®Þnh nghÜa b»ng mét byte duy nhÊt. Nh b¹n ®· biÕt, mét byte cã 8 bit, v× thÕ chØ b¶ng ASCII chØ cã tèi ®a 2 mò 8 = 256 ký tù kh¸c nhau. Víi Unicode, mçi ký tù ë ®©y ®îc ®Þnh nghÜa b»ng 2 byte, v× thÕ sè ký tù biÓu diÔn kh¸c nhau trong b¶ng sÏ lµ 2 mò 16 = 65536. Qu¸ nhiÒu? §óng vËy, cho tíi nay, h¬n mét nöa chç trong Unicode vÉn cßn trèng vµ ch¾c ch¾n chóng sÏ ®îc sö dông tíi trong t¬ng lai. Víi sè ký tù cã thÓ biÓu diÔn lín ®Õn nh vËy, con ngêi kh«ng nh÷ng muèn nã thÓ hiÖn c¸c ký hiÖu ch÷ viÕt trong c¸c ng«n ng÷ mµ khi t¹o ra nã, con ngêi cßn mong nã biÓu hiÖn c¶ c¸c ký hiÖu ®îc sö dông trong ®iÖn tö, vËt lý, to¸n häc, th¬ng m¹i... §Ó thuËn tiÖn cho c¸c nhµ lËp tr×nh còng nh trong qu¸ tr×nh xö lý th«ng tin, 256 ký tù ®Çu tiªn cña Unicode ®îc ®Þnh nghÜa gièng hÖt b¶ng ký tù ASCII.
HiÖn nay Unicode ®· cã nh÷ng nh÷ng ký hiÖu tîng trng cho c¸c ký tù cña hÇu hÕt c¸c ng«n ng÷ ®îc sö dông réng r·i kÓ c¶ tiÕng Nga, tiÕng arËp, Ên §é, vµ mét sè níc ®«ng ¸. Theo ®¸nh gi¸ cña c¸c chuyªn gia, th¸ch thøc lín nhÊt ®èi víi Unicode Consortium lµ thuyÕt phôc nh÷ng c«ng ty s¶n xuÊt phÇn mÒm hç trî kÕ ho¹ch nµy. Bíc khëi ®Çu cña kÕ ho¹ch ®· ®îc hoµn thµnh rÊt tèt ®Ñp. NhiÒu ch¬ng tr×nh ®· ®îc trang bÞ ®Æc tÝnh hç trî Unicode. Næi bËt nhÊt trong sè nµy, ph¶i kÓ ®Õn FrontPage,Windows95, Windows NT cña Microsoft vµ c¸c øng dông v¨n phßng Microsoft Office97. Bªn c¹nh ®ã, ng«n ng÷ lËp tr×nh java cña Sun còng chøa ®Æc tÝnh nµy, trong t¬ng lai, hÖ ®iÒu hµnh "Rhapsody" cu¶ Apple còng cã kh¶ n¨ng lµm viÖc víi Unicode.
Tuy nhiªn, ®ã míi lµ vÊn ®Ò hiÓn thÞ c¸c v¨n b¶n s½n cã, nÕu b¹n muèn tù m×nh so¹n th¶o c¸c v¨n b¶n sö dông Unicode mäi thø sÏ phøc t¹p h¬n mét chót. B¹n cÇn ph¶i cµi ®Æt thªm:
PhÇn mÒm hç trî Unicode
C¸c ph«ng ch÷ Unicode
Mét ch¬ng tr×nh ®Þnh nghÜa cÊu h×nh bµn phÝm cho ng«n ng÷
b¹n muèn sö dông
(ë ViÖt Nam, nh÷ng phÇn mÒm tiªu biÓu
nhÊt thuéc d¹ng nµy ph¶i kÓ ®Õn ABC, VNI, VietWare... T«i ch¾c r»ng b¹n ch¼ng
l¹ g× víi c¸ch sö dông chóng).
Trong c¸c phiªn b¶n Windows 95 th«ng thêng kh«ng chøa s½n Unicode. Víi nh÷ng trêng hîp nµy, b¹n nªn t¶i xuèng vµ cµi ®Æt Unicode tõ mét sè ®Þa chØ Web nµo ®ã trong Internet, vÝ dô nh: www.microsoft.com. Nhí r»ng, b¹n ch¼ng ph¶i tr¶ mét xu nµo c¶, nã miÔn phÝ hoµn toµn...§èi víi Netscape, ®Ó hiÓn thÞ c¸c trang Web kh«ng ®îc sö dông víi bé ký tù Western ch¼ng cã g× lµ khã kh¨n g×, ®Æc biÖt lµ trong nh÷ng phiªn b¶n míi. C«ng viÖc cña b¹n lóc nµy rÊt ®¬n gi¶n: thö chän lÇn lît c¸c ph«ng ch÷ trong danh s¸ch ®îc ®a ra. Microsoft Internet Explorer còng cã mét danh s¸ch kh¸ dµi c¸c ph«ng ch÷ nµy ®Ó b¹n lùa chän - nhng trong mét thÕ giíi lý tëng, tÊt c¶ c¸c v¨n b¶n ®Òu sö dông chung mét bé ph«ng Unicode duy nhÊt, b¹n sÏ ch¼ng cÇn ph¶i chuyÓn qua chuyÓn l¹i n÷a.
3. KÕt luËn
Díi ®©y lµ mét sè th«ng tin míi nhÊt vÒ Unicode. S¾p tíi, héi th¶o lÇn thø 12 vÒ Unicode sÏ ®îc tæ chøc t¹i Tokyo, NhËt tõ trong hai ngµy 6-9 th¸ng 4 n¨m 1998. Träng t©m cña héi th¶o nµy sÏ xoay quanh c¸c vÊn ®Ò vÒ Unicode:
- Internet vµ Unicode
- Java vµ Unicode
- World Wide Web vµ Unicode
- B¶ng kÝ tù ®îc sö dông trªn Internet
- Unicode vµ c¸c ph¬ng thøc nhËp d÷ liÖu
- Unicode vµ ch÷ viÕt c¸c níc Asian
- Unicode vµ ng«n ng÷ cña mét sè d©n téc thiÓu sè ë ch©u ¸
- C¸c m¸y t×m kiÕm trªn Web vµ Unicode
- Unicode trong c¸c c¬ së d÷ liÖu
- C¸c kÕt qu¶ sö dông Unicode trong c¸c øng dông (häc tËp, gi¶i ph¸p...)
- NÐn d÷ liÖu Unicode
- Thö nghiÖm c¸c øng dông Unicode
Hy väng r»ng Unicode lµ kh«ng chØ g¾n mäi ngêi l¹i gÇn nhau h¬n mµ cßn t¹o ra mét thÕ giíi ®iÖn to¸n hîp nhÊt, mét thÕ giíi mµ tÊt c¶ c¸c ng«n ng÷ ®Òu cã vai trß nh nhau. Tiªu chuÈn ®Ó thùc hiÖn ®· s½n sµng, tÊt c¶ chØ cßn phô thuéc vµo nh÷ng ngêi sö dông nã. Tuú tõng níc mµ sö dông Unicode sÏ cã nh÷ng u ®iÓm vµ nhîc ®iÓm riªng, tuy nhiªn t«i nghÜ r»ng, ®©y sÏ lµ con ®êng ®Ó phæ biÕn c¸c th«ng tin, v¨n b¶n tiÕng ViÖt lªn Internet, cho c¸c ngêi níc ngoµi quan t©m ®Õn nh÷ng th«ng tin tiÕng ViÖt. NÕu b¹n cÇn thªm nh÷ng th«ng tin vÒ Unicode, h·y t×m tíi nh÷ng ®Þa chØ Web sau:
1. Homepage cña Unicode Consortium
http://www.unicode.org
2. C¸c trang Web cña Microsoft vÒ gi¶i ph¸p Unicode vµ ®a
ng«n ng÷:
http://www.microsoft.com/win32dev/wcnt.htm
http://www.microsoft.com/win32dev/apiext/unicode.htm
3. Mét sè trang cã th«ng tin vÒ Unicode kh¸c:
http://cns-web.bu.edu/pub/djohnson/web_files/i18n/unicode.html
http://www.truetype.demon.co.uk/unicode.htm
http://www.lang.duke.edu/webcalis/webcalis.htm
http://www.iss.nus.sg/People/guojin/chinese.html
http://www.vlsivie.tuwien.ac.at/mike/fonts
PcLeHoan
1996 - 2002
Mirror :
http://www.pclehoan.com
Mirror :
http://www.lehoanpc.net
Mirror :
http://www.ktlehoan.com