vn_logo.gif (10361 bytes)

Xem bai viet voi font Unicode


Giíi thiÖu vÒ phÇn mÒm nhËn d¹ng ch÷ in TiÕng ViÖt - VnDOCR

Th«ng tin ®­a vµo

C¸c tµi liÖu, b¸o chÝ, v¨n b¶n tiÕng ViÖt,..b¹n cÇn nhËn d¹ng. Tr­íc tiªn b¹n ph¶i l­u tr÷ chóng d­íi d¹ng file ¶nh th«ng qua c¸c thiÕt bÞ kh¸c nhau nh­ (scanner, Fax, Video digitizer, camera,..) víi c¸c chuÈn kh¸c nhau (tif, bmp, pcx, jpg, gif,..) nh­ng ph¶i lµ ¶nh ®en tr¾ng, ®é ph©n gi¶i 300 dpi (ThiÕt lËp chuÈn ®èi víi nhiÒu ch­¬ng tr×nh nhËn d¹ng) hoÆc ®äc c¸c file ¶nh (tif, bmp, pcx, jpg, gif,..) ®· ®­îc quÐt vµ l­u tr÷ tõ c¸c scanner kh¸c. NÕu nh­ b¹n ®· cã scanner th× ®èi víi ch­¬ng tr×nh VnDOCR b¹n kh«ng cÇn ph¶i l­u tr÷ mµ ch­¬ng tr×nh sÏ ®äc ¶nh trùc tiÕp vµo th«ng qua tr×nh ®iÒu khiÓn scanner hoÆc tr×nh ®iÒu khiÓn scanner cña riªng VnDOCR. §é chÝnh x¸c cña ch­¬ng tr×nh nhËn d¹ng sÏ phô thuéc rÊt nhiÒu vµo chÊt l­îng cña tµi liÖu, v¨n b¶n,..c¸ch thøc tr×nh bµy, kiÓu ch÷,..Nh­ vËy ®èi víi c¸c trang tµi liÖu in râ rµng cã c¸ch tr×nh bµy ®¬n gi¶n, font ch÷ chuÈn (ABC, VNI,..) sÏ cã ®é chÝnh x¸c cao (tû lÖ ®¹t gÇn 99%).

QuÐt ¶nh

Lµ kh©u rÊt quan träng vµ còng ¶nh h­ëng rÊt nhiÒu tíi ®é chÝnh x¸c ®èi víi qu¸ tr×nh nhËn d¹ng. Mét v¨n b¶n râ rµng mµ b¹n quÐt víi ®é s¸ng tèi kh«ng thÝch hîp nh­ cho s¸ng qu¸ th× ch÷ sÏ mÊt nÐt, tèi qu¸ th× ch÷ sÏ ®Ëm dÔ dÝnh nhau dÔ bÞ ch­¬ng tr×nh nhËn d¹ng hiÓu lÇm lµ ¶nh, ®Æt nghiªng trang v¨n b¶n quÐt sÏ ¶nh h­ëng rÊt nhiÒu tíi ®é chÝnh x¸c cña qu¸ tr×nh nhËn d¹ng. Ng­îc l¹i ®èi víi c¸c trang v¨n b¶n chÊt l­îng kÐm mµ b¹n quÐt víi c¸c thiÕt lËp ®é s¸ng tèi thÝch hîp cïng víi sù hç trî xö lý ¶nh nh­ : xãa nhiÔu, lµm dµy nÐt, lµm m¶nh nÐt, x¸c ®Þnh ®é nghiªng (chØnh th¼ng v¨n b¶n l¹i theo dßng n»m ngang),.. cña VnDOCR chÊt l­îng nhËn d¹ng sÏ ®­îc c¶i thiÖn rÊt nhiÒu nh­ng chØ khi thùc sù cÇn thiÕt (chØ víi ¶nh chÊt l­îng kÐm) cßn c¸c tr­êng hîp kh¸c cã khi dÉn ®Õn kÕt qu¶ ng­îc l¹i.

 Ph©n vïng v¨n b¶n cÇn nhËn d¹ng

Ph©n vïng th«ng tin trªn mét trang b¸o, v¨n b¶n,.. mµ b¹n cÇn thu thËp vµ lùa chän. Trong VnDOCR cã tiÖn Ých "Ph©n vïng b»ng tay" cho phÐp b¹n lùa chän c¸c vïng kh¸c nhau trong mét v¨n b¶n ®Ó b¹n nhËn d¹ng. §èi víi c¸c trang tµi liÖu cã c¸ch tr×nh bµy ®¬n gi¶n th× b¹n cã thÓ ®Ó cho ch­¬ng tr×nh tù ®éng ph©n vïng cßn ®èi víi c¸c trang tµi liÖu tr×nh bµy phøc t¹p b¹n nªn chän c¸ch ph©n vïng b»ng tay. §èi víi mét tËp tµi liÖu cã c¸ch tr×nh bµy gièng nhau b¹n cã thÓ ph©n vïng mét trang vµ ¸p dông c¸ch ph©n vïng nµy cho toµn bé tµi liÖu quÐt vµo.

ThiÕt lËp tuú chän cho v¨n b¶n nhËn d¹ng

ThiÕt lËp nµy b¹n nªn thùc hiÖn tr­íc qu¸ tr×nh nhËn d¹ng. C¸c thiÕt lËp nµy liªn quan ®Õn v¨n b¶n sau khi nhËn d¹ng nh­ (viÖc l­u gi÷ c¸c khung hay kh«ng, kÝch cì ch÷, ®é chÝnh x¸c,..). ThiÕt lËp tuú chän còng bao gåm c¸c tiÖn Ých kh¸c nh­ viÖc chän giao diÖn cho ch­¬ng tr×nh nh­ tiÕng Anh hay tiÕng ViÖt, kÝch cì trang tµi liÖu, giao diÖn ®iÒu khiÓn sacnner, hÖ font ch÷ ABC hay VNI, vµ viÖc sö dông c¸c tÖp mÉu häc, tõ ®iÓn so¸t chØnh t¶,..

 

 NhËn d¹ng ký tù

Kh¸i niÖm s¬ qua : NhËn d¹ng lµ qu¸ tr×nh ph©n lo¹i c¸c ®èi t­îng ®­îc biÓu diÔn theo mét m« h×nh nµo ®ã vµ g¸n cho chóng vµo mét líp (g¸n cho ®èi t­îng mét tªn gäi) dùa theo nh÷ng quy luËt vµ c¸c mÉu chuÈn. Qu¸ tr×nh nhËn d¹ng dùa vµo nh÷ng quyluËt vµ c¸c líp tªn gäi biÕt tr­íc gäi lµ nhËn d¹ng cã thÇy hay häc cã thÇy, trong tr­êng hîp ng­îc l¹i gäi lµ häc kh«ng cã thÇy.

Sau qu¸ tr×nh nhËn d¹ng ch­¬ng tr×nh VnDOCR sÏ hiÓn thÞ kÕt qu¶ nhËn d¹ng ë bªn cöa sæ ph¶i cña mµn h×nh. B¹n cã thÓ dïng chøc n¨ng kiÓm chøng v¨n b¶n ®Ó kiÓm tra kÕt qu¶ nhËn d¹ng ®èi víi v¨n b¶n gèc vµ söa trùc tiÕp. B¹n còng cã thÓ sö dông chøc n¨ng so¸t chÝnh t¶ (mét c«ng cô rÊt m¹nh cña ch­¬ng tr×nh) ®Ó võa kiÓm chøng võa so¸t chÝnh t¶ nh­ c¸c hÖ so¸t chÝnh t¶ trong c¸c ch­¬ng tr×nh so¹n th¶o chuyªn nghiÖp nh­ Word 9x,..(nh÷ng ch÷ (tõ) ®­îc ®¸nh dÊu ®á lµ ch÷ nghi ngê do ch­¬ng tr×nh so¸t chÝnh t¶ ®­a ra). Sau ®ã b¹n l­u kÕt qu¶ nhËn d¹ng ë cöa sæ bªn ph¶i sang d¹ng file (doc, txt, rtf,..) vµ nhê mét ch­¬ng tr×nh xö lý v¨n b¶n chuyªn nghiÖp (Word 9x,...) ®äc vµ söa ®æi theo ý m×nh.

Häc c¸c kiÓu ch÷

§©y lµ mét tiÖn Ých rÊt quan träng cña ch­¬ng tr×nh. HÇu nh­ ®èi víi bÊt kú mét phÇn mÒm nhËn d¹ng nµo ®Òu ph¶i cã. Khi mét tËp tµi liÖu mµ cã nh÷ng lçi sai gièng nhau th× b¹n cã thÓ dïng tÝnh n¨ng nµy ®Ó häc thªm c¸c kiÓu ch÷ míi mµ ch­¬ng tr×nh kh«ng nhËn ®­îc hoÆc nhËn sai. Sau khi häc xong c¸c kiÓu ch÷ míi ®èi víi tËp tµi liÖu nµy th× lÇn sau nhËn d¹ng l¹i c¸c ch÷ nµy sÏ ®­îc nhËn hoµn toµn ®óng. Nh­ vËy, ®èi víi c¸c tµi liÖu kh¸c nhau víi c¸c lçi sai kh¸c nhau mµ b¹n ®Òu cho häc thf d÷ liÖu häc sÏ ngµy cµng lín vµ viÖc nhËn d¹ng sÏ cµng ngµy cµng chÝnh x¸c h¬n ®èi víi c¸c tËp tµi liÖu kh¸c nhau sau khi ®· ®­îc häc. NÕu nh­ ®èi víi mçi tËp tµi liÖu b¹n nªn ghi c¸c mÉu häc ra mét file mÉu häc ®Ó tr¸nh sù trïng lÆp trong viÖc häc c¸c mÉu ch÷. Do ®ã khi lÇn sau sö dông ®èi víi tõng tËp tµi liÖu b¹n sÏ xö dông tõng tËp mÉu häc riªng cho viÖc nhËn d¹ng th× ®é chÝnh x¸c sÏ rÊt cao.


C¸c khÝa c¹nh kü thuËt liªn quan ®Õn ph¸t triÓn phÇn mÒm

Trong viÖc ph¸t triÓn hÖ VnDOCR, nhiÒu khÝa c¹nh kh¸c nhau trong viÖc x©y dùng phÇn mÒm ®· ®­îc nghiªn cøu, xem xÐt øng dông mét c¸ch nghiªm tóc vµ cã c¬ së khoa häc. C¸c khÝa c¹nh ®ã lµ:

1. Kü thuËt nhËn d¹ng: Nghiªn cøu hai thµnh phÇn chñ yÕu trong mét thuËt to¸n nhËn d¹ng lµ trÝch chän ®Æc tÝnh (feature extraction) vµ ph©n lo¹i (classification) dùa trªn ®Æc tÝnh.

2. Kü thuËt ph©n tÝch tù ®éng trang tµi liÖu

Ph©n tÝch tù ®éng t¸ch vïng ¶nh vµ text: dïng kü thuËt ph©n ®o¹n ¶nh dùa theo kÕt qu¶ gÇn ®©y nhÊt vÒ ph©n ®o¹n trang tµi liÖu theo m« h×nh ph©n tÝch tõ trªn xuèng dùa trªn c¸c d¶i tr¾ng ®· cã nghiªn cøu ®Ó chØnh lý c¸c tham sè cho phï hîp .

Kü thuËt tù ®éng ph¸t hiÖn ®é nghiªng trang v¨n b¶n dùa trªn phÐp biÕn ®æi Hough.

Kü thuËt t¸ch ch÷ tù ®éng dùa trªn ph©n tÝch biÓu ®å tÇn xuÊt vµ ph©n tÝch vïng liªn th«ng.

3. C¸c kü thuËt tiÒn xö lý ¶nh

C¶i thiÖn chÊt l­îng ¶nh cÇn nhËn d¹ng:

- Xo¸ nhiÔu

- Lµm dµy hoÆc lµm máng ®­êng nÐt cña ký tù (gi¶i quyÕt ch÷ ®øt nÐt hoÆc qu¸ dÝnh) nhê c¸c phÐp to¸n h×nh th¸i.

- T¨ng ®é t­¬ng ph¶n c¸c vïng ¶nh mµu vµ ®a cÊp s¸ng b»ng ph­¬ng ph¸p Gamma, gi·n hoÆc c©n bµng l­îc ®å tÇn xuÊt tr­íc khi chuyÓn ®æi ¶nh sang ®en/ tr¾ng

BiÕn ®æi ¶nh

ChuyÓn ®æi ¶nh tõ ®a cÊp s¸ng, mµu sang ®en/tr¾ng b»ng kü thuËt ph©n ng­ìng hoÆc c¸c kü thuËt nöa t«ng s¸ng.

4. Kü thuËt kiÓm tra chÝnh t¶ tiÕng ViÖt

Mét sè kü thuËt ®­îc sö dông trong tõ ®iÓn chÝnh t¶ tiÕng ViÖt : tõ ®iÓn ®­îc chia thµnh 2 lo¹i : b¶ng tõ ®iÓn tiÕng ViÖt ®Çy ®ñ vµ b¶ng tõ ®iÓn ©m tiÕt tiÕng ViÖt. Trong mçi tõ ®iÓn, d÷ liÖu tiÕng ViÖt ®­îc nÐn theo ph­¬ng ph¸p nÐn ph©n nhãm ©m tiÕt tiÕng ViÖt, tøc lµ m· ho¸ theo tiÒn tè vµ hËu tè.

- ViÖc kiÓm tra chÝnh t¶ theo tõ ®¬n ®­îc tham chiÕu tíi tõ ®iÓn ©m tiÕt, cßn tõ ghÐp ®­îc tham chiÕu víi tõ ®iÓn ®Çy ®ñ. ThuËt to¸n kiÓm tra chÝnh t¶ trong c¶ 2 tr­êng hîp ®­îc thùc hiÖn trong tõng c©u.

- §èi víi mçi tõ nghi vÊn, nh÷ng tõ gîi ý ®­îc ®­a ra dùa theo c«ng thøc x©u ký tù gÇn ®óng.

5. Quan ®iÓm trong viÖc thiÕt kÕ giao diÖn víi ng­êi dïng

Giao diÖn cña phÇn mÒm øng dông kh«ng nh÷ng ph¶i ®¹t ®­îc tÝnh th©n thiÖn víi ng­êi dïng mµ cßn ph¶i tu©n theo nh÷ng chuÈn mùc chung trong c¸c phÇn mÒm xö lý vµ nhËn d¹ng ¶nh truyÒn thèng. Giao diÖn cña VnDOCR lµ rÊt ®¬n gi¶n ®èi víi nh÷ng yªu cÇu xö lý ®¬n gi¶n, nh­ng còng ®Çy ®ñ c¸c chøc n¨ng cÇn thiÕt ®èi víi c¸c yªu cÇu xö lý phøc t¹p.

§ã lµ c¸c giao diÖn gióp ng­êi dïng më tÖp ¶nh, ghi tÖp kÕt qu¶.

Khai b¸o c¸c tham sè vÒ ¶nh, thiÕt lËp c¸c tuú chän tr­íc khi tiÕn hµnh nhËn d¹ng ch÷ trªn ¶nh.

Kh¶ n¨ng häc c¸c ký tù míi hoÆc c¸c font míi mét c¸ch mÒm dÎo.

6. Tham kh¶o th«ng tinvµ thö nghiÖm ®¸nh gi¸ chÊt l­îng nhËn d¹ng cña mét sè s¶n phÈm næi tiÕng vÒ nhËn d¹ng ch÷ Latin ®· ®­îc th­¬ng m¹i ho¸ trªn thÞ tr­êng phÇn mÒm thÕ giíi nh­ : OMNIPAGE 8.0, 9.0 (phiªn b¶n gÇn nhÊt) cña h·ng Caere Corporation, Mü, RECOGNITA 5.0 (cña Recognita Corporation of Hunggary), CURNEIFORM 3.0, cña Cognitive Technology Corporation, Mü, TexBridge Pro 96 cña Xerox Corporation, IMAG-IN 4.0 (Ph¸p)

4. Kh¸ch hµng sö dông phÇn mÒm VnDOCR 1.0

PhÇn mÒm NhËn d¹ng ch÷ ViÖt in ®· ®­îc øng dông t¹i hÇu hÕt c¸c tØnh thµnh trong n­íc nh­ : V¨n phßng chÝnh phñ, V¨n phßng TW §¶ng, UBND c¸c tØnh Thanh Ho¸, NghÖ An, §ång Nai, B×nh ThuËn,B×nh D­¬ng, Ninh ThuËn, Qu¶ng TrÞ, S«ng BÐ, VÜnh Long,...,anh Martin NguyÔn, Phiªn NguyÔn (ViÖt kiÒu MÜ),...ViÖc øng dông VnDOCR ®· gióp Ých ®­îc rÊt nhiÒu trong øng dông v¨n phßng cña c¸c c¬ quan. Theo nh­ ý kiÕn cña anh Martin NguyÔn : viÖc t¸i b¶n c¸c lo¹i s¸ch cña ViÖt nam (S¸ch ®· ®¨ng kÝ b¶n quyÒn) t¹i MÜ ®· tiÕn triÓn rÊt nhanh nhê VnDOCR (VnDOCR nhËn d¹ng gÇn nh­ 99,9% ®èi víi c¸c lo¹i s¸ch nµy).

§Æc biÖt phiªn b¶n VnDOCR Special Edition for Hewlett - Packard Scanner ®· ®­îc b¸n kÌm vµ chØ ch¹y trªn c¸c lo¹i m¸y scanner cña h·ng HP vµ ®· ®­îc b¸n réng r·i trªn thÞ tr­êng.

B¶n n©ng cÊp VnDOCR 2.0

  + §­a thªm tÝnh n¨ng trang lµm viÖc hiÖn thêi (workspace) cho phÐp b¹n l­u gi÷ tr¹ng th¸i hiÖn thêi cña c«ng viÖc (trang v¨n b¶n quÐt vµo, v¨n b¶n ®· nhËn d¹ng). Nh­ vËy lÇn sau b¹n cã thÓ më file (workspace) vµ tiÕp tôc c«ng viÖc cña m×nh.

+ Xo¸ trang v¨n b¶n quÐt vµo vµ ®· nhËn d¹ng khi kh«ng cÇn thiÕt.

+ Tù ®éng nhËn d¹ng : Cho phÐp b¹n quÐt trùc tiÕp trang v¨n b¶n vµo vµ nhËn d¹ng ®ång thêi. Qu¸ tr×nh thùc hiÖn sÏ gièng nh­ qua tr×nh ho¹t ®éng cña mét m¸y photocopy.Nhê qu¸ tr×nh nµy thêi gian thùc hiÖn nhËn d¹ng cña b¹n sÏ gi¶m ®¸ng kÓ.

+ C¶i thiÖn kh¶ n¨ng nhËn d¹ng c¸c mÉu biÓu.

+ C¶i tiÕn tÝnh n¨ng tù ®éng ph©n vïng trang v¨n b¶n sao cho viÖc ph©n vïng chuÈn so¸t h¬n.

+ L­u gi÷ trang v¨n b¶n kÕt qu¶ cã ®Þnh d¹ng chuÈn x¸c h¬n theo ®Þnh d¹ng cña trang v¨n b¶n gèc.

+ Häc thªm nhiÒu lo¹i font ch÷ ®Ó t¨ng chÊt l­îng nhËn d¹ng.

+ Hç trî Help víi tÝnh n¨ng multimedia.

+ Giao diÖn th©n thiÖn h¬n ®èi víi ng­êi dïng.

Gi¸ b¸n vµ hç trî kü thuËt

Sè m¸y cµi ®Æt §¬n gi¸ b¸n
1 8.000.000 VN§
2 - 5 6.000.000 VN§
6 - 10 5.000.000 VN§
11 4.000.000 VN§

+ B¶o hµnh vµ hç trî kü thuËt miÔn phÝ .

+ N©ng cÊp miÔn phÝ ®èi víi phiªn b¶n VnDOCR 2.0.

L¹i Quèc Anh

Phßng NhËn d¹ng & C«ng nghÖ tri thøc

ViÖn C«ng NghÖ Th«ng Tin

wpe12.jpg (1163 bytes)Tel : (84-4) 7 560 537, 09152 9264, Fax : (84-4) 7 564 217,
Email : laiquocanh@yahoo.com, ncson@ioit.ncst.ac.vn, lcmai@ioit.ncst.ac.vn

http://www.vnn.vn/vnsoft/Companies/IOIT/ioit.html

http://www.VnDOCR.itgo.com


PcLeHoan 1996 - 2002
Mirror : http://www.pclehoan.com
Mirror : http://www.lehoanpc.net

Mirror : http://www.ktlehoan.com