
|
|
| Giíi thiÖu vÒ phÇn mÒm nhËn d¹ng ch÷ in TiÕng ViÖt - VnDOCR |
|
|
Th«ng tin ®a vµo
C¸c tµi liÖu, b¸o chÝ, v¨n b¶n tiÕng ViÖt,..b¹n cÇn nhËn d¹ng. Tríc
tiªn b¹n ph¶i lu tr÷ chóng díi d¹ng file ¶nh th«ng qua c¸c thiÕt bÞ
kh¸c nhau nh (scanner, Fax, Video digitizer, camera,..) víi c¸c chuÈn kh¸c
nhau (tif, bmp, pcx, jpg, gif,..) nhng ph¶i lµ ¶nh ®en tr¾ng, ®é ph©n gi¶i
300 dpi (ThiÕt lËp chuÈn ®èi víi nhiÒu ch¬ng tr×nh nhËn d¹ng) hoÆc ®äc c¸c
file ¶nh (tif, bmp, pcx, jpg, gif,..) ®· ®îc quÐt vµ lu tr÷ tõ c¸c
scanner kh¸c. NÕu nh b¹n ®· cã scanner th× ®èi víi ch¬ng tr×nh VnDOCR
b¹n kh«ng cÇn ph¶i lu tr÷ mµ ch¬ng tr×nh sÏ ®äc ¶nh trùc tiÕp vµo
th«ng qua tr×nh ®iÒu khiÓn scanner hoÆc tr×nh ®iÒu khiÓn scanner cña riªng
VnDOCR. §é chÝnh x¸c cña ch¬ng tr×nh nhËn d¹ng sÏ phô thuéc rÊt nhiÒu vµo
chÊt lîng cña tµi liÖu, v¨n b¶n,..c¸ch thøc tr×nh bµy, kiÓu ch÷,..Nh
vËy ®èi víi c¸c trang tµi liÖu in râ rµng cã c¸ch tr×nh bµy ®¬n gi¶n, font ch÷
chuÈn (ABC, VNI,..) sÏ cã ®é chÝnh x¸c cao (tû lÖ ®¹t gÇn 99%).
QuÐt
¶nh
Lµ kh©u rÊt quan träng vµ còng ¶nh hëng rÊt nhiÒu tíi ®é chÝnh x¸c
®èi víi qu¸ tr×nh nhËn d¹ng. Mét v¨n b¶n râ rµng mµ b¹n quÐt víi ®é s¸ng tèi
kh«ng thÝch hîp nh cho s¸ng qu¸ th× ch÷ sÏ mÊt nÐt, tèi qu¸ th× ch÷ sÏ ®Ëm
dÔ dÝnh nhau dÔ bÞ ch¬ng tr×nh nhËn d¹ng hiÓu lÇm lµ ¶nh, ®Æt nghiªng trang
v¨n b¶n quÐt sÏ ¶nh hëng rÊt nhiÒu tíi ®é chÝnh x¸c cña qu¸ tr×nh nhËn
d¹ng. Ngîc l¹i ®èi víi c¸c trang v¨n b¶n chÊt lîng kÐm mµ b¹n quÐt víi
c¸c thiÕt lËp ®é s¸ng tèi thÝch hîp cïng víi sù hç trî xö lý ¶nh nh : xãa
nhiÔu, lµm dµy nÐt, lµm m¶nh nÐt, x¸c ®Þnh ®é nghiªng (chØnh th¼ng v¨n b¶n l¹i
theo dßng n»m ngang),.. cña VnDOCR chÊt lîng nhËn d¹ng sÏ ®îc c¶i
thiÖn rÊt nhiÒu nhng chØ khi thùc sù cÇn thiÕt (chØ víi ¶nh chÊt lîng
kÐm) cßn c¸c trêng hîp kh¸c cã khi dÉn ®Õn kÕt qu¶ ngîc l¹i.
Ph©n vïng v¨n b¶n cÇn nhËn
d¹ng

NhËn d¹ng ký
tù
Sau qu¸ tr×nh nhËn d¹ng ch¬ng tr×nh VnDOCR sÏ hiÓn thÞ kÕt qu¶ nhËn d¹ng ë bªn cöa sæ ph¶i cña mµn h×nh. B¹n cã thÓ dïng chøc n¨ng kiÓm chøng v¨n b¶n ®Ó kiÓm tra kÕt qu¶ nhËn d¹ng ®èi víi v¨n b¶n gèc vµ söa trùc tiÕp. B¹n còng cã thÓ sö dông chøc n¨ng so¸t chÝnh t¶ (mét c«ng cô rÊt m¹nh cña ch¬ng tr×nh) ®Ó võa kiÓm chøng võa so¸t chÝnh t¶ nh c¸c hÖ so¸t chÝnh t¶ trong c¸c ch¬ng tr×nh so¹n th¶o chuyªn nghiÖp nh Word 9x,..(nh÷ng ch÷ (tõ) ®îc ®¸nh dÊu ®á lµ ch÷ nghi ngê do ch¬ng tr×nh so¸t chÝnh t¶ ®a ra). Sau ®ã b¹n lu kÕt qu¶ nhËn d¹ng ë cöa sæ bªn ph¶i sang d¹ng file (doc, txt, rtf,..) vµ nhê mét ch¬ng tr×nh xö lý v¨n b¶n chuyªn nghiÖp (Word 9x,...) ®äc vµ söa ®æi theo ý m×nh.
Häc c¸c kiÓu ch÷
§©y lµ mét tiÖn Ých rÊt quan träng cña ch¬ng tr×nh. HÇu nh ®èi
víi bÊt kú mét phÇn mÒm nhËn d¹ng nµo ®Òu ph¶i cã. Khi mét tËp tµi liÖu mµ cã
nh÷ng lçi sai gièng nhau th× b¹n cã thÓ dïng tÝnh n¨ng nµy ®Ó häc thªm c¸c kiÓu
ch÷ míi mµ ch¬ng tr×nh kh«ng nhËn ®îc hoÆc nhËn sai. Sau khi häc xong
c¸c kiÓu ch÷ míi ®èi víi tËp tµi liÖu nµy th× lÇn sau nhËn d¹ng l¹i c¸c ch÷ nµy
sÏ ®îc nhËn hoµn toµn ®óng. Nh vËy, ®èi víi c¸c tµi liÖu kh¸c nhau víi
c¸c lçi sai kh¸c nhau mµ b¹n ®Òu cho häc thf d÷ liÖu häc sÏ ngµy cµng lín vµ
viÖc nhËn d¹ng sÏ cµng ngµy cµng chÝnh x¸c h¬n ®èi víi c¸c tËp tµi liÖu kh¸c
nhau sau khi ®· ®îc häc. NÕu nh ®èi víi mçi tËp tµi liÖu b¹n nªn ghi
c¸c mÉu häc ra mét file mÉu häc ®Ó tr¸nh sù trïng lÆp trong viÖc häc c¸c mÉu
ch÷. Do ®ã khi lÇn sau sö dông ®èi víi tõng tËp tµi liÖu b¹n sÏ xö dông tõng tËp
mÉu häc riªng cho viÖc nhËn d¹ng th× ®é chÝnh x¸c sÏ rÊt cao.
C¸c ®Æc tÝnh cña ký tù ®îc trÝch chän b»ng c¸ch tiÕp cËn thèng kª cã kÕt hîp víi c¸ch tiÕp cËn cÊu tróc ®¶m b¶o tÝnh nhËn d¹ng kh«ng cÇn khai b¸o font (omnifont) vµ kÝch cì ch÷.
2. Kü thuËt ph©n tÝch tù ®éng trang tµi liÖu
Ph©n tÝch tù ®éng t¸ch vïng ¶nh vµ text: dïng kü thuËt ph©n ®o¹n ¶nh dùa theo kÕt qu¶ gÇn ®©y nhÊt vÒ ph©n ®o¹n trang tµi liÖu theo m« h×nh ph©n tÝch tõ trªn xuèng dùa trªn c¸c d¶i tr¾ng ®· cã nghiªn cøu ®Ó chØnh lý c¸c tham sè cho phï hîp .
Kü thuËt tù ®éng ph¸t hiÖn ®é nghiªng trang v¨n b¶n dùa trªn phÐp biÕn ®æi Hough.
Kü thuËt t¸ch ch÷ tù ®éng dùa trªn ph©n tÝch biÓu ®å tÇn xuÊt vµ ph©n tÝch vïng liªn th«ng.
3. C¸c kü thuËt tiÒn xö lý ¶nh
C¶i thiÖn chÊt lîng ¶nh cÇn nhËn d¹ng:
- Xo¸ nhiÔu
- Lµm dµy hoÆc lµm máng ®êng nÐt cña ký tù (gi¶i quyÕt ch÷ ®øt nÐt hoÆc qu¸ dÝnh) nhê c¸c phÐp to¸n h×nh th¸i.
- T¨ng ®é t¬ng ph¶n c¸c vïng ¶nh mµu vµ ®a cÊp s¸ng b»ng ph¬ng ph¸p Gamma, gi·n hoÆc c©n bµng lîc ®å tÇn xuÊt tríc khi chuyÓn ®æi ¶nh sang ®en/ tr¾ng
BiÕn ®æi ¶nh
ChuyÓn ®æi ¶nh tõ ®a cÊp s¸ng, mµu sang ®en/tr¾ng b»ng kü thuËt ph©n ngìng hoÆc c¸c kü thuËt nöa t«ng s¸ng.
4. Kü thuËt kiÓm tra chÝnh t¶ tiÕng ViÖt
Mét sè kü thuËt ®îc sö dông trong tõ ®iÓn chÝnh t¶ tiÕng ViÖt : tõ ®iÓn ®îc chia thµnh 2 lo¹i : b¶ng tõ ®iÓn tiÕng ViÖt ®Çy ®ñ vµ b¶ng tõ ®iÓn ©m tiÕt tiÕng ViÖt. Trong mçi tõ ®iÓn, d÷ liÖu tiÕng ViÖt ®îc nÐn theo ph¬ng ph¸p nÐn ph©n nhãm ©m tiÕt tiÕng ViÖt, tøc lµ m· ho¸ theo tiÒn tè vµ hËu tè.
- ViÖc kiÓm tra chÝnh t¶ theo tõ ®¬n ®îc tham chiÕu tíi tõ ®iÓn ©m tiÕt, cßn tõ ghÐp ®îc tham chiÕu víi tõ ®iÓn ®Çy ®ñ. ThuËt to¸n kiÓm tra chÝnh t¶ trong c¶ 2 trêng hîp ®îc thùc hiÖn trong tõng c©u.
- §èi víi mçi tõ nghi vÊn, nh÷ng tõ gîi ý ®îc ®a ra dùa theo c«ng thøc x©u ký tù gÇn ®óng.
5. Quan ®iÓm trong viÖc thiÕt kÕ giao diÖn víi ngêi dïng
Giao diÖn cña phÇn mÒm øng dông kh«ng nh÷ng ph¶i ®¹t ®îc tÝnh th©n thiÖn víi ngêi dïng mµ cßn ph¶i tu©n theo nh÷ng chuÈn mùc chung trong c¸c phÇn mÒm xö lý vµ nhËn d¹ng ¶nh truyÒn thèng. Giao diÖn cña VnDOCR lµ rÊt ®¬n gi¶n ®èi víi nh÷ng yªu cÇu xö lý ®¬n gi¶n, nhng còng ®Çy ®ñ c¸c chøc n¨ng cÇn thiÕt ®èi víi c¸c yªu cÇu xö lý phøc t¹p.
§ã lµ c¸c giao diÖn gióp ngêi dïng më tÖp ¶nh, ghi tÖp kÕt qu¶.
Khai b¸o c¸c tham sè vÒ ¶nh, thiÕt lËp c¸c tuú chän tríc khi tiÕn hµnh nhËn d¹ng ch÷ trªn ¶nh.
Kh¶ n¨ng häc c¸c ký tù míi hoÆc c¸c font míi mét c¸ch mÒm dÎo.
6. Tham kh¶o th«ng tinvµ thö nghiÖm ®¸nh gi¸ chÊt lîng nhËn d¹ng cña mét sè s¶n phÈm næi tiÕng vÒ nhËn d¹ng ch÷ Latin ®· ®îc th¬ng m¹i ho¸ trªn thÞ trêng phÇn mÒm thÕ giíi nh : OMNIPAGE 8.0, 9.0 (phiªn b¶n gÇn nhÊt) cña h·ng Caere Corporation, Mü, RECOGNITA 5.0 (cña Recognita Corporation of Hunggary), CURNEIFORM 3.0, cña Cognitive Technology Corporation, Mü, TexBridge Pro 96 cña Xerox Corporation, IMAG-IN 4.0 (Ph¸p)
4. Kh¸ch hµng sö dông phÇn
mÒm VnDOCR 1.0
PhÇn mÒm NhËn d¹ng ch÷ ViÖt in ®· ®îc øng dông t¹i hÇu hÕt c¸c tØnh thµnh trong níc nh : V¨n phßng chÝnh phñ, V¨n phßng TW §¶ng, UBND c¸c tØnh Thanh Ho¸, NghÖ An, §ång Nai, B×nh ThuËn,B×nh D¬ng, Ninh ThuËn, Qu¶ng TrÞ, S«ng BÐ, VÜnh Long,...,anh Martin NguyÔn, Phiªn NguyÔn (ViÖt kiÒu MÜ),...ViÖc øng dông VnDOCR ®· gióp Ých ®îc rÊt nhiÒu trong øng dông v¨n phßng cña c¸c c¬ quan. Theo nh ý kiÕn cña anh Martin NguyÔn : viÖc t¸i b¶n c¸c lo¹i s¸ch cña ViÖt nam (S¸ch ®· ®¨ng kÝ b¶n quyÒn) t¹i MÜ ®· tiÕn triÓn rÊt nhanh nhê VnDOCR (VnDOCR nhËn d¹ng gÇn nh 99,9% ®èi víi c¸c lo¹i s¸ch nµy).
§Æc biÖt phiªn b¶n VnDOCR Special Edition for Hewlett - Packard Scanner ®· ®îc b¸n kÌm vµ chØ ch¹y trªn c¸c lo¹i m¸y scanner cña h·ng HP vµ ®· ®îc b¸n réng r·i trªn thÞ trêng.
B¶n n©ng cÊp VnDOCR 2.0
+ §a thªm tÝnh n¨ng trang lµm viÖc hiÖn thêi (workspace) cho phÐp b¹n lu gi÷ tr¹ng th¸i hiÖn thêi cña c«ng viÖc (trang v¨n b¶n quÐt vµo, v¨n b¶n ®· nhËn d¹ng). Nh vËy lÇn sau b¹n cã thÓ më file (workspace) vµ tiÕp tôc c«ng viÖc cña m×nh.
+ Xo¸ trang v¨n b¶n quÐt vµo vµ ®· nhËn d¹ng khi kh«ng cÇn thiÕt.
+ Tù ®éng nhËn d¹ng : Cho phÐp b¹n quÐt trùc tiÕp trang v¨n b¶n vµo vµ nhËn d¹ng ®ång thêi. Qu¸ tr×nh thùc hiÖn sÏ gièng nh qua tr×nh ho¹t ®éng cña mét m¸y photocopy.Nhê qu¸ tr×nh nµy thêi gian thùc hiÖn nhËn d¹ng cña b¹n sÏ gi¶m ®¸ng kÓ.
+ C¶i thiÖn kh¶ n¨ng nhËn d¹ng c¸c mÉu biÓu.
+ C¶i tiÕn tÝnh n¨ng tù ®éng ph©n vïng trang v¨n b¶n sao cho viÖc ph©n vïng chuÈn so¸t h¬n.
+ Lu gi÷ trang v¨n b¶n kÕt qu¶ cã ®Þnh d¹ng chuÈn x¸c h¬n theo ®Þnh d¹ng cña trang v¨n b¶n gèc.
+ Häc thªm nhiÒu lo¹i font ch÷ ®Ó t¨ng chÊt lîng nhËn d¹ng.
+ Hç trî Help víi tÝnh n¨ng multimedia.
+ Giao diÖn th©n thiÖn h¬n ®èi víi ngêi dïng.
Gi¸ b¸n vµ hç trî kü thuËt
| Sè m¸y cµi ®Æt | §¬n gi¸ b¸n |
| 1 | 8.000.000 VN§ |
| 2 - 5 | 6.000.000 VN§ |
| 6 - 10 | 5.000.000 VN§ |
| 11 | 4.000.000 VN§ |
+ N©ng cÊp miÔn phÝ ®èi víi phiªn b¶n VnDOCR 2.0.
L¹i Quèc Anh
Phßng NhËn d¹ng & C«ng nghÖ tri thøc
ViÖn C«ng NghÖ Th«ng Tin
Tel : (84-4) 7 560 537, 09152 9264, Fax :
(84-4) 7 564 217,
Email : laiquocanh@yahoo.com, ncson@ioit.ncst.ac.vn, lcmai@ioit.ncst.ac.vn
http://www.vnn.vn/vnsoft/Companies/IOIT/ioit.html
PcLeHoan
1996 - 2002
Mirror :
http://www.pclehoan.com
Mirror :
http://www.lehoanpc.net
Mirror :
http://www.ktlehoan.com