vn_logo.gif (10361 bytes)

Xem bai viet voi font ABC


Giới thiệu về phần mềm nhận dạng chữ in Tiếng Việt
VnDOCR


Thông tin đưa vào

Các tài liệu, báo chí, văn bản tiếng Việt,..bạn cần nhận dạng. Trước tiên bạn phải lưu trữ chúng dưới dạng file ảnh thông qua các thiết bị khác nhau như (scanner, Fax, Video digitizer, camera,..) với các chuẩn khác nhau (tif, bmp, pcx, jpg, gif,..) nhưng phải là ảnh đen trắng, độ phân giải 300 dpi (Thiết lập chuẩn đối với nhiều chương trình nhận dạng) hoặc đọc các file ảnh (tif, bmp, pcx, jpg, gif,..) đã được quét và lưu trữ từ các scanner khác. Nếu như bạn đã có scanner thì đối với chương trình VnDOCR bạn không cần phải lưu trữ mà chương trình sẽ đọc ảnh trực tiếp vào thông qua trình điều khiển scanner hoặc trình điều khiển scanner của riêng VnDOCR. Ðộ chính xác của chương trình nhận dạng sẽ phụ thuộc rất nhiều vào chất lượng của tài liệu, văn bản,..cách thức trình bày, kiểu chữ,..Như vậy đối với các trang tài liệu in rõ ràng có cách trình bày đơn giản, font chữ chuẩn (ABC, VNI,..) sẽ có độ chính xác cao (tỷ lệ đạt gần 99%).

Quét ảnh

Là khâu rất quan trọng và cũng ảnh hưởng rất nhiều tới độ chính xác đối với quá trình nhận dạng. Một văn bản rõ ràng mà bạn quét với độ sáng tối không thích hợp như cho sáng quá thì chữ sẽ mất nét, tối quá thì chữ sẽ đậm dễ dính nhau dễ bị chương trình nhận dạng hiểu lầm là ảnh, đặt nghiêng trang văn bản quét sẽ ảnh hưởng rất nhiều tới độ chính xác của quá trình nhận dạng. Ngược lại đối với các trang văn bản chất lượng kém mà bạn quét với các thiết lập độ sáng tối thích hợp cùng với sự hỗ trợ xử lý ảnh như : xóa nhiễu, làm dày nét, làm mảnh nét, xác định độ nghiêng (chỉnh thẳng văn bản lại theo dòng nằm ngang),.. của VnDOCR chất lượng nhận dạng sẽ được cải thiện rất nhiều nhưng chỉ khi thực sự cần thiết (chỉ với ảnh chất lượng kém) còn các trường hợp khác có khi dẫn đến kết quả ngược lại.

 Phân vùng văn bản cần nhận dạng

Phân vùng thông tin trên một trang báo, văn bản,.. mà bạn cần thu thập và lựa chọn. Trong VnDOCR có tiện ích "Phân vùng bằng tay" cho phép bạn lựa chọn các vùng khác nhau trong một văn bản để bạn nhận dạng. Ðối với các trang tài liệu có cách trình bày đơn giản thì bạn có thể để cho chương trình tự động phân vùng còn đối với các trang tài liệu trình bày phức tạp bạn nên chọn cách phân vùng bằng tay. Ðối với một tập tài liệu có cách trình bày giống nhau bạn có thể phân vùng một trang và áp dụng cách phân vùng này cho toàn bộ tài liệu quét vào.

Thiết lập tuỳ chọn cho văn bản nhận dạng

Thiết lập này bạn nên thực hiện trước quá trình nhận dạng. Các thiết lập này liên quan đến văn bản sau khi nhận dạng như (việc lưu giữ các khung hay không, kích cỡ chữ, độ chính xác,..). Thiết lập tuỳ chọn cũng bao gồm các tiện ích khác như việc chọn giao diện cho chương trình như tiếng Anh hay tiếng Việt, kích cỡ trang tài liệu, giao diện điều khiển sacnner, hệ font chữ ABC hay VNI, và việc sử dụng các tệp mẫu học, từ điển soát chỉnh tả,..

  Nhận dạng ký tự

Khái niệm sơ qua : Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên gọi) dựa theo những quy luật và các mẫu chuẩn. Quá trình nhận dạng dựa vào những quyluật và các lớp tên gọi biết trước gọi là nhận dạng có thầy hay học có thầy, trong trường hợp ngược lại gọi là học không có thầy.Sau quá trình nhận dạng chương trình VnDOCR sẽ hiển thị kết quả nhận dạng ở bên cửa sổ phải của màn hình.

Bạn có thể dùng chức năng kiểm chứng văn bản để kiểm tra kết quả nhận dạng đối với văn bản gốc và sửa trực tiếp. Bạn cũng có thể sử dụng chức năng soát chính tả (một công cụ rất mạnh của chương trình) để vừa kiểm chứng vừa soát chính tả như các hệ soát chính tả trong các chương trình soạn thảo chuyên nghiệp như Word 9x,..(những chữ (từ) được đánh dấu đỏ là chữ nghi ngờ do chương trình soát chính tả đưa ra). Sau đó bạn lưu kết quả nhận dạng ở cửa sổ bên phải sang dạng file (doc, txt, rtf,..) và nhờ một chương trình xử lý văn bản chuyên nghiệp (Word 9x,...) đọc và sửa đổi theo ý mình.

Học các kiểu chữ

Ðây là một tiện ích rất quan trọng của chương trình. Hầu như đối với bất kỳ một phần mềm nhận dạng nào đều phải có. Khi một tập tài liệu mà có những lỗi sai giống nhau thì bạn có thể dùng tính năng này để học thêm các kiểu chữ mới mà chương trình không nhận được hoặc nhận sai. Sau khi học xong các kiểu chữ mới đối với tập tài liệu này thì lần sau nhận dạng lại các chữ này sẽ được nhận hoàn toàn đúng. Như vậy, đối với các tài liệu khác nhau với các lỗi sai khác nhau mà bạn đều cho học thf dữ liệu học sẽ ngày càng lớn và việc nhận dạng sẽ càng ngày càng chính xác hơn đối với các tập tài liệu khác nhau sau khi đã được học. Nếu như đối với mỗi tập tài liệu bạn nên ghi các mẫu học ra một file mẫu học để tránh sự trùng lặp trong việc học các mẫu chữ. Do đó khi lần sau sử dụng đối với từng tập tài liệu bạn sẽ xử dụng từng tập mẫu học riêng cho việc nhận dạng thì độ chính xác sẽ rất cao.


Các khía cạnh kỹ thuật liên quan đến phát triển phần mềm

Trong việc phát triển hệ VnDOCR, nhiều khía cạnh khác nhau trong việc xây dựng phần mềm đã được nghiên cứu, xem xét ứng dụng một cách nghiêm túc và có cơ sở khoa học. Các khía cạnh đó là:

1. Kỹ thuật nhận dạng: Nghiên cứu hai thành phần chủ yếu trong một thuật toán nhận dạng là trích chọn đặc tính (feature extraction) và phân loại (classification) dựa trên đặc tính.Các đặc tính của ký tự được trích chọn bằng cách tiếp cận thống kê có kết hợp với cách tiếp cận cấu trúc đảm bảo tính nhận dạng không cần khai báo font (omnifont) và kích cỡ chữ.Thuật toán phân loại mẫu học (tập các ký tự cần nhận dạng) được phân thành 2 giai đoạn với mục đích tăng tốc độ và độ chính xác:

* Thuật toán phân loại thô

* Thuật toán phân loại mịn (các hàm đánh giá và đối sánh phức tạp dần)

Tiêu chuẩn đối sánh nhanh dựa trên nghiên cứu và đề xuất độ đo đồng dạng giữa hai ảnh ký tự.

2. Kỹ thuật phân tích tự động trang tài liệu: Phân tích tự động tách vùng ảnh và text: dùng kỹ thuật phân đoạn ảnh dựa theo kết quả gần đây nhất về phân đoạn trang tài liệu theo mô hình phân tích từ trên xuống dựa trên các dải trắng đã có nghiên cứu để chỉnh lý các tham số cho phù hợp .Kỹ thuật tự động phát hiện độ nghiêng trang văn bản dựa trên phép biến đổi Hough.

Kỹ thuật tách chữ tự động dựa trên phân tích biểu đồ tần xuất và phân tích vùng liên thông.

3. Các kỹ thuật tiền xử lý ảnh:

Cải thiện chất lượng ảnh cần nhận dạng:

- Xoá nhiễu

- Làm dày hoặc làm mỏng đường nét của ký tự (giải quyết chữ đứt nét hoặc quá dính) nhờ các phép toán hình thái.

- Tăng độ tương phản các vùng ảnh màu và đa cấp sáng bằng phương pháp Gamma, giãn hoặc cân bàng lược đồ tần xuất trước khi chuyển đổi ảnh sang đen/ trắng

Biến đổi ảnh

Chuyển đổi ảnh từ đa cấp sáng, màu sang đen/trắng bằng kỹ thuật phân ngưỡng hoặc các kỹ thuật nửa tông sáng.

4. Kỹ thuật kiểm tra chính tả tiếng Việt: Một số kỹ thuật được sử dụng trong từ điển chính tả tiếng Việt : từ điển được chia thành 2 loại : bảng từ điển tiếng Việt đầy đủ và bảng từ điển âm tiết tiếng Việt. Trong mỗi từ điển, dữ liệu tiếng Việt được nén theo phương pháp nén phân nhóm âm tiết tiếng Việt, tức là mã hoá theo tiền tố và hậu tố.

- Việc kiểm tra chính tả theo từ đơn được tham chiếu tới từ điển âm tiết, còn từ ghép được tham chiếu với từ điển đầy đủ. Thuật toán kiểm tra chính tả trong cả 2 trường hợp được thực hiện trong từng câu.

- Ðối với mỗi từ nghi vấn, những từ gợi ý được đưa ra dựa theo công thức xâu ký tự gần đúng.

5. Quan điểm trong việc thiết kế giao diện với người dùng: Giao diện của phần mềm ứng dụng không những phải đạt được tính thân thiện với người dùng mà còn phải tuân theo những chuẩn mực chung trong các phần mềm xử lý và nhận dạng ảnh truyền thống. Giao diện của VnDOCR là rất đơn giản đối với những yêu cầu xử lý đơn giản, nhưng cũng đầy đủ các chức năng cần thiết đối với các yêu cầu xử lý phức tạp.

Ðó là các giao diện giúp người dùng mở tệp ảnh, ghi tệp kết quả.

Khai báo các tham số về ảnh, thiết lập các tuỳ chọn trước khi tiến hành nhận dạng chữ trên ảnh.

Khả năng học các ký tự mới hoặc các font mới một cách mềm dẻo.

6. Tham khảo thông tin và thử nghiệm đánh giá chất lượng nhận dạng của một số sản phẩm nổi tiếng về nhận dạng chữ Latin đã được thương mại hoá trên thị trường phần mềm thế giới như : OMNIPAGE 8.0, 9.0 (phiên bản gần nhất) của hãng Caere Corporation, Mỹ, RECOGNITA 5.0 (của Recognita Corporation of Hunggary), CURNEIFORM 3.0, của Cognitive Technology Corporation, Mỹ, TexBridge Pro 96 của Xerox Corporation, IMAG-IN 4.0 (Pháp)

7. Khách hàng sử dụng phần mềm VnDOCR 1.0

Phần mềm Nhận dạng chữ Việt in đã được ứng dụng tại hầu hết các tỉnh thành trong nước như : Văn phòng chính phủ, Văn phòng TW Ðảng, UBND các tỉnh Thanh Hoá, Nghệ An, Ðồng Nai, Bình Thuận,Bình Dương, Ninh Thuận, Quảng Trị, Sông Bé, Vĩnh Long,...,anh Martin Nguyễn, Phiên Nguyễn (Việt kiều Mĩ),...Việc ứng dụng VnDOCR đã giúp ích được rất nhiều trong ứng dụng văn phòng của các cơ quan. Theo như ý kiến của anh Martin Nguyễn : việc tái bản các loại sách của Việt nam (Sách đã đăng kí bản quyền) tại Mĩ đã tiến triển rất nhanh nhờ VnDOCR (VnDOCR nhận dạng gần như 99,9% đối với các loại sách này).Ðặc biệt phiên bản VnDOCR Special Edition for Hewlett - Packard Scanner đã được bán kèm và chỉ chạy trên các loại máy scanner của hãng HP và đã được bán rộng rãi trên thị trường.

Bản nâng cấp VnDOCR 2.0

+ Ðưa thêm tính năng trang làm việc hiện thời (workspace) cho phép bạn lưu giữ trạng thái hiện thời của công việc (trang văn bản quét vào, văn bản đã nhận dạng). Như vậy lần sau bạn có thể mở file (workspace) và tiếp tục công việc của mình.

+ Xoá trang văn bản quét vào và đã nhận dạng khi không cần thiết.

+ Tự động nhận dạng : Cho phép bạn quét trực tiếp trang văn bản vào và nhận dạng đồng thời. Quá trình thực hiện sẽ giống như qua trình hoạt động của một máy photocopy.Nhờ quá trình này thời gian thực hiện nhận dạng của bạn sẽ giảm đáng kể.

+ Cải thiện khả năng nhận dạng các mẫu biểu.+ Cải tiến tính năng tự động phân vùng trang văn bản sao cho việc phân vùng chuẩn soát hơn.

+ Lưu giữ trang văn bản kết quả có định dạng chuẩn xác hơn theo định dạng của trang văn bản gốc.

+ Học thêm nhiều loại font chữ để tăng chất lượng nhận dạng.

+ Hỗ trợ Help với tính năng multimedia.

+ Giao diện thân thiện hơn đối với người dùng.

Giá bán và hỗ trợ kỹ thuật

Số máy cài đặt Ðơn giá bán (VNđ)
1 8.000.000
2 - 5 6.000.000
6 - 10 5.000.000
11 4.000.000

+ Bảo hành và hỗ trợ kỹ thuật miễn phí .

+ Nâng cấp miễn phí đối với phiên bản VnDOCR 2.0.

Lại Quốc Anh

Phòng Nhận dạng & Công nghệ tri thức

Viện Công Nghệ Thông Tin

wpe12.jpg (1163 bytes)Tel : (84-4) 7 560 537, 09152 9264, Fax : (84-4) 7 564 217,
Email : laiquocanh@yahoo.com, ncson@ioit.ncst.ac.vn, lcmai@ioit.ncst.ac.vn

http://www.vnn.vn/vnsoft/Companies/IOIT/ioit.html

http://www.VnDOCR.itgo.com


PcLeHoan 1996 - 2002
Mirror : http://www.pclehoan.com
Mirror : http://www.lehoanpc.net

Mirror : http://www.ktlehoan.com