VnDOCR 1.0

Xem bai viet voi font ABC

(Bài viết dựa theo trợ giúp (Help) của chương trình)

Giới thiệu

VnDOCR biến đổi dữ liệu ảnh thành dữ liệu văn bản mà bạn có thể sử dụng trong các phần mềm soạn thảo văn bản của PC. Bạn có thể tạo ra các trang của tài liệu, như việc chuyển đổi các ảnh (được quét vào) sang dạng văn bản và ghi dưới một số dạng file văn bản khác nhau.

VnDOCR làm việc với ảnh đen/trắng, đa cấp xám và ảnh màu với các dạng thức ảnh phổ dụng nhất như PC Paintbrush File Format (.PCX), GEM Raster (.IMG, .GEM), Tag Image File Format, TIFF (.TIF), JPEG File Interchange Format (.JPG), Macintosh Paint (.MAC), Kodak PhotoCD (.PCD), Adobe Photoshop (.PSD), SunRaster Data Format (.RAS), Run-length encoded File (.RLE)... ảnh có thể là đen/trắng, đa cấp xám và ảnh màu. Tuy vậy với mục đích nhận dạng thì cần thiết chuyển về ảnh đen/trắng. VnDOCR ghi văn bản nhận dạng được dưới các khuôn dạng của Microsoft Word 6.0, Microsoft Word 97 (.DOC), Rich Text Format (.RTF) và kí tự ASCII.

Các chức năng chính

Quét, đọc và lưu trữ các file ảnh văn bản dưới nhiều khuôn dạng khác nhau.

Thực hiện nhiều chức năng tiền xử lý ảnh khi cần thiết: Tách các khối văn bản, đồ thị hoặc ảnh bằng phương thức tự động hoặc bán tự động, xử lý độ nghiêng tự động, lọc nhiễu, tăng chất lượng ảnh...

Tự động nhận dạng các văn bản in tiếng Việt trên các kiểu phông chữ như Arial, Avant, Helvetica, Time, Time New Roman, Courier với kích thước của kí tự từ 8 đến 72 điểm. Cung cấp công cụ học trên các dạng phông chữ in khác.

Kiểm tra lỗi chính tả trên văn bản đã nhận dạng.

Cung cấp công cụ soạn thảo trên văn bản đã nhận dạng, sử dụng bộ gõ chữ Việt, bộ mã TCVN 5712-1993 và bộ phông ABC.

Lưu văn bản ra dưới các khuôn dạng của Microsoft Word 6.0 (.DOC), .RTF và .TXT

Menu Tệp

Ðọc ảnh

    Bạn chỉ có thể làm việc với một tài liệu (một hoặc nhiều trang - multipage) trong một thời điểm. Nếu mở tiếp một tệp mới, tệp này sẽ được nối vào cuối tài liệu của bạn, vào đầu hay vào một vị trí bất kỳ của tài liệu tuỳ theo thiết lập bạn đặt trong Tuỳ chọn. Ðể đọc một file ảnh của VnDOCR, cần thực hiện các bước sau:

    1. Chọn Ðọc ảnh từ menu Tệp hay chọn từ danh sách Ðọc ảnh/Quét ảnh và bấm vào nút "Ðọc ảnh/Quét ảnh" trên thanh công cụ. Xuất hiện hộp hội thoại Ðọc ảnh.

2. Chỉ đường dẫn đến file ảnh đã lưu.

3. Chọn kiểu file ảnh từ hộp danh sách các kiểu file cho phép trong VnDOCR. Những file ảnh có kiểu đã chọn trong thư mục hiện thời sẽ xuất hiện trong danh sách.

4. Nhấn đúp chuột vào file cần chọn để mở ngay hoặc chỉ vào tên file và bấm nút Ðồng ý. File ảnh (hoặc trang đầu tiên của tệp nhiều trang) sẽ được hiển thị ở cửa sổ trái của màn hình dành cho ảnh.

5. Bấm nút Thoát nếu không muốn mở file nào cả.

Ðóng

Chọn lệnh này hoặc bấm vào biểu tượng trên thanh công cụ cho phép đóng file ảnh và file văn bản đã nhận dạng nếu có. Các thông báo nhắc nhở sẽ xuất hiện nếu file ảnh có sửa đổi hoặc chưa ghi văn bản đã nhận dạng.

Lưu văn bản/ Lưu văn bản với tên

Sử dụng lệnh này để ghi văn bản nhận dạng được đang ở trạng thái hiện thời (active) với tên hiện có và thư mục của nó hay với tên khác. Ngoài ra với lần ghi đầu tiên bạn có thể đặt tên cho văn bản. Nếu bạn muốn thay đổi tên hay thư mục của văn bản trước khi ghi hãy chọn lệnh Lưu văn bản với tên. Thực hiện một trong các thao tác sau:

    1. Chọn lệnh Lưu văn bản từ menu Tệp. Khi bạn ghi văn bản lần đầu tiên VnDOCR sẽ kích hoạt hộp thoại Lưu văn bản với tên.

2. Chọn kiểu file (văn bản) mà bạn muốn ghi (.DOC,.RTF hoặc .TXT) trong danh sách Kiểu của file.

3. Trong ô Tên file hãy chỉ rõ đường dẫn và tên của file.

4. Ðánh dấu vào dạng file văn bản bạn muốn chọn.

5. Bấm Lưu khi kết thúc.

Chú ý: lệnh Lưu văn bản với tên có thể được dùng để chuyển từ dạng file văn bản này sang một dạng khác.

Lưu ảnh với tên

Lệnh này ghi ảnh ở trạng thái hiện thời (active) với tên khác. VnDOCR sẽ hiển thị hộp hội thoại Lưu ảnh với tên, do đó bạn có thể đặt tên mới cho file ảnh.

    1. Chọn lệnh Lưu ảnh với tên trong menu Tệp, VnDOCR kích hoạt hộp thoại Lưu ảnh với tên (tương tự như hộp thoại Lưu văn bản với tên).

2. Chọn kiểu file ảnh mà bạn muốn ghi trong ô Kiểu của file. Chú ý rằng nếu file ảnh nhiều trang thì kiểu ghi ra chỉ có thể là TIFF và DCX, chương trình sẽ tự động phát hiện ảnh có phải là nhiều trang hay không và sẽ đưa ra danh sách tương ứng.

3. Trong trường hợp Lưu ảnh với tên hãy chỉ rõ đường dẫn và tên của file.

4. Bấm Lưu khi kết thúc.

Chú ý: lệnh Lưu ảnh với tên có thể được dùng để chuyển từ dạng file ảnh này sang một dạng khác.

Quét ảnh

Bạn có thể thu được những trang ảnh tài liệu sử dụng trực tiếp máy quét của bạn nếu máy quét đó dùng TWAIN. Khi đó bạn có thể thực hiện một trong những bước sau:

1. Chọn từ menu Tệp/Quét ảnh/Chọn máy quét.

2. Từ hộp danh sách Ðọc ảnh/Quét ảnh trong thanh công cụ, chọn Quét ảnh và bấm vào biểu tượng Ðọc ảnh/Quét ảnh.

3. Chọn Quét thêm vào trang khi một file ảnh đã được mở, ảnh quét vào được ghép vào cuối, vào đầu hoặc chèn vào một vị trí bất kỳ của file ảnh nhiều trang tuỳ thuộc vào các thiết lập được đặt trong tuỳ chọn.

Trước khi thực hiện lệnh quét ảnh, bạn hãy đảm bảo đã lựa chọn những tham số cần thiết như độ phân giải, độ sáng tối và độ tương phản một cách thích hợp.

Khi quá trình Quét thử kết thúc, bạn có thể lựa chọn vùng cần nhận dạng thay vì quét toàn trang nếu cần. Quá trình quét được thực hiện liên tục và các trang được ghép vào trang cuối vừa quét. Tài liệu nhiều trang được lưu trong bộ nhớ, có thể thực hiện ngay quá trình nhận dạng và lưu file văn bản kết quả, có thể cần hoặc không cần ghi lại file ảnh tuỳ theo nhu cầu của người sử dụng.

Ðể ngừng quá trình quét, bạn có thể bấm nút Dừng vào bất kỳ thời điểm nào. Khi quá trình này hoàn thành, ảnh văn bản sẽ được hiện trên cửa sổ ảnh ở phía trái của màn hình.

Ra

Thoát VnDOCR.

Menu Soạn thảo

Hoàn tác

Lệnh này thực hiện lùi lại thao tác sửa chữa cuối cùng nếu có thể. Tên của lệnh được thay đổi tuỳ theo thao tác sửa chữa cuối cùng. Lệnh Hoàn tác sẽ bị mờ đi (disable) trong thực đơn khi bạn không thể thực hiện lùi lại thao tác sửa chữa cuối cùng.

Cắt

Bạn có thể cắt bỏ một đoạn văn bản trong văn bản vừa nhận dạng được và cất nó vào clipboard của Windows. Ðoạn văn bản đã được cắt có thể được đem để dán vào bất kỳ chỗ nào trên tài liệu (trừ trên phần ảnh). Ðoạn văn bản đó sẽ còn lại trong clipboard tới khi có một đoạn văn bản mới được cắt hay sao vào.

1. Ðánh dấu một vùng văn bản bằng cách đặt con trỏ vào vị trí đầu định đánh dấu trong văn bản, giữ nút chuột (bấm xuống và giữ nguyên như vậy) hoặc giữ phím Shift và sử dụng các phím mũi tên để di chuyển con trỏ tới vị trí kết thúc của đoạn văn bản cần đánh dấu. Khi bạn đánh dấu được vùng văn bản mà bạn muốn, hãy nhả nút chuột ra. Ðoạn văn bản được đánh dấu sẽ có màu khác đi.

2. Chọn lệnh Cắt từ menu Soạn thảo, đoạn văn bản sẽ biến mất tới khi bạn dán nó vào một nơi nào đó trong tài liệu. Ðể dán một đoạn văn bản (đã được cắt) vào vị trí nào đó, đặt con trỏ vào vị trí bạn định dán và chọn lệnh Dán trong menu Soạn thảo.

Sao

Bạn có thể sao (copy) một đoạn văn bản trong văn bản nhận dạng được và cất nó vào clipboard của Windows. Ðoạn văn bản đã được sao có thể đem dán vào bất kỳ vị trí nào trong tài liệu (trừ vị trí của ảnh). Ðoạn văn bản đó sẽ còn lại trong clipboard tới khi có một đoạn văn bản mới được cắt hay sao vào.

1. Ðánh dấu một vùng văn bản.

2. Chọn lệnh Sao từ menu Soạn thảo, đoạn văn bản đã được đánh dấu sẽ còn lại nguyên vẹn. Ðể dán đoạn văn bản đã được sao vào vị trí nào đó, đặt con trỏ vào vị trí bạn định dán và chọn lệnh Dán trong menu Soạn thảo.

3. Dữ liệu được sao vào clipboard sẽ thay thế những gì đã được lưu trữ trước đó trong clipboard.

Chú ý: Có một sự khác nhau giửa lệnh Cắt và lệnh Sao. Khi bạn Cắt một vùng, vùng đó sẽ bị biến mất trong tài liệu; khi bạn copy Sao một vùng, vùng đó vẫn còn lại.

Dán

Sử dụng lệnh này để chèn nội dung của clipboard vào một vị trí nào đó. Lệnh này không thực hiện được khi clipboard rỗng.

1. Chọn lệnh Dán trong menu Soạn thảo.

2. Ðặt con trỏ chuột vào vị trí định dán và nhả nút chuột ra.

Chú ý: Bạn chỉ có thể sử dụng lệnh Cắt, Sao và Dán chỉ trong một trang văn bản đã nhận dạng.

Xoá

Bạn có thể xoá bỏ một đoạn văn bản trong văn bản vừa nhận dạng được mà không cất nó vào clipboard của Windows.

1. Ðánh dấu một vùng văn bản.

2. Chọn lệnh Xoá từ thực đơn Soạn thảo, đoạn văn bản sẽ biến mất.

Tìm

Sử dụng lệnh này để tìm một từ hay một nhóm ký tự trong văn bản nhận dạng được. Mặc định là khi bạn tìm một từ nào đó, tất cả các từ chứa từ đó cũng được tìm thấy. Ví dụ, nếu "jelly" là từ cần tìm, VnDOCR có thể tìm "jelly" trong "jellyfish". Bạn cũng có thể chọn thêm các lựa chọn cho việc tìm kiếm các từ, bao gồm đúng cả từ và đúng kiểu chữ. Ðể tìm một từ hãy thực hiện các bước sau:

    1. Chọn lệnh Tìm từ menu Soạn thảo.

2. Gõ từ mà bạn muốn tìm vào ô Tìm.

3. Chọn các lựa chọn để tìm kiếm nếu muốn. Bạn có thể chọn Ðối sánh cả từ và Ðối sánh hoa/thường và hướng để tìm kiếm là xuôi từ vị trí con trỏ đến hết văn bản (Xuống) hay tìm ngược từ cuối văn bản lên (Lên).

4. Bấm vào Tìm kiếm. Từ đầu tiên tìm thấy sẽ có màu khác đi.

5. Ðể tiếp tực tìm hãy tiếp tục bấm vào Tìm kiếm.

6. Bấm Thoát để kết thúc thao tác tìm kiếm.

Thay thế

Bạn có thể tìm một từ hay một nhóm ký tự trong văn bản vừa nhận dạng được và thay nó bằng một từ khác nếu muốn.

    1. Chọn lệnh Thay thế trong menu Soạn thảo.

2. Gõ vào từ hay nhóm ký tự mà bạn muốn tìm vào ô Tìm.

3. Chọn các lựa chọn để tìm kiếm nếu muốn. Bạn có thể chọn Ðối sánh cả từ và Ðối sánh kiểu chữ và hướng để tìm kiếm là xuôi từ vị trí con trỏ đến hết văn bản (Xuống) hay tìm ngược từ cuối văn bản lên (Lên).

4. Gõ từ thay thế vào ô Thay thế bởi.

5. Bấm Tìm để tìm từ cần thay.

6. Bấm Thay thế để chèn từ được thay vào văn bản nhận dạng được và thay vào chỗ từ vừa tìm thấy đồng thời nó sẽ được hiển thị bằng màu đen.

7. Từ tiếp theo được tìm thấy sẽ có màu khác đi.

8. Bấm vào Thay thế cho tới khi có thông báo Ðã tìm kiếm xong hoặc chọn Thoát để kết thúc.

VnDOCR sẽ tìm và thay thế từ một cách tự động tất cả các từ tìm được nếu bạn chọn Thay thế tất.

Ðịnh dạng ký tự

Ðặt format cho vùng text được chọn trong văn bản và text được đưa vào từ bàn phím.

Menu Hiển thị

Thanh công cụ

Thanh công cụ của VnDOCR là một hàng các biểu tượng được đặt ngay bên dưới thực đơn chính. Thanh công cụ chứa các biểu tượng của các lệnh thường xuyên được sử dụng trong cửa sổ nhận dạng ký tự

Ðóng tài liệu hiện thời và mở của sổ mới

Ðọc hoặc quét ảnh tuỳ theo lựa chọn

Nhận dạng hoặc học tuỳ theo lựa chọn

Lựa chọn phông để hiển thị văn bản đã nhận dạng

Lựa chọn kích thước hiển thị ảnh

Ðánh dấu một vùng mới trên ảnh,

Về VnDOCR.

Các nút trên thanh công cụ được hiển thị đúng màu khi lệnh tương ứng có thể thực hiện được, trái lại sẽ được hiển thị với màu xám. Mặc định là thanh công cụ được hiển thị. Bạn có thể chọn để thanh công cụ được hiển thị hay bị ẩn.

Ðể hiển thị hay ẩn thanh công cụ:

1. Chọn lệnh Thanh công cụ trong menu Hiển thị. Thanh công cụ sẽ không được hiển thị.

2. Chọn lệnh Thanh công cụ lần nữa thì thanh công cụ lại được hiển thị.

Chú ý: Một dấu hiệu đánh dấu sẽ xuất hiện ở bên trái lệnh Thanh công cụ trong menu Hiển thị nếu bạn đang chọn hiển thị thanh công cụ.

Thanh trạng thái

Thanh trạng thái được đặt ở đáy của cửa sổ của VnDOCR. Thanh trạng thái cung cấp thông tin về lệnh được chọn và một số lệnh thực hiện khác như:

Phóng to ảnh

Thu nhỏ ảnh

Chuyển về Trang đầu

Chuyển đến trang trước

Chuyển đến trang sau

Chuyển đến trang cuối

Chuyển đến một trang bất kỳ.

Các nút liên quan đến hiển thị như:

Hiển thị riêng ảnh

Hiển thị riêng văn bản

Hiển thị chung cả ảnh và văn bản trên hai nửa màn hình khác nhau.

Mặc định là thanh trạng thái được hiển thị. Bạn có thể chọn để thanh trạng thái được hiển thị hay ẩn. Ð? hiển thị hay ẩn thanh trạng thái:

1. Chọn lệnh Thanh trạng thái trong menu Hiển thị. Thanh trạng thái sẽ không được hiển thị.

2. Chọn Thanh trạng thái lần nữa, thanh trạng thái sẽ lại được hiển thị.

Chú ý: Một dấu hiệu đánh dấu sẽ xuất hiện ở bên trái lệnh Thanh trạng thái trong menu Hiển thị nếu bạn đang chọn hiển thị thanh trạng thái.

Hiển thị ảnh

Làm khuất phần cửa sổ của phần dữ liệu văn bản sau khi đã được nhận dạng và hiển thị trên cả màn hình cửa sổ ảnh văn bản.

Hiển thị văn bản

Làm khuất phần cửa sổ của ảnh văn bản và hiển thị trên cả màn hình cửa sổ tài liệu sau khi đã nhận dạng.

Hiển thị chung

Hiển thị cửa sổ ảnh văn bản trên nửa phần bên trái của màn hình, cửa sổ văn bản sau khi đã nhận dạng trên nửa phần bên phải của màn hình.

Xem toàn trang

Sử dụng lệnh này để hiển thị trang hiện tại trọn vẹn trong cửa sổ ảnh.Phóng to Sử dụng lệnh này để tăng tỷ lệ hiển thị ảnh.

Chọn lệnh Phóng to trong menu Hiển thị hoặc bấm nút "+" trên thanh trạng thái. Ðặt con trỏ (chuột) có biểu tượng Phóng to vào vùng muốn phóng to và bấm nút trái của chuột (làm vài lần để tăng tỷ lệ hiển thị ảnh). Kích thước to nhất mà ảnh có thể hiển thị bằng đúng kích thước của ảnh được quét vào.

Thu nhỏ

Sử dụng lệnh này để giảm tỷ lệ hiển thị ảnh.

Chọn lệnh Thu nhỏ trong menu View hoặc bấm nút "-" trong thanh trạng thái. Ðặt con trỏ (chuột) có biểu tượng Thu nhỏ vào vùng muốn thu nhỏ và bấm nút trái của chuột (Làm vài lần để giảm tỷ lệ hiển thị ảnh). Kích thước nhỏ nhất mà ảnh có thể hiển thị bằng kích thước hiển thị toàn phần.

Trang đầu

Sử dụng lệnh này để chuyển về trang đầu tiên trong tài liệu nhiều trang.

Chọn lệnh Trang đầu trong thực đơn View. Bấm vào biểu tượng trên thanh công cụ.

Trang trước

Sử dụng lệnh này để chuyển về trang liền trước trong tài liệu nhiều trang.

Chọn lịnh Trang trước trong menu Hiển thị. Bấm vào biểu tượng trong thanh công cụ.

Trang sau

Sử dụng lệnh này để chuyển về trang liền sau trong tài liệu nhiều trang.

Chọn lệnh Trang sau trong menu Hiển thị. Bấm vào biểu tượng trong thanh công cụ

Trang cuối

Sử dụng lệnh này để chuyển về trang cuối cùng trong tài liệu nhiều trang.

Chọn lệnh Trang cuối trong menu Hiển thị. Bấm vào biểu tượng trong thanh công cụ.

Chuyển đến trang

Sử dụng lệnh này để chuyển về trang bất kỳ trong tài liệu nhiều trang.

Chọn lệnh Chuyển đến trang trong menu Hiển thị và đưa vào số của trang định chuyển tới.

Thực đơn Công cụ

Tuỳ chọn

Ðộ chính xác

* Kiểu ký tự : Lựa chọn thuật toán nhận dạng thích hợp cho kiểu ký tự là chữ "Bình thường" hoặc chữ "in kim". Với phiên bản 1.0, VnDOCR chủ yếu sử dụng các thuật toán cho kiểu ký tự Bình thường.

* Sử dụng tệp mẫu học: Người sử dụng khai báo tệp mẫu học những kiểu ký tự lạ đã được ghi vào giai đoạn học trước đó (xem phần Học). Tệp này sẽ được sử dụng để nhận dạng toàn bộ văn bản hiện thời.

Thực hiện

    * Tự động phân vùng và thực hiện OCR: Khai báo việc phân tích tự động các khối văn bản và ảnh khi thực hiện Nhận dạng. Mặc định là Tự động phân tích vùng.

* Tự động phát hiện độ nghiêng: Khai báo việc tự động hiệu chỉnh độ nghiêng của dòng văn bản khi bắt đầu thực hiện Nhận dạng.

Ðịnh dạng trang

    * Trang gốc: Thiết lập tuỳ chọn cho trang ảnh gốc gồm một cột, nhiều cột, trang hỗn hợp (có cả ảnh và văn bản) hay bảng biểu.

* Trang kết quả: Thiết lập tuỳ chọn cho trang lưu kết quả là Bỏ tất cả các khung (frame), Giữ những khung cần thiết hay Giữ tất cả các khung.

* Co chữ: Lưu văn bản với co chữ xác định trong thiết lập hoặc tự động xác định trong quá trình nhận dạng.

Ngôn ngữ

     

    * Soát chính tả:Từ đơn: Ðặt chế độ kiểm tra chính tả là kiểm tra từ đơn (mặc định). Từ kép: Ðặt chế độ kiểm tra chính tả là kiểm tra từ kép.

* Sử dụng từ điển: Người sử dụng có thể học thêm những từ mới và ghi vào từ điển của người sử dụng, file này sẽ được sử dụng trong quá trình soát chính tả của văn bản hiện thời.

* Giao diện với người dùng: Thiết lập giao diện với người dùng là tiếng Việt hoặc tiếng Anh

Quét ảnh

    Thiết lập này cho phép xác định việc thực hiện quét ảnh được Dùng giao diện của trình điều khiển scanner hay giao diện của bản thân chương trình VnDOCR.

Lưu thông báo

    Hiển thị thông báo khi gặp lỗi hay Tự động ghi thông báo lên 1 file chỉ định.

Soát chính tả

VnDOCR thực hiện kiểm tra chính tả trên tất cả các trang của tài liệu. Có thể đặt chế độ soát chính tả theo Từ đơn/Từ kép trong Tuỳ chọn/Ngôn ngữ/Soát chính t?. Các lựa chọn này để báo cho bộ kiểm tra chính tả biết rằng chỉ kiểm tra chính tả với từ đơn (mặc định) hoặc từ kép. Bạn có thể kiểm tra các lỗi của của VnDOCR và lỗi chính tả trên hầu hết các văn bản vừa nhận dạng được. Các lỗi có thể là:

Lỗi chính tả trên văn bản gốc.

* Những nghi ngờ: những ký tự đáng nghi ngờ là các ký tự mà VnDOCR tạo ra từ sự cố gắng để nhận dạng. Những ký tự này được nhấn mạnh bằng màu xanh lá cây (green).

* Những ký tự không nhận dạng được. Những ký tự này được đại diện bởi một ký tự đại diện (ký hiệu "~" với màu đỏ là mặc định).

Bạn có thể thực hiện các chức năng sau:

* Kiểm tra chính tả với những từ đơn hoặc những từ kép (lựa chọn này có thể đặt ở menu Công cụ/Tuỳ chọn/Ngôn ngữ/Soát chính tả) .

* Chức năng thêm từ mới vào từ điển của người sử dụng.

* Hiển thị gợi ý: Bạn có thể gõ vào một từ hay chọn từ đó trong một danh sách các từ (như một sự gợi ý).

Ðể kiểm tra kết quả nhận dạng, hãy thực hiện các bước sau:

    1. Chọn Từ đơn (mặc định) hoặc Từ kép trong Tuỳ chọn/ Ngôn ngữ/ Soát chính tả. Nếu dùng mặc định là từ đơn thì không cần thực hiện bước này.

2. Bấm F7 hoặc chọn lệnh Soát chính tả trong menu Công cụ/Soát chính tả. VnDOCR sử dụng từ điển chính đang được chọn và từ điển của người sử dụng để kiểm tra kết quả nhận dạng. Chức năng Kiểm chứng văn bản mặc định được xuất hiện để hiển thị ảnh tương ứng với từ cần kiểm tra.

3. Chọn một trong các lựa chọn dưới đây để đánh dấu một lỗi.

4. Bấm Bỏ qua (hoặc Bỏ qua hết) để cho phép từ hiện tại (hay tất cả các từ) được giữ nguyên.

5. Bấm Thay để thay thế từ đó bằng từ ở trong ô Thay bằng. Bạn có thể gõ vào một từ hay chọn từ đó trong một danh sách các từ bằng cách kích chuột vào từ phù hợp nhất trong danh sách các từ.

6. Bấm Thêm để thêm từ vào từ điển của người sử dụng. Tên từ điển của người sử dụng mặc định là CUSTOM.DAT, ngoài ra tên của từ điển có thể được đưa vào trong Công cụ/Tuỳ chọn/Ngôn ngữ/Sử dụng từ điển và đưa vào tên của từ điển. VnDOCR sẽ chấp nhận từ đó trong các văn bản sau này khi sử dụng cùng một từ điển của người sử dụng. Tuy nhiên, VnDOCR sẽ kiểm tra các lỗi nghi ngờ khác trong văn bản hiện tại.

7. Sau khi chọn một lựa chọn cho từ, VnDOCR sẽ tự động tiếp tục tìm lỗi tiếp theo.

8. Bấm Huỷ bỏ hoặc Chấp nhận trong thông báo Kết thúc kiểm tra chính tả để kết thúc quá trình kiểm tra chính tả. Tất cả mọi thay đổi đều được nhớ lại.

Kiểm chứng văn bản :

Lệnh này cho phép bạn kiểm chứng vùng ảnh tương ứng với các từ nhận dạng được. Lệnh này là một chức năng cần thiết khi bạn muốn xem đồng thời file ảnh và sửa chữa văn bản nhận dạng được.

1. Ðặt con trỏ vào vùng văn bản nhận dạng được mà bạn muốn kiểm tra.

2. Chọn lệnh Kiểm chứng văn bản trong menu Công cụ, dấu kiểm tra sẽ xuất hiện ở trong thực đơn (ở bên trái lệnh Kiểm chứng văn bản) sau đó kích chuột vào vị trí văn bản cần kiểm tra. Một khung chữ nhật chứa ảnh của vùng văn bản tương ứng sẽ xuất hiện.

Bạn không thể Kiểm chứng văn bản của văn bản được dán từ clipboard của Windows.

Công cụ ảnh

        * Xoá nhiễu: Sử dụng lệnh này để xoá nhiễu lấm tấm trên ảnh của tài liệu. Chọn lệnh Xoá nhiễu từ menu Công cụ/Công cụ ảnh. Hộp thoại Miền tác động được kích hoạt, hoặc trả lời Toàn bộ, hoặc Trang hiện thời, hoặc Trang tuỳ theo số trang ảnh cần xoá nhiễu. Bắt đầu quá trình xoá nhiễu lấm tấm trên trang ảnh hiện thời. Sau khi quá trình này kết thúc, ảnh đã được xoá nhiễu sẽ hiện thị đè lên trang ảnh ban đầu. Nếu muốn thoát khỏi quá trình này khi nó đang hoạt động, nhấn ESC và trả lời Có hoặc Không trong hộp hội thoại Bạn có thực sự muốn thoát khỏi quá trình hay không.

* Làm dày nét : Sử dụng lệnh này để làm dày các đường nét chữ trên trang hiện tại của tài liệu.

* Làm mỏng nét: Sử dụng lệnh này để làm mỏng các đường nét trên trang ảnh hiện tại.

* Ðảo độ sáng: Sử dụng lệnh này để đảo độ sáng của các điểm ảnh từ Ðen/Trắng sang Trắng/Ðen và ngược lại.

* Tiền xử lý ảnh: Sử dụng lệnh này để gọi đến chương trình Tiền xử lý ảnh bao gồm nhiều chức năng tiền xử lý cần thiết trước khi đi vào nhận dạng. Chương trình này là một mô đun độc lập

Quay ảnh

* 90 độ: Sử dụng lệnh này để quay các trang được chỉ ra trong tài liệu hiện tại một góc 90 độ theo chiều kim đồng hồ. Chọn lệnh 90 độ từ menu Công cụ/Quay ảnh. Hộp thoại Miền tác động được kích hoạt, hoặc trả lời Toàn bộ, hoặc Trang hiện thời, hoặc Trang tuỳ theo số trang ảnh cần quay. Bắt đầu quá trình quay 90 độ theo chiều kim đồng hồ trên trang ảnh hiện thời. Sau khi quá trình này kết thúc, ảnh đã được quay sẽ hiện thị đè lên trang ảnh ban đầu. Nếu muốn thoát khỏi quá trình này khi nó đang hoạt động, nhấn ESC và trả lời, Có hoặc Không trong hộp hội thoại Bạn có thực sự muốn thoát khỏi quá trình hay không.

* 180 độ : Sử dụng lệnh này để quay các trang được chỉ ra trong tài liệu hiện tại một góc 180 độ.

* 270 độ: Sử dụng lệnh này để quay các trang được chỉ ra trong tài liệu hiện tại một góc 270 độ.

Xác định độ nghiêng

Sử dụng lệnh này để quay ảnh một góc bất kỳ theo góc nghiêng được chương trình tự động xác định.

Menu Xử lý

Tự động phân vùng

Sử dụng lệnh này để tự động xác định các vùng trên ảnh tài liệu. Thực hiện các bước sau:

1. Chọn lệnh Tự động phân vùng trong menu Xử lý.

2. Khi xuất hiện Miền tác động của Hộp hội thoại Tự động phân vùng, chọn một trong danh sách Toàn bộ, Trang hiện thời, hay Trang (đưa vào số trang) và bấm Ðồng ý.

Ðánh dấu vùng bằng tay

   * Tạo mới : Sử dụng lệnh này để đánh dấu một vùng trên cửa sổ ảnh.

 

Chọn Tạo mới trong thực đơn Xử lý/ Ðánh dấu vùng bằng tay hoặc bấm vào biểu tượng trên thanh công cụ.

Chọn vùng như bạn muốn bằng cách di chuột.

Nếu cần thiết, có thể thay đổi kích thước bằng cách kích chuột trên các biểu tượng góc của vùng hay tại các vị trí biểu tượng để giãn theo chiều dọc hoặc ngang.

    Nếu cần, đặt thuộc tính (văn bản hoặc ảnh) cho vùng đang được chọn bằng cách bấm chuột phải, một menu shortcut mới xuất hiện, chọn thuộc tính cho vùng là ảnh hoặc văn bản. Ngầm định là văn bản, tức là không phải thực hiện thao tác này.

* Xoá : Sử dụng lệnh này để bỏ vùng hiện thời đang được đánh dấu. Bạn cũng có thể chọn vùng để xoá, bấm nút chuột phải vào vùng đó, rồi chọn lệnh Xoá trong menu shortcut. Chú ý: Chỉ xóa việc chọn vùng chớ không phải xóa nội dung trong vùng của tài liệu.

* Xoá toàn bộ : Sử dụng lệnh này để loại bỏ đánh dấu tất cả mọi vùng đã được đánh dấu trước đó. Hãy chọn nhiều vùng để xoá, bấm nút chuột phải vào 1 vùng, rồi chọn lệnh Xoá tất trong menu shortcut.

* áp dụng trên toàn bộ tài liệu : Sử dụng lệnh này để áp dụng vùng đánh dấu với thuộc tính (văn bản hoặc ảnh) trên trang hiện thời cho toàn bộ các trang của tài liệu nhiều trang.

1. Ðánh dấu vùng mà bạn muốn trên trang ảnh hiện thời và đặt thuộc tính cho nó nếu cần.

2. Chọn lệnh áp dụng trên toàn trang trong menu Xử lý/Ðánh dấu vùng bằng tay.

Nhận dạng

Sử dụng lệnh này để nhận dạng và chuyển ảnh tài liệu sang dạng file văn bản.

1. Ðánh dấu vùng mà bạn muốn Nhận dạng trên trang ảnh hiện thời. Có thể bỏ qua bước này nếu bạn muốn nhận dạng toàn trang hay toàn bộ các trang của tài liệu.

    2. Chọn lệnh Nhận dạng trong menu Xử lý/Nhận dạng hoặc chọn Nhận dạng từ danh sách Nhận dạng hoặc Học và bấm vào nút trên thanh công cụ.

3. Chọn một trong danh sách Toàn bộ, Trang hiện thời, hay Trang trong Miền tác động của hộp thoại Nhận dạng và bấm Ðồng ý. Bắt đầu thực hiện quá trình nhận dạng.

4. Muốn dừng quá trình nhận dạng, nhấn ESC. Khi đó xuất hiện câu hỏi Bạn có thực sự muốn thoát?, nếu trả lời Có, quá trình nhận dạng sẽ dừng. Kết quả của quá trình nhận dạng đến thời điểm dừng vẫn được ghi lại. Nếu trả lời Không, quá trình nhận dạng sẽ được tiếp tục.

5. Kết quả nhận dạng sẽ xuất hiện ở bên phải cửa sổ ảnh. Bạn có thể sử dụng các lệnh trong thực đơn Soạn thảo hoặc Soát chính tả để sửa đổi, kiểm tra kết quả nhận dạng.

6. Sau khi bạn đã hoàn thành quá trình xử lý của VnDOCR và hài lòng với kết quả nhận được, bạn có thể ghi tài liệu dưới dạng một trong vài kiểu file văn bản thông dụng của Microsoft Word 6.0, Microsoft Word 97 (.DOC, .RTF, .TXT). Xem lệnh Tuỳ chọn/Ðịnh dạng trang để đặt các thông số cho văn bản ghi ra.

7. Chọn lệnh Lưu văn bản hoặc Lưu văn bản với tên để ghi file văn bản.

Học

Cung cấp công cụ học thêm những ký tự mới. Bằng chức năng Học của VnDOCR, bạn có thể tách ra hình ảnh của một số ký tự, những ký tự này gọi là "ký tự học" và cho phép người sử dụng học nó (đưa vào mã của hình ảnh kí tự), nó hỗ trợ VnDOCR trong suốt quá trình nhận dạng văn bản và cho phép nhận dạng các ký tự đặc biệt được tốt hơn.

Thực hiện một số các bước trong dãy các thao tác sau để tạo file ghi các ký tự mới cần học:

Ðánh dấu vùng mà bạn muốn trên trang ảnh hiện thời hoặc dùng toàn trang hay thậm chí toàn bộ các trang của tài liệu để học. Tuy nhiên, thường chỉ nên học trên một số vùng có các ký tự hoặc nhóm các ký tự chưa nhận được.

    Chọn lệnh Học trong menu Xử lý/Nhận dạng hoặc chọn Học từ danh sách Nhận dạng hoặc Học và bấm vào nút trên thanh công cụ. Hộp thoại Học kí tự cùng với các chức năng thể hiện bằng các nút bấm sẽ xuất hiện. Nó hiển thị hình ảnh gốc của các ký tự trong các khung vuông.

Duyệt trên các hình ảnh ký tự được hiển thị trong các khung vuông. Nhấn chuột vào khung của ảnh ký tự cần quan tâm, lúc đó khung sẽ được viền bằng màu đỏ, đưa vào ký tự tương ứng với hình ảnh trong hộp Ký tự. Bấm vào nút Thay. Khi đó ở phía dưới của hình ảnh ký tự sẽ xuất hiện ký tự tương ứng với hình ảnh đó. Lặp lại các thao tác này cho tất cảc các ký tự cần học. Chú ý rằng hình ảnh của các ký tự có thể là các ký tự kép (gồm hai hoặc ba ký tự đơn), khi đó các ký tự tương ứng đưa vào cũng gồm hai hoặc ba ký tự. Cần kích chuột vào các nút đánh dấu tương ứng nếu ký tự là Chữ Anh, Việt thường, Việt hoa hoặc Dấu. Nếu là ký tự kép dù là tiếng Việt cũng để ở nút Chữ Anh.

Sau khi đã học xong các ký tự mong muốn, hoặc tại một thời điểm bất kỳ trong khi học, bấm vào nút Ghi..., hộp thoại Tập Học sẽ được kích hoạt. Bạn có thể đưa vào tên cuả file ghi thông tin vừa học và bấm Ðồng ý. Tên file có phần mở rộng là .trn được ghi vào thư mục chứa dữ liệu; giá trị mặc định của thư mục này là thư mục mà VnDOCR tạo ra khi cài đặt. Nếu tên file với tên vừa đưa vào đã tồn tại, xuất hiện Hộp hội thoại hỏi Bạn có muốn gắn thêm vào tệp ..., nếu trả lời Có thì các ký tự mới sẽ được gắn thêm vào file đã có. Lưu ý rằng chỉ có các ký tự vừa được học (đã thực hiện chức năng Thay) mới được ghi vào tệp Học. Bấm Bỏ qua để bỏ qua các thao tác vừa học và kết thúc thao tác học. Các ký tự đã được học nhưng nếu chưa bấm Ghi... sẽ không được ghi lại.

Bấm Xong để kết thúc thao tác học, nếu chưa thực hiện bước Ghi... trước đó, hộp hội thoại nhắc có ghi lại các thao tác học vừa thực hiện hay không. Nếu chọn Có, thực hiện các thao tác như trong bước 3. Nếu chọn Không các ký tự đã được học sẽ không được ghi lại.

Nếu chọn lệnh Xoá, hình ảnh ký tự sẽ bị xoá khỏi bảng danh sách các ký tự đang hiển thị.

Nếu chọn lệnh Nhận dạng trong danh sách thực đơn Nhận dạng hoặc Học, bấm vào biểu tượng ở thanh công cụ. Ðối với tất cả các chế độ (Toàn bộ, Trang hiện thời, Trang) thông báo Bạn có muốn dùng tệp học *.trn để nhận dạng không?, tên này đã được ghi lại ở bước Ghi.... Chọn Có để thực hiện quá trình nhận dạng với cả phông trong cơ sở dữ liệu (của VnDOCR) lẫn các ký tự đã được học trong tệp học. Chọn Không nếu chỉ sử dụng các phông đã được học trong cơ sở dữ liêu của VnDOCR.

Nếu chọn lệnh Học trong danh sách Nhận dạng hoặc Học, bấm vào biểu tượng ở thanh công cụ. Ðối với tất cả các chế độ (Toàn bộ, Trang hiện thời, Trang) thông báo Bạn có muốn dùng tệp học *.trn để nhận dạng không?, tên này đã được ghi lại ở bước Ghi.... Chọn Có để thực hiện quá trình học những ký tự mới khác (Bước 2), các ký tự đã được học ở bước trước đã được nhận dạng và không xuất hiện trong bảng các ký tự học mới. Chọn Không nếu chỉ sử dụng các phông đã được học trong cơ sở dữ liệu của VnDOCR, khi đó sẽ xuất hiện cả những ảnh ký tự mặc dù đã được học trước đó.

Soạn thảo tệp học

Sử dụng lệnh này để soạn thảo lại file Học với tên được chọn khi hộp hội thoại Mở tệp học xuất hiện. Dùng các chức năng từ 3 đến 7 như trong phần Học để chỉnh sửa lại file học này nếu cần thiết.


PcLeHoan 1996 - 2002
Mirror : http://www.pclehoan.com
Mirror : http://www.lehoanpc.net

Mirror : http://www.ktlehoan.com