Số 27
TÚI CÀN KHÔN IT

Omni Page Pro
công cụ hỗ trợ máy scanner quét văn bản

PHI HẢI

Bạn đang có trong tay một số văn bản được đánh bằng máy đánh chữ từ năm một nghìn chín trăm hồi đó hoặc bị cô thư ký đểnh đoảng vừa xoá mất file gốc của một số văn bản quan trọng. Xin mách bạn một phần mềm có thể gíup bạn giải quyết những “cái sự đời” đó.

Omni Page Pro (OMP) là gì ?

Omni Page Pro là một chương trình OCR ( Optical Charater Recognition - nhận biết ký tự quang học ). Bạn có thể sử dụng Omni Page để nhận dạng một bản in như: sách, báo, chứng từ... đã được máy scanner quét thành file hình ảnh kỹ thuật số, sau đó chương trình OCR sẽ xuất kết quả thành file text và bạn có thể mở chúng trong Word, Word Perfect hoặc bất cứ chương trình soạn thảo văn bản nào khác để xử lý.

Khởi động Omni Page

Bấm kép chuột vào biểu tượng của Omni Text trên desktop

Sau khi khởi động, OMP sẽ có ba màn hình chính : Màn hình thứ nhất thể hiện văn bản của bạn nếu đuợc scan duới định dạng hình ảnh. Màn hình thứ hai là phần văn bản mà OMP sẽ xử lý. Màn hình thứ ba là kết quả mà bạn sẽ nhận đuợc .

OMP chạy trên hai chế độ chính: Quét tự động (OCR Wizard ) và Quét thủ công (Manual)

Quét tự động:

Chỉ nên sử dụng chế độ này với các văn bản đơn giản (không có nhiều cột và bảng biểu). Cách dễ dàng nhất để sử dụng Omni Page Pro là sử dụng chức năng Auto (tự động).

Đầu tiên, đặt văn bản mà bạn muốn scan vào máy scanner. Sau đó, bấm vào nút Auto. Nút Auto sẽ nằm trên Toolbar (thanh công cụ). Nếu bạn không thâý thanh công cụ xuất hiện, bấm vào menu Window và chọn Show Toolbar.

Omni page sẽ tự động quét văn bản, tạo vùng, và thể hiện kết quả. Nếu thực hiện đúng, bạn sẽ thấy cửa sổ " Untiled " xuất hiện với nội dung là văn bản vừa mới scan. Omni Page sẽ tự động in đậm những từ mà nó cho là sai khi thực hiện việc kiểm tra lỗi chính tả. Tuy nhiên, tốt nhất là bạn nên thực hiện việc kiểm tra lỗi chính tả trong chương trình soạn thảo văn bản quen thuộc của mình cho nó chắc ăn và có độ tin cậy cao hơn.

Nếu bạn muốn scan một trang khác (nhưng nằm chung với file trước), chỉ cần thực hiện lại các bước trên. Trang mới sẽ được thêm vào ở phiá dưới cuả trang đầu.

Quét thủ công :

Nếu tài liệu của bạn có một bố cục đơn giản, chức năng Auto sẽ là cách tốt nhất để scan văn bản đó. Tuy nhiên, với những bố cục phức tạp (nhiều hàng, nhiều cột và tranh ảnh, sơ đồ xen kẻ...) hoặc là bạn muốn tự tay mình thực hiện mọi việc cho an tâm, thì nên sử dụng cách quét thủ công.

Để scan bằng tay, bấm và giữ chuột trên pop-up menu nằm dưới nút Scan và chọn "Scan image". Sau đó, nhấp chuột vào nút scan. Omni Page sẽ quét hình ảnh trên văn bản, và thể hiện trên màn hình. Kế tiếp, bạn cần phải tạo vùng (zones). Vùng này sẽ xác định cho Omni Page biết những phần văn bản nào sẽ được quét. Bạn có thể để cho Omni Page thực hiện việc này một cách tự động (nhưng nếu chức năng Auto thực hiện không tốt thì chọn vùng tự động cũng như vậy) hoặc là chính bạn thực hiện việc này. Để thiết lập vùng, giữ chuột trên pop-up menu phía dưới nút Zone và chọn " Manual Zones". Bây giờ, công việc của bạn là xác định vùng. Bạn vẽ một box ( giống như trong các chương trình vẽ khác như paint...) xung quanh phần văn bản bạn muốn scan. Sau khi đã tạo vùng, bạn sẽ thực hiện nhận dạng.

Giữ chuột trên pop-up menu phiá dưới nút OCR và chọn "Perform OCR". Nếu bạn muốn Omni Page thực hiện luôn việc kiểm tra lỗi chính tả thì chọn "Pergorm OCR and check", sau đó bấm vào nút OCR. Omni Page sẽ đọc đoạn text và dán vào cửa sổ mới. Đễ tiếp tục scan một trang khác, bạn thực hiện lại những bước trên. Trang mới sẽ được dán vào phía dưới trang trước.

[Đầu trang]

Sao lưu tài liệu

Khi đã scan hết tất cả tài liệu, việc tiếp theo là lưu trữ kết quả. Bấm vào trình đơn (menu) File và chọn "Saves as...". Một hộp thoại xuất hiện, yêu cầu bạn chọn định dạng và tên file. Nếu bạn muốn lưu khác với dạng mặc định, có thể bạn cần phải chỉ rõ là những trang khác nhau mà bạn đã nhận dạng sẽ được lưu vào cùng trang tài liệu hay là nhiều trang khác nhau. Sau khi đã thực hiện các chỉnh sửa, bạn nhấn nút "Save", và thế là bạn đã có một tài liệu mà bạn có thể mở bằng bất kỳ chương trình soạn thảo văn bản nào.

Các tùy chọn của Omini Page

Độ chính xác (Accuracy):

- Use Language Analyst : dùng từ điển của Omini Page để kiểm tra lỗi chính tả

- Character Type : Có hai chế độ chính Normal dành cho máy in mới và Dot Matrix or monospace dành cho máy in cũ hay chữ khó đọc.

- Scanning Mode : Black and White cho văn bản trắng đen và Greyscale with 3D OCR cho các loại văn bản khác.

Định dạng trang (Page Format) :

- Origina Page layout : có các chọn lựa như Multiple collums dành cho văn bản nhiều cột hay Single Collum cho văn bản một cột,Table cho các văn bản có bảng biểu hay Mixed page cho văn bản có đủ thứ trong đó.

- Output Options : cho OMP biết bạn muốn xuất kết quả ra định dạng nào.

Ngôn ngữ (Language): ngôn ngữ mà bạn sử dụng

Xử lý (Process): cách thức scan mà bạn chọn (auto hay manual)

Tùy chọn quét (Scanner) :

- Page Description : Scan theo bề ngang hay bề dọc

- Scaning Mode : hơi giống như trong tùy chọn Độ chính xác

OCR Awave: chỉnh độ tuơng thích của kết quả của OMP với các phần mềm xử lý khác như Lotus word...

Các tuỳ chọn này đuơc chỉnh trong Menu Process

Những trục trặc thường gặp phải ?

Nếu văn bản hiện trên cửa sổ bị lật ngược hay bị nghiêng, bạn có thể sử dụng button nằm phía trên cửa sổ để chỉnh sửa. Nút nằm bên trái xoay văn bản 90 độ ngược chiều kim đồng hồ, nút ở giữa sẽ xoay văn bản một góc 180 độ, và nút bên phải sẽ xoay văn bản một góc 90 độ theo chiều kim đồng hồ.

Nếu chức năng Auto không chạy, hãy chắc chắn rằng bạn đã chọn " Scan Image" trong Scan button, "Auto Zones" trong Zones và OCR button được để ở "Perform OCR"

Phần mềm Omini Page Office 12

Hiện tại, ngoài bản OMP mới nhất là bản Omini Page Office12. So với bản 11 mà nói, phiên bản 12 tăng độ chính xác rất cao. Như khi chuyển đổi sang PDF, độ chính xác tăng 82 % (eo ôi ) và tăng 35% khi chuyển đổi thông thuờng.

Phiên bản 12 hỗ trợ các văn bản xấu như fax chẳng hạn, thậm chí các văn bản siêu xấu (photocopy của photocopy) đều có thể nhận dạng tuốt.

Các văn bạn đuợc nhận dạng tốt hơn, giống với bản gốc hơn nhờ công nghệ Multithreading .

Bạn có thể nghiên cúu kỹ hơn về OMP 12 ở địa chỉ : http://www.scansoft.com/omnipage/

Thủ thuật sử dụng máy scanner để nhận dạng văn bản

Thông thuờng các máy scanner có thể nhận dạng văn bản có kích thước A3 hay A4. Nếu lỡ bạn có trong tay một tờ giấy lớn hơn A4 một tý hoặc chữ leo lề thì bạn nên lật mặt sau tờ giấy, dùng một cây viết chì kẻ một đuờng thẳng làm lề, sau đó scan làm hai phần, phần trong lề và phần ngoài lề, để rồi sau này vào bên trong chỉnh sửa lại sau.

Thông thuờng, giấy scan của bạn thuờng có hai mặt, khi scan mặt truớc thuờng hay bị lộ chữ, hình ở mặt sau. Lời khuyên đuợc đưa ra là dùng một tờ giấy màu đen dán mặt phía sau của mặt cần scan. Như thế văn bản sẽ đuợc nhận dạng dễ dàng và đẹp hơn.

Văn bản của bạn có bố cục phức tạp, nhiều cột dòng thì mặc dù các chuơng trình có hỗ trợ, nhưng tốt nhất bạn nên scan từng phần bằng cách gấp khúc văn bản.

Nên tận dụng phần huấn luyện văn bản (tập cho phần mềm nhận dạng và hiều đúng văn bản phức tạp) nếu bạn hay sử dụng xen kẽ chữ viết tay và chữ máy in, hoặc là bạn có sử dụng các ký tự đặc biệt.

[Đầu trang]
Trang chủ
Thư ngỏ
Nội lực "Peter Pan"
Cầu nối Intel Việt Nam
Chuyện trong tuần
Nhóm Frontpage
Cõi người ta
Kim cương doanh nghiệp
Bình luận thị trường
Cõi Mô-bai
Chuyên đề
Bổ ngửa
Nuôi hồn Robot
Túi càn khôn IT
Hồ lô biến
Cảm về Game
Nhật ký e-CHÍP
Bản quyền VASC Orient, Công ty phát triển phần mềm VASC
99 Triệu Việt Vương HN; Tel: (04) 9782235 • email: echip@vasc.com.vn