Số 53
HỒ LÔ BIẾN

Chuyển đổi file PDF tiếng Việt sang TEXT bằng ABBYY FineReader

HIẾU TRUNG (Q3-TPHCM)

ABBYY FineReader (bạn có thể tải về dùng thử phiên bản 7.0 Professional Edition tại địa chỉ www.abbyyusa.com) là chương trình quét (scan) và nhận dạng văn bản quang học OCR - Optical Character Recognition (quét văn bản từ máy scanner và chuyển đổi sang TEXT) tương tự như Omni Page. Đặc biệt chương trình này có một tính năng cực kỳ tuyệt vời là có thể chuyển đổi file PDF sang TXT hay DOC tiếng Việt có dấu với độ chính xác rất cao, khoảng 95% (hỗ trợ toàn bộ font có dấu tiếng Việt như VNI, Bách khoa, Unicode...). Nếu các trang PDF có hình ảnh và chia cột thì chương trình vẫn giữ nguyên định dạng đó cho trang Text. Tóm lại là bạn thấy trang PDF thế nào thì bên trang text bạn cũng thấy thế ấy, quá tuyệt phải không?

Để có thể thực hiện việc này, chúng ta sẽ làm như sau:

Nhấn nút Open Image (hay vào menu File -> Open Image), chọn dạng tập tin là PDF và mở tập tin cần chuyển đổi -> nhấn nút Read, có thể chọn một trang hay tất cả các trang cần chuyển đổi. Nếu chỉ chọn một trang thì nhấn Ctrl+R (mặc định), còn chọn tất cả các trang thì nhấn Ctrl + Shift + R. Chương trình sẽ thực hiện việc phân tích định dạng trang PDF, đóng khung từng khu vực chữ và hình rồi chuyển đổi tập tin PDF sang TEXT.

Màn hình làm việc của chúng ta sau khi chuyển đổi xong gồm bốn phần:

- Phần Batch hiển thị thứ tự các trang PDF của tập tin đang mở và làm việc.

- Phần Image hiển thị trang PDF chúng ta đang chọn để làm việc.

- Phần Text hiển thị văn bản dạng Text đã được chuyển đổi. Do mặc định hiển thị text là Unicode, nên nếu trang PDF tiếng Việt được tạo từ các phông không thuộc bảng mã Unicode, các bạn phải chọn lại phông để hiển thị đúng tiếng Việt. Nếu biết chính xác phông gì thì có thể vào menu Tools -> Options - > Formatting cấu hình lại phông hiển thị. Mức độ chính xác của tập tin TEXT sau khi chuyển đổi (hiển thị đúng tiếng Việt, không bị mất dấu hay sai dấu, hiện ra... mã lăng quăng) cũng ảnh hưởng bởi phông chữ khi tạo ra tập tin PDF. Nếu tập tin PDF được tạo từ những trang văn bản dùng Unicode thì độ chính xác sẽ đạt tối ưu.

- Phía dưới phần Image và Text là một ô dùng để đối chiếu nếu như các bạn đánh dấu chọn (tô đen văn bản) ở phần Text với phần Image. Nó giúp bạn đọc rõ hơn phần mình đánh dấu nếu như phần Text có cỡ chữ quá nhỏ.

Cuối cùng, các bạn lưu tập tin Text này lại, bỏ qua quá trình Check Spelling (kiểm tra chính tả) vì chức năng này chỉ đúng với tiếng Anh, nếu dùng nó thì các bạn sẽ thấy “tùm lum lỗi” trên trang tiếng Việt của mình. Nhấn vào nút mũi tên nhỏ của nút Save rồi chọn Save Text To File (Ctrl+F2) hay vào menu File -> Save Text As -> đặt tên tập tin, nên chọn kiểu tập tin là MS Word Document (*.doc). Nếu chỉ muốn lưu trang đang làm việc thì đánh dấu vào Selected pages, còn nếu muốn lưu tất cả các trang thì chọn All pages. Với các tùy chọn còn lại, các bạn cứ giữ nguyên.

Các bạn cũng có thể sắp xếp, định dạng lại trang Text này giống MS Word như đổi phông chữ, chuyển mã, chọn cỡ chữ, tô đậm, in nghiêng, gạch dưới, canh trái/phải/giữa/đều trang... trước khi lưu lại.

Như vậy là chúng ta đã có thể chuyển đổi một tập tin PDF tiếng Việt sang văn bản TEXT (tập tin .DOC). Chương trình làm việc rất tốt, hơn hẳn các chương trình chuyển đổi PDF sang TEXT khác như PDF2TXT, PDF2HTML... Tuy nhiên không phải vì thế mà không có sai sót, vẫn sẽ có vài chữ không đúng (cũng ít thôi) nhất là với các phông chữ không thuộc bảng mã Unicode như đã nói ở trên, cần đọc lại để sửa chữa trước khi lưu lần cuối.

Ngoài ra, nếu như các bạn có các tập tin hình ảnh dạng BMP, JPEG, TIF chứa chữ thì vẫn có thể dùng ABBYY FineReader để chuyển đổi, giúp bạn lọc được phần chữ trong hình ra dạng text.

[Đầu trang]
Trang chủ
Thư ngỏ
Nội lực "Peter Pan"
Cầu nối Intel Việt Nam
Chuyện trong tuần
Nhóm Frontpage
Cõi người ta
Kim cương doanh nghiệp
Bình luận thị trường
Cõi Mô-bai
Chuyên đề
Bổ ngửa
Nuôi hồn Robot
Túi càn khôn IT
Hồ lô biến
Cảm về Game
Nhật ký e-CHÍP
Bản quyền VASC Orient, Công ty phát triển phần mềm VASC
99 Triệu Việt Vương HN; Tel: (04) 9782235 • email: echip@vasc.com.vn