AutoMark
Tên chương trình : AutoMark
Môi trường sử dụng : Window95 và Window98 ( chưa test với các hệ điều hành khác )
Font tiếng Việt hỗ trợ theo TCVN3
Cấu hình máy : Pentium trở lên, ổ cứng trống 5MB, 16 MB ram
Mã nguồn viết bằng : Visual Basic 6
Lưu ý : không xung đột với bất kỳ bộ gõ tiếng Việt nào nên có thể dùng song song; chỉ làm việc với Font tiếng Việt theo TCVN 3; có thể bỏ dấu theo cách VNI trong chương trình (không cần cài thêm bộ gõ tiếng Việt khác)
Người viết : Trần Triết Tâm
Nghề nghiệp : nhân viên Cục Thống kê Tp Ðà Nẵng ( 310 Hoàng Diệu - Ðà Nẵng ; Ðiện thoại 0511-820272)
email : triettam@dng.vnn.vn
Download Site 1
Bạn tải 3 file xuống 1 thư mục trên đĩa cứng, chạy file automark.exe để nối các file lại thành 1 file có tên automark.zip, bung file nầy ra rồi sau đó mới tiến hành cài đặt. File 1 (1.457.152 byte); File 2 (330.569 byte); File 3 (1.457.152 byte).
Giới thiệu:

Chương trình khai thác một ý tưởng sau : Ðối với một văn bản bằng tiếng Việt khi không có dấu, người đọc nếu đọc từ từ cũng có thể hiểu được (đoán biết ) nội dung của văn bản. Tôi đã cố gắng viết chương trình làm công việc tương tự. Dĩ nhiên không đơn thuần là lập một bộ từ điển để tra cứu mà phải sử dụng các phương pháp phức tạp, nên từ đó có những hiệu quả đáng kể: ví dụ khi tôi dùng bàn phím gõ vào câu văn như sau : " toi da toi da nang toi hom qua" (hoàn toàn không bỏ dấu) chương trình sẽ tự động điền dấu đầy đủ thành câu " Tôi đã tới Ðà Nẵng tối hôm qua" ( 3 từ "toi" đã được điền dấu để trở thành "tôi", "tới" và "tối"; cũng như 2 từ "da" được điền dấu để trở thành "đã" và "Ðà").
Ðây là một chương trình mà người sử dụng trong quá trình sử dụng phải tùy biến cho mình để đạt được kết quả tốt nhất. Ðồng thời khi sử dụng bạn phải chấp nhận một số sai lệch nhất định (ví dụ trong bản dịch email trên bạn sẽ thấy 5 chổ sai).
Là một ý tưởng hoàn toàn mới (ít nhất là đến giờ này tôi nghĩ rằng chưa một chương trình nào làm công việc tương tự) và là một người lập trình mang tính chất không chuyên nên trong chương trình chắc chắn sẽ còn lỗi (run-time) mà tôi đã không lường hết được. Vì vậy tôi muốn mọi người sử dụng và có thể góp ý để từ đó cải tiến và sữa chửa cho tốt hơn.
Xin giới thiệu để mọi người có thể sử dụng một cách tự nguyện và miễn phí. Nếu ai thấy sử dụng được và muốn phát triển tác giả sẵn sàng cộng tác.
Ðặc điểm:
AutoMark được xây dựng với hai chương trình :
* Chương trình soạn thảo: Giúp cho các bạn có thể đánh máy tiếng Việt nhanh hơn : bằng cách sử dụng chương trình như một trình soạn thảo từ (word processing); mà trong đó các bạn chỉ cần đánh máy các từ tiếng Việt không cần bỏ dấu; chương trình sẽ tự động điền dấu cho các bạn.
Ví dụ : các bạn chỉ cần đánh máy từ "cau lac bo", chuong trinh sẽ tự động chuyển thành "câu lạc bộ", hay bạn chỉ cần gõ vào "toi da toi da nang toi hom qua", chuong trinh sẽ tự động chuyển thành "tôi đã tới Ðà Nẵng tối hôm qua"
* Chương trình chuyển đổi Từ tiếng Việt không có dấu sang tiếng Việt có dấu và ngược lại: Giúp cho các bạn có thể đọc các văn bản bằng tiếng Việt, nhưng vì lý do nào đó các văn bản này không có dấu (Ví dụ như thư tín gởi về từ nước ngoài thường không có dấu). Thực tế, chương trình hoạt động bằng việc chuyển đổi từng từ tiếng Việt không có dấu sang tiếng Việt có dấu căn cứ vào một bộ từ điển lưu trữ những từ có dấu tương ứng với những từ không có dấu. Việc chuyển đổi này không bao giờ đạt kết quả 100%. Theo thực tế sử dụng, chương trình chỉ chuyển đổi đúng được khoảng 95%.
Những khuyết điểm của AutoMark.
* Do khả năng của người viết chương trình có hạn và không có đủ điều kiện thời gian để hoàn thiện. Vì vậy vẫn còn một số các khuyết điểm lớn sau :
Tính năng thiếu :
- Canh lề văn bản.
- Xác định Tab.
- Undo và Redo.
- Ðịnh dạng Bulletted List và Numbered List.
- Một số định dạng khác cho file loại RTF.
- Xem trước khi in.
- Việc soạn thảo các file chủ đề chưa được hỗ trợ tốt.
Khả năng hạn chế :
- Từ điển từ VKD chỉ chứa khoảng 16000 từ VCD trong khi thực tế cần khoảng 30000. Và có một số từ sai chính tả, hoặc vị trí dấu không theo qui định.
- Hệ thống chủ đề không nhiều và từng chủ đề biên soạn chưa đầy đủ.
Sai sót và khuyết điểm chưa khắc phục :
- Một số trường hợp bỏ dấu theo cách sử dụng phím Ctrl và các phím số theo kiểu VNI chưa thật chính xác.
- Chỉ chuyển đổi văn bản từ tiếng Việt không có dấu sang tiếng Việt có dấu trong phạm vi 32000 ký tự đầu tiên của văn bản.
- Việc mở nhiều tài liệu cùng lúc dễ gây hỏng từ điển từ VKD (Nếu bạn mở cùng lúc 2 tài liệu, trong mỗi tài liệu bạn lại thêm bớt một số từ VKD hay từ VCD vào trong từ điển từ VKD thì chỉ những thay đổi với một tài liệu được ghi lại mà thôi - là tài liệu sẽ được đóng lại sau cùng; những thay đổi với tài liệu còn lại sẽ không được lưu lại).
- Hệ thống hướng dẫn trực tuyến (phần help on-line) viết chưa thật hoàn chỉnh.
Hướng Phát triển trong thời gian tới :
* Khắc phục những sai sót và khuyết điểm nói trên.
* Viết lại chương trình bằng ngôn ngữ C++ tạo điều kiện cho chương trình có thể hoạt động nhanh hơn.
* Viết chương trình sao cho AutoMark có thể sử dụng như là một bộ gõ tiếng Việt để có thể dùng đánh máy tiếng Việt trong tất cả những ứng dụng khác.
* Soạn thảo tại từ điển từ VKD và hệ thống các chủ đề.
Người viết chương trình này đã căn cứ vào một thực tế : đối với một văn bản tiếng Việt không được bỏ dấu, người đọc nếu từ từ và cẩn thận có thể hiểu được - nghĩa là đoán được - gần như toàn bộ văn bản. Một chương trình máy tính với những khả năng nhất định cũng có thể làm được điều đó. Chương trình AutoMark, lần đầu tiên khai thác ý tưởng này và người viết - là một nhân viên thống kê - đã ước lượng tỷ lệ chính xác tối đa của AutoMark khi đã hoàn thiện là khoảng 95%. Bằng cách thống kê số từ mà AutoMark nhận diện đúng đối với những văn bản thông thường (không có quá nhiều từ chuyên môn), người viết đã thấy mức độ chính xác dao động từ 90% đến 94% khi trong từ điển từ VKD có được 16000 từ. Một điều chắc chắn có thể kết luận là việc bổ sung số lượng từ VCD vào từ điển từ VKD cũng chỉ nâng kết quả lên ở mức độ 95% mà thôi.
PcLeHoan
1996 - 2002
Mirror :
http://www.pclehoan.com
Mirror :
http://www.lehoanpc.net
Mirror :
http://www.ktlehoan.com