Trang chủ Hiệp sĩ CNTT Tin tức Hiệp Sĩ CNTT Chân dung Hiệp Sĩ CNTT H́nh ảnh Hiệp Sĩ CNTT

Với Nôm Lookup Tool: Chữ Nôm lại nhú mầm trở lại... Công cụ tra cứu chữ Nôm – Nôm Lookup Tool (NLT)

Tổ chức tài trợ chính:
Hội Bảo tồn Di sản chữ Nôm VNPF
Nguồn dữ liệu:
l Từ điển chữ Nôm: Vũ Văn Kính l Bảng Tra Chữ Nôm: Hồ Lê, Viện Ngôn ngữ học xuất bản l Từ điển Hán Việt: Thiều Chửu l Các tài liệu chữ Nôm: Nguyễn Quang Hồng l UniHan Database: Cơ sở dữ liệu đặc biệt của tổ chức Unicode l Các dữ liệu điện tử khác nhau: Ngô Thanh Nhàn, Đỗ Bá Phước, Ngô Trung Việt.
Công việc được phân công đảm nhiệm:
l Yêu cầu người dùng: Ngô Thanh Nhàn, Ngô Trung Việt l Nhập dữ liệu: Lê Mai Phương, Ngô Trung Việt l Thiết kế: Lê Phạm Ngưng Hương l Thực hiện: Đỗ Bá Phước, Lê Phạm Ngưng Hương l Đóng gói và phân phối: Hồ Văn Tiến.
Công cụ phát triển:
l MySql: DBMS mă nguồn mở l PHP: Ngôn ngữ Web-scripting mă nguồn mở l VietUni: Cấu phần dựa trên java-script do Trần Anh Hùng tạo ra để gơ chữ Việt l Font: DFSongLight của Dynalab, chứa 9.299 chữ biểu ư Nôm, Arial Unicode MS của Microsoft, chứa một phần các chữ biểu ư thống nhất CJKV.

Mọi việc cứ khớp lại với nhau y như có ai đă bày đặt sẵn
(Về ư nghĩa và các pha thực hiện NLT, theo lời kể của người chủ tŕ – chị Lê Phạm Ngưng Hương). Tiếng Việt đă tồn tại và phát triển với việc mẹ truyền lời dạy con nói. Tiếng nói như vậy mang yếu tố thời gian và không gian. Để cho tri thức vượt qua thời gian, tiếng nói lấy lại h́nh hài cụ thể là chữ viết. Tiếng Việt có hai loại chữ viết là Hán Nôm và chữ la-tinh (quốc ngữ).
Đă là người Việt Nam mà chỉ biết mỗi chữ la-tinh th́ cũng là một sự thiếu sót và mất mát đi cái ǵ đó của ông bà tổ tiên. Do vậy, chữ Nôm vẫn cứ là một chủ đề muôn thuở trong tâm khảm người Việt.
Chữ Nôm đă đi vào lịch sử, không c̣n là thứ văn tự được phổ biến chính trong cả nước nữa. Và cũng đă vài ba thế hệ qua đi hoàn toàn chẳng biết tới chữ Nôm là ǵ, trong những bận rộn của các cuộc chiến một mất một c̣n. Nhưng rồi mọi cuộc chiến tranh cũng phải qua đi để nhường lại vũ đài lịch sử cho các thế hệ mới đi vào khoa học, kỹ thuật và phát triển. Chính trong sự phát triển của những công nghệ và kỹ thuật mới đó như những cơn mưa đem tới mùa màng, chữ Nôm lại nhú mầm trở lại, bởi v́ hạt mầm của nó trong tâm khảm mọi người Việt vẫn c̣n đấy.
Hạt mầm đó nảy nở thành một hoài băo, một mơ ước được thấy chữ ông bà ngày xưa đă dùng như thế nào. Hẳn là bây giờ không ai dùng chữ Nôm cho các vấn đề khoa học và công nghệ, điều đó chữ quốc ngữ la-tinh đă là công cụ cực kỳ tiện dụng cho đại chúng. Thế nhưng vẫn có một cái ǵ đó bên trong mỗi người Việt, mang tính văn hoá, mang tính tâm linh thôi thúc con người ngày nay đọc lại chữ của ông bà tổ tiên, chí ít cũng là thấy xem tên ḿnh ngày xưa viết thế nào...
Chúng tôi cũng như đại đa số người Việt hiện nay, lúc đầu hầu như chẳng biết ǵ về chữ Nôm cả. Nhưng chính một cái ǵ đó tiềm tàng bên trong (chiều sâu của) tâm hồn đă gắn chúng tôi lại với nhau trong một dự án mở và ban đầu cũng khá mơ hồ: Làm sao cho mọi người thấy được, dùng được chữ Nôm trên máy tính? Ban đầu, thực sự đó là hoài băo và mơ ước. Rồi những người say sưa với ư tưởng về chữ Nôm trên máy tính ấy xích lại gần nhau, tự động phân chia công việc, ai thạo cái ǵ th́ làm cái ấy.
Phải nói thời đại internet ngày nay đă làm được cái việc mà ngày xưa không thể làm được: Gắn nhiều người, với những chuyên môn khác nhau ở bốn phương trời, vào trong một dự án, cứ làm lại vỡ ra cái ǵ đó mới mẻ trong vốn gia tài kế thừa chữ Nôm để lại. Cũng tài thật là mọi việc cứ khớp lại với nhau y như có ai đă bày đặt sẵn vậy. Tất nhiên cũng nhiều đêm mất ngủ, nhiều ngày cặm cụi làm việc, nhưng nói thực chúng tôi có cảm giác là ḿnh đang chơi một tṛ ǵ đó hay hay nên dù bận mấy th́ bận, cũng vẫn cứ để thời gian cho nó.
Bây giờ nh́n lại, té ra những việc ḿnh làm đă thành một cái ǵ đó xinh xinh, dùng cũng được, và một mong ước nữa lại phát sinh: Làm sao cho mọi người đều có cơ hội gặp gỡ lại chữ Nôm qua công cụ tra cứu chữ Nôm NLT này. Chính v́ vậy nên mới có phần giới thiệu này đến tay bạn đọc của e-CHÍP.
Và mơ ước vẫn cứ tiếp diễn...

Pha 1: Tra cứu một chiều đơn giản
Phiên bản NLT ban đầu (hè 2001) về cơ bản là công cụ tra cứu một chiều: Cho một âm tiết quốc ngữ, hay một từ tiếng Anh, bạn muốn biết nó được viết ra sao khi là chữ Nôm. Một cách lư tưởng, bạn cũng muốn tra cứu theo các cách khác: Cho chữ biểu ư Nôm, bạn muốn biết nó được đọc thế nào trong chữ quốc ngữ. Tuy nhiên, trong phiên bản ban đầu, chức năng t́m kiếm được trang bị cho loại tra cứu đó c̣n rất nghèo nàn: Bạn có thể t́m theo điểm mă Unicode, phần nghĩa, phần âm, hay cả hai. Trong thực tế, việc t́m kiếm theo điểm mă Unicode không dễ dùng bởi chúng ta không thể trông đợi người dùng quen thuộc với kư pháp kỹ thuật như điểm mă và việc t́m kiếm theo phần nghĩa/âm cũng không hiệu quả mấy v́ hai lư do: Không phải mọi chữ biểu ư đều có thể bẻ thành các phần được. Trong cơ sở dữ liệu của chúng tôi, chỉ có các chữ biểu ư thuần Nôm được phân tích âm tiết.
Pha 2: Nỗ lực đầu tiên để giải quyết vấn đề font
Một trong những nhược điểm của phiên bản ban đầu là không thể phổ biến rộng được v́ font DFSongLight Nôm không sẵn có, c̣n font Arial Unicode lại chỉ chứa một nửa số 9.299 chữ Nôm biểu ư. Phiên bản 2 của NLT vào mùa xuân 2002 là nỗ lực đầu tiên của Nhóm NLT để giải quyết vấn đề font này, bằng cách dùng công nghệ SVG (scalar-vector graphics - đồ hoạ vectơ vô hướng). Với giải pháp SVG, không cần có font vẫn có thể xem được chữ Nôm biểu ư nhưng người dùng cần có một bộ SVG viewer để đọc các đồ hoạ được tạo ra tương ứng với font. Tiếc rằng đồ hoạ không thể sao và dán vào tài liệu, hoặc tiện dụng cho việc cất giữ như ảnh.
Pha 3: Đưa vào nhiều cách đọc quốc ngữ và ngữ cảnh, ngữ nghĩa liên kết của chúng
Một công việc quan trọng đă được thực hiện trong pha 3 (mùa thu 2002) với việc đưa vào nhiều cách đọc chữ quốc ngữ và ngữ cảnh, ngữ nghĩa của chúng. Cho đến pha 3, trong cơ sở dữ liệu của chúng tôi, từng âm tiết quốc ngữ có thể được biểu diễn bằng nhiều chữ biểu ư Nôm, nhưng mỗi chữ biểu ư Nôm chỉ biểu diễn cho một âm tiết quốc ngữ. Cách đọc tiếng Việt chính thức do Viện Hán Nôm đề nghị với tổ chức Unicode. Trong thực tế, có nhiều mối quan hệ giữa âm tiết quốc ngữ với chữ biểu ư Nôm và cùng chữ biểu ư có thể có nhiều cách đọc quốc ngữ. Chẳng hạn, một chữ biểu ư có bảy cách đọc quốc ngữ khác nhau “nữ”, “nữa”, “nỡ”, “nớ”, “nợ”, “lỡ”, “nhỡ” nhưng trong cơ sở dữ liệu của chúng tôi, chỉ có một cách đọc “nữa” do Viện Hán Nôm đề nghị. Để lấp lỗ hổng này, chúng tôi đă nhập những cách đọc chữ quốc ngữ c̣n thiếu từ Bảng tra chữ Nôm (BTCN), cùng với “ngữ cảnh, ngữ nghĩa” liên kết của chúng, dưới dạng ví dụ. Với những bổ sung này, NLT trở nên hiệu quả hơn ở nhiều khía cạnh: V́ nhiều mục quốc ngữ được thêm vào cơ sở dữ liệu nên công cụ có thể t́m thấy nhiều kết quả hơn. Chẳng hạn, “nữ” trước đây không thể t́m được trước khi có những bổ sung từ BTCN. Ngữ cảnh ngữ nghĩa liên kết với từng cặp <quốc ngữ, Nôm> có thể là những giúp đỡ hữu ích, đặc biệt khi cùng âm tiết quốc ngữ có thể có các chữ biểu ư Nôm khác nhau, tuỳ theo nghĩa của nó. Chẳng hạn, âm tiết “đá” có hai nghĩa khác nhau: “đá” như “ḥn đá”, hay “đá” như “đấm đá”. Người dùng có thể học được nhiều hơn từ việc t́m kiếm, v́ với mỗi chữ biểu ư Nôm được t́m, NLT có thể chỉ ra tất cả những cách đọc quốc ngữ khác nhau.
Pha 4: Thực hiện tra cứu hai chiều và giải quyết vấn đề font
Trong pha 4 (mùa xuân 2003), cơ sở dữ liệu có những thay đổi lớn, cho phép tra cứu từ Nôm sang quốc ngữ. Trong hầu hết các hệ thống t́m kiếm Trung Quốc dùng hai phương pháp: Truy vấn gơ theo tiếng Trung Quốc la-tinh hóa hay dùng phương pháp gơ chữ Trung Quốc nào đó. T́m chữ biểu ư theo chỉ mục bộ. Với việc dùng thông tin từ cơ sở dữ liệu Unihan database, NLT hiện nay có thể cung cấp nhiều phương pháp t́m kiếm trong cả hai loại này: Theo loại 1, bạn có thể gơ truy vấn của ḿnh theo chữ Quan thoại la-tinh hóa (hệ thống Pinyin) hay chữ Quảng Đông la-tinh hoá (hệ thống Yale) hay dùng phương pháp gơ Cangjie (xem chi tiết tại http://www.cjmember.4t.com/the_cj_method.htm). Mặt khác, cần lưu ư rằng hiện thời, phương pháp t́m kiếm theo loại 1 chỉ áp dụng cho chữ Trung Quốc và do vậy không thể dùng để t́m chữ biểu ư thuần Nôm. Theo loại 2, bạn có thể t́m kiếm tất cả các chữ biểu ư theo bộ gốc do Unicode đă xác định, hoặc bạn có thể giới hạn việc t́m kiếm theo chữ có số nét phụ đă xác định.
Một thành tựu khác trong pha 4: giải pháp cho vấn đề font, cụ thể chữ biểu ư Nôm bây giờ được hiển thị như ảnh .jpeg, sẵn sàng cho việc sao - dán vào tài liệu (có thể chọn cách hiển thị như kư tự thường nếu bạn có các bộ font đă xác định). Hăy thử nhé!

Các bạn có thể t́m hiểu NLT tại địa chỉ sau:
http://nomfoundation.org/unicode/lookup.php
LTS: Trong hàng ngàn năm, bên cạnh chữ Hán (một loại kư tự biểu ư), cha ông ta đă bắt đầu xây dựng chữ Nôm của người Việt - một loại kư tự vừa biểu âm vừa biểu ư cho riêng ḿnh. Chữ Hán Nôm trong lịch sử đă là chữ chính thức của dân tộc dùng để ghi lại mọi vấn đề văn học, nghệ thuật, lịch sử văn hoá... và bị chính quyền thuộc địa Pháp chấm dứt cho sử dụng vào năm 1920.
Với chúng ta ngày nay, chữ Nôm là ch́a khoá để mở kho tàng tri thức của tiền nhân. Không rành chữ Nôm, không những không thể thưởng thức nhiều tuyệt tác như Bạch Vân Am quốc ngữ thi tập của Nguyễn Bỉnh Khiêm, hay thơ Nôm của Nguyễn Trăi,… mà c̣n không thể nghiên cứu thấu đáo để học hỏi kinh nghiệm của cha ông, để biết tường tận thế nào là văn minh Việt (qua những hệ thống thư tịch về quản lư hành chính như Châu bản triều Nguyễn, chính sách đất đai như Địa bộ triều Nguyễn,…), và bồi dưỡng ư thức tự hào dân tộc.
V́ nhiều lư do, trong khi nhiều di sản văn hoá của người Việt đang mai một dần theo thời gian th́ hiểu biết về chữ Nôm của người Việt đương đại cũng ngày càng bị thu hẹp. V́ vậy, bảo tồn và phát huy các giá trị văn hoá được chuyển tải qua chữ Nôm đă trở thành một đ̣i hỏi hết sức cấp bách...
Các anh chị được đề cập đến trong công tŕnh dưới đây (Công cụ tra cứu chữ Nôm - Nôm Lookup Tool) hiện đang sống tại nhiều quốc gia khác nhau trên thế giới. Dù khác nhau về quốc tịch nhưng họ cùng là người Việt và luôn xem dải đất h́nh chữ S bên bờ biển Đông là quê hương. Văn hoá và văn minh Việt là niềm tự hào của họ và mỗi người trong họ đă góp “một chút”sức lực, trí tuệ trong việc hỗ trợ những đồng bào khác có thêm điều kiện nghiên cứu về ngữ âm và từ vựng của cha ông người Việt, giải mă các văn bản chữ Nôm, góp thêm dữ liệu trong việc nghiên cứu văn hoá và văn minh Việt… Đây là việc mở đầu cho những hoạt động của công nghệ thông tin (CNTT) ứng dụng vào xử lư ngôn ngữ dân tộc, tận dụng những thành tựu công nghệ hiện đại nhất vào các vấn đề văn hoá.