|
Với Nôm Lookup Tool: Chữ Nôm lại nhú mầm trở lại... Công
cụ tra cứu chữ Nôm – Nôm Lookup Tool (NLT) |
Tổ chức tài trợ chính:
Hội Bảo tồn Di sản chữ Nôm VNPF
Nguồn dữ liệu:
l Từ điển chữ Nôm: Vũ Văn Kính l Bảng Tra Chữ Nôm: Hồ
Lê, Viện Ngôn ngữ học xuất bản l Từ điển Hán Việt: Thiều
Chửu l Các tài liệu chữ Nôm: Nguyễn Quang Hồng l UniHan
Database: Cơ sở dữ liệu đặc biệt của tổ chức Unicode l
Các dữ liệu điện tử khác nhau: Ngô Thanh Nhàn, Đỗ Bá
Phước, Ngô Trung Việt.
Công việc được phân công đảm nhiệm:
l Yêu cầu người dùng: Ngô Thanh Nhàn, Ngô Trung Việt l
Nhập dữ liệu: Lê Mai Phương, Ngô Trung Việt l Thiết kế:
Lê Phạm Ngưng Hương l Thực hiện: Đỗ Bá Phước, Lê Phạm
Ngưng Hương l Đóng gói và phân phối: Hồ Văn Tiến.
Công cụ phát triển:
l MySql: DBMS mă nguồn mở l PHP: Ngôn ngữ Web-scripting
mă nguồn mở l VietUni: Cấu phần dựa trên java-script do
Trần Anh Hùng tạo ra để gơ chữ Việt l Font: DFSongLight
của Dynalab, chứa 9.299 chữ biểu ư Nôm, Arial Unicode MS
của Microsoft, chứa một phần các chữ biểu ư thống nhất
CJKV.
Mọi việc cứ khớp lại với nhau y như có ai đă bày đặt
sẵn
(Về ư nghĩa và các pha thực hiện NLT, theo lời kể của
người chủ tŕ – chị Lê Phạm Ngưng Hương). Tiếng Việt đă
tồn tại và phát triển với việc mẹ truyền lời dạy con
nói. Tiếng nói như vậy mang yếu tố thời gian và không
gian. Để cho tri thức vượt qua thời gian, tiếng nói lấy
lại h́nh hài cụ thể là chữ viết. Tiếng Việt có hai loại
chữ viết là Hán Nôm và chữ la-tinh (quốc ngữ).
Đă là người Việt Nam mà chỉ biết mỗi chữ la-tinh th́
cũng là một sự thiếu sót và mất mát đi cái ǵ đó của ông
bà tổ tiên. Do vậy, chữ Nôm vẫn cứ là một chủ đề muôn
thuở trong tâm khảm người Việt.
Chữ Nôm đă đi vào lịch sử, không c̣n là thứ văn tự được
phổ biến chính trong cả nước nữa. Và cũng đă vài ba thế
hệ qua đi hoàn toàn chẳng biết tới chữ Nôm là ǵ, trong
những bận rộn của các cuộc chiến một mất một c̣n. Nhưng
rồi mọi cuộc chiến tranh cũng phải qua đi để nhường lại
vũ đài lịch sử cho các thế hệ mới đi vào khoa học, kỹ
thuật và phát triển. Chính trong sự phát triển của những
công nghệ và kỹ thuật mới đó như những cơn mưa đem tới
mùa màng, chữ Nôm lại nhú mầm trở lại, bởi v́ hạt mầm
của nó trong tâm khảm mọi người Việt vẫn c̣n đấy.
Hạt mầm đó nảy nở thành một hoài băo, một mơ ước được
thấy chữ ông bà ngày xưa đă dùng như thế nào. Hẳn là bây
giờ không ai dùng chữ Nôm cho các vấn đề khoa học và
công nghệ, điều đó chữ quốc ngữ la-tinh đă là công cụ
cực kỳ tiện dụng cho đại chúng. Thế nhưng vẫn có một cái
ǵ đó bên trong mỗi người Việt, mang tính văn hoá, mang
tính tâm linh thôi thúc con người ngày nay đọc lại chữ
của ông bà tổ tiên, chí ít cũng là thấy xem tên ḿnh
ngày xưa viết thế nào...
Chúng tôi cũng như đại đa số người Việt hiện nay, lúc
đầu hầu như chẳng biết ǵ về chữ Nôm cả. Nhưng chính một
cái ǵ đó tiềm tàng bên trong (chiều sâu của) tâm hồn đă
gắn chúng tôi lại với nhau trong một dự án mở và ban đầu
cũng khá mơ hồ: Làm sao cho mọi người thấy được, dùng
được chữ Nôm trên máy tính? Ban đầu, thực sự đó là hoài
băo và mơ ước. Rồi những người say sưa với ư tưởng về
chữ Nôm trên máy tính ấy xích lại gần nhau, tự động phân
chia công việc, ai thạo cái ǵ th́ làm cái ấy.
Phải nói thời đại internet ngày nay đă làm được cái việc
mà ngày xưa không thể làm được: Gắn nhiều người, với
những chuyên môn khác nhau ở bốn phương trời, vào trong
một dự án, cứ làm lại vỡ ra cái ǵ đó mới mẻ trong vốn
gia tài kế thừa chữ Nôm để lại. Cũng tài thật là mọi
việc cứ khớp lại với nhau y như có ai đă bày đặt sẵn
vậy. Tất nhiên cũng nhiều đêm mất ngủ, nhiều ngày cặm
cụi làm việc, nhưng nói thực chúng tôi có cảm giác là
ḿnh đang chơi một tṛ ǵ đó hay hay nên dù bận mấy th́
bận, cũng vẫn cứ để thời gian cho nó.
Bây giờ nh́n lại, té ra những việc ḿnh làm đă thành một
cái ǵ đó xinh xinh, dùng cũng được, và một mong ước nữa
lại phát sinh: Làm sao cho mọi người đều có cơ hội gặp
gỡ lại chữ Nôm qua công cụ tra cứu chữ Nôm NLT này.
Chính v́ vậy nên mới có phần giới thiệu này đến tay bạn
đọc của e-CHÍP.
Và mơ ước vẫn cứ tiếp diễn...
Pha 1: Tra cứu một chiều đơn giản
Phiên bản NLT ban đầu (hè 2001) về cơ bản là công cụ tra
cứu một chiều: Cho một âm tiết quốc ngữ, hay một từ
tiếng Anh, bạn muốn biết nó được viết ra sao khi là chữ
Nôm. Một cách lư tưởng, bạn cũng muốn tra cứu theo các
cách khác: Cho chữ biểu ư Nôm, bạn muốn biết nó được đọc
thế nào trong chữ quốc ngữ. Tuy nhiên, trong phiên bản
ban đầu, chức năng t́m kiếm được trang bị cho loại tra
cứu đó c̣n rất nghèo nàn: Bạn có thể t́m theo điểm mă
Unicode, phần nghĩa, phần âm, hay cả hai. Trong thực tế,
việc t́m kiếm theo điểm mă Unicode không dễ dùng bởi
chúng ta không thể trông đợi người dùng quen thuộc với
kư pháp kỹ thuật như điểm mă và việc t́m kiếm theo phần
nghĩa/âm cũng không hiệu quả mấy v́ hai lư do: Không
phải mọi chữ biểu ư đều có thể bẻ thành các phần được.
Trong cơ sở dữ liệu của chúng tôi, chỉ có các chữ biểu ư
thuần Nôm được phân tích âm tiết.
Pha 2: Nỗ lực đầu tiên để giải quyết vấn đề font
Một trong những nhược điểm của phiên bản ban đầu là
không thể phổ biến rộng được v́ font DFSongLight Nôm
không sẵn có, c̣n font Arial Unicode lại chỉ chứa một
nửa số 9.299 chữ Nôm biểu ư. Phiên bản 2 của NLT vào mùa
xuân 2002 là nỗ lực đầu tiên của Nhóm NLT để giải quyết
vấn đề font này, bằng cách dùng công nghệ SVG
(scalar-vector graphics - đồ hoạ vectơ vô hướng). Với
giải pháp SVG, không cần có font vẫn có thể xem được chữ
Nôm biểu ư nhưng người dùng cần có một bộ SVG viewer để
đọc các đồ hoạ được tạo ra tương ứng với font. Tiếc rằng
đồ hoạ không thể sao và dán vào tài liệu, hoặc tiện dụng
cho việc cất giữ như ảnh.
Pha 3: Đưa vào nhiều cách đọc quốc ngữ và ngữ cảnh,
ngữ nghĩa liên kết của chúng
Một công việc quan trọng đă được thực hiện trong pha 3
(mùa thu 2002) với việc đưa vào nhiều cách đọc chữ quốc
ngữ và ngữ cảnh, ngữ nghĩa của chúng. Cho đến pha 3,
trong cơ sở dữ liệu của chúng tôi, từng âm tiết quốc ngữ
có thể được biểu diễn bằng nhiều chữ biểu ư Nôm, nhưng
mỗi chữ biểu ư Nôm chỉ biểu diễn cho một âm tiết quốc
ngữ. Cách đọc tiếng Việt chính thức do Viện Hán Nôm đề
nghị với tổ chức Unicode. Trong thực tế, có nhiều mối
quan hệ giữa âm tiết quốc ngữ với chữ biểu ư Nôm và cùng
chữ biểu ư có thể có nhiều cách đọc quốc ngữ. Chẳng hạn,
một chữ biểu ư có bảy cách đọc quốc ngữ khác nhau “nữ”,
“nữa”, “nỡ”, “nớ”, “nợ”, “lỡ”, “nhỡ” nhưng trong cơ sở
dữ liệu của chúng tôi, chỉ có một cách đọc “nữa” do Viện
Hán Nôm đề nghị. Để lấp lỗ hổng này, chúng tôi đă nhập
những cách đọc chữ quốc ngữ c̣n thiếu từ Bảng tra chữ
Nôm (BTCN), cùng với “ngữ cảnh, ngữ nghĩa” liên kết của
chúng, dưới dạng ví dụ. Với những bổ sung này, NLT trở
nên hiệu quả hơn ở nhiều khía cạnh: V́ nhiều mục quốc
ngữ được thêm vào cơ sở dữ liệu nên công cụ có thể t́m
thấy nhiều kết quả hơn. Chẳng hạn, “nữ” trước đây không
thể t́m được trước khi có những bổ sung từ BTCN. Ngữ
cảnh ngữ nghĩa liên kết với từng cặp <quốc ngữ, Nôm> có
thể là những giúp đỡ hữu ích, đặc biệt khi cùng âm tiết
quốc ngữ có thể có các chữ biểu ư Nôm khác nhau, tuỳ
theo nghĩa của nó. Chẳng hạn, âm tiết “đá” có hai nghĩa
khác nhau: “đá” như “ḥn đá”, hay “đá” như “đấm đá”.
Người dùng có thể học được nhiều hơn từ việc t́m kiếm,
v́ với mỗi chữ biểu ư Nôm được t́m, NLT có thể chỉ ra
tất cả những cách đọc quốc ngữ khác nhau.
Pha 4: Thực hiện tra cứu hai chiều và giải quyết vấn
đề font
Trong pha 4 (mùa xuân 2003), cơ sở dữ liệu có những thay
đổi lớn, cho phép tra cứu từ Nôm sang quốc ngữ. Trong
hầu hết các hệ thống t́m kiếm Trung Quốc dùng hai phương
pháp: Truy vấn gơ theo tiếng Trung Quốc la-tinh hóa hay
dùng phương pháp gơ chữ Trung Quốc nào đó. T́m chữ biểu
ư theo chỉ mục bộ. Với việc dùng thông tin từ cơ sở dữ
liệu Unihan database, NLT hiện nay có thể cung cấp nhiều
phương pháp t́m kiếm trong cả hai loại này: Theo loại 1,
bạn có thể gơ truy vấn của ḿnh theo chữ Quan thoại
la-tinh hóa (hệ thống Pinyin) hay chữ Quảng Đông la-tinh
hoá (hệ thống Yale) hay dùng phương pháp gơ Cangjie (xem
chi tiết tại
http://www.cjmember.4t.com/the_cj_method.htm). Mặt khác,
cần lưu ư rằng hiện thời, phương pháp t́m kiếm theo loại
1 chỉ áp dụng cho chữ Trung Quốc và do vậy không thể
dùng để t́m chữ biểu ư thuần Nôm. Theo loại 2, bạn có
thể t́m kiếm tất cả các chữ biểu ư theo bộ gốc do
Unicode đă xác định, hoặc bạn có thể giới hạn việc t́m
kiếm theo chữ có số nét phụ đă xác định.
Một thành tựu khác trong pha 4: giải pháp cho vấn đề
font, cụ thể chữ biểu ư Nôm bây giờ được hiển thị như
ảnh .jpeg, sẵn sàng cho việc sao - dán vào tài liệu (có
thể chọn cách hiển thị như kư tự thường nếu bạn có các
bộ font đă xác định). Hăy thử nhé!
Các bạn có thể t́m hiểu NLT tại địa chỉ sau:
http://nomfoundation.org/unicode/lookup.php
LTS: Trong hàng ngàn năm, bên cạnh chữ Hán (một loại kư
tự biểu ư), cha ông ta đă bắt đầu xây dựng chữ Nôm của
người Việt - một loại kư tự vừa biểu âm vừa biểu ư cho
riêng ḿnh. Chữ Hán Nôm trong lịch sử đă là chữ chính
thức của dân tộc dùng để ghi lại mọi vấn đề văn học,
nghệ thuật, lịch sử văn hoá... và bị chính quyền thuộc
địa Pháp chấm dứt cho sử dụng vào năm 1920.
Với chúng ta ngày nay, chữ Nôm là ch́a khoá để mở kho
tàng tri thức của tiền nhân. Không rành chữ Nôm, không
những không thể thưởng thức nhiều tuyệt tác như Bạch Vân
Am quốc ngữ thi tập của Nguyễn Bỉnh Khiêm, hay thơ Nôm
của Nguyễn Trăi,… mà c̣n không thể nghiên cứu thấu đáo
để học hỏi kinh nghiệm của cha ông, để biết tường tận
thế nào là văn minh Việt (qua những hệ thống thư tịch về
quản lư hành chính như Châu bản triều Nguyễn, chính sách
đất đai như Địa bộ triều Nguyễn,…), và bồi dưỡng ư thức
tự hào dân tộc.
V́ nhiều lư do, trong khi nhiều di sản văn hoá của người
Việt đang mai một dần theo thời gian th́ hiểu biết về
chữ Nôm của người Việt đương đại cũng ngày càng bị thu
hẹp. V́ vậy, bảo tồn và phát huy các giá trị văn hoá
được chuyển tải qua chữ Nôm đă trở thành một đ̣i hỏi hết
sức cấp bách...
Các anh chị được đề cập đến trong công tŕnh dưới đây
(Công cụ tra cứu chữ Nôm - Nôm Lookup Tool) hiện đang
sống tại nhiều quốc gia khác nhau trên thế giới. Dù khác
nhau về quốc tịch nhưng họ cùng là người Việt và luôn
xem dải đất h́nh chữ S bên bờ biển Đông là quê hương.
Văn hoá và văn minh Việt là niềm tự hào của họ và mỗi
người trong họ đă góp “một chút”sức lực, trí tuệ trong
việc hỗ trợ những đồng bào khác có thêm điều kiện nghiên
cứu về ngữ âm và từ vựng của cha ông người Việt, giải mă
các văn bản chữ Nôm, góp thêm dữ liệu trong việc nghiên
cứu văn hoá và văn minh Việt… Đây là việc mở đầu cho
những hoạt động của công nghệ thông tin (CNTT) ứng dụng
vào xử lư ngôn ngữ dân tộc, tận dụng những thành tựu
công nghệ hiện đại nhất vào các vấn đề văn hoá. |
|
|
|