Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào trang 1

Trang 1

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào trang 2

Trang 2

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào trang 3

Trang 3

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào trang 4

Trang 4

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào trang 5

Trang 5

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào trang 6

Trang 6

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào trang 7

Trang 7

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào trang 8

Trang 8

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào trang 9

Trang 9

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 99 trang nguyenduy 26/04/2024 90
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào

Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào
) như sau : 
 Y{u|u v, {u,v} V} : p(Yv | X, Yu, u v, {u,v} V) 
 Ta gọi (X,Y) là một trường ngẫu nhiên điều kiện (Conditional Random Field). 
Như vậy, một CRF là một trường ngẫu nhiên phụ thuộc tồn cục vào chuỗi quan sát X. 
Trong bài tốn phân đoạn từ nĩi riêng và các bài tốn xử lý dữ liệu dạng chuỗi nĩi 
chung, thì đồ thị G đơn giản chỉ là dạng chuỗi, V= {1, 2,  m}, E= {(i, i+1)} 
 Kí hiệu X= (X1, X2,... Xn) và Y = (Y1, Y2,  Yn), mơ hình đồ thị G cĩ dạng : 
 Y1 Y2 Y3 Yn-1 Yn 
 X1 X2 X3 Xn-1 Xn 
 Hình 2.3. Đồ thị v hướng m tả CRF 
 Gọi C là tập các đồ thị con đầy đủ của G. Vì G cĩ dạng chuỗi nên đồ thị con 
đầy đủ thực ra chỉ là một đỉnh hoặc một cạnh của đồ thị G. Áp dụng kết quả của 
Hammerley-ClifforD [12] cho các trường ngẫu nhiên Markov thì phân phối của chuỗi 
nhãn Y với chuỗi quan sát X cho trước cĩ dạng : 
 P ( y| x )  A CA ( A| x ) (2.1) 
 Trong đĩ  A gọi là hàm tiềm năng, nhận giá trị thực - dương. 
 Lafferty xác định hàm tiềm năng này dựa trên nguyên lý cực đại entropy. Việc 
xác định một phân phối theo nguyên lý cực đại entropy cĩ thể hiểu là ta phải xác định 
một phân phối sao cho “phân phối đĩ tuân theo mọi giải thiết suy ra từ thực nghiệm, 
ngồi ra khơng đưa thêm bất kì giả thiết nào khác” và gần nhất với phân phối đều. 
 Entropy là độ đo thể hiện tính khơng chắc chắn, hay độ khơng đồng đều của 
phân phối xác suất. Độ đo entropy điều kiện H(Y|X) được cho bởi cơng thức 
 ~
 H (Y | X )  p(x, y) log q( y | x)x, y (2.2) 
 Với ~p(x, y) là phân phối thực nghiệm của dữ liệu. 
 Theo cách trên, Lafferty đã chỉ ra hàm tiềm năng của mơ hình CRF cĩ dạng : 
  A A | x expk fk A | x k (2.3) 
 Trong đĩ k là thừa số lagrangian ứng với thuộc tính f k. Ta cũng cĩ thể xem 
 34 
như k là trọng số xác định độ quan trọng của thuộc tính f k trong chuỗi dữ liệu. Cĩ 
hai loại thuộc tính là thuộc tính chuyển (kí hiệu là f) và thuộc tính trạng thái (kí hiệu là 
g) tùy thuộc vào A là một đỉnh hay một cạnh của đồ thị. Thay cơng thức hàm tiềm 
năng vào cơng thức (2.1) và thêm thừa số chuẩn hĩa để đảm bảo thỏa mãn điều kiện 
xác suất. 
 2.3.3. Đánh giá hai phương pháp 
 1. Phương pháp so khớp tối đa : 
 Ưu điểm của phương pháp so khớp tối đa là đơn giản, dễ hiểu và chạy nhanh. 
Hơn nữa phương pháp chỉ cần một tệp từ điển đầy đủ là cĩ thể tiến hành phân đoạn 
các văn bản, hồn tồn khơng phải trải qua huấn luyện như các phương pháp sẽ trình 
bày tiếp theo. Với phương pháp này, ta dễ dàng tách được chính xác các ngữ/câu như 
“Khoa Cơng nghệ Thơng tin”, “Chủ nhiệm Khoa Cơng nghệ Thơng tin”. Trong tiếng 
Hoa, phương pháp so khớp tối đa đạt được độ chính xác 98, 41% [27]. 
 Nhược điểm của phương pháp này là nĩ khơng giải quyết được hai vấn đề quan 
trọng nhất của bài tốn phân đoạn từ tiếng Lào : thuật tốn gặp phải nhiều nhập nhằng, 
hơn nữa nĩ hồn tồn khơng cĩ chiến lược gì với những từ chưa biết trong bối cảnh hệ 
thống chữ viết Lào khơng sử dụng dấu trống để phân cách từ. 
 2. Phương pháp sử dụng trường xác xuất cĩ điều kiện 
 Mơ hình Markov ẩn và văn phạm thống kê là các mơ hình sinh (Generative 
Models), tính tốn xác suất liên kết (Joint) trên cặp chuỗi quan sát và chuỗi trạng thái. 
Các tham số thường được huấn luyện bằng cách làm cực đại độ đo D của dữ liệu 
huấn luyện. Để tính được xác suất liên kết trên chuỗi quan sát và chuỗi trạng thái, 
các mơ hình sinh cần phải liệt kê tất cả các trường hợp cĩ thể cĩ của chuỗi quan sát 
và chuỗi trạng thái. Nếu chuỗi trạng thái là hữu hạn và cĩ thể liệt kê được thì chuỗi 
quan sát trong nhiều trường hợp khĩ cĩ thể liệt kê được bởi sự phong phú và đa 
dạng của nĩ. Trong thực tế, các mơ hình sinh phải đưa ra giải thiết về sự độc lập giữa 
các dữ liệu quan sát, đĩ là dữ liệu quan sát tại thời điểm t chỉ phụ thuộc vào trạng thái 
tại thời điểm đĩ. Điều này hạn chế khá nhiều tính khả năng tích hợp các thuộc tính đa 
dạng của chuỗi quan sát. Hơn nữa, việc các mơ hình sinh sử dụng các xác suất đồng 
thời để mơ hình hĩa bài tốn cĩ tính điều kiện là khơng thích hợp [12][13]. Vì vậy, 
người ta dùng một mơ hình điều kiện để tính trực tiếp xác suất điều kiện thay vì xác 
suất đồng thời. 
 35 
 Mơ hình Markov cực đại hĩa entropy MEMMs (Maximum Entropy Markov 
Models) là một mơ hình xác suất điều kiện được McCallum đưa ra năm 2000 như là 
đáp án cho những vấn đề của mơ hình Markov truyền thống. Mơ hình MEMMs định 
nghĩa hàm xác suất trên từng trạng thái, với đầu vào là thuộc tính quan sát, đầu ra là 
xác suất chuyển tới trạng thái tiếp theo. Như vậy mơ hình MEMMs quan niệm rằng, 
dữ liệu quan sát đã được cho trước, điều ta quan tâm là xác suất chuyển trạng thái. So 
sánh với các mơ hình trước đĩ, MEMMs cĩ ưu điểm là loại bỏ giả thuyết độc lập dữ 
liệu, theo đĩ xác suất chuyển trạng thái cĩ thể phụ thuộc vào các thuộc tính đa dạng 
của chuỗi dữ liệu quan sát. Hơn nữa, xác suất chuyển trạng thái khơng chỉ phụ thuộc 
vào vào quan sát hiện tại mà cịn cả quan sát trước đĩ và quan sát sau đĩ. 
 Tuy nhiên, các mơ hình định nghĩa phân phối xác suất cho mỗi trạng thái đều 
gặp phải một vấn đề gọi là “Label Bias” [12] đĩ là hiện tượng bỏ sĩt dữ liệu quan sát 
khi cĩ ít đường đi ra từ một trạng thái cho trước tới trạng thái tiếp theo. 
 Phương pháp sử dụng trường xác xuất cĩ điều kiện CRF thừa kế các điểm 
mạnh của MEMMs nhưng lại giải quyết được vấn đề “Label Bias”. CRF làm tốt hơn 
cả MEMMs và mơ hình Markov ẩn trong rất nhiều các bài tốn thực về gán nhãn dữ 
liệu dạng chuỗi. Trong khi MEMM định nghĩa phân phối xác suất trên từng trạng thái 
với điều kiện biết trạng thái trước đĩ và quan sát hiện tại, CRF định nghĩa phân phối 
xác suất trên tồn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước. Về 
mặt lý thuyết, cĩ thể coi mơ hình CRF như là một mơ hình hữu hạn trạng thái với phân 
phối xác suất chuyển khơng chuẩn hĩa. 
 Bản chất khơng chuẩn hĩa của xác suất chuyển trạng thái cho phép các bước 
chuyển trạng thái cĩ thể nhận các giá trị quan trọng khác nhau. Vì thể bất cứ một trạng 
thái nào cũng cĩ thể làm tăng, giảm xác suất được truyền cho các trạng thái sau đĩ, mà 
vẫn đảm bảo xác suất cuối cùng được gán cho tồn bộ chuỗi trạng thái thỏa mãn định 
nghĩa về xác suất nhờ thừa số chuẩn hĩa tồn cục. 
 Do đặc thù của hệ viết tiếng Lào cũng như tính phức tạp của phương pháp sử 
dụng trường xác xuất cĩ điều kiện, chúng tơi đã chọn phương pháp so khớp tối đa để 
giải quyết bài tốn tách từ phục vụ PLVB. 
 36 
2.4. PHÂN LOẠI VĂN BẢN TIẾNG LÀO 
 2.4.1. Bài tốn phân loại văn bản tiếng Lào 
 Ở các cơ quan hành chính, người ta cĩ những cách phân chia các văn bản theo 
các loại khác nhau như : quyết định, nghị định, chỉ thị, thơng báo, văn bản nhân sự. Để 
cĩ thể phân loại được như vậy người ta phải đọc và lưu trữ các loại cơng văn giấy tờ 
vào các hệ thống tủ đựng hồ sơ để khi tìm kiếm sẽ dễ dàng hơn. Tuy nhiên việc này 
cũng tốn khá nhiều thời gian cơng sức khi một ngày các cơ quan này tiếp nhận khơng 
biết bao nhiêu cơng văn giấy tờ gửi đến. Chính vì sự phong phú này, đa dạng này mà 
PLVB chỉ mang tính tương đối, chủ quan của nguời thực hiện, và dễ xảy ra nhập 
nhằng khi tiến hành PLVB tự động trên máy tính. Ở trường Đại học Champasak, nhân 
viên văn phịng rất khĩ phân biệt một văn bản là một Chỉ thị hay là một Thơng báo, 
thuộc lĩnh vực nhân sự hay chuyên ngành khi đều cĩ nội dung đánh giá về sự kiện hoạt 
động khoa học cơng nghệ của Ban Giám hiệu. 
 Về bản chất, một văn bản HCVP bất kỳ gồm các từ ngữ cĩ liên quan với nhau 
tạo nên nội dung ngữ nghĩa của văn bản. Từ ngữ văn bản luơn đa dạng và cĩ khối 
luợng đồ sộ và cĩ tính nhập nhằng do bản chất của ngơn ngữ tự nhiên (từ đồng nghĩa, 
từ đa nghĩa, từ gần nghĩa, từ vay mượn ). Tuy một văn bản đang cần phân loại cĩ 
thể khơng lớn, nhưng khối luợng từ ngữ cần xử lý là rất lớn, phải bao hàm được hết 
các từ của ngơn ngữ đang xét. Điều này dẫn đến phải xây dựng kho từ vựng đủ lớn để 
cĩ thể tiến hành PLVB. 
 Ví dụ : Giả sử một văn bản gửi đến Phịng Hành Chính của trường Đại học 
Champasak được kèm qua email, nhân viên văn phịng cần quyết định xem văn bản 
này thuộc thể loại nào là thích hợp nhất. Chẳng hạn nếu văn bản cĩ ký hiệu “NĐ” (ở lề 
trái) thì hệ thống sẽ phân văn bản đĩ vào nhĩm “Nghị định”. Tương tự với các ký hiệu 
“CV”, “QĐ” trên văn bản tương ứng với các nhĩm văn bản “Cơng văn”, “Quyết 
định”, v.v 
 Đối với tiếng Anh, các kết quả PLVB rất khả quan và phổ dụng. Riêng đối với 
tiếng Lào, tiếng Thái, tiếng Khmer, kể cả tiếng Việt[44], vẫn cịn nhiều hạn chế. 
Mặc dù gần đây đã cĩ một số cơng trình nghiên cứu về PLVB được cơng bố trên các 
ngơn ngữ này, nhưng đặc biệt vẫn chưa cĩ giải pháp cho bài tốn PLVB tiếng Lào. 
 Đặc biệt trong trong lĩnh vực nĩi và viết, tiếng Lào cĩ quan hệ gần nhất với 
 37 
tiếng Thái và các tiếng thuộc họ ngơn ngữ Tai-Kadai, nên rất nhiều nghiên cứu trong 
lĩnh vực xử lý ngơn ngữ tự nhiên trên tiếng Thái cĩ ảnh hưởng trực tiếp tới tiếng Lào 
như SVM, Nạve Bayes, cây quyết định, k láng giềng gần nhất, mạng nơ ron RBF 
nhưng khơng thể áp dùng trực tiếp cho tiếng Lào đượcơ[34][35][36][37]. 
 Các kết quả đã được cơng bố cĩ vai trị ảnh hưởng tới những nghiên cứu cho 
bài tốn PLVB trên tiếng Lào. Nhiều nghiên cứu đã cơng bố nhằm đạt được hiệu quả 
tốt hơn trong bài tốn PLVB tự động. Hai phương pháp máy vec tơ hỗ trợ SVM và 
mạng nơ ron RBF được coi là phổ biến và đã chứng minh được tính hiệu quả trong bài 
tốn PLVB tiếng Thái và các ngơn ngữ khác thuộc họ ngơn ngữ Tai-Kadai[3][24][29]. 
Vì vậy, trong luận án, chúng tơi đề xuất sử dụng máy vec tơ hỗ trợ SVM và mạng nơ 
ron RBF làm phương pháp lựa chọn đặc trưng của chúng chúng tơi, trong quá trình 
thử nghiệm, chúng chúng tơi đã tiến hành thử nghiệm trên nhiều bộ tham số để tìm ra 
bộ tham số thích hợp trong việc PLVB tiếng Lào. 
 2.4.2. Nhu cầu giải quyết bài tốn tách từ tiếng Lào 
 Cĩ thể nhận định rằng bài tốn tách từ gặp rất nhiều khĩ khăn trở ngại khi tìm 
hướng giải quyết PLVB đối với các ngơn ngữ châu Á như tiếng Hoa, tiếng Nhật, tiếng 
Hàn và cả tiếng Việt. Do đĩ, rất khĩ cĩ thể áp dụng các kỹ thuật và hướng tiếp cận đã 
được nghiên cứu và thử nghiệm thành cơng trên các ngơn ngữ Ấn Âu cho tiếng Lào 
nếu khơng xây dựng thành cơng giải pháp bài tốn tách từ tiếng Lào. 
 Thực tế hiện nay chưa cĩ các kho ngữ vựng đơn ngữ, song ngữ hay đa ngữ 
tiếng Lào tiện dụng theo lĩnh vực, chủ đề, thể loại khác nhau, thiếu các kết quả nghiên 
cứu cơ sở phục vụ xử lý tiếng Lào cho nên chúng chúng tơi phải tạo kho ngữ liệu và 
xây dựng cơng cụ PLVB tiếng Lào để xử lý tiếng Lào nĩi chung và phân loại các văn 
bản tại trường Đại học Champasak nĩi riêng. Để thực hiện việc phân loại, bài tốn 
phải giải quyết đầu tiên và là bắt buộc đối với tiếng Lào đĩ là bài tốn tách từ. 
 2.4.3. Đề xuất giải pháp triển khai 
 Trên cơ sở tìm hiểu bài tốn PLVB và bài tốn tách từ, các phương pháp giải 
quyết bài tốn PLVB và bài tốn tách từ cùng những đặc thù ngơn ngữ trong tiếp cận 
giải quyết bài tốn PLVB tiếng Lào, chúng tơi đề xuất mơ hình triển khai giải pháp tách 
từ phục vụ PLVB tiếng Lào gồm năm bước lần lượt như sau : 
 38 
 1 2 3 
 Phân tích Nhận diện từ đơn Cập nhật dữ liệu 
 hiện trạng, tiếng Lào sử dụng từ nhiều nguồn 
 thu thập dữ liệu cơ sở luật và MSD khác nhau 
 Kho VBHC Kho từ đơn Kho từ vựng 
 tiếng Lào tiếng Lào tiếng Lào 
 4 5 
 Tách từ sử dụng Thử nghiệm 
 tách từ và PLVB, 
 phương pháp 
 so khớp tối đa đánh giá kết quả 
 Xử lý Kết quả 
 nhập nhằng phân loại 
 VBHC 
 Hình 2.4. hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào. 
 Cĩ thể giải thích chi tiết các bước như sau : 
 Bước 1 : 
 Phân tích các hoạt động phân loại, lưu trữ các loại VBHC khác nhau tại trường 
Đại học Champasak, từ đĩ tổ chức, thu thập các văn bản này để tạo ra một CSDL 
VBHC phục vụ quá trình triển khai các bước tiếp theo. 
 Bước 2 : 
 Tìm hiểu các đặc trưng ngữ pháp trong hệ chữ viết Lào, đề xuất xây dựng mơ 
hình cấu trúc từ đơn mang tính đặc thù của tiếng Lào, vận dụng xây dựng cơ sở luật và 
máy suy diễn (MSD) cho phép nhận diện một từ đơn (âm tiết) trong câu văn bản, sau 
đĩ tiến hành xây dựng kho từ đơn, hay từ điển tiếng. 
 Bước 3 : 
 Từ kho từ đơn ở bước 2, tiếp tục xây dựng kho từ vựng gồm các từ đơn, từ 
ghép và cụm từ, kết hợp kiểm tra sửa lỗi thủ cơng, phục vụ giải quyết bài tốn tách từ 
tiếng Lào. 
 Bước 4 : 
 Với mỗi văn bản vào từ CSDL VBHC đã xây dựng, tiến hành bĩc tách từ tiếng 
Lào sử dụng phương pháp so khớp tối đa trên kho từ vựng, kết hợp xử lý nhập nhằng 
sử dụng cơ sở luật. 
 39 
 Bước 5 : 
 Tiến hành giải quyết bài tốn PLVB tiếng Lào sử dụng hai thuật tốn máy 
vec tơ hỗ trợ SVM và dựa trên mạng hàm bán kính cơ sở RBF, kết hợp thử nghiệm 
tách từ trước, sau đĩ đánh giá các kết quả thử nghiệm. 
2.5. KẾT LUẬN CHƯƠNG 2 
 Chương 2 giới thiệu về một số phương pháp giải quyết bài tốn PLVB và những 
vấn đề liên quan đến luận án như khái niệm văn bản, soạn thảo văn bản, tách từ. Nội 
dung chương giới thiệu các phương pháp PLVB sử dụng máy học vec tơ hỗ trợ SVM 
và mạng nơ ron RBF, đánh giá các thuật tốn. Chúng tơi cũng đã giới thiệu các 
phương pháp tách từ như phương pháp so khớp tối đa MM và phương pháp dùng 
trường ngẫu nhiên cĩ điều kiện CRF để sử dụng trong luận án sẽ trình bày kết quả ở 
chương sau. Từ những kết quả nghiên cứu này, chúng tơi đề xuất giải pháp và các 
bước triển khai PLVB tiếng Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại 
trường Đại học Champasak, CHDCND Lào. 
 40 
 CHƯƠNG 3 
 GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG LÀO 
3.1. NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP 
 3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào 
 Trong tiếp cận giải quyết bài tốn tách từ tiếng Lào, đầu tiên chúng tơi tiến 
hành giải quyết vấn đề nhận diện, hay xác định từ cĩ mặt trong câu đang xét của văn 
bản tiếng Lào đã cho. Sau bước nhận diện từ là bước tách từ và PLVB. Cho đến nay, 
đây vẫn là một trong những vấn đề cĩ tính căn bản nhất trong nghiên cứu XL NNTN. 
Hiện vẫn chưa cĩ được sự thống nhất chung trong các tiếp cận nghiên cứu về từ, chưa 
cĩ được một định nghĩa mang tính phổ dụng (Universal Definition). Trong những vấn 
đề chưa được giải quyết một cách triệt để của ngơn ngữ học, vấn đề từ, định nghĩa từ 
luơn được xem xét đầu tiên trước khi triển khai các bước nghiên cứu tiếp theo. 
 Việc nhận diện, miêu tả và phân loại các đơn vị từ vựng thuộc về hai mảng 
nghiên cứu lớn trong ngơn ngữ học là từ vựng học và ngữ pháp học. Mặc dù tiếng Lào 
mang những nét tương tự với một số ngơn ngữ gần gũi như tiếng Thái, tiếng Khmer, 
cùng thuộc loại hình ngơn ngữ đơn tiết, đơn lập, khơng biến hình, v.v nhưng tiếng 
Lào vẫn cĩ những đặc trưng khác biệt. Trong XL NNTN cho tiếng Lào, rõ ràng chúng 
tơi khơng thể vận dụng, hay áp dụng được những kết quả nghiên cứu XL NNTN trên 
các ngơn ngữ này. Đặc biệt là tiếng Thái, nơi cĩ nhiều chuyên gia cĩ thâm niên kinh 
nghiệm, cĩ mơi trường, điều kiện nghiên cứu rất thuận lợi, hồn tồn ưu việt hơn so 
với XL NNTN cho tiếng Lào, chúng tơi chỉ cĩ thể nhìn nhận trên phương diện đánh 
giá, so sánh với kết quả xử lý mà chúng tơi đề xuất cho tiếng Lào. 
 Kết quả phân tích của chúng tơi cho thấy vấn đề nhận diện và tách từ tiếng Lào 
đã được nghiên cứu trong một thời gian khá dài, nhưng hiện nay vẫn chưa cĩ phương 
pháp nào để cĩ thể áp dụng để tách từ hiệu quả. Những cơng trình nghiên cứu tách từ 
trước đây [19][25]đã sử dùng các từ điển, phương pháp thống kê, hay các luật nhận 
diện từ ngữ pháp, nhưng chưa xử lý hiệu quả vấn đề nhập nhằng, tuy nhiên chưa cĩ 
giải pháp hiệu quả trong việc nhận diện các từ mới chưa cĩ mặt trong cơ sở dữ liệu từ 
vựng phục vụ tách từ. 
 41 
 Tiếp cận giải quyết vấn đề nhận diện, hay xác định từ cĩ mặt trong một câu văn 
bản tiếng Lào dẫn đến vấn đề phân tích các đặc trưng ngữ pháp tiếng Lào. Trên cơ sở 
xác định các đặc trưng này, chúng tơi tiến hành xây dựng mơ hình cấu trúc của từ đơn, 
từ đĩ cĩ khả năng nhận diện từ theo cách nhận diện điểm bắt đầu và cách kết thúc của 
từ tiếng Lào trong câu. 
 3.1.2. Xây dựng mơ hình cấu trúc của từ đơn 
 Phân tích các đặc trưng trong hệ viết chữ Lào, sử dụng bảng chữ cái, các phụ 
âm đơn và ghép, các nguyên âm đơn và ghép, các dấu thanh và các chữ số tiếng Lào 
(xem phụ lục), đã cho phép chúng tơi xây dựng một mơ hình cấu trúc từ đơn của tiếng 
Lào như sau (hình 3.1.) : 
 V2 X5 
 X4 
 V1 X0 X1 C X6 X7 X8 X9 X10 
 X2 
 X3 
 Hình 3.1. Cấu trúc từ đơn trong tiếng Lào. 
 Trong mơ hình cấu trúc từ đơn này, ở trung tâm là phụ âm C, các thành phần 
cịn lại của từ đơn tiếng Lào được xác định vị trí so với phụ âm C, hoặc ở phía trước, 
hoặc ở phía sau, hoặc ở phía trên, và cuối cùng, hoặc cĩ thể ở phía dưới. Như vậy, mơ 
hình cấu trúc cĩ dạng một chữ thập, hay gồm hai vec tơ giao vuơng gĩc với nhau : 
 - Vec tơ V1 = (X0, X1, C, X6, X7, X8, X9, X10) nằm ngang gồm các nguyên âm, 
 hay phụ âm Xi (đánh số từ trái qua phải) cho biết cấu trúc của một từ cần 
 nhận diện theo cách viết truyền thống. 
 - Vec tơ V2 = (X5, X4, C, X2, X3) thẳng đứng gồm các nguyên âm, hay phụ 
 âm, hay dấu thanh Xj, được đánh số từ trên xuống (ở phía dưới C) và từ dưới 
 lên (ở phía trên C) xác định cách viết đúng của từ. 
 - Phụ âm C nằm ở vị trí trung tâm, giao điểm của hai vec tơ V1 và V2. 
 Các thành phần Xi, i=0..10, trong mơ hình cấu trúc được đánh số theo cách viết 
truyền thống (hay thứ tự gõ vào từ bàn phím) của chữ viết Lào. Vec tơ V1 cho biết khi 
một từ đơn khơng cĩ các nguyên âm hay dấu thanh ở phía dưới hay ở phía trên, thứ tự 
 42 
viết theo hướng từ trái qua phải, tuỳ theo sự cĩ mặt của các thành phần trong đĩ. 
Vec tơ V2 xử lý các trường hợp khi một từ đơn cĩ cả nguyên âm và dấu thanh ở phía 
dưới và/hoặc ở phía trên. Khi từ đơn cĩ nguyên âm và dấu thanh ở phía dưới, thứ tự 
viết theo hướng từ trên xuống dưới, X2 trước X3. Khi từ đơn cĩ hai nguyên âm ở phía 
trên, thứ tự viết theo hướng từ dưới lên trên, X4 trước X5. Khi từ đơn cĩ cả nguyên âm 
và dấu thanh ở phía dưới và ở phía trên, thứ tự viết là X2, X3 rồi tiếp tục X4, X5. 
 Vai trị chức năng của các thành phần của hai vec tơ V1 và V2 được trình bày 
trong bảng 3.1 như sau : 
 Bảng 3.1. Vai trị các thành phần của V1 và V2. 
Thành phần Vai trị chức năng Chữ cái Lào tương ứng 
 Nguyên âm đứng trước phụ âm, xác định 
 X0 ເ ແ ໄ ໃ ໂ 
 bắt đầu một từ mới 
 Phụ âm đứng trước C nếu C là một trong các 
 X1 ງ ຍ ລ ວ ີ ມ ນ ຣ 
 phụ âm của X1 
 Phụ âm đặt ở phía sau C, 
 X6 ວ ອ ຽ 
 cĩ thể ghép với phụ âm cuối vần X8 
 Nguyên âm đặt ở phía sau C, xác định 
 V1 
 X7 ະ າ ີາ 
 bắt đầu một từ mới 
 X8 Phụ âm cuối vần ກ ງ ຍ ດ ນ ມ ບ ວ 
 Phụ âm viết theo phát âm của tiếng nước 
 X9 ຈ ສ ຊ ພ ຟ ລ 
 ngồi, thường đi cùng với ໌ (X10) 
 Dấu cho biết từ phía trước phát âm hai lần, 
 X10 ໆ ຯ ີ 
 X10 thường đặt ở cuối từ. 
 ກ ຂ ຄ ງ ຈ ສ ຊ ຍ ດ ຕ ຖ ທ ນ ບ ປ 
 C Phụ âm trung tâm 
 ຜ ຝ ພ ຟ ມ ຢ ຣ ລ ວ ຫ ອ ຮ ໜ ໝ 
 X2 Phụ âm ở sau C nhưng đặt ở phía dưới C ຣ ີ ວ ລ 
 X3 Nguyên âm ở phía dưới C ໌ ໌ 
 V2 
 X4 Nguyên âm ở phía trên C ໌ ໌ ໌ ໌ ໌ ໌ ໌ 
 X5 Luơn là dấu thanh ở phía trên C ໌ ໌ ໌ ໌ 
 Từ mơ hình cấu trúc từ đơn tiếng Lào, xây dựng vec tơ V là tổ hợp của hai 
vec tơ V1 và V2 gồm các thành phần Xi cho biết thứ tự viết đúng chính tả của một từ 
 43 
đơn. Các thành phần Xi này cĩ thể vắng mặt tuỳ theo ngữ cảnh, tuy nhiên phụ âm C 
luơn luơn cĩ mặt. Cĩ thể biểu diễn vec tơ V như sau ([Xi] chỉ định Xi cĩ thể vắng 
mặt) : 
 V = ([X0], [X1], C, [X2], [X3], [X4], [X5], [X]6, [X7], [X8], [X9], [X10]) 
 Các ví dụ sau đây giải thích mơ hình cấu trúc từ đơn biểu diễn theo vec tơ V : 
 1. Từ đơn ໄຂ (mở) cĩ thứ tự viết ໄ ຂ tương ứng với V=(X1, C) : 
 V2 
 V1 
 ໄ ຂ 
 2. Từ đơn ຫລານ (cháu) cĩ thứ tự viết ຫ ລ າ ນ 
 tương ứng với V=(C, X6, X7, X8) : 
 V2 
 V1 
 ຫ ລ າ ນ 
 3. Từ đơn ຫ ດ (giảm) cĩ thứ tự viết ຫ ີ ີ ດ 
 tương ứng với V=(C, X2, X3, X6) : 
 V2 
 V1 
 ຫ ດ 
 ີ 
 ີ 
 44 
4. Từ đơn ເຫລ າ (rượu) cĩ thứ tự viết ເ ຫ ີ ີ ລ າ 
 tương ứng với V=(X1, C, 

File đính kèm:

  • pdfluan_an_nghien_cuu_cac_phuong_phap_tach_tu_phuc_vu_phan_loai.pdf