Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào
) như sau :
Y{u|u v, {u,v} V} : p(Yv | X, Yu, u v, {u,v} V)
Ta gọi (X,Y) là một trường ngẫu nhiên điều kiện (Conditional Random Field).
Như vậy, một CRF là một trường ngẫu nhiên phụ thuộc tồn cục vào chuỗi quan sát X.
Trong bài tốn phân đoạn từ nĩi riêng và các bài tốn xử lý dữ liệu dạng chuỗi nĩi
chung, thì đồ thị G đơn giản chỉ là dạng chuỗi, V= {1, 2, m}, E= {(i, i+1)}
Kí hiệu X= (X1, X2,... Xn) và Y = (Y1, Y2, Yn), mơ hình đồ thị G cĩ dạng :
Y1 Y2 Y3 Yn-1 Yn
X1 X2 X3 Xn-1 Xn
Hình 2.3. Đồ thị v hướng m tả CRF
Gọi C là tập các đồ thị con đầy đủ của G. Vì G cĩ dạng chuỗi nên đồ thị con
đầy đủ thực ra chỉ là một đỉnh hoặc một cạnh của đồ thị G. Áp dụng kết quả của
Hammerley-ClifforD [12] cho các trường ngẫu nhiên Markov thì phân phối của chuỗi
nhãn Y với chuỗi quan sát X cho trước cĩ dạng :
P ( y| x ) A CA ( A| x ) (2.1)
Trong đĩ A gọi là hàm tiềm năng, nhận giá trị thực - dương.
Lafferty xác định hàm tiềm năng này dựa trên nguyên lý cực đại entropy. Việc
xác định một phân phối theo nguyên lý cực đại entropy cĩ thể hiểu là ta phải xác định
một phân phối sao cho “phân phối đĩ tuân theo mọi giải thiết suy ra từ thực nghiệm,
ngồi ra khơng đưa thêm bất kì giả thiết nào khác” và gần nhất với phân phối đều.
Entropy là độ đo thể hiện tính khơng chắc chắn, hay độ khơng đồng đều của
phân phối xác suất. Độ đo entropy điều kiện H(Y|X) được cho bởi cơng thức
~
H (Y | X ) p(x, y) log q( y | x)x, y (2.2)
Với ~p(x, y) là phân phối thực nghiệm của dữ liệu.
Theo cách trên, Lafferty đã chỉ ra hàm tiềm năng của mơ hình CRF cĩ dạng :
A A | x expk fk A | x k (2.3)
Trong đĩ k là thừa số lagrangian ứng với thuộc tính f k. Ta cũng cĩ thể xem
34
như k là trọng số xác định độ quan trọng của thuộc tính f k trong chuỗi dữ liệu. Cĩ
hai loại thuộc tính là thuộc tính chuyển (kí hiệu là f) và thuộc tính trạng thái (kí hiệu là
g) tùy thuộc vào A là một đỉnh hay một cạnh của đồ thị. Thay cơng thức hàm tiềm
năng vào cơng thức (2.1) và thêm thừa số chuẩn hĩa để đảm bảo thỏa mãn điều kiện
xác suất.
2.3.3. Đánh giá hai phương pháp
1. Phương pháp so khớp tối đa :
Ưu điểm của phương pháp so khớp tối đa là đơn giản, dễ hiểu và chạy nhanh.
Hơn nữa phương pháp chỉ cần một tệp từ điển đầy đủ là cĩ thể tiến hành phân đoạn
các văn bản, hồn tồn khơng phải trải qua huấn luyện như các phương pháp sẽ trình
bày tiếp theo. Với phương pháp này, ta dễ dàng tách được chính xác các ngữ/câu như
“Khoa Cơng nghệ Thơng tin”, “Chủ nhiệm Khoa Cơng nghệ Thơng tin”. Trong tiếng
Hoa, phương pháp so khớp tối đa đạt được độ chính xác 98, 41% [27].
Nhược điểm của phương pháp này là nĩ khơng giải quyết được hai vấn đề quan
trọng nhất của bài tốn phân đoạn từ tiếng Lào : thuật tốn gặp phải nhiều nhập nhằng,
hơn nữa nĩ hồn tồn khơng cĩ chiến lược gì với những từ chưa biết trong bối cảnh hệ
thống chữ viết Lào khơng sử dụng dấu trống để phân cách từ.
2. Phương pháp sử dụng trường xác xuất cĩ điều kiện
Mơ hình Markov ẩn và văn phạm thống kê là các mơ hình sinh (Generative
Models), tính tốn xác suất liên kết (Joint) trên cặp chuỗi quan sát và chuỗi trạng thái.
Các tham số thường được huấn luyện bằng cách làm cực đại độ đo D của dữ liệu
huấn luyện. Để tính được xác suất liên kết trên chuỗi quan sát và chuỗi trạng thái,
các mơ hình sinh cần phải liệt kê tất cả các trường hợp cĩ thể cĩ của chuỗi quan sát
và chuỗi trạng thái. Nếu chuỗi trạng thái là hữu hạn và cĩ thể liệt kê được thì chuỗi
quan sát trong nhiều trường hợp khĩ cĩ thể liệt kê được bởi sự phong phú và đa
dạng của nĩ. Trong thực tế, các mơ hình sinh phải đưa ra giải thiết về sự độc lập giữa
các dữ liệu quan sát, đĩ là dữ liệu quan sát tại thời điểm t chỉ phụ thuộc vào trạng thái
tại thời điểm đĩ. Điều này hạn chế khá nhiều tính khả năng tích hợp các thuộc tính đa
dạng của chuỗi quan sát. Hơn nữa, việc các mơ hình sinh sử dụng các xác suất đồng
thời để mơ hình hĩa bài tốn cĩ tính điều kiện là khơng thích hợp [12][13]. Vì vậy,
người ta dùng một mơ hình điều kiện để tính trực tiếp xác suất điều kiện thay vì xác
suất đồng thời.
35
Mơ hình Markov cực đại hĩa entropy MEMMs (Maximum Entropy Markov
Models) là một mơ hình xác suất điều kiện được McCallum đưa ra năm 2000 như là
đáp án cho những vấn đề của mơ hình Markov truyền thống. Mơ hình MEMMs định
nghĩa hàm xác suất trên từng trạng thái, với đầu vào là thuộc tính quan sát, đầu ra là
xác suất chuyển tới trạng thái tiếp theo. Như vậy mơ hình MEMMs quan niệm rằng,
dữ liệu quan sát đã được cho trước, điều ta quan tâm là xác suất chuyển trạng thái. So
sánh với các mơ hình trước đĩ, MEMMs cĩ ưu điểm là loại bỏ giả thuyết độc lập dữ
liệu, theo đĩ xác suất chuyển trạng thái cĩ thể phụ thuộc vào các thuộc tính đa dạng
của chuỗi dữ liệu quan sát. Hơn nữa, xác suất chuyển trạng thái khơng chỉ phụ thuộc
vào vào quan sát hiện tại mà cịn cả quan sát trước đĩ và quan sát sau đĩ.
Tuy nhiên, các mơ hình định nghĩa phân phối xác suất cho mỗi trạng thái đều
gặp phải một vấn đề gọi là “Label Bias” [12] đĩ là hiện tượng bỏ sĩt dữ liệu quan sát
khi cĩ ít đường đi ra từ một trạng thái cho trước tới trạng thái tiếp theo.
Phương pháp sử dụng trường xác xuất cĩ điều kiện CRF thừa kế các điểm
mạnh của MEMMs nhưng lại giải quyết được vấn đề “Label Bias”. CRF làm tốt hơn
cả MEMMs và mơ hình Markov ẩn trong rất nhiều các bài tốn thực về gán nhãn dữ
liệu dạng chuỗi. Trong khi MEMM định nghĩa phân phối xác suất trên từng trạng thái
với điều kiện biết trạng thái trước đĩ và quan sát hiện tại, CRF định nghĩa phân phối
xác suất trên tồn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước. Về
mặt lý thuyết, cĩ thể coi mơ hình CRF như là một mơ hình hữu hạn trạng thái với phân
phối xác suất chuyển khơng chuẩn hĩa.
Bản chất khơng chuẩn hĩa của xác suất chuyển trạng thái cho phép các bước
chuyển trạng thái cĩ thể nhận các giá trị quan trọng khác nhau. Vì thể bất cứ một trạng
thái nào cũng cĩ thể làm tăng, giảm xác suất được truyền cho các trạng thái sau đĩ, mà
vẫn đảm bảo xác suất cuối cùng được gán cho tồn bộ chuỗi trạng thái thỏa mãn định
nghĩa về xác suất nhờ thừa số chuẩn hĩa tồn cục.
Do đặc thù của hệ viết tiếng Lào cũng như tính phức tạp của phương pháp sử
dụng trường xác xuất cĩ điều kiện, chúng tơi đã chọn phương pháp so khớp tối đa để
giải quyết bài tốn tách từ phục vụ PLVB.
36
2.4. PHÂN LOẠI VĂN BẢN TIẾNG LÀO
2.4.1. Bài tốn phân loại văn bản tiếng Lào
Ở các cơ quan hành chính, người ta cĩ những cách phân chia các văn bản theo
các loại khác nhau như : quyết định, nghị định, chỉ thị, thơng báo, văn bản nhân sự. Để
cĩ thể phân loại được như vậy người ta phải đọc và lưu trữ các loại cơng văn giấy tờ
vào các hệ thống tủ đựng hồ sơ để khi tìm kiếm sẽ dễ dàng hơn. Tuy nhiên việc này
cũng tốn khá nhiều thời gian cơng sức khi một ngày các cơ quan này tiếp nhận khơng
biết bao nhiêu cơng văn giấy tờ gửi đến. Chính vì sự phong phú này, đa dạng này mà
PLVB chỉ mang tính tương đối, chủ quan của nguời thực hiện, và dễ xảy ra nhập
nhằng khi tiến hành PLVB tự động trên máy tính. Ở trường Đại học Champasak, nhân
viên văn phịng rất khĩ phân biệt một văn bản là một Chỉ thị hay là một Thơng báo,
thuộc lĩnh vực nhân sự hay chuyên ngành khi đều cĩ nội dung đánh giá về sự kiện hoạt
động khoa học cơng nghệ của Ban Giám hiệu.
Về bản chất, một văn bản HCVP bất kỳ gồm các từ ngữ cĩ liên quan với nhau
tạo nên nội dung ngữ nghĩa của văn bản. Từ ngữ văn bản luơn đa dạng và cĩ khối
luợng đồ sộ và cĩ tính nhập nhằng do bản chất của ngơn ngữ tự nhiên (từ đồng nghĩa,
từ đa nghĩa, từ gần nghĩa, từ vay mượn ). Tuy một văn bản đang cần phân loại cĩ
thể khơng lớn, nhưng khối luợng từ ngữ cần xử lý là rất lớn, phải bao hàm được hết
các từ của ngơn ngữ đang xét. Điều này dẫn đến phải xây dựng kho từ vựng đủ lớn để
cĩ thể tiến hành PLVB.
Ví dụ : Giả sử một văn bản gửi đến Phịng Hành Chính của trường Đại học
Champasak được kèm qua email, nhân viên văn phịng cần quyết định xem văn bản
này thuộc thể loại nào là thích hợp nhất. Chẳng hạn nếu văn bản cĩ ký hiệu “NĐ” (ở lề
trái) thì hệ thống sẽ phân văn bản đĩ vào nhĩm “Nghị định”. Tương tự với các ký hiệu
“CV”, “QĐ” trên văn bản tương ứng với các nhĩm văn bản “Cơng văn”, “Quyết
định”, v.v
Đối với tiếng Anh, các kết quả PLVB rất khả quan và phổ dụng. Riêng đối với
tiếng Lào, tiếng Thái, tiếng Khmer, kể cả tiếng Việt[44], vẫn cịn nhiều hạn chế.
Mặc dù gần đây đã cĩ một số cơng trình nghiên cứu về PLVB được cơng bố trên các
ngơn ngữ này, nhưng đặc biệt vẫn chưa cĩ giải pháp cho bài tốn PLVB tiếng Lào.
Đặc biệt trong trong lĩnh vực nĩi và viết, tiếng Lào cĩ quan hệ gần nhất với
37
tiếng Thái và các tiếng thuộc họ ngơn ngữ Tai-Kadai, nên rất nhiều nghiên cứu trong
lĩnh vực xử lý ngơn ngữ tự nhiên trên tiếng Thái cĩ ảnh hưởng trực tiếp tới tiếng Lào
như SVM, Nạve Bayes, cây quyết định, k láng giềng gần nhất, mạng nơ ron RBF
nhưng khơng thể áp dùng trực tiếp cho tiếng Lào đượcơ[34][35][36][37].
Các kết quả đã được cơng bố cĩ vai trị ảnh hưởng tới những nghiên cứu cho
bài tốn PLVB trên tiếng Lào. Nhiều nghiên cứu đã cơng bố nhằm đạt được hiệu quả
tốt hơn trong bài tốn PLVB tự động. Hai phương pháp máy vec tơ hỗ trợ SVM và
mạng nơ ron RBF được coi là phổ biến và đã chứng minh được tính hiệu quả trong bài
tốn PLVB tiếng Thái và các ngơn ngữ khác thuộc họ ngơn ngữ Tai-Kadai[3][24][29].
Vì vậy, trong luận án, chúng tơi đề xuất sử dụng máy vec tơ hỗ trợ SVM và mạng nơ
ron RBF làm phương pháp lựa chọn đặc trưng của chúng chúng tơi, trong quá trình
thử nghiệm, chúng chúng tơi đã tiến hành thử nghiệm trên nhiều bộ tham số để tìm ra
bộ tham số thích hợp trong việc PLVB tiếng Lào.
2.4.2. Nhu cầu giải quyết bài tốn tách từ tiếng Lào
Cĩ thể nhận định rằng bài tốn tách từ gặp rất nhiều khĩ khăn trở ngại khi tìm
hướng giải quyết PLVB đối với các ngơn ngữ châu Á như tiếng Hoa, tiếng Nhật, tiếng
Hàn và cả tiếng Việt. Do đĩ, rất khĩ cĩ thể áp dụng các kỹ thuật và hướng tiếp cận đã
được nghiên cứu và thử nghiệm thành cơng trên các ngơn ngữ Ấn Âu cho tiếng Lào
nếu khơng xây dựng thành cơng giải pháp bài tốn tách từ tiếng Lào.
Thực tế hiện nay chưa cĩ các kho ngữ vựng đơn ngữ, song ngữ hay đa ngữ
tiếng Lào tiện dụng theo lĩnh vực, chủ đề, thể loại khác nhau, thiếu các kết quả nghiên
cứu cơ sở phục vụ xử lý tiếng Lào cho nên chúng chúng tơi phải tạo kho ngữ liệu và
xây dựng cơng cụ PLVB tiếng Lào để xử lý tiếng Lào nĩi chung và phân loại các văn
bản tại trường Đại học Champasak nĩi riêng. Để thực hiện việc phân loại, bài tốn
phải giải quyết đầu tiên và là bắt buộc đối với tiếng Lào đĩ là bài tốn tách từ.
2.4.3. Đề xuất giải pháp triển khai
Trên cơ sở tìm hiểu bài tốn PLVB và bài tốn tách từ, các phương pháp giải
quyết bài tốn PLVB và bài tốn tách từ cùng những đặc thù ngơn ngữ trong tiếp cận
giải quyết bài tốn PLVB tiếng Lào, chúng tơi đề xuất mơ hình triển khai giải pháp tách
từ phục vụ PLVB tiếng Lào gồm năm bước lần lượt như sau :
38
1 2 3
Phân tích Nhận diện từ đơn Cập nhật dữ liệu
hiện trạng, tiếng Lào sử dụng từ nhiều nguồn
thu thập dữ liệu cơ sở luật và MSD khác nhau
Kho VBHC Kho từ đơn Kho từ vựng
tiếng Lào tiếng Lào tiếng Lào
4 5
Tách từ sử dụng Thử nghiệm
tách từ và PLVB,
phương pháp
so khớp tối đa đánh giá kết quả
Xử lý Kết quả
nhập nhằng phân loại
VBHC
Hình 2.4. hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào.
Cĩ thể giải thích chi tiết các bước như sau :
Bước 1 :
Phân tích các hoạt động phân loại, lưu trữ các loại VBHC khác nhau tại trường
Đại học Champasak, từ đĩ tổ chức, thu thập các văn bản này để tạo ra một CSDL
VBHC phục vụ quá trình triển khai các bước tiếp theo.
Bước 2 :
Tìm hiểu các đặc trưng ngữ pháp trong hệ chữ viết Lào, đề xuất xây dựng mơ
hình cấu trúc từ đơn mang tính đặc thù của tiếng Lào, vận dụng xây dựng cơ sở luật và
máy suy diễn (MSD) cho phép nhận diện một từ đơn (âm tiết) trong câu văn bản, sau
đĩ tiến hành xây dựng kho từ đơn, hay từ điển tiếng.
Bước 3 :
Từ kho từ đơn ở bước 2, tiếp tục xây dựng kho từ vựng gồm các từ đơn, từ
ghép và cụm từ, kết hợp kiểm tra sửa lỗi thủ cơng, phục vụ giải quyết bài tốn tách từ
tiếng Lào.
Bước 4 :
Với mỗi văn bản vào từ CSDL VBHC đã xây dựng, tiến hành bĩc tách từ tiếng
Lào sử dụng phương pháp so khớp tối đa trên kho từ vựng, kết hợp xử lý nhập nhằng
sử dụng cơ sở luật.
39
Bước 5 :
Tiến hành giải quyết bài tốn PLVB tiếng Lào sử dụng hai thuật tốn máy
vec tơ hỗ trợ SVM và dựa trên mạng hàm bán kính cơ sở RBF, kết hợp thử nghiệm
tách từ trước, sau đĩ đánh giá các kết quả thử nghiệm.
2.5. KẾT LUẬN CHƯƠNG 2
Chương 2 giới thiệu về một số phương pháp giải quyết bài tốn PLVB và những
vấn đề liên quan đến luận án như khái niệm văn bản, soạn thảo văn bản, tách từ. Nội
dung chương giới thiệu các phương pháp PLVB sử dụng máy học vec tơ hỗ trợ SVM
và mạng nơ ron RBF, đánh giá các thuật tốn. Chúng tơi cũng đã giới thiệu các
phương pháp tách từ như phương pháp so khớp tối đa MM và phương pháp dùng
trường ngẫu nhiên cĩ điều kiện CRF để sử dụng trong luận án sẽ trình bày kết quả ở
chương sau. Từ những kết quả nghiên cứu này, chúng tơi đề xuất giải pháp và các
bước triển khai PLVB tiếng Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại
trường Đại học Champasak, CHDCND Lào.
40
CHƯƠNG 3
GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG LÀO
3.1. NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP
3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào
Trong tiếp cận giải quyết bài tốn tách từ tiếng Lào, đầu tiên chúng tơi tiến
hành giải quyết vấn đề nhận diện, hay xác định từ cĩ mặt trong câu đang xét của văn
bản tiếng Lào đã cho. Sau bước nhận diện từ là bước tách từ và PLVB. Cho đến nay,
đây vẫn là một trong những vấn đề cĩ tính căn bản nhất trong nghiên cứu XL NNTN.
Hiện vẫn chưa cĩ được sự thống nhất chung trong các tiếp cận nghiên cứu về từ, chưa
cĩ được một định nghĩa mang tính phổ dụng (Universal Definition). Trong những vấn
đề chưa được giải quyết một cách triệt để của ngơn ngữ học, vấn đề từ, định nghĩa từ
luơn được xem xét đầu tiên trước khi triển khai các bước nghiên cứu tiếp theo.
Việc nhận diện, miêu tả và phân loại các đơn vị từ vựng thuộc về hai mảng
nghiên cứu lớn trong ngơn ngữ học là từ vựng học và ngữ pháp học. Mặc dù tiếng Lào
mang những nét tương tự với một số ngơn ngữ gần gũi như tiếng Thái, tiếng Khmer,
cùng thuộc loại hình ngơn ngữ đơn tiết, đơn lập, khơng biến hình, v.v nhưng tiếng
Lào vẫn cĩ những đặc trưng khác biệt. Trong XL NNTN cho tiếng Lào, rõ ràng chúng
tơi khơng thể vận dụng, hay áp dụng được những kết quả nghiên cứu XL NNTN trên
các ngơn ngữ này. Đặc biệt là tiếng Thái, nơi cĩ nhiều chuyên gia cĩ thâm niên kinh
nghiệm, cĩ mơi trường, điều kiện nghiên cứu rất thuận lợi, hồn tồn ưu việt hơn so
với XL NNTN cho tiếng Lào, chúng tơi chỉ cĩ thể nhìn nhận trên phương diện đánh
giá, so sánh với kết quả xử lý mà chúng tơi đề xuất cho tiếng Lào.
Kết quả phân tích của chúng tơi cho thấy vấn đề nhận diện và tách từ tiếng Lào
đã được nghiên cứu trong một thời gian khá dài, nhưng hiện nay vẫn chưa cĩ phương
pháp nào để cĩ thể áp dụng để tách từ hiệu quả. Những cơng trình nghiên cứu tách từ
trước đây [19][25]đã sử dùng các từ điển, phương pháp thống kê, hay các luật nhận
diện từ ngữ pháp, nhưng chưa xử lý hiệu quả vấn đề nhập nhằng, tuy nhiên chưa cĩ
giải pháp hiệu quả trong việc nhận diện các từ mới chưa cĩ mặt trong cơ sở dữ liệu từ
vựng phục vụ tách từ.
41
Tiếp cận giải quyết vấn đề nhận diện, hay xác định từ cĩ mặt trong một câu văn
bản tiếng Lào dẫn đến vấn đề phân tích các đặc trưng ngữ pháp tiếng Lào. Trên cơ sở
xác định các đặc trưng này, chúng tơi tiến hành xây dựng mơ hình cấu trúc của từ đơn,
từ đĩ cĩ khả năng nhận diện từ theo cách nhận diện điểm bắt đầu và cách kết thúc của
từ tiếng Lào trong câu.
3.1.2. Xây dựng mơ hình cấu trúc của từ đơn
Phân tích các đặc trưng trong hệ viết chữ Lào, sử dụng bảng chữ cái, các phụ
âm đơn và ghép, các nguyên âm đơn và ghép, các dấu thanh và các chữ số tiếng Lào
(xem phụ lục), đã cho phép chúng tơi xây dựng một mơ hình cấu trúc từ đơn của tiếng
Lào như sau (hình 3.1.) :
V2 X5
X4
V1 X0 X1 C X6 X7 X8 X9 X10
X2
X3
Hình 3.1. Cấu trúc từ đơn trong tiếng Lào.
Trong mơ hình cấu trúc từ đơn này, ở trung tâm là phụ âm C, các thành phần
cịn lại của từ đơn tiếng Lào được xác định vị trí so với phụ âm C, hoặc ở phía trước,
hoặc ở phía sau, hoặc ở phía trên, và cuối cùng, hoặc cĩ thể ở phía dưới. Như vậy, mơ
hình cấu trúc cĩ dạng một chữ thập, hay gồm hai vec tơ giao vuơng gĩc với nhau :
- Vec tơ V1 = (X0, X1, C, X6, X7, X8, X9, X10) nằm ngang gồm các nguyên âm,
hay phụ âm Xi (đánh số từ trái qua phải) cho biết cấu trúc của một từ cần
nhận diện theo cách viết truyền thống.
- Vec tơ V2 = (X5, X4, C, X2, X3) thẳng đứng gồm các nguyên âm, hay phụ
âm, hay dấu thanh Xj, được đánh số từ trên xuống (ở phía dưới C) và từ dưới
lên (ở phía trên C) xác định cách viết đúng của từ.
- Phụ âm C nằm ở vị trí trung tâm, giao điểm của hai vec tơ V1 và V2.
Các thành phần Xi, i=0..10, trong mơ hình cấu trúc được đánh số theo cách viết
truyền thống (hay thứ tự gõ vào từ bàn phím) của chữ viết Lào. Vec tơ V1 cho biết khi
một từ đơn khơng cĩ các nguyên âm hay dấu thanh ở phía dưới hay ở phía trên, thứ tự
42
viết theo hướng từ trái qua phải, tuỳ theo sự cĩ mặt của các thành phần trong đĩ.
Vec tơ V2 xử lý các trường hợp khi một từ đơn cĩ cả nguyên âm và dấu thanh ở phía
dưới và/hoặc ở phía trên. Khi từ đơn cĩ nguyên âm và dấu thanh ở phía dưới, thứ tự
viết theo hướng từ trên xuống dưới, X2 trước X3. Khi từ đơn cĩ hai nguyên âm ở phía
trên, thứ tự viết theo hướng từ dưới lên trên, X4 trước X5. Khi từ đơn cĩ cả nguyên âm
và dấu thanh ở phía dưới và ở phía trên, thứ tự viết là X2, X3 rồi tiếp tục X4, X5.
Vai trị chức năng của các thành phần của hai vec tơ V1 và V2 được trình bày
trong bảng 3.1 như sau :
Bảng 3.1. Vai trị các thành phần của V1 và V2.
Thành phần Vai trị chức năng Chữ cái Lào tương ứng
Nguyên âm đứng trước phụ âm, xác định
X0 ເ ແ ໄ ໃ ໂ
bắt đầu một từ mới
Phụ âm đứng trước C nếu C là một trong các
X1 ງ ຍ ລ ວ ີ ມ ນ ຣ
phụ âm của X1
Phụ âm đặt ở phía sau C,
X6 ວ ອ ຽ
cĩ thể ghép với phụ âm cuối vần X8
Nguyên âm đặt ở phía sau C, xác định
V1
X7 ະ າ ີາ
bắt đầu một từ mới
X8 Phụ âm cuối vần ກ ງ ຍ ດ ນ ມ ບ ວ
Phụ âm viết theo phát âm của tiếng nước
X9 ຈ ສ ຊ ພ ຟ ລ
ngồi, thường đi cùng với ໌ (X10)
Dấu cho biết từ phía trước phát âm hai lần,
X10 ໆ ຯ ີ
X10 thường đặt ở cuối từ.
ກ ຂ ຄ ງ ຈ ສ ຊ ຍ ດ ຕ ຖ ທ ນ ບ ປ
C Phụ âm trung tâm
ຜ ຝ ພ ຟ ມ ຢ ຣ ລ ວ ຫ ອ ຮ ໜ ໝ
X2 Phụ âm ở sau C nhưng đặt ở phía dưới C ຣ ີ ວ ລ
X3 Nguyên âm ở phía dưới C ໌ ໌
V2
X4 Nguyên âm ở phía trên C ໌ ໌ ໌ ໌ ໌ ໌ ໌
X5 Luơn là dấu thanh ở phía trên C ໌ ໌ ໌ ໌
Từ mơ hình cấu trúc từ đơn tiếng Lào, xây dựng vec tơ V là tổ hợp của hai
vec tơ V1 và V2 gồm các thành phần Xi cho biết thứ tự viết đúng chính tả của một từ
43
đơn. Các thành phần Xi này cĩ thể vắng mặt tuỳ theo ngữ cảnh, tuy nhiên phụ âm C
luơn luơn cĩ mặt. Cĩ thể biểu diễn vec tơ V như sau ([Xi] chỉ định Xi cĩ thể vắng
mặt) :
V = ([X0], [X1], C, [X2], [X3], [X4], [X5], [X]6, [X7], [X8], [X9], [X10])
Các ví dụ sau đây giải thích mơ hình cấu trúc từ đơn biểu diễn theo vec tơ V :
1. Từ đơn ໄຂ (mở) cĩ thứ tự viết ໄ ຂ tương ứng với V=(X1, C) :
V2
V1
ໄ ຂ
2. Từ đơn ຫລານ (cháu) cĩ thứ tự viết ຫ ລ າ ນ
tương ứng với V=(C, X6, X7, X8) :
V2
V1
ຫ ລ າ ນ
3. Từ đơn ຫ ດ (giảm) cĩ thứ tự viết ຫ ີ ີ ດ
tương ứng với V=(C, X2, X3, X6) :
V2
V1
ຫ ດ
ີ
ີ
44
4. Từ đơn ເຫລ າ (rượu) cĩ thứ tự viết ເ ຫ ີ ີ ລ າ
tương ứng với V=(X1, C, File đính kèm:
luan_an_nghien_cuu_cac_phuong_phap_tach_tu_phuc_vu_phan_loai.pdf

