Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào
) như sau : Y{u|u v, {u,v} V} : p(Yv | X, Yu, u v, {u,v} V) Ta gọi (X,Y) là một trường ngẫu nhiên điều kiện (Conditional Random Field). Như vậy, một CRF là một trường ngẫu nhiên phụ thuộc tồn cục vào chuỗi quan sát X. Trong bài tốn phân đoạn từ nĩi riêng và các bài tốn xử lý dữ liệu dạng chuỗi nĩi chung, thì đồ thị G đơn giản chỉ là dạng chuỗi, V= {1, 2, m}, E= {(i, i+1)} Kí hiệu X= (X1, X2,... Xn) và Y = (Y1, Y2, Yn), mơ hình đồ thị G cĩ dạng : Y1 Y2 Y3 Yn-1 Yn X1 X2 X3 Xn-1 Xn Hình 2.3. Đồ thị v hướng m tả CRF Gọi C là tập các đồ thị con đầy đủ của G. Vì G cĩ dạng chuỗi nên đồ thị con đầy đủ thực ra chỉ là một đỉnh hoặc một cạnh của đồ thị G. Áp dụng kết quả của Hammerley-ClifforD [12] cho các trường ngẫu nhiên Markov thì phân phối của chuỗi nhãn Y với chuỗi quan sát X cho trước cĩ dạng : P ( y| x ) A CA ( A| x ) (2.1) Trong đĩ A gọi là hàm tiềm năng, nhận giá trị thực - dương. Lafferty xác định hàm tiềm năng này dựa trên nguyên lý cực đại entropy. Việc xác định một phân phối theo nguyên lý cực đại entropy cĩ thể hiểu là ta phải xác định một phân phối sao cho “phân phối đĩ tuân theo mọi giải thiết suy ra từ thực nghiệm, ngồi ra khơng đưa thêm bất kì giả thiết nào khác” và gần nhất với phân phối đều. Entropy là độ đo thể hiện tính khơng chắc chắn, hay độ khơng đồng đều của phân phối xác suất. Độ đo entropy điều kiện H(Y|X) được cho bởi cơng thức ~ H (Y | X ) p(x, y) log q( y | x)x, y (2.2) Với ~p(x, y) là phân phối thực nghiệm của dữ liệu. Theo cách trên, Lafferty đã chỉ ra hàm tiềm năng của mơ hình CRF cĩ dạng : A A | x expk fk A | x k (2.3) Trong đĩ k là thừa số lagrangian ứng với thuộc tính f k. Ta cũng cĩ thể xem 34 như k là trọng số xác định độ quan trọng của thuộc tính f k trong chuỗi dữ liệu. Cĩ hai loại thuộc tính là thuộc tính chuyển (kí hiệu là f) và thuộc tính trạng thái (kí hiệu là g) tùy thuộc vào A là một đỉnh hay một cạnh của đồ thị. Thay cơng thức hàm tiềm năng vào cơng thức (2.1) và thêm thừa số chuẩn hĩa để đảm bảo thỏa mãn điều kiện xác suất. 2.3.3. Đánh giá hai phương pháp 1. Phương pháp so khớp tối đa : Ưu điểm của phương pháp so khớp tối đa là đơn giản, dễ hiểu và chạy nhanh. Hơn nữa phương pháp chỉ cần một tệp từ điển đầy đủ là cĩ thể tiến hành phân đoạn các văn bản, hồn tồn khơng phải trải qua huấn luyện như các phương pháp sẽ trình bày tiếp theo. Với phương pháp này, ta dễ dàng tách được chính xác các ngữ/câu như “Khoa Cơng nghệ Thơng tin”, “Chủ nhiệm Khoa Cơng nghệ Thơng tin”. Trong tiếng Hoa, phương pháp so khớp tối đa đạt được độ chính xác 98, 41% [27]. Nhược điểm của phương pháp này là nĩ khơng giải quyết được hai vấn đề quan trọng nhất của bài tốn phân đoạn từ tiếng Lào : thuật tốn gặp phải nhiều nhập nhằng, hơn nữa nĩ hồn tồn khơng cĩ chiến lược gì với những từ chưa biết trong bối cảnh hệ thống chữ viết Lào khơng sử dụng dấu trống để phân cách từ. 2. Phương pháp sử dụng trường xác xuất cĩ điều kiện Mơ hình Markov ẩn và văn phạm thống kê là các mơ hình sinh (Generative Models), tính tốn xác suất liên kết (Joint) trên cặp chuỗi quan sát và chuỗi trạng thái. Các tham số thường được huấn luyện bằng cách làm cực đại độ đo D của dữ liệu huấn luyện. Để tính được xác suất liên kết trên chuỗi quan sát và chuỗi trạng thái, các mơ hình sinh cần phải liệt kê tất cả các trường hợp cĩ thể cĩ của chuỗi quan sát và chuỗi trạng thái. Nếu chuỗi trạng thái là hữu hạn và cĩ thể liệt kê được thì chuỗi quan sát trong nhiều trường hợp khĩ cĩ thể liệt kê được bởi sự phong phú và đa dạng của nĩ. Trong thực tế, các mơ hình sinh phải đưa ra giải thiết về sự độc lập giữa các dữ liệu quan sát, đĩ là dữ liệu quan sát tại thời điểm t chỉ phụ thuộc vào trạng thái tại thời điểm đĩ. Điều này hạn chế khá nhiều tính khả năng tích hợp các thuộc tính đa dạng của chuỗi quan sát. Hơn nữa, việc các mơ hình sinh sử dụng các xác suất đồng thời để mơ hình hĩa bài tốn cĩ tính điều kiện là khơng thích hợp [12][13]. Vì vậy, người ta dùng một mơ hình điều kiện để tính trực tiếp xác suất điều kiện thay vì xác suất đồng thời. 35 Mơ hình Markov cực đại hĩa entropy MEMMs (Maximum Entropy Markov Models) là một mơ hình xác suất điều kiện được McCallum đưa ra năm 2000 như là đáp án cho những vấn đề của mơ hình Markov truyền thống. Mơ hình MEMMs định nghĩa hàm xác suất trên từng trạng thái, với đầu vào là thuộc tính quan sát, đầu ra là xác suất chuyển tới trạng thái tiếp theo. Như vậy mơ hình MEMMs quan niệm rằng, dữ liệu quan sát đã được cho trước, điều ta quan tâm là xác suất chuyển trạng thái. So sánh với các mơ hình trước đĩ, MEMMs cĩ ưu điểm là loại bỏ giả thuyết độc lập dữ liệu, theo đĩ xác suất chuyển trạng thái cĩ thể phụ thuộc vào các thuộc tính đa dạng của chuỗi dữ liệu quan sát. Hơn nữa, xác suất chuyển trạng thái khơng chỉ phụ thuộc vào vào quan sát hiện tại mà cịn cả quan sát trước đĩ và quan sát sau đĩ. Tuy nhiên, các mơ hình định nghĩa phân phối xác suất cho mỗi trạng thái đều gặp phải một vấn đề gọi là “Label Bias” [12] đĩ là hiện tượng bỏ sĩt dữ liệu quan sát khi cĩ ít đường đi ra từ một trạng thái cho trước tới trạng thái tiếp theo. Phương pháp sử dụng trường xác xuất cĩ điều kiện CRF thừa kế các điểm mạnh của MEMMs nhưng lại giải quyết được vấn đề “Label Bias”. CRF làm tốt hơn cả MEMMs và mơ hình Markov ẩn trong rất nhiều các bài tốn thực về gán nhãn dữ liệu dạng chuỗi. Trong khi MEMM định nghĩa phân phối xác suất trên từng trạng thái với điều kiện biết trạng thái trước đĩ và quan sát hiện tại, CRF định nghĩa phân phối xác suất trên tồn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước. Về mặt lý thuyết, cĩ thể coi mơ hình CRF như là một mơ hình hữu hạn trạng thái với phân phối xác suất chuyển khơng chuẩn hĩa. Bản chất khơng chuẩn hĩa của xác suất chuyển trạng thái cho phép các bước chuyển trạng thái cĩ thể nhận các giá trị quan trọng khác nhau. Vì thể bất cứ một trạng thái nào cũng cĩ thể làm tăng, giảm xác suất được truyền cho các trạng thái sau đĩ, mà vẫn đảm bảo xác suất cuối cùng được gán cho tồn bộ chuỗi trạng thái thỏa mãn định nghĩa về xác suất nhờ thừa số chuẩn hĩa tồn cục. Do đặc thù của hệ viết tiếng Lào cũng như tính phức tạp của phương pháp sử dụng trường xác xuất cĩ điều kiện, chúng tơi đã chọn phương pháp so khớp tối đa để giải quyết bài tốn tách từ phục vụ PLVB. 36 2.4. PHÂN LOẠI VĂN BẢN TIẾNG LÀO 2.4.1. Bài tốn phân loại văn bản tiếng Lào Ở các cơ quan hành chính, người ta cĩ những cách phân chia các văn bản theo các loại khác nhau như : quyết định, nghị định, chỉ thị, thơng báo, văn bản nhân sự. Để cĩ thể phân loại được như vậy người ta phải đọc và lưu trữ các loại cơng văn giấy tờ vào các hệ thống tủ đựng hồ sơ để khi tìm kiếm sẽ dễ dàng hơn. Tuy nhiên việc này cũng tốn khá nhiều thời gian cơng sức khi một ngày các cơ quan này tiếp nhận khơng biết bao nhiêu cơng văn giấy tờ gửi đến. Chính vì sự phong phú này, đa dạng này mà PLVB chỉ mang tính tương đối, chủ quan của nguời thực hiện, và dễ xảy ra nhập nhằng khi tiến hành PLVB tự động trên máy tính. Ở trường Đại học Champasak, nhân viên văn phịng rất khĩ phân biệt một văn bản là một Chỉ thị hay là một Thơng báo, thuộc lĩnh vực nhân sự hay chuyên ngành khi đều cĩ nội dung đánh giá về sự kiện hoạt động khoa học cơng nghệ của Ban Giám hiệu. Về bản chất, một văn bản HCVP bất kỳ gồm các từ ngữ cĩ liên quan với nhau tạo nên nội dung ngữ nghĩa của văn bản. Từ ngữ văn bản luơn đa dạng và cĩ khối luợng đồ sộ và cĩ tính nhập nhằng do bản chất của ngơn ngữ tự nhiên (từ đồng nghĩa, từ đa nghĩa, từ gần nghĩa, từ vay mượn ). Tuy một văn bản đang cần phân loại cĩ thể khơng lớn, nhưng khối luợng từ ngữ cần xử lý là rất lớn, phải bao hàm được hết các từ của ngơn ngữ đang xét. Điều này dẫn đến phải xây dựng kho từ vựng đủ lớn để cĩ thể tiến hành PLVB. Ví dụ : Giả sử một văn bản gửi đến Phịng Hành Chính của trường Đại học Champasak được kèm qua email, nhân viên văn phịng cần quyết định xem văn bản này thuộc thể loại nào là thích hợp nhất. Chẳng hạn nếu văn bản cĩ ký hiệu “NĐ” (ở lề trái) thì hệ thống sẽ phân văn bản đĩ vào nhĩm “Nghị định”. Tương tự với các ký hiệu “CV”, “QĐ” trên văn bản tương ứng với các nhĩm văn bản “Cơng văn”, “Quyết định”, v.v Đối với tiếng Anh, các kết quả PLVB rất khả quan và phổ dụng. Riêng đối với tiếng Lào, tiếng Thái, tiếng Khmer, kể cả tiếng Việt[44], vẫn cịn nhiều hạn chế. Mặc dù gần đây đã cĩ một số cơng trình nghiên cứu về PLVB được cơng bố trên các ngơn ngữ này, nhưng đặc biệt vẫn chưa cĩ giải pháp cho bài tốn PLVB tiếng Lào. Đặc biệt trong trong lĩnh vực nĩi và viết, tiếng Lào cĩ quan hệ gần nhất với 37 tiếng Thái và các tiếng thuộc họ ngơn ngữ Tai-Kadai, nên rất nhiều nghiên cứu trong lĩnh vực xử lý ngơn ngữ tự nhiên trên tiếng Thái cĩ ảnh hưởng trực tiếp tới tiếng Lào như SVM, Nạve Bayes, cây quyết định, k láng giềng gần nhất, mạng nơ ron RBF nhưng khơng thể áp dùng trực tiếp cho tiếng Lào đượcơ[34][35][36][37]. Các kết quả đã được cơng bố cĩ vai trị ảnh hưởng tới những nghiên cứu cho bài tốn PLVB trên tiếng Lào. Nhiều nghiên cứu đã cơng bố nhằm đạt được hiệu quả tốt hơn trong bài tốn PLVB tự động. Hai phương pháp máy vec tơ hỗ trợ SVM và mạng nơ ron RBF được coi là phổ biến và đã chứng minh được tính hiệu quả trong bài tốn PLVB tiếng Thái và các ngơn ngữ khác thuộc họ ngơn ngữ Tai-Kadai[3][24][29]. Vì vậy, trong luận án, chúng tơi đề xuất sử dụng máy vec tơ hỗ trợ SVM và mạng nơ ron RBF làm phương pháp lựa chọn đặc trưng của chúng chúng tơi, trong quá trình thử nghiệm, chúng chúng tơi đã tiến hành thử nghiệm trên nhiều bộ tham số để tìm ra bộ tham số thích hợp trong việc PLVB tiếng Lào. 2.4.2. Nhu cầu giải quyết bài tốn tách từ tiếng Lào Cĩ thể nhận định rằng bài tốn tách từ gặp rất nhiều khĩ khăn trở ngại khi tìm hướng giải quyết PLVB đối với các ngơn ngữ châu Á như tiếng Hoa, tiếng Nhật, tiếng Hàn và cả tiếng Việt. Do đĩ, rất khĩ cĩ thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành cơng trên các ngơn ngữ Ấn Âu cho tiếng Lào nếu khơng xây dựng thành cơng giải pháp bài tốn tách từ tiếng Lào. Thực tế hiện nay chưa cĩ các kho ngữ vựng đơn ngữ, song ngữ hay đa ngữ tiếng Lào tiện dụng theo lĩnh vực, chủ đề, thể loại khác nhau, thiếu các kết quả nghiên cứu cơ sở phục vụ xử lý tiếng Lào cho nên chúng chúng tơi phải tạo kho ngữ liệu và xây dựng cơng cụ PLVB tiếng Lào để xử lý tiếng Lào nĩi chung và phân loại các văn bản tại trường Đại học Champasak nĩi riêng. Để thực hiện việc phân loại, bài tốn phải giải quyết đầu tiên và là bắt buộc đối với tiếng Lào đĩ là bài tốn tách từ. 2.4.3. Đề xuất giải pháp triển khai Trên cơ sở tìm hiểu bài tốn PLVB và bài tốn tách từ, các phương pháp giải quyết bài tốn PLVB và bài tốn tách từ cùng những đặc thù ngơn ngữ trong tiếp cận giải quyết bài tốn PLVB tiếng Lào, chúng tơi đề xuất mơ hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào gồm năm bước lần lượt như sau : 38 1 2 3 Phân tích Nhận diện từ đơn Cập nhật dữ liệu hiện trạng, tiếng Lào sử dụng từ nhiều nguồn thu thập dữ liệu cơ sở luật và MSD khác nhau Kho VBHC Kho từ đơn Kho từ vựng tiếng Lào tiếng Lào tiếng Lào 4 5 Tách từ sử dụng Thử nghiệm tách từ và PLVB, phương pháp so khớp tối đa đánh giá kết quả Xử lý Kết quả nhập nhằng phân loại VBHC Hình 2.4. hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào. Cĩ thể giải thích chi tiết các bước như sau : Bước 1 : Phân tích các hoạt động phân loại, lưu trữ các loại VBHC khác nhau tại trường Đại học Champasak, từ đĩ tổ chức, thu thập các văn bản này để tạo ra một CSDL VBHC phục vụ quá trình triển khai các bước tiếp theo. Bước 2 : Tìm hiểu các đặc trưng ngữ pháp trong hệ chữ viết Lào, đề xuất xây dựng mơ hình cấu trúc từ đơn mang tính đặc thù của tiếng Lào, vận dụng xây dựng cơ sở luật và máy suy diễn (MSD) cho phép nhận diện một từ đơn (âm tiết) trong câu văn bản, sau đĩ tiến hành xây dựng kho từ đơn, hay từ điển tiếng. Bước 3 : Từ kho từ đơn ở bước 2, tiếp tục xây dựng kho từ vựng gồm các từ đơn, từ ghép và cụm từ, kết hợp kiểm tra sửa lỗi thủ cơng, phục vụ giải quyết bài tốn tách từ tiếng Lào. Bước 4 : Với mỗi văn bản vào từ CSDL VBHC đã xây dựng, tiến hành bĩc tách từ tiếng Lào sử dụng phương pháp so khớp tối đa trên kho từ vựng, kết hợp xử lý nhập nhằng sử dụng cơ sở luật. 39 Bước 5 : Tiến hành giải quyết bài tốn PLVB tiếng Lào sử dụng hai thuật tốn máy vec tơ hỗ trợ SVM và dựa trên mạng hàm bán kính cơ sở RBF, kết hợp thử nghiệm tách từ trước, sau đĩ đánh giá các kết quả thử nghiệm. 2.5. KẾT LUẬN CHƯƠNG 2 Chương 2 giới thiệu về một số phương pháp giải quyết bài tốn PLVB và những vấn đề liên quan đến luận án như khái niệm văn bản, soạn thảo văn bản, tách từ. Nội dung chương giới thiệu các phương pháp PLVB sử dụng máy học vec tơ hỗ trợ SVM và mạng nơ ron RBF, đánh giá các thuật tốn. Chúng tơi cũng đã giới thiệu các phương pháp tách từ như phương pháp so khớp tối đa MM và phương pháp dùng trường ngẫu nhiên cĩ điều kiện CRF để sử dụng trong luận án sẽ trình bày kết quả ở chương sau. Từ những kết quả nghiên cứu này, chúng tơi đề xuất giải pháp và các bước triển khai PLVB tiếng Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại trường Đại học Champasak, CHDCND Lào. 40 CHƯƠNG 3 GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG LÀO 3.1. NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP 3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào Trong tiếp cận giải quyết bài tốn tách từ tiếng Lào, đầu tiên chúng tơi tiến hành giải quyết vấn đề nhận diện, hay xác định từ cĩ mặt trong câu đang xét của văn bản tiếng Lào đã cho. Sau bước nhận diện từ là bước tách từ và PLVB. Cho đến nay, đây vẫn là một trong những vấn đề cĩ tính căn bản nhất trong nghiên cứu XL NNTN. Hiện vẫn chưa cĩ được sự thống nhất chung trong các tiếp cận nghiên cứu về từ, chưa cĩ được một định nghĩa mang tính phổ dụng (Universal Definition). Trong những vấn đề chưa được giải quyết một cách triệt để của ngơn ngữ học, vấn đề từ, định nghĩa từ luơn được xem xét đầu tiên trước khi triển khai các bước nghiên cứu tiếp theo. Việc nhận diện, miêu tả và phân loại các đơn vị từ vựng thuộc về hai mảng nghiên cứu lớn trong ngơn ngữ học là từ vựng học và ngữ pháp học. Mặc dù tiếng Lào mang những nét tương tự với một số ngơn ngữ gần gũi như tiếng Thái, tiếng Khmer, cùng thuộc loại hình ngơn ngữ đơn tiết, đơn lập, khơng biến hình, v.v nhưng tiếng Lào vẫn cĩ những đặc trưng khác biệt. Trong XL NNTN cho tiếng Lào, rõ ràng chúng tơi khơng thể vận dụng, hay áp dụng được những kết quả nghiên cứu XL NNTN trên các ngơn ngữ này. Đặc biệt là tiếng Thái, nơi cĩ nhiều chuyên gia cĩ thâm niên kinh nghiệm, cĩ mơi trường, điều kiện nghiên cứu rất thuận lợi, hồn tồn ưu việt hơn so với XL NNTN cho tiếng Lào, chúng tơi chỉ cĩ thể nhìn nhận trên phương diện đánh giá, so sánh với kết quả xử lý mà chúng tơi đề xuất cho tiếng Lào. Kết quả phân tích của chúng tơi cho thấy vấn đề nhận diện và tách từ tiếng Lào đã được nghiên cứu trong một thời gian khá dài, nhưng hiện nay vẫn chưa cĩ phương pháp nào để cĩ thể áp dụng để tách từ hiệu quả. Những cơng trình nghiên cứu tách từ trước đây [19][25]đã sử dùng các từ điển, phương pháp thống kê, hay các luật nhận diện từ ngữ pháp, nhưng chưa xử lý hiệu quả vấn đề nhập nhằng, tuy nhiên chưa cĩ giải pháp hiệu quả trong việc nhận diện các từ mới chưa cĩ mặt trong cơ sở dữ liệu từ vựng phục vụ tách từ. 41 Tiếp cận giải quyết vấn đề nhận diện, hay xác định từ cĩ mặt trong một câu văn bản tiếng Lào dẫn đến vấn đề phân tích các đặc trưng ngữ pháp tiếng Lào. Trên cơ sở xác định các đặc trưng này, chúng tơi tiến hành xây dựng mơ hình cấu trúc của từ đơn, từ đĩ cĩ khả năng nhận diện từ theo cách nhận diện điểm bắt đầu và cách kết thúc của từ tiếng Lào trong câu. 3.1.2. Xây dựng mơ hình cấu trúc của từ đơn Phân tích các đặc trưng trong hệ viết chữ Lào, sử dụng bảng chữ cái, các phụ âm đơn và ghép, các nguyên âm đơn và ghép, các dấu thanh và các chữ số tiếng Lào (xem phụ lục), đã cho phép chúng tơi xây dựng một mơ hình cấu trúc từ đơn của tiếng Lào như sau (hình 3.1.) : V2 X5 X4 V1 X0 X1 C X6 X7 X8 X9 X10 X2 X3 Hình 3.1. Cấu trúc từ đơn trong tiếng Lào. Trong mơ hình cấu trúc từ đơn này, ở trung tâm là phụ âm C, các thành phần cịn lại của từ đơn tiếng Lào được xác định vị trí so với phụ âm C, hoặc ở phía trước, hoặc ở phía sau, hoặc ở phía trên, và cuối cùng, hoặc cĩ thể ở phía dưới. Như vậy, mơ hình cấu trúc cĩ dạng một chữ thập, hay gồm hai vec tơ giao vuơng gĩc với nhau : - Vec tơ V1 = (X0, X1, C, X6, X7, X8, X9, X10) nằm ngang gồm các nguyên âm, hay phụ âm Xi (đánh số từ trái qua phải) cho biết cấu trúc của một từ cần nhận diện theo cách viết truyền thống. - Vec tơ V2 = (X5, X4, C, X2, X3) thẳng đứng gồm các nguyên âm, hay phụ âm, hay dấu thanh Xj, được đánh số từ trên xuống (ở phía dưới C) và từ dưới lên (ở phía trên C) xác định cách viết đúng của từ. - Phụ âm C nằm ở vị trí trung tâm, giao điểm của hai vec tơ V1 và V2. Các thành phần Xi, i=0..10, trong mơ hình cấu trúc được đánh số theo cách viết truyền thống (hay thứ tự gõ vào từ bàn phím) của chữ viết Lào. Vec tơ V1 cho biết khi một từ đơn khơng cĩ các nguyên âm hay dấu thanh ở phía dưới hay ở phía trên, thứ tự 42 viết theo hướng từ trái qua phải, tuỳ theo sự cĩ mặt của các thành phần trong đĩ. Vec tơ V2 xử lý các trường hợp khi một từ đơn cĩ cả nguyên âm và dấu thanh ở phía dưới và/hoặc ở phía trên. Khi từ đơn cĩ nguyên âm và dấu thanh ở phía dưới, thứ tự viết theo hướng từ trên xuống dưới, X2 trước X3. Khi từ đơn cĩ hai nguyên âm ở phía trên, thứ tự viết theo hướng từ dưới lên trên, X4 trước X5. Khi từ đơn cĩ cả nguyên âm và dấu thanh ở phía dưới và ở phía trên, thứ tự viết là X2, X3 rồi tiếp tục X4, X5. Vai trị chức năng của các thành phần của hai vec tơ V1 và V2 được trình bày trong bảng 3.1 như sau : Bảng 3.1. Vai trị các thành phần của V1 và V2. Thành phần Vai trị chức năng Chữ cái Lào tương ứng Nguyên âm đứng trước phụ âm, xác định X0 ເ ແ ໄ ໃ ໂ bắt đầu một từ mới Phụ âm đứng trước C nếu C là một trong các X1 ງ ຍ ລ ວ ີ ມ ນ ຣ phụ âm của X1 Phụ âm đặt ở phía sau C, X6 ວ ອ ຽ cĩ thể ghép với phụ âm cuối vần X8 Nguyên âm đặt ở phía sau C, xác định V1 X7 ະ າ ີາ bắt đầu một từ mới X8 Phụ âm cuối vần ກ ງ ຍ ດ ນ ມ ບ ວ Phụ âm viết theo phát âm của tiếng nước X9 ຈ ສ ຊ ພ ຟ ລ ngồi, thường đi cùng với ໌ (X10) Dấu cho biết từ phía trước phát âm hai lần, X10 ໆ ຯ ີ X10 thường đặt ở cuối từ. ກ ຂ ຄ ງ ຈ ສ ຊ ຍ ດ ຕ ຖ ທ ນ ບ ປ C Phụ âm trung tâm ຜ ຝ ພ ຟ ມ ຢ ຣ ລ ວ ຫ ອ ຮ ໜ ໝ X2 Phụ âm ở sau C nhưng đặt ở phía dưới C ຣ ີ ວ ລ X3 Nguyên âm ở phía dưới C ໌ ໌ V2 X4 Nguyên âm ở phía trên C ໌ ໌ ໌ ໌ ໌ ໌ ໌ X5 Luơn là dấu thanh ở phía trên C ໌ ໌ ໌ ໌ Từ mơ hình cấu trúc từ đơn tiếng Lào, xây dựng vec tơ V là tổ hợp của hai vec tơ V1 và V2 gồm các thành phần Xi cho biết thứ tự viết đúng chính tả của một từ 43 đơn. Các thành phần Xi này cĩ thể vắng mặt tuỳ theo ngữ cảnh, tuy nhiên phụ âm C luơn luơn cĩ mặt. Cĩ thể biểu diễn vec tơ V như sau ([Xi] chỉ định Xi cĩ thể vắng mặt) : V = ([X0], [X1], C, [X2], [X3], [X4], [X5], [X]6, [X7], [X8], [X9], [X10]) Các ví dụ sau đây giải thích mơ hình cấu trúc từ đơn biểu diễn theo vec tơ V : 1. Từ đơn ໄຂ (mở) cĩ thứ tự viết ໄ ຂ tương ứng với V=(X1, C) : V2 V1 ໄ ຂ 2. Từ đơn ຫລານ (cháu) cĩ thứ tự viết ຫ ລ າ ນ tương ứng với V=(C, X6, X7, X8) : V2 V1 ຫ ລ າ ນ 3. Từ đơn ຫ ດ (giảm) cĩ thứ tự viết ຫ ີ ີ ດ tương ứng với V=(C, X2, X3, X6) : V2 V1 ຫ ດ ີ ີ 44 4. Từ đơn ເຫລ າ (rượu) cĩ thứ tự viết ເ ຫ ີ ີ ລ າ tương ứng với V=(X1, C,
File đính kèm:
- luan_an_nghien_cuu_cac_phuong_phap_tach_tu_phuc_vu_phan_loai.pdf