Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm
iệu nổi lên thay thế. Quan sát trên đồ thị hệ thống thanh điệu (Hình 2.5) có thể thấy hệ thống thanh điệu phương ngữ Hà Nội có miền âm vực trải rộng trong miền tiếng nói. Trong khi đó, âm vực phương ngữ Huế chủ yếu thuộc vùng trầm. Âm vực phương ngữ TP Hồ Chí Minh gần giống phương ngữ Huế ở điểm khởi đầu nhưng có thanh điệu được đẩy lên cao tương tự như phương ngữ Hà Nội, tạo nên sự khác biệt so với Huế đồng thời cũng có nét riêng của TP Hồ Chí Minh. 2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói Hiệu quả nhận dạng, độ chính xác của một hệ thống nhận dạng tiếng nói phụ thuộc vào rất nhiều yếu tố như người nói khác nhau, độ tuổi, giới tính của người nói, tốc độ nói, ngữ cảnh, môi trường âm học, phương ngữ. Sự tồn tại của phương ngữ trong ngôn ngữ là một thách thức lớn cho các hệ thống xử lý ngôn ngữ tự nhiên nói chung [109] cũng như trong các hệ thống nhận dạng tiếng nói. Trong cùng một lãnh thổ có cùng một ngôn ngữ nhưng ở những vùng khác nhau lại có thể tồn tại những phương ngữ khác nhau, thậm chí ngay giữa những nhóm người, làng xã sống liền kề nhau cũng có thể tồn tại phương ngữ khác nhau. Sự khác biệt giữa các phương ngữ có thể là ở ngữ âm, từ vựng, ngữ pháp,... nhưng phổ biến nhất là ngữ âm. Chính sự khác biệt này làm ảnh hưởng đến hiệu năng nhận dạng của các hệ thống nhận dạng tiếng nói. Chính vì vậy, việc nghiên cứu về phương ngữ, giải quyết vấn đề liên quan đến phương ngữ trong nhận dạng tiếng nói là rất cần thiết để giúp nâng cao chất lượng hệ thống nhận dạng tiếng nói. Nếu biết tiếng nói đang cần nhận dạng thuộc phương ngữ nào đó thì có thể điều khiển hệ thống nhận dạng có thể lựa chọn mô hình nhận dạng phù hợp cho kết quả nhận dạng tốt hơn. Để có thể thực hiện các nghiên cứu về nhận dạng tiếng nói nói chung và nhận dạng phương ngữ nói riêng, cần thiết phải có kho ngữ liệu chất lượng tốt đáp ứng yêu cầu chuyên biệt của nghiên cứu [73, 81, 145]. Nội dung tiếp trong chương này theo sẽ trình bày đặc điểm của một số bộ ngữ liệu phương ngữ trên thế giới và phương pháp cũng như kết quả xây dựng bộ ngữ liệu phương ngữ tiếng Việt. Luận án cũng sẽ tiến hành phân tích một số đặc trưng của phương ngữ tiếng Việt trên bộ ngữ liệu phương ngữ xây dựng được và trình bày ở cuối chương. 2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng phương ngữ tiếng Việt Trên thế giới đã có một số bộ ngữ liệu cho phương ngữ như tiếng Anh [17], tiếng Ả rập [50], tiếng Trung [78], tiếng Hindi [146], tiếng Thái [149], Với tiếng Anh, FRED là bộ ngữ liệu lớn bao gồm 8 phương ngữ, với 2,45 triệu từ trong khoảng 300 giờ tiếng nói. FRED chứa ngữ liệu của 420 người nói khác nhau, độ tuổi của người nói ở FRED trong khoảng từ 6 đến 120 tuổi. Bộ ngữ liệu này được xây dựng 71 trong thời gian khá dài, trên 30 năm. Bộ ngữ liệu có thể hỗ trợ cho thực hiện nghiên cứu các hiện tượng hình thái ngữ pháp phi tiêu chuẩn cùng với các phân tích chi tiết về ngữ âm, âm vị. Với tiếng Trung Quốc, có tám vùng phương ngữ chủ yếu. Trong [78], các tác giả đã xây dựng ngữ liệu cho phương ngữ Ngô (吳語), một trong tám phương ngữ tiếng Trung. Ngữ liệu này cung cấp thông tin ở 4 mức: ngữ âm, từ vựng, ngôn ngữ và âm học. Đối với tiếng Việt, đã có một số bộ ngữ liệu được xây dựng như VNSPEECHCORPUS [165], VOV (Voice of Vietnamese) Corpus [155] hoặc VNBN (United Broadcast News corpus) [172]. Nguyên tắc chung khi xây dựng một cơ sở dữ liệu tiếng nói là dữ liệu cần chứa đựng các từ và các câu thường xuyên được sử dụng [161]. Theo [161], cơ sở dữ liệu tiếng nói nên bao hàm ít nhất các mục tiêu: bao phủ về mặt ngữ nghĩa, bao phủ về mặt cú pháp, bao phủ về mặt ngôn điệu và bao phủ về mặt từ. Để đảm bảo được đồng thời các mục tiêu này là rất khó. Thông thường lựa chọn nội dung sao cho chứa đựng được tất cả các âm vị, phong phú về ngữ cảnh âm vị, đa dạng về từ vựng, ngữ pháp và ngữ nghĩa [161]. Các hệ thống nhận dạng tiếng nói thực hiện nhận dạng dựa trên hệ thống từ vựng được cung cấp trong quá trình huấn luyện. Hiệu quả hoạt động của hệ thống nhận dạng sẽ được nâng cao hơn nếu ngữ liệu được tổ chức theo các lĩnh vực chuyên biệt và được áp dụng một cách phù hợp trong các tình huống nhận dạng cụ thể. Trong nhận dạng phương ngữ, đặc biệt là phương ngữ tiếng Việt, ngữ liệu cần phải bao hàm được các đặc trưng của phương ngữ tiếng Việt, có được sự cân bằng về mặt thanh điệu và đại diện cho các phương ngữ trong phạm vi nhận dạng. Thanh điệu là một trong các yếu tố quan trọng để phân biệt phương ngữ tiếng Việt. Vì vậy, cần phải đảm bảo cân bằng thanh điệu để tránh việc xuất hiện không đồng đều của các thanh điệu đối với các phương ngữ làm cho kết quả nhận dạng phương ngữ thiếu tính khách quan. Các ngữ liệu hiện có chưa đáp ứng đồng thời các yêu cầu trên. Xuất phát từ các lý do đó, để thực hiện các nghiên cứu nhận dạng phương ngữ tiếng Việt, luận án đã tiến hành xây dựng bộ ngữ liệu tiếng Việt VDSPEC (Vietnamese Dialect Speech Corpus) đáp ứng đầy đủ các yêu cầu nêu trên dùng cho nhận dạng tiếng nói và phương ngữ tiếng Việt. Phương ngữ tiếng Việt rất phong phú. Sự khác biệt có thể xuất hiện đến từng làng xã. Tuy nhiên, trong phạm vi thời gian hạn chế, luận án chỉ tập trung nghiên cứu trên ba phương ngữ phổ biến nhất là phương ngữ Bắc, phương ngữ Trung và phương ngữ Nam. Do vậy, bộ ngữ liệu tiếng Việt VDSPEC được xây dựng cho ba phương ngữ này trong đó: phương ngữ Bắc lấy giọng Hà Nội làm đại diện, phương ngữ Trung lấy giọng Huế làm đại diện và phương ngữ Nam lấy giọng Thành phố Hồ Chí Minh làm đại diện. 2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt Việc xây dựng ngữ liệu có thể được tiến hành theo nhiều cách khác nhau như: sử dụng nguồn âm thanh có sẵn của các đài phát thanh, truyền hình, sau đó tiến hành phân loại, trích đoạn âm thanh phù hợp yêu cầu, duyệt và soạn lại văn bản tương ứng [155, 165]. 72 Cách khác là thực hiện ghi âm trong môi trường ở đó người nói được lựa chọn và nói theo các nội dung đã chuẩn bị trước. VDSPEC đã được xây dựng bằng phương pháp ghi âm trực tiếp người nói để đảm bảo tính chủ động cũng như chất lượng tiếng nói tốt. Việc xây dựng bộ ngữ liệu tiếng Việt được triển khai theo hai giai đoạn. Ở giai đoạn một, tiến hành biên soạn, thu thập và phân loại văn bản theo chủ đề; thực hiện các điều chỉnh để đảm bảo sự cân bằng thanh điệu trên văn bản chuẩn bị. Tiếp theo, ở giai đoạn hai, thực hiện ghi âm bằng thiết bị chuyên dụng trong môi trường có chọn lọc. Sau đây là các mô tả chi tiết từng giai đoạn. 2.6.2. Chuẩn bị và chuẩn hóa văn bản Dữ liệu tiếng nói được ghi âm thông qua việc người nói tiến hành đọc các văn bản đã được chuẩn bị sẵn. Văn bản này được tổ chức thành 6 chủ đề. Chủ đề thứ nhất được xây dựng với chủ định phục vụ cho các khảo sát về các biến thiên thanh điệu, tần số cơ bản giữa các phương ngữ. Do vậy, nội dung của chủ đề này chủ yếu là các phụ âm, nguyên âm, một số từ đơn được chọn lựa có sự xuất hiện của tất cả các thanh điệu. Chủ đề này được đặt tên là chủ đề Cơ bản. Năm chủ đề còn lại được thu thập từ các tài liệu được công bố trên các báo điện tử đã được phân loại theo chủ đề. Các văn bản này đều được lưu trữ theo bộ mã UTF-8 thống nhất chung trong toàn hệ thống. Văn bản gốc thường có các thông tin dư thừa như các thẻ HTML, ký hiệu, chữ viết tắt, từ nước ngoài, các con số, dữ liệu ngày tháng theo định dạng số và chữ khác nhau Để đảm bảo sự thống nhất chung, các thông tin dư thừa được loại bỏ, chuẩn hóa văn bản theo một số xử lý cụ thể như chuyển các con số thành văn bản tương ứng (ví dụ: “9000 đồng” thành “chín nghìn đồng”), ngày tháng theo định dạng số thông thường (ví dụ: “ngày 27/10” thành dạng văn bản tương ứng “ngày hai bảy tháng mười”, “năm 2003” thành “năm hai ngàn lẻ ba”); các từ viết tắt cũng được chuyển sang dạng văn bản đầy đủ tương ứng để tránh nhầm lẫn trong quá trình đọc và ghi âm (ví dụ: “tốt nghiệp ĐHMT Hà Nội” thành “tốt nghiệp Đại học Mỹ thuật Hà Nội”). Văn bản sau khi chuẩn hóa bao gồm 3984 âm tiết (không kể chủ đề cơ bản) với tổng số 1071 âm tiết không lặp lại. Bảng 2.10: Đặc tính văn bản theo chủ đề Chủ đề Số câu Số âm tiết Nguồn Cơ bản 25 349 Biên soạn Đời sống 25 855 VnExpress Khoa học 25 893 VnExpress Kinh doanh 25 729 VnExpress Ô tô-xe máy 25 652 VnExpress Pháp luật 25 855 VnExpress Tổng 150 4333 73 Như đã trình bày ở đầu chương, tiếng Việt là ngôn ngữ có thanh điệu và giữa các phương ngữ có sự khác biệt đáng kể giữa các thanh điệu. Để đảm bảo các phương ngữ đều được xem xét một cách công bằng về thanh điệu việc xây dựng dữ liệu văn bản dùng cho ghi âm ngày từ đầu đã phải đảm bảo cân bằng về thanh điệu. Do vậy, văn bản sau khi đã chuẩn hóa được thống kê thanh điệu, xác định sự phân bố các thanh điệu ở mỗi chủ để và trong toàn bộ văn bản. Tiếp theo là hiệu chỉnh văn bản để sự xuất hiện của các thanh điệu cân bằng với nhau ở mỗi chủ đề và trong toàn bộ văn bản. Số lượng các từ ở mỗi thanh điệu là tương đương nhau và bằng 717 từ. Quá trình xử lý này được tiến hành với sự hỗ trợ của phần mềm và biên soạn trực tiếp. Nội dung ghi âm vừa thỏa mãn tính bao phủ về mặt thanh điệu đồng thời đạt được sự cân bằng giữa các thanh điệu. Kết quả thống kê sự phân bố âm vị trên VDSPEC (Hình 2.6) cho thấy ngữ liệu cũng đồng thời thỏa mãn tiêu chí bao phủ về mặt âm vị tiếng Việt. Giá trị mỗi cột trên đồ thị là tỷ lệ (%) số lần xuất hiện của âm vị trên tổng số tất cả các âm vị có trong VDSPEC. Hình 2.6: Sự phân bố các âm vị trong VDSPEC Tổ chức lưu trữ văn bản sao cho thuận lợi trong quá trình xây dựng cũng như khai thác về sau cũng đã được tính đến. Sau khi chuẩn hóa, mỗi đoạn văn bản (gọi là một câu) được phân biệt bởi một cặp thẻ bao gồm thẻ mở và thẻ đóng , xen giữa là nội dung văn bản ghi vào file văn bản theo chủ đề. Ví dụ, văn bản “Theo đại diện một ngân hàng thương mại cổ phần” sẽ được lưu thành “Theo đại diện một ngân hàng thương mại cổ phần”. Mỗi chủ đề được lưu thành một tập tin văn bản (định dạng UTF-8) với tên tập tin đặt theo định dạng “YY.txt” trong đó “YY” là mã tương ứng với các chủ đề (cb: “cơ bản”, ds: “đời sống”, kd: “kinh doanh”, ox: “ô tô xe máy”, pl: “pháp luật”). Trong mỗi tập tin văn bản của chủ đề, các đoạn văn được được bắt đầu bởi một ký hiệu theo định dạng “YYZZZZ” ghi trên một dòng (liền trước dòng nội dung văn bản). Mã ZZZZ là số thứ tự đoạn văn thuộc chủ đề “YY”. Ví dụ “cb0001” là ký hiệu bắt đầu cho đoạn văn bản số 1 thuộc chủ đề “cb” (cơ bản). Dòng kế tiếp là nội dung văn bản bắt đầu bởi thẻ và kết thúc bằng thẻ . Việc phân chia các đoạn văn bản cũng cần có chọn lựa sao cho độ dài một đoạn không quá ngắn hoặc quá dài, thuận tiện cho việc đọc sau này, hạn chế các nhầm 74 lẫn có thể xảy ra khi đọc. Trong bộ văn bản đã xây dựng, mỗi đoạn có độ dài tương ứng trung bình là 10 giây theo tốc độ nói bình thường. 2.6.3. Ghi âm 2.6.3.1. Thiết bị ghi âm Quá trình ghi âm được thực hiện bằng máy tính có card âm thanh chất lượng cao. Micro dùng ghi âm là loại chuyên dụng phù hợp với ghi âm tiếng nói (Shure SM48). SM48 có đáp ứng tần số từ 55Hz đến 14000Hz, trở kháng đầu ra 270 Ohms, đạt -57.5 dBV/Pa (1.3 mV) ở tần số 1 kHz [7]. Đây là loại micro đơn hướng, hạn chế nhiễu nền và nguồn tạp âm xung quanh. Phòng ghi âm được lựa chọn riêng, nhiễu nền thấp theo kết quả tính toán ở phần sau cho thấy. Hình 2.7 là đáp ứng tần số của SM48 [7]. Hình 2.7: Đáp ứng tần số của SM48 2.6.3.2. Lựa chọn người nói Việc lựa chọn người nói có ảnh hưởng đáng kể đến chất lượng tiếng nói thu được. Để ghi âm giọng nói đặc trưng cho phương ngữ, người nói được chọn sao cho có giọng gốc của địa phương. Tuổi trung bình của người nói là 21. Người nhỏ tuổi nhất là 17 và cao tuổi nhất là 38. Song tuổi người nói chủ yếu trong khoảng từ 19 đến 22 (chiếm 85%). Ở độ tuổi này, chất giọng được xem là ổn định, thể hiện được đầy đủ các đặc trưng cho giọng địa phương. Việc ghi âm cũng được tổ chức theo nhiều phiên khác nhau để bao hàm được sự biến thiên của tiếng nói ở các thời điểm khác nhau đối với cùng một người nói. Tổng số người được lựa chọn ghi âm là 150. Trong đó, mỗi phương ngữ có 50 người nói bao gồm 25 giọng nam và 25 giọng nữ. 2.6.3.3. Phần mềm hỗ trợ ghi âm Phần mềm hỗ trợ ghi âm được xây dựng dựa trên ngôn ngữ kịch bản TCL/TK. Các chức năng chính của phần mềm bao gồm: - Quản lý thông tin người dùng - Quản lý các chủ để ghi âm - Quản lý các tập tin tiếng nói đã ghi được 75 - Thực hiện các thống kê, cung cấp các thông tin hữu ích cho người điều khiển ghi âm như: số lượng tập tin tiếng nói đã ghi mỗi chủ đề, số lượng tập tin tiếng nói tương ứng với một người nói - Hỗ trợ quá trình ghi âm, có khả năng hiển thị dạng sóng tiếng nói đang ghi, có thể phát lại tiếng nói đã ghi, thực hiện ghi lại đoạn tiếng nói đã ghi nếu cần; tự động tìm các đoạn tiếng nói chưa được ghi để chọn cho lần ghi kế tiếp. 2.6.3.4. Môi trường ghi âm Việc ghi âm được tiến hành trong phòng riêng có độ ồn thấp (tỷ số tín hiệu trên nhiễu xấp xỉ 35 dB). Để xác định tỉ số tín hiệu trên nhiễu của VDSPEC, tác động của nhiễu nền lên tín hiệu tiếng nói được giả thiết mang tính chất của nhiễu cộng. Giả thiết này phù hợp với thực tế tác động của nhiễu nền trong phòng thu. Vì vậy, việc xác định tỉ số tín hiệu trên nhiễu được tiến hành như sau. Trong thời gian ứng với khoảng lặng, nghĩa là không có tiếng nói và chỉ có nhiễu nền, công suất nhiễu sẽ được tính theo công thức sau đây: −1 1 푃 = ∑ 2 (푛) (2.1) 푛=0 Trong công thức trên, PN là công suất nhiễu nền trong thời gian ngắn, N là độ rộng cửa sổ để tính PN, b(n) là nhiễu nền. Với tần số lấy mẫu 16000 Hz, N được chọn bằng 256. Để có tín hiệu tiếng nói sạch (tức là không có nhiễu), dựa trên giả thiết về nhiễu cộng, phương pháp trừ phổ đã được thực hiện và từ đó tính được công suất tín hiệu tiếng nói như sau: −1 1 푃 = ∑ 2 (푛) (2.2) 푆 푛=0 Ở đây, 푃푆 là công suất tín hiệu tiếng nói trong thời gian ngắn, x(n) là tín hiệu tiếng nói. Cuối cùng, tỉ số tín hiệu trên nhiễu tính theo dB sẽ là: 푃푆 (2.3) 푆 = 10푙표 10 푃 76 0.5 0 Amplitude -0.5 0 5 10 15 20 (a) Time in ms SN trung bình 60 40 S/N in dB 20 0 2 4 6 8 10 12 14 16 18 20 (b) Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và giá trị trung bình của tỉ số này Theo phương pháp trên, tỉ số tín hiệu trên nhiễu của ngữ liệu VDSPEC đã được xác định có giá trị trung bình xấp xỉ 35 dB. Giá trị này là hoàn toàn thích hợp đối với ngữ liệu dùng cho nghiên cứu nhận dạng và tổng hợp tiếng nói. 2.6.3.5. Định dạng ghi âm Định dạng ghi âm đã được thiết lập sẵn trong phần mềm hỗ trợ ghi âm và giữ cố định, thống nhất trong suốt thời gian ghi âm. Cụ thể, âm thanh được ghi theo chuẩn PCM, không nén, tần số lấy mẫu 16kHz, 16 bit mỗi mẫu, ghi trên một kênh (mono). Định dạng này đáp ứng được yêu cầu về dải tần số tiếng nói thông thường đồng thời kích thước tập tin tiếng nói không quá lớn. 2.6.3.6. Tổ chức lưu dữ liệu Để giúp quản lý và khai thác bộ ngữ liệu thuận lợi, các tập tin tiếng nói được đặt tên thống nhất theo một định dạng. Tập tin tiếng nói tương ứng với mỗi đoạn văn trong các chủ đề đều được ghi trên đĩa thành một tập tin có tên duy nhất theo định dạng “XXYYZZZZ.wav”, trong đó: - XX: là mã (ID) của một người nói, bao gồm chữ cái, chữ số và là duy nhất - YY: mã chủ đề (cb, ds, kd, kh, pl) - ZZZZ: mã số đoạn âm thanh (đánh số từ 0000) Thông tin của người nói được ghi trong một tập tin đặt tên là user.xml. Tập tin này chứa các thông tin cơ bản của người nói: 77 - Mã số (ID) của người nói, bao gồm 2 ký tự và là duy nhất - Họ và tên đầy đủ của người nói - Địa chỉ: ghi theo địa chỉ có ảnh hưởng nhiều nhất tới việc hình thành giọng nói hiện tại của người nói. - Giới tính, tuổi, thông tin liên hệ Tổ chức lưu dữ liệu của bộ ngữ liệu được trình bày ở Bảng 2.11. Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC Dữ liệu Thư mục Đặc tính Tập tin WAV, Tín hiệu tiếng nói Thư mục WAV Tần số lấy mẫu: 16000Hz, 16 bit, Mono Tập tin văn bản của chủ đề Thư mục TEXT Chứa các tập tin văn bản theo chủ đề Thông tin người nói Tập tin user.xml Lưu thông tin cơ bản của người nói 2.6.4. Kết quả ghi âm và đặc tính VDSPEC Quá trình ghi âm được thực hiện theo ba đợt tương ứng với ba phương ngữ. Bắt đầu từ phương ngữ Bắc, kế đến là phương ngữ Trung và cuối cùng là phương ngữ Nam. Kết thúc đợt ghi âm cuối cùng, việc xây dựng bộ ngữ liệu tiếng Việt nói VDSPEC cũng được hoàn thành với tổng số 150 người nói khác nhau đại diện cho ba phương ngữ chính của tiếng Việt (Bắc, Trung, Nam). Trong quá trình ghi âm, mỗi người nói được yêu cầu đọc đủ 25 câu đã được chuẩn bị sẵn của mỗi chủ đề. Tổng số câu đã ghi âm của VDSPEC là 18750 câu (tương ứng 150 người nói x 125 câu, không kể chủ đề Cơ bản) với dung lượng lưu trữ là 4,84 GB và tổng cộng thời lượng là 45,12 giờ tiếng nói (Bảng 2.12). Thời lượng ghi âm được phân bổ tương đối đều theo phương ngữ, giới tính cũng như theo chủ đề (Bảng 2.12, Bảng 2.13). Giới tính nam gồm 22,42 giờ tiếng nói. Thời lượng này với giới tính nữ là 22,69 giờ. Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ STT Phương ngữ Số câu Thời lượng tiếng nói (giờ) 1 Bắc 6250 14,41 2 Trung 6250 14,65 3 Nam 6250 16,06 Tổng 18750 45,12 78 Phân bố thời lượng ghi âm của các chủ đề trong VDSPEC được thống kê và trình bày ở Bảng 2.13. Cả năm chủ đề có số câu và thời gian ghi âm gần tương đương nhau. Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề Thời lượng tiếng nói Chủ đề Số câu Số âm tiết (giờ) Đời sống 3750 855 09,96 Khoa học 3750 893 08,03 Kinh doanh 3750 729 10,06 Ô tô-xe máy 3750 652 07,31 Pháp luật 3750 855 09,76 Tổng 18750 3984 45,12 2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC 2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ Quy luật biến thiên F0 của các thanh điệu tiếng Việt đã được nghiên cứu và đề cập tới trong nhiều công trình [2, 119]. Đồ thị ba hệ thống thanh điệu Hà Nội, Huế, Thành phố Hồ Chí Minh đã được phân tích bằng máy sonograph như trên Hình 2.5. Luận án đã tiến hành phân tích biến thiên F0 của sáu thanh điệu tiếng Việt trên bộ ngữ liệu VDSPEC. Mỗi phương ngữ chọn ba giọng nam và ba giọng nữ làm đại diện. Với mỗi người nói, sáu từ tương ứng với sáu thanh điệu bao gồm "khi", "trường", "thuế", "mại", "thử", "phẫu" được tách riêng và tính tần số cơ bản F0 bằng bộ công cụ Praat1. Các từ này được tách từ câu nói liên tục với các từ đứng liền trước và từ đứng liền sau được trình bày trên Bảng 2.14. Trên thực tế, thời hạn của các thanh điệu là khác nhau. Để làm rõ sự khác biệt giữa các thanh điệu và dễ dàng quan sát trên cùng đồ thị, độ dài tiếng nói mỗi thanh điệu được chuẩn hóa về cùng một giá trị là 0,5 giây. Giá trị F0 được vẽ trên đồ thị là trung bình F0 của ba giọng đã lựa chọn tương ứng với mỗi phương ngữ. Đồ thị biến thiên sáu thanh điệu tiếng Việt của ba phương ngữ được vẽ gộp trên cùng một hình và tách riêng theo giới tính (Hình 2.9, Hình 2.10). Trục tung là tần số (đơn vị Hz). Trục hoành là thời gian đã chuẩn hóa (đơn vị là giây). Nhìn chung, sự biến thiên F0 của sáu thanh điệu có sự khác biệt đáng kể giữa các phương ngữ. Dáng điệu biến thiên F0 cũng khá tương đồng với kết quả phân tích đã có trong [2]. 1 www.praat.org 79 Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu Trừ đứng trước Từ được chọn Từ đứng sau sau khi thử thị trường các giảm thuế chủ thương mại cổ khi thử phản lần phẫu thuật Đồ thị cho thấy phương ngữ Bắc có phạm vi biến thiên F0 rộng hơn so với hai phương ngữ còn lại trên cả sáu thanh điệu. Đối với thanh ngang c
File đính kèm:
- luan_an_nhan_dang_tu_dong_tieng_noi_phat_am_lien_tuc_cho_cac.pdf