Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm trang 1

Trang 1

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm trang 2

Trang 2

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm trang 3

Trang 3

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm trang 4

Trang 4

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm trang 5

Trang 5

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm trang 6

Trang 6

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm trang 7

Trang 7

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm trang 8

Trang 8

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm trang 9

Trang 9

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 150 trang nguyenduy 20/04/2024 110
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm
iệu nổi lên thay thế. 
 Quan sát trên đồ thị hệ thống thanh điệu (Hình 2.5) có thể thấy hệ thống thanh điệu 
phương ngữ Hà Nội có miền âm vực trải rộng trong miền tiếng nói. Trong khi đó, âm vực 
phương ngữ Huế chủ yếu thuộc vùng trầm. Âm vực phương ngữ TP Hồ Chí Minh gần 
giống phương ngữ Huế ở điểm khởi đầu nhưng có thanh điệu được đẩy lên cao tương tự 
như phương ngữ Hà Nội, tạo nên sự khác biệt so với Huế đồng thời cũng có nét riêng của 
TP Hồ Chí Minh. 
2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói 
 Hiệu quả nhận dạng, độ chính xác của một hệ thống nhận dạng tiếng nói phụ thuộc 
vào rất nhiều yếu tố như người nói khác nhau, độ tuổi, giới tính của người nói, tốc độ nói, 
ngữ cảnh, môi trường âm học, phương ngữ. 
 Sự tồn tại của phương ngữ trong ngôn ngữ là một thách thức lớn cho các hệ thống 
xử lý ngôn ngữ tự nhiên nói chung [109] cũng như trong các hệ thống nhận dạng tiếng nói. 
Trong cùng một lãnh thổ có cùng một ngôn ngữ nhưng ở những vùng khác nhau lại có thể 
tồn tại những phương ngữ khác nhau, thậm chí ngay giữa những nhóm người, làng xã sống 
liền kề nhau cũng có thể tồn tại phương ngữ khác nhau. Sự khác biệt giữa các phương ngữ 
có thể là ở ngữ âm, từ vựng, ngữ pháp,... nhưng phổ biến nhất là ngữ âm. Chính sự khác 
biệt này làm ảnh hưởng đến hiệu năng nhận dạng của các hệ thống nhận dạng tiếng nói. 
 Chính vì vậy, việc nghiên cứu về phương ngữ, giải quyết vấn đề liên quan đến 
phương ngữ trong nhận dạng tiếng nói là rất cần thiết để giúp nâng cao chất lượng hệ 
thống nhận dạng tiếng nói. Nếu biết tiếng nói đang cần nhận dạng thuộc phương ngữ nào 
đó thì có thể điều khiển hệ thống nhận dạng có thể lựa chọn mô hình nhận dạng phù hợp 
cho kết quả nhận dạng tốt hơn. Để có thể thực hiện các nghiên cứu về nhận dạng tiếng nói 
nói chung và nhận dạng phương ngữ nói riêng, cần thiết phải có kho ngữ liệu chất lượng 
tốt đáp ứng yêu cầu chuyên biệt của nghiên cứu [73, 81, 145]. Nội dung tiếp trong chương 
này theo sẽ trình bày đặc điểm của một số bộ ngữ liệu phương ngữ trên thế giới và phương 
pháp cũng như kết quả xây dựng bộ ngữ liệu phương ngữ tiếng Việt. Luận án cũng sẽ tiến 
hành phân tích một số đặc trưng của phương ngữ tiếng Việt trên bộ ngữ liệu phương ngữ 
xây dựng được và trình bày ở cuối chương. 
2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu 
 dùng cho nhận dạng phương ngữ tiếng Việt 
 Trên thế giới đã có một số bộ ngữ liệu cho phương ngữ như tiếng Anh [17], tiếng Ả 
rập [50], tiếng Trung [78], tiếng Hindi [146], tiếng Thái [149], 
 Với tiếng Anh, FRED là bộ ngữ liệu lớn bao gồm 8 phương ngữ, với 2,45 triệu từ 
trong khoảng 300 giờ tiếng nói. FRED chứa ngữ liệu của 420 người nói khác nhau, độ tuổi 
của người nói ở FRED trong khoảng từ 6 đến 120 tuổi. Bộ ngữ liệu này được xây dựng 
 71 
trong thời gian khá dài, trên 30 năm. Bộ ngữ liệu có thể hỗ trợ cho thực hiện nghiên cứu 
các hiện tượng hình thái ngữ pháp phi tiêu chuẩn cùng với các phân tích chi tiết về ngữ âm, 
âm vị. 
 Với tiếng Trung Quốc, có tám vùng phương ngữ chủ yếu. Trong [78], các tác giả đã 
xây dựng ngữ liệu cho phương ngữ Ngô (吳語), một trong tám phương ngữ tiếng Trung. 
Ngữ liệu này cung cấp thông tin ở 4 mức: ngữ âm, từ vựng, ngôn ngữ và âm học. 
 Đối với tiếng Việt, đã có một số bộ ngữ liệu được xây dựng như 
VNSPEECHCORPUS [165], VOV (Voice of Vietnamese) Corpus [155] hoặc VNBN 
(United Broadcast News corpus) [172]. 
 Nguyên tắc chung khi xây dựng một cơ sở dữ liệu tiếng nói là dữ liệu cần chứa 
đựng các từ và các câu thường xuyên được sử dụng [161]. Theo [161], cơ sở dữ liệu tiếng 
nói nên bao hàm ít nhất các mục tiêu: bao phủ về mặt ngữ nghĩa, bao phủ về mặt cú pháp, 
bao phủ về mặt ngôn điệu và bao phủ về mặt từ. Để đảm bảo được đồng thời các mục tiêu 
này là rất khó. Thông thường lựa chọn nội dung sao cho chứa đựng được tất cả các âm vị, 
phong phú về ngữ cảnh âm vị, đa dạng về từ vựng, ngữ pháp và ngữ nghĩa [161]. 
 Các hệ thống nhận dạng tiếng nói thực hiện nhận dạng dựa trên hệ thống từ vựng 
được cung cấp trong quá trình huấn luyện. Hiệu quả hoạt động của hệ thống nhận dạng sẽ 
được nâng cao hơn nếu ngữ liệu được tổ chức theo các lĩnh vực chuyên biệt và được áp 
dụng một cách phù hợp trong các tình huống nhận dạng cụ thể. Trong nhận dạng phương 
ngữ, đặc biệt là phương ngữ tiếng Việt, ngữ liệu cần phải bao hàm được các đặc trưng của 
phương ngữ tiếng Việt, có được sự cân bằng về mặt thanh điệu và đại diện cho các phương 
ngữ trong phạm vi nhận dạng. Thanh điệu là một trong các yếu tố quan trọng để phân biệt 
phương ngữ tiếng Việt. Vì vậy, cần phải đảm bảo cân bằng thanh điệu để tránh việc xuất 
hiện không đồng đều của các thanh điệu đối với các phương ngữ làm cho kết quả nhận 
dạng phương ngữ thiếu tính khách quan. Các ngữ liệu hiện có chưa đáp ứng đồng thời các 
yêu cầu trên. Xuất phát từ các lý do đó, để thực hiện các nghiên cứu nhận dạng phương 
ngữ tiếng Việt, luận án đã tiến hành xây dựng bộ ngữ liệu tiếng Việt VDSPEC 
(Vietnamese Dialect Speech Corpus) đáp ứng đầy đủ các yêu cầu nêu trên dùng cho nhận 
dạng tiếng nói và phương ngữ tiếng Việt. 
 Phương ngữ tiếng Việt rất phong phú. Sự khác biệt có thể xuất hiện đến từng làng 
xã. Tuy nhiên, trong phạm vi thời gian hạn chế, luận án chỉ tập trung nghiên cứu trên ba 
phương ngữ phổ biến nhất là phương ngữ Bắc, phương ngữ Trung và phương ngữ Nam. 
Do vậy, bộ ngữ liệu tiếng Việt VDSPEC được xây dựng cho ba phương ngữ này trong đó: 
phương ngữ Bắc lấy giọng Hà Nội làm đại diện, phương ngữ Trung lấy giọng Huế làm đại 
diện và phương ngữ Nam lấy giọng Thành phố Hồ Chí Minh làm đại diện. 
2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt 
 Việc xây dựng ngữ liệu có thể được tiến hành theo nhiều cách khác nhau như: sử 
dụng nguồn âm thanh có sẵn của các đài phát thanh, truyền hình, sau đó tiến hành phân 
loại, trích đoạn âm thanh phù hợp yêu cầu, duyệt và soạn lại văn bản tương ứng [155, 165]. 
 72 
Cách khác là thực hiện ghi âm trong môi trường ở đó người nói được lựa chọn và nói theo 
các nội dung đã chuẩn bị trước. 
 VDSPEC đã được xây dựng bằng phương pháp ghi âm trực tiếp người nói để đảm 
bảo tính chủ động cũng như chất lượng tiếng nói tốt. Việc xây dựng bộ ngữ liệu tiếng Việt 
được triển khai theo hai giai đoạn. Ở giai đoạn một, tiến hành biên soạn, thu thập và phân 
loại văn bản theo chủ đề; thực hiện các điều chỉnh để đảm bảo sự cân bằng thanh điệu trên 
văn bản chuẩn bị. Tiếp theo, ở giai đoạn hai, thực hiện ghi âm bằng thiết bị chuyên dụng 
trong môi trường có chọn lọc. Sau đây là các mô tả chi tiết từng giai đoạn. 
2.6.2. Chuẩn bị và chuẩn hóa văn bản 
 Dữ liệu tiếng nói được ghi âm thông qua việc người nói tiến hành đọc các văn bản 
đã được chuẩn bị sẵn. Văn bản này được tổ chức thành 6 chủ đề. 
 Chủ đề thứ nhất được xây dựng với chủ định phục vụ cho các khảo sát về các biến 
thiên thanh điệu, tần số cơ bản giữa các phương ngữ. Do vậy, nội dung của chủ đề này chủ 
yếu là các phụ âm, nguyên âm, một số từ đơn được chọn lựa có sự xuất hiện của tất cả các 
thanh điệu. Chủ đề này được đặt tên là chủ đề Cơ bản. 
 Năm chủ đề còn lại được thu thập từ các tài liệu được công bố trên các báo điện tử 
đã được phân loại theo chủ đề. Các văn bản này đều được lưu trữ theo bộ mã UTF-8 thống 
nhất chung trong toàn hệ thống. Văn bản gốc thường có các thông tin dư thừa như các thẻ 
HTML, ký hiệu, chữ viết tắt, từ nước ngoài, các con số, dữ liệu ngày tháng theo định dạng 
số và chữ khác nhau Để đảm bảo sự thống nhất chung, các thông tin dư thừa được loại 
bỏ, chuẩn hóa văn bản theo một số xử lý cụ thể như chuyển các con số thành văn bản 
tương ứng (ví dụ: “9000 đồng” thành “chín nghìn đồng”), ngày tháng theo định dạng số 
thông thường (ví dụ: “ngày 27/10” thành dạng văn bản tương ứng “ngày hai bảy tháng 
mười”, “năm 2003” thành “năm hai ngàn lẻ ba”); các từ viết tắt cũng được chuyển sang 
dạng văn bản đầy đủ tương ứng để tránh nhầm lẫn trong quá trình đọc và ghi âm (ví dụ: 
“tốt nghiệp ĐHMT Hà Nội” thành “tốt nghiệp Đại học Mỹ thuật Hà Nội”). Văn bản sau 
khi chuẩn hóa bao gồm 3984 âm tiết (không kể chủ đề cơ bản) với tổng số 1071 âm tiết 
không lặp lại. 
 Bảng 2.10: Đặc tính văn bản theo chủ đề 
 Chủ đề Số câu Số âm tiết Nguồn 
 Cơ bản 25 349 Biên soạn 
 Đời sống 25 855 VnExpress 
 Khoa học 25 893 VnExpress 
 Kinh doanh 25 729 VnExpress 
 Ô tô-xe máy 25 652 VnExpress 
 Pháp luật 25 855 VnExpress 
 Tổng 150 4333 
 73 
 Như đã trình bày ở đầu chương, tiếng Việt là ngôn ngữ có thanh điệu và giữa các 
phương ngữ có sự khác biệt đáng kể giữa các thanh điệu. Để đảm bảo các phương ngữ đều 
được xem xét một cách công bằng về thanh điệu việc xây dựng dữ liệu văn bản dùng cho 
ghi âm ngày từ đầu đã phải đảm bảo cân bằng về thanh điệu. Do vậy, văn bản sau khi đã 
chuẩn hóa được thống kê thanh điệu, xác định sự phân bố các thanh điệu ở mỗi chủ để và 
trong toàn bộ văn bản. Tiếp theo là hiệu chỉnh văn bản để sự xuất hiện của các thanh điệu 
cân bằng với nhau ở mỗi chủ đề và trong toàn bộ văn bản. Số lượng các từ ở mỗi thanh 
điệu là tương đương nhau và bằng 717 từ. Quá trình xử lý này được tiến hành với sự hỗ trợ 
của phần mềm và biên soạn trực tiếp. Nội dung ghi âm vừa thỏa mãn tính bao phủ về mặt 
thanh điệu đồng thời đạt được sự cân bằng giữa các thanh điệu. 
 Kết quả thống kê sự phân bố âm vị trên VDSPEC (Hình 2.6) cho thấy ngữ liệu 
cũng đồng thời thỏa mãn tiêu chí bao phủ về mặt âm vị tiếng Việt. Giá trị mỗi cột trên đồ 
thị là tỷ lệ (%) số lần xuất hiện của âm vị trên tổng số tất cả các âm vị có trong VDSPEC. 
 Hình 2.6: Sự phân bố các âm vị trong VDSPEC 
 Tổ chức lưu trữ văn bản sao cho thuận lợi trong quá trình xây dựng cũng như khai 
thác về sau cũng đã được tính đến. Sau khi chuẩn hóa, mỗi đoạn văn bản (gọi là một câu) 
được phân biệt bởi một cặp thẻ bao gồm thẻ mở và thẻ đóng , xen giữa là nội dung 
văn bản ghi vào file văn bản theo chủ đề. Ví dụ, văn bản “Theo đại diện một ngân hàng 
thương mại cổ phần” sẽ được lưu thành “Theo đại diện một ngân hàng thương mại cổ 
phần”. Mỗi chủ đề được lưu thành một tập tin văn bản (định dạng UTF-8) với tên tập 
tin đặt theo định dạng “YY.txt” trong đó “YY” là mã tương ứng với các chủ đề (cb: “cơ 
bản”, ds: “đời sống”, kd: “kinh doanh”, ox: “ô tô xe máy”, pl: “pháp luật”). Trong mỗi tập 
tin văn bản của chủ đề, các đoạn văn được được bắt đầu bởi một ký hiệu theo định dạng 
“YYZZZZ” ghi trên một dòng (liền trước dòng nội dung văn bản). Mã ZZZZ là số thứ tự 
đoạn văn thuộc chủ đề “YY”. Ví dụ “cb0001” là ký hiệu bắt đầu cho đoạn văn bản số 1 
thuộc chủ đề “cb” (cơ bản). Dòng kế tiếp là nội dung văn bản bắt đầu bởi thẻ và kết 
thúc bằng thẻ . Việc phân chia các đoạn văn bản cũng cần có chọn lựa sao cho độ dài 
một đoạn không quá ngắn hoặc quá dài, thuận tiện cho việc đọc sau này, hạn chế các nhầm 
 74 
lẫn có thể xảy ra khi đọc. Trong bộ văn bản đã xây dựng, mỗi đoạn có độ dài tương ứng 
trung bình là 10 giây theo tốc độ nói bình thường. 
2.6.3. Ghi âm 
2.6.3.1. Thiết bị ghi âm 
 Quá trình ghi âm được thực hiện bằng máy tính có card âm thanh chất lượng cao. 
Micro dùng ghi âm là loại chuyên dụng phù hợp với ghi âm tiếng nói (Shure SM48). SM48 
có đáp ứng tần số từ 55Hz đến 14000Hz, trở kháng đầu ra 270 Ohms, đạt -57.5 dBV/Pa 
(1.3 mV) ở tần số 1 kHz [7]. Đây là loại micro đơn hướng, hạn chế nhiễu nền và nguồn tạp 
âm xung quanh. Phòng ghi âm được lựa chọn riêng, nhiễu nền thấp theo kết quả tính toán ở 
phần sau cho thấy. Hình 2.7 là đáp ứng tần số của SM48 [7]. 
 Hình 2.7: Đáp ứng tần số của SM48 
2.6.3.2. Lựa chọn người nói 
 Việc lựa chọn người nói có ảnh hưởng đáng kể đến chất lượng tiếng nói thu được. 
Để ghi âm giọng nói đặc trưng cho phương ngữ, người nói được chọn sao cho có giọng gốc 
của địa phương. Tuổi trung bình của người nói là 21. Người nhỏ tuổi nhất là 17 và cao tuổi 
nhất là 38. Song tuổi người nói chủ yếu trong khoảng từ 19 đến 22 (chiếm 85%). Ở độ tuổi 
này, chất giọng được xem là ổn định, thể hiện được đầy đủ các đặc trưng cho giọng địa 
phương. Việc ghi âm cũng được tổ chức theo nhiều phiên khác nhau để bao hàm được sự 
biến thiên của tiếng nói ở các thời điểm khác nhau đối với cùng một người nói. 
 Tổng số người được lựa chọn ghi âm là 150. Trong đó, mỗi phương ngữ có 50 
người nói bao gồm 25 giọng nam và 25 giọng nữ. 
2.6.3.3. Phần mềm hỗ trợ ghi âm 
 Phần mềm hỗ trợ ghi âm được xây dựng dựa trên ngôn ngữ kịch bản TCL/TK. 
 Các chức năng chính của phần mềm bao gồm: 
 - Quản lý thông tin người dùng 
 - Quản lý các chủ để ghi âm 
 - Quản lý các tập tin tiếng nói đã ghi được 
 75 
 - Thực hiện các thống kê, cung cấp các thông tin hữu ích cho người điều khiển ghi 
âm như: số lượng tập tin tiếng nói đã ghi mỗi chủ đề, số lượng tập tin tiếng nói tương ứng 
với một người nói 
 - Hỗ trợ quá trình ghi âm, có khả năng hiển thị dạng sóng tiếng nói đang ghi, có thể 
phát lại tiếng nói đã ghi, thực hiện ghi lại đoạn tiếng nói đã ghi nếu cần; tự động tìm các 
đoạn tiếng nói chưa được ghi để chọn cho lần ghi kế tiếp. 
2.6.3.4. Môi trường ghi âm 
 Việc ghi âm được tiến hành trong phòng riêng có độ ồn thấp (tỷ số tín hiệu trên 
nhiễu xấp xỉ 35 dB). Để xác định tỉ số tín hiệu trên nhiễu của VDSPEC, tác động của nhiễu 
nền lên tín hiệu tiếng nói được giả thiết mang tính chất của nhiễu cộng. Giả thiết này phù 
hợp với thực tế tác động của nhiễu nền trong phòng thu. Vì vậy, việc xác định tỉ số tín hiệu 
trên nhiễu được tiến hành như sau. Trong thời gian ứng với khoảng lặng, nghĩa là không có 
tiếng nói và chỉ có nhiễu nền, công suất nhiễu sẽ được tính theo công thức sau đây: 
 −1
 1
 푃 = ∑ 2 (푛) (2.1) 
 푛=0
 Trong công thức trên, PN là công suất nhiễu nền trong thời gian ngắn, N là độ rộng 
cửa sổ để tính PN, b(n) là nhiễu nền. Với tần số lấy mẫu 16000 Hz, N được chọn bằng 256. 
Để có tín hiệu tiếng nói sạch (tức là không có nhiễu), dựa trên giả thiết về nhiễu cộng, 
phương pháp trừ phổ đã được thực hiện và từ đó tính được công suất tín hiệu tiếng nói như 
sau: 
 −1
 1
 푃 = ∑ 2 (푛) (2.2) 
 푆 
 푛=0
 Ở đây, 푃푆 là công suất tín hiệu tiếng nói trong thời gian ngắn, x(n) là tín hiệu tiếng 
nói. Cuối cùng, tỉ số tín hiệu trên nhiễu tính theo dB sẽ là: 
 푃푆 (2.3) 
 푆 = 10푙표 10 
 푃 
 76 
 0.5
 0
 Amplitude
 -0.5
 0 5 10 15 20
 (a) Time in ms
 SN trung bình 
 60
 40
 S/N in dB
 20
 0
 2 4 6 8 10 12 14 16 18 20
 (b) 
Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và giá 
 trị trung bình của tỉ số này 
 Theo phương pháp trên, tỉ số tín hiệu trên nhiễu của ngữ liệu VDSPEC đã được xác 
định có giá trị trung bình xấp xỉ 35 dB. Giá trị này là hoàn toàn thích hợp đối với ngữ liệu 
dùng cho nghiên cứu nhận dạng và tổng hợp tiếng nói. 
2.6.3.5. Định dạng ghi âm 
 Định dạng ghi âm đã được thiết lập sẵn trong phần mềm hỗ trợ ghi âm và giữ cố 
định, thống nhất trong suốt thời gian ghi âm. Cụ thể, âm thanh được ghi theo chuẩn PCM, 
không nén, tần số lấy mẫu 16kHz, 16 bit mỗi mẫu, ghi trên một kênh (mono). Định dạng 
này đáp ứng được yêu cầu về dải tần số tiếng nói thông thường đồng thời kích thước tập tin 
tiếng nói không quá lớn. 
2.6.3.6. Tổ chức lưu dữ liệu 
 Để giúp quản lý và khai thác bộ ngữ liệu thuận lợi, các tập tin tiếng nói được đặt 
tên thống nhất theo một định dạng. Tập tin tiếng nói tương ứng với mỗi đoạn văn trong các 
chủ đề đều được ghi trên đĩa thành một tập tin có tên duy nhất theo định dạng 
“XXYYZZZZ.wav”, trong đó: 
 - XX: là mã (ID) của một người nói, bao gồm chữ cái, chữ số và là duy nhất 
 - YY: mã chủ đề (cb, ds, kd, kh, pl) 
 - ZZZZ: mã số đoạn âm thanh (đánh số từ 0000) 
 Thông tin của người nói được ghi trong một tập tin đặt tên là user.xml. Tập tin này 
chứa các thông tin cơ bản của người nói: 
 77 
 - Mã số (ID) của người nói, bao gồm 2 ký tự và là duy nhất 
 - Họ và tên đầy đủ của người nói 
 - Địa chỉ: ghi theo địa chỉ có ảnh hưởng nhiều nhất tới việc hình thành giọng nói 
hiện tại của người nói. 
 - Giới tính, tuổi, thông tin liên hệ 
 Tổ chức lưu dữ liệu của bộ ngữ liệu được trình bày ở Bảng 2.11. 
 Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC 
 Dữ liệu Thư mục Đặc tính 
 Tập tin WAV, 
Tín hiệu tiếng nói Thư mục WAV Tần số lấy mẫu: 16000Hz, 16 bit, 
 Mono 
Tập tin văn bản của chủ đề Thư mục TEXT Chứa các tập tin văn bản theo chủ đề 
Thông tin người nói Tập tin user.xml Lưu thông tin cơ bản của người nói 
2.6.4. Kết quả ghi âm và đặc tính VDSPEC 
 Quá trình ghi âm được thực hiện theo ba đợt tương ứng với ba phương ngữ. Bắt đầu 
từ phương ngữ Bắc, kế đến là phương ngữ Trung và cuối cùng là phương ngữ Nam. Kết 
thúc đợt ghi âm cuối cùng, việc xây dựng bộ ngữ liệu tiếng Việt nói VDSPEC cũng được 
hoàn thành với tổng số 150 người nói khác nhau đại diện cho ba phương ngữ chính của 
tiếng Việt (Bắc, Trung, Nam). 
 Trong quá trình ghi âm, mỗi người nói được yêu cầu đọc đủ 25 câu đã được chuẩn 
bị sẵn của mỗi chủ đề. Tổng số câu đã ghi âm của VDSPEC là 18750 câu (tương ứng 150 
người nói x 125 câu, không kể chủ đề Cơ bản) với dung lượng lưu trữ là 4,84 GB và tổng 
cộng thời lượng là 45,12 giờ tiếng nói (Bảng 2.12). 
 Thời lượng ghi âm được phân bổ tương đối đều theo phương ngữ, giới tính cũng 
như theo chủ đề (Bảng 2.12, Bảng 2.13). Giới tính nam gồm 22,42 giờ tiếng nói. Thời 
lượng này với giới tính nữ là 22,69 giờ. 
 Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ 
 STT Phương ngữ Số câu Thời lượng tiếng nói (giờ) 
 1 Bắc 6250 14,41 
 2 Trung 6250 14,65 
 3 Nam 6250 16,06 
 Tổng 18750 45,12 
 78 
 Phân bố thời lượng ghi âm của các chủ đề trong VDSPEC được thống kê và trình 
bày ở Bảng 2.13. Cả năm chủ đề có số câu và thời gian ghi âm gần tương đương nhau. 
 Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề 
 Thời lượng tiếng nói 
 Chủ đề Số câu Số âm tiết 
 (giờ) 
Đời sống 3750 855 09,96 
Khoa học 3750 893 08,03 
Kinh doanh 3750 729 10,06 
Ô tô-xe máy 3750 652 07,31 
Pháp luật 3750 855 09,76 
Tổng 18750 3984 45,12 
2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ 
 ngữ liệu VDSPEC 
2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ 
 Quy luật biến thiên F0 của các thanh điệu tiếng Việt đã được nghiên cứu và đề cập 
tới trong nhiều công trình [2, 119]. Đồ thị ba hệ thống thanh điệu Hà Nội, Huế, Thành phố 
Hồ Chí Minh đã được phân tích bằng máy sonograph như trên Hình 2.5. 
 Luận án đã tiến hành phân tích biến thiên F0 của sáu thanh điệu tiếng Việt trên bộ 
ngữ liệu VDSPEC. Mỗi phương ngữ chọn ba giọng nam và ba giọng nữ làm đại diện. Với 
mỗi người nói, sáu từ tương ứng với sáu thanh điệu bao gồm "khi", "trường", "thuế", 
"mại", "thử", "phẫu" được tách riêng và tính tần số cơ bản F0 bằng bộ công cụ Praat1. Các 
từ này được tách từ câu nói liên tục với các từ đứng liền trước và từ đứng liền sau được 
trình bày trên Bảng 2.14. Trên thực tế, thời hạn của các thanh điệu là khác nhau. Để làm rõ 
sự khác biệt giữa các thanh điệu và dễ dàng quan sát trên cùng đồ thị, độ dài tiếng nói mỗi 
thanh điệu được chuẩn hóa về cùng một giá trị là 0,5 giây. Giá trị F0 được vẽ trên đồ thị là 
trung bình F0 của ba giọng đã lựa chọn tương ứng với mỗi phương ngữ. Đồ thị biến thiên 
sáu thanh điệu tiếng Việt của ba phương ngữ được vẽ gộp trên cùng một hình và tách riêng 
theo giới tính (Hình 2.9, Hình 2.10). Trục tung là tần số (đơn vị Hz). Trục hoành là thời 
gian đã chuẩn hóa (đơn vị là giây). 
 Nhìn chung, sự biến thiên F0 của sáu thanh điệu có sự khác biệt đáng kể giữa các 
phương ngữ. Dáng điệu biến thiên F0 cũng khá tương đồng với kết quả phân tích đã có 
trong [2]. 
 1 www.praat.org 
 79 
 Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu 
 Trừ đứng trước Từ được chọn Từ đứng sau 
 sau khi thử 
 thị trường các 
 giảm thuế chủ 
 thương mại cổ 
 khi thử phản 
 lần phẫu thuật 
 Đồ thị cho thấy phương ngữ Bắc có phạm vi biến thiên F0 rộng hơn so với hai 
phương ngữ còn lại trên cả sáu thanh điệu. Đối với thanh ngang c

File đính kèm:

  • pdfluan_an_nhan_dang_tu_dong_tieng_noi_phat_am_lien_tuc_cho_cac.pdf