Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

150 trang nguyenduy 20/04/2024 5370 Free

Download

Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

iệu nổi lên thay thế.
Quan sát trên đồ thị hệ thống thanh điệu (Hình 2.5) có thể thấy hệ thống thanh điệu
phương ngữ Hà Nội có miền âm vực trải rộng trong miền tiếng nói. Trong khi đó, âm vực
phương ngữ Huế chủ yếu thuộc vùng trầm. Âm vực phương ngữ TP Hồ Chí Minh gần
giống phương ngữ Huế ở điểm khởi đầu nhưng có thanh điệu được đẩy lên cao tương tự
như phương ngữ Hà Nội, tạo nên sự khác biệt so với Huế đồng thời cũng có nét riêng của
TP Hồ Chí Minh.
2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói
Hiệu quả nhận dạng, độ chính xác của một hệ thống nhận dạng tiếng nói phụ thuộc
vào rất nhiều yếu tố như người nói khác nhau, độ tuổi, giới tính của người nói, tốc độ nói,
ngữ cảnh, môi trường âm học, phương ngữ.
Sự tồn tại của phương ngữ trong ngôn ngữ là một thách thức lớn cho các hệ thống
xử lý ngôn ngữ tự nhiên nói chung [109] cũng như trong các hệ thống nhận dạng tiếng nói.
Trong cùng một lãnh thổ có cùng một ngôn ngữ nhưng ở những vùng khác nhau lại có thể
tồn tại những phương ngữ khác nhau, thậm chí ngay giữa những nhóm người, làng xã sống
liền kề nhau cũng có thể tồn tại phương ngữ khác nhau. Sự khác biệt giữa các phương ngữ
có thể là ở ngữ âm, từ vựng, ngữ pháp,... nhưng phổ biến nhất là ngữ âm. Chính sự khác
biệt này làm ảnh hưởng đến hiệu năng nhận dạng của các hệ thống nhận dạng tiếng nói.
Chính vì vậy, việc nghiên cứu về phương ngữ, giải quyết vấn đề liên quan đến
phương ngữ trong nhận dạng tiếng nói là rất cần thiết để giúp nâng cao chất lượng hệ
thống nhận dạng tiếng nói. Nếu biết tiếng nói đang cần nhận dạng thuộc phương ngữ nào
đó thì có thể điều khiển hệ thống nhận dạng có thể lựa chọn mô hình nhận dạng phù hợp
cho kết quả nhận dạng tốt hơn. Để có thể thực hiện các nghiên cứu về nhận dạng tiếng nói
nói chung và nhận dạng phương ngữ nói riêng, cần thiết phải có kho ngữ liệu chất lượng
tốt đáp ứng yêu cầu chuyên biệt của nghiên cứu [73, 81, 145]. Nội dung tiếp trong chương
này theo sẽ trình bày đặc điểm của một số bộ ngữ liệu phương ngữ trên thế giới và phương
pháp cũng như kết quả xây dựng bộ ngữ liệu phương ngữ tiếng Việt. Luận án cũng sẽ tiến
hành phân tích một số đặc trưng của phương ngữ tiếng Việt trên bộ ngữ liệu phương ngữ
xây dựng được và trình bày ở cuối chương.
2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu
dùng cho nhận dạng phương ngữ tiếng Việt
Trên thế giới đã có một số bộ ngữ liệu cho phương ngữ như tiếng Anh [17], tiếng Ả
rập [50], tiếng Trung [78], tiếng Hindi [146], tiếng Thái [149],
Với tiếng Anh, FRED là bộ ngữ liệu lớn bao gồm 8 phương ngữ, với 2,45 triệu từ
trong khoảng 300 giờ tiếng nói. FRED chứa ngữ liệu của 420 người nói khác nhau, độ tuổi
của người nói ở FRED trong khoảng từ 6 đến 120 tuổi. Bộ ngữ liệu này được xây dựng
71
trong thời gian khá dài, trên 30 năm. Bộ ngữ liệu có thể hỗ trợ cho thực hiện nghiên cứu
các hiện tượng hình thái ngữ pháp phi tiêu chuẩn cùng với các phân tích chi tiết về ngữ âm,
âm vị.
Với tiếng Trung Quốc, có tám vùng phương ngữ chủ yếu. Trong [78], các tác giả đã
xây dựng ngữ liệu cho phương ngữ Ngô (吳語), một trong tám phương ngữ tiếng Trung.
Ngữ liệu này cung cấp thông tin ở 4 mức: ngữ âm, từ vựng, ngôn ngữ và âm học.
Đối với tiếng Việt, đã có một số bộ ngữ liệu được xây dựng như
VNSPEECHCORPUS [165], VOV (Voice of Vietnamese) Corpus [155] hoặc VNBN
(United Broadcast News corpus) [172].
Nguyên tắc chung khi xây dựng một cơ sở dữ liệu tiếng nói là dữ liệu cần chứa
đựng các từ và các câu thường xuyên được sử dụng [161]. Theo [161], cơ sở dữ liệu tiếng
nói nên bao hàm ít nhất các mục tiêu: bao phủ về mặt ngữ nghĩa, bao phủ về mặt cú pháp,
bao phủ về mặt ngôn điệu và bao phủ về mặt từ. Để đảm bảo được đồng thời các mục tiêu
này là rất khó. Thông thường lựa chọn nội dung sao cho chứa đựng được tất cả các âm vị,
phong phú về ngữ cảnh âm vị, đa dạng về từ vựng, ngữ pháp và ngữ nghĩa [161].
Các hệ thống nhận dạng tiếng nói thực hiện nhận dạng dựa trên hệ thống từ vựng
được cung cấp trong quá trình huấn luyện. Hiệu quả hoạt động của hệ thống nhận dạng sẽ
được nâng cao hơn nếu ngữ liệu được tổ chức theo các lĩnh vực chuyên biệt và được áp
dụng một cách phù hợp trong các tình huống nhận dạng cụ thể. Trong nhận dạng phương
ngữ, đặc biệt là phương ngữ tiếng Việt, ngữ liệu cần phải bao hàm được các đặc trưng của
phương ngữ tiếng Việt, có được sự cân bằng về mặt thanh điệu và đại diện cho các phương
ngữ trong phạm vi nhận dạng. Thanh điệu là một trong các yếu tố quan trọng để phân biệt
phương ngữ tiếng Việt. Vì vậy, cần phải đảm bảo cân bằng thanh điệu để tránh việc xuất
hiện không đồng đều của các thanh điệu đối với các phương ngữ làm cho kết quả nhận
dạng phương ngữ thiếu tính khách quan. Các ngữ liệu hiện có chưa đáp ứng đồng thời các
yêu cầu trên. Xuất phát từ các lý do đó, để thực hiện các nghiên cứu nhận dạng phương
ngữ tiếng Việt, luận án đã tiến hành xây dựng bộ ngữ liệu tiếng Việt VDSPEC
(Vietnamese Dialect Speech Corpus) đáp ứng đầy đủ các yêu cầu nêu trên dùng cho nhận
dạng tiếng nói và phương ngữ tiếng Việt.
Phương ngữ tiếng Việt rất phong phú. Sự khác biệt có thể xuất hiện đến từng làng
xã. Tuy nhiên, trong phạm vi thời gian hạn chế, luận án chỉ tập trung nghiên cứu trên ba
phương ngữ phổ biến nhất là phương ngữ Bắc, phương ngữ Trung và phương ngữ Nam.
Do vậy, bộ ngữ liệu tiếng Việt VDSPEC được xây dựng cho ba phương ngữ này trong đó:
phương ngữ Bắc lấy giọng Hà Nội làm đại diện, phương ngữ Trung lấy giọng Huế làm đại
diện và phương ngữ Nam lấy giọng Thành phố Hồ Chí Minh làm đại diện.
2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt
Việc xây dựng ngữ liệu có thể được tiến hành theo nhiều cách khác nhau như: sử
dụng nguồn âm thanh có sẵn của các đài phát thanh, truyền hình, sau đó tiến hành phân
loại, trích đoạn âm thanh phù hợp yêu cầu, duyệt và soạn lại văn bản tương ứng [155, 165].
72
Cách khác là thực hiện ghi âm trong môi trường ở đó người nói được lựa chọn và nói theo
các nội dung đã chuẩn bị trước.
VDSPEC đã được xây dựng bằng phương pháp ghi âm trực tiếp người nói để đảm
bảo tính chủ động cũng như chất lượng tiếng nói tốt. Việc xây dựng bộ ngữ liệu tiếng Việt
được triển khai theo hai giai đoạn. Ở giai đoạn một, tiến hành biên soạn, thu thập và phân
loại văn bản theo chủ đề; thực hiện các điều chỉnh để đảm bảo sự cân bằng thanh điệu trên
văn bản chuẩn bị. Tiếp theo, ở giai đoạn hai, thực hiện ghi âm bằng thiết bị chuyên dụng
trong môi trường có chọn lọc. Sau đây là các mô tả chi tiết từng giai đoạn.
2.6.2. Chuẩn bị và chuẩn hóa văn bản
Dữ liệu tiếng nói được ghi âm thông qua việc người nói tiến hành đọc các văn bản
đã được chuẩn bị sẵn. Văn bản này được tổ chức thành 6 chủ đề.
Chủ đề thứ nhất được xây dựng với chủ định phục vụ cho các khảo sát về các biến
thiên thanh điệu, tần số cơ bản giữa các phương ngữ. Do vậy, nội dung của chủ đề này chủ
yếu là các phụ âm, nguyên âm, một số từ đơn được chọn lựa có sự xuất hiện của tất cả các
thanh điệu. Chủ đề này được đặt tên là chủ đề Cơ bản.
Năm chủ đề còn lại được thu thập từ các tài liệu được công bố trên các báo điện tử
đã được phân loại theo chủ đề. Các văn bản này đều được lưu trữ theo bộ mã UTF-8 thống
nhất chung trong toàn hệ thống. Văn bản gốc thường có các thông tin dư thừa như các thẻ
HTML, ký hiệu, chữ viết tắt, từ nước ngoài, các con số, dữ liệu ngày tháng theo định dạng
số và chữ khác nhau Để đảm bảo sự thống nhất chung, các thông tin dư thừa được loại
bỏ, chuẩn hóa văn bản theo một số xử lý cụ thể như chuyển các con số thành văn bản
tương ứng (ví dụ: “9000 đồng” thành “chín nghìn đồng”), ngày tháng theo định dạng số
thông thường (ví dụ: “ngày 27/10” thành dạng văn bản tương ứng “ngày hai bảy tháng
mười”, “năm 2003” thành “năm hai ngàn lẻ ba”); các từ viết tắt cũng được chuyển sang
dạng văn bản đầy đủ tương ứng để tránh nhầm lẫn trong quá trình đọc và ghi âm (ví dụ:
“tốt nghiệp ĐHMT Hà Nội” thành “tốt nghiệp Đại học Mỹ thuật Hà Nội”). Văn bản sau
khi chuẩn hóa bao gồm 3984 âm tiết (không kể chủ đề cơ bản) với tổng số 1071 âm tiết
không lặp lại.
Bảng 2.10: Đặc tính văn bản theo chủ đề
Chủ đề Số câu Số âm tiết Nguồn
Cơ bản 25 349 Biên soạn
Đời sống 25 855 VnExpress
Khoa học 25 893 VnExpress
Kinh doanh 25 729 VnExpress
Ô tô-xe máy 25 652 VnExpress
Pháp luật 25 855 VnExpress
Tổng 150 4333
73
Như đã trình bày ở đầu chương, tiếng Việt là ngôn ngữ có thanh điệu và giữa các
phương ngữ có sự khác biệt đáng kể giữa các thanh điệu. Để đảm bảo các phương ngữ đều
được xem xét một cách công bằng về thanh điệu việc xây dựng dữ liệu văn bản dùng cho
ghi âm ngày từ đầu đã phải đảm bảo cân bằng về thanh điệu. Do vậy, văn bản sau khi đã
chuẩn hóa được thống kê thanh điệu, xác định sự phân bố các thanh điệu ở mỗi chủ để và
trong toàn bộ văn bản. Tiếp theo là hiệu chỉnh văn bản để sự xuất hiện của các thanh điệu
cân bằng với nhau ở mỗi chủ đề và trong toàn bộ văn bản. Số lượng các từ ở mỗi thanh
điệu là tương đương nhau và bằng 717 từ. Quá trình xử lý này được tiến hành với sự hỗ trợ
của phần mềm và biên soạn trực tiếp. Nội dung ghi âm vừa thỏa mãn tính bao phủ về mặt
thanh điệu đồng thời đạt được sự cân bằng giữa các thanh điệu.
Kết quả thống kê sự phân bố âm vị trên VDSPEC (Hình 2.6) cho thấy ngữ liệu
cũng đồng thời thỏa mãn tiêu chí bao phủ về mặt âm vị tiếng Việt. Giá trị mỗi cột trên đồ
thị là tỷ lệ (%) số lần xuất hiện của âm vị trên tổng số tất cả các âm vị có trong VDSPEC.
Hình 2.6: Sự phân bố các âm vị trong VDSPEC
Tổ chức lưu trữ văn bản sao cho thuận lợi trong quá trình xây dựng cũng như khai
thác về sau cũng đã được tính đến. Sau khi chuẩn hóa, mỗi đoạn văn bản (gọi là một câu)
được phân biệt bởi một cặp thẻ bao gồm thẻ mở và thẻ đóng , xen giữa là nội dung
văn bản ghi vào file văn bản theo chủ đề. Ví dụ, văn bản “Theo đại diện một ngân hàng
thương mại cổ phần” sẽ được lưu thành “Theo đại diện một ngân hàng thương mại cổ
phần”. Mỗi chủ đề được lưu thành một tập tin văn bản (định dạng UTF-8) với tên tập
tin đặt theo định dạng “YY.txt” trong đó “YY” là mã tương ứng với các chủ đề (cb: “cơ
bản”, ds: “đời sống”, kd: “kinh doanh”, ox: “ô tô xe máy”, pl: “pháp luật”). Trong mỗi tập
tin văn bản của chủ đề, các đoạn văn được được bắt đầu bởi một ký hiệu theo định dạng
“YYZZZZ” ghi trên một dòng (liền trước dòng nội dung văn bản). Mã ZZZZ là số thứ tự
đoạn văn thuộc chủ đề “YY”. Ví dụ “cb0001” là ký hiệu bắt đầu cho đoạn văn bản số 1
thuộc chủ đề “cb” (cơ bản). Dòng kế tiếp là nội dung văn bản bắt đầu bởi thẻ và kết
thúc bằng thẻ . Việc phân chia các đoạn văn bản cũng cần có chọn lựa sao cho độ dài
một đoạn không quá ngắn hoặc quá dài, thuận tiện cho việc đọc sau này, hạn chế các nhầm
74
lẫn có thể xảy ra khi đọc. Trong bộ văn bản đã xây dựng, mỗi đoạn có độ dài tương ứng
trung bình là 10 giây theo tốc độ nói bình thường.
2.6.3. Ghi âm
2.6.3.1. Thiết bị ghi âm
Quá trình ghi âm được thực hiện bằng máy tính có card âm thanh chất lượng cao.
Micro dùng ghi âm là loại chuyên dụng phù hợp với ghi âm tiếng nói (Shure SM48). SM48
có đáp ứng tần số từ 55Hz đến 14000Hz, trở kháng đầu ra 270 Ohms, đạt -57.5 dBV/Pa
(1.3 mV) ở tần số 1 kHz [7]. Đây là loại micro đơn hướng, hạn chế nhiễu nền và nguồn tạp
âm xung quanh. Phòng ghi âm được lựa chọn riêng, nhiễu nền thấp theo kết quả tính toán ở
phần sau cho thấy. Hình 2.7 là đáp ứng tần số của SM48 [7].
Hình 2.7: Đáp ứng tần số của SM48
2.6.3.2. Lựa chọn người nói
Việc lựa chọn người nói có ảnh hưởng đáng kể đến chất lượng tiếng nói thu được.
Để ghi âm giọng nói đặc trưng cho phương ngữ, người nói được chọn sao cho có giọng gốc
của địa phương. Tuổi trung bình của người nói là 21. Người nhỏ tuổi nhất là 17 và cao tuổi
nhất là 38. Song tuổi người nói chủ yếu trong khoảng từ 19 đến 22 (chiếm 85%). Ở độ tuổi
này, chất giọng được xem là ổn định, thể hiện được đầy đủ các đặc trưng cho giọng địa
phương. Việc ghi âm cũng được tổ chức theo nhiều phiên khác nhau để bao hàm được sự
biến thiên của tiếng nói ở các thời điểm khác nhau đối với cùng một người nói.
Tổng số người được lựa chọn ghi âm là 150. Trong đó, mỗi phương ngữ có 50
người nói bao gồm 25 giọng nam và 25 giọng nữ.
2.6.3.3. Phần mềm hỗ trợ ghi âm
Phần mềm hỗ trợ ghi âm được xây dựng dựa trên ngôn ngữ kịch bản TCL/TK.
Các chức năng chính của phần mềm bao gồm:
- Quản lý thông tin người dùng
- Quản lý các chủ để ghi âm
- Quản lý các tập tin tiếng nói đã ghi được
75
- Thực hiện các thống kê, cung cấp các thông tin hữu ích cho người điều khiển ghi
âm như: số lượng tập tin tiếng nói đã ghi mỗi chủ đề, số lượng tập tin tiếng nói tương ứng
với một người nói
- Hỗ trợ quá trình ghi âm, có khả năng hiển thị dạng sóng tiếng nói đang ghi, có thể
phát lại tiếng nói đã ghi, thực hiện ghi lại đoạn tiếng nói đã ghi nếu cần; tự động tìm các
đoạn tiếng nói chưa được ghi để chọn cho lần ghi kế tiếp.
2.6.3.4. Môi trường ghi âm
Việc ghi âm được tiến hành trong phòng riêng có độ ồn thấp (tỷ số tín hiệu trên
nhiễu xấp xỉ 35 dB). Để xác định tỉ số tín hiệu trên nhiễu của VDSPEC, tác động của nhiễu
nền lên tín hiệu tiếng nói được giả thiết mang tính chất của nhiễu cộng. Giả thiết này phù
hợp với thực tế tác động của nhiễu nền trong phòng thu. Vì vậy, việc xác định tỉ số tín hiệu
trên nhiễu được tiến hành như sau. Trong thời gian ứng với khoảng lặng, nghĩa là không có
tiếng nói và chỉ có nhiễu nền, công suất nhiễu sẽ được tính theo công thức sau đây:
−1
1
푃 = ∑ 2 (푛) (2.1)
푛=0
Trong công thức trên, PN là công suất nhiễu nền trong thời gian ngắn, N là độ rộng
cửa sổ để tính PN, b(n) là nhiễu nền. Với tần số lấy mẫu 16000 Hz, N được chọn bằng 256.
Để có tín hiệu tiếng nói sạch (tức là không có nhiễu), dựa trên giả thiết về nhiễu cộng,
phương pháp trừ phổ đã được thực hiện và từ đó tính được công suất tín hiệu tiếng nói như
sau:
−1
1
푃 = ∑ 2 (푛) (2.2)
푆
푛=0
Ở đây, 푃푆 là công suất tín hiệu tiếng nói trong thời gian ngắn, x(n) là tín hiệu tiếng
nói. Cuối cùng, tỉ số tín hiệu trên nhiễu tính theo dB sẽ là:
푃푆 (2.3)
푆 = 10푙표 10
푃
76
0.5
0
Amplitude
-0.5
0 5 10 15 20
(a) Time in ms
SN trung bình
60
40
S/N in dB
20
0
2 4 6 8 10 12 14 16 18 20
(b)
Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và giá
trị trung bình của tỉ số này
Theo phương pháp trên, tỉ số tín hiệu trên nhiễu của ngữ liệu VDSPEC đã được xác
định có giá trị trung bình xấp xỉ 35 dB. Giá trị này là hoàn toàn thích hợp đối với ngữ liệu
dùng cho nghiên cứu nhận dạng và tổng hợp tiếng nói.
2.6.3.5. Định dạng ghi âm
Định dạng ghi âm đã được thiết lập sẵn trong phần mềm hỗ trợ ghi âm và giữ cố
định, thống nhất trong suốt thời gian ghi âm. Cụ thể, âm thanh được ghi theo chuẩn PCM,
không nén, tần số lấy mẫu 16kHz, 16 bit mỗi mẫu, ghi trên một kênh (mono). Định dạng
này đáp ứng được yêu cầu về dải tần số tiếng nói thông thường đồng thời kích thước tập tin
tiếng nói không quá lớn.
2.6.3.6. Tổ chức lưu dữ liệu
Để giúp quản lý và khai thác bộ ngữ liệu thuận lợi, các tập tin tiếng nói được đặt
tên thống nhất theo một định dạng. Tập tin tiếng nói tương ứng với mỗi đoạn văn trong các
chủ đề đều được ghi trên đĩa thành một tập tin có tên duy nhất theo định dạng
“XXYYZZZZ.wav”, trong đó:
- XX: là mã (ID) của một người nói, bao gồm chữ cái, chữ số và là duy nhất
- YY: mã chủ đề (cb, ds, kd, kh, pl)
- ZZZZ: mã số đoạn âm thanh (đánh số từ 0000)
Thông tin của người nói được ghi trong một tập tin đặt tên là user.xml. Tập tin này
chứa các thông tin cơ bản của người nói:
77
- Mã số (ID) của người nói, bao gồm 2 ký tự và là duy nhất
- Họ và tên đầy đủ của người nói
- Địa chỉ: ghi theo địa chỉ có ảnh hưởng nhiều nhất tới việc hình thành giọng nói
hiện tại của người nói.
- Giới tính, tuổi, thông tin liên hệ
Tổ chức lưu dữ liệu của bộ ngữ liệu được trình bày ở Bảng 2.11.
Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC
Dữ liệu Thư mục Đặc tính
Tập tin WAV,
Tín hiệu tiếng nói Thư mục WAV Tần số lấy mẫu: 16000Hz, 16 bit,
Mono
Tập tin văn bản của chủ đề Thư mục TEXT Chứa các tập tin văn bản theo chủ đề
Thông tin người nói Tập tin user.xml Lưu thông tin cơ bản của người nói
2.6.4. Kết quả ghi âm và đặc tính VDSPEC
Quá trình ghi âm được thực hiện theo ba đợt tương ứng với ba phương ngữ. Bắt đầu
từ phương ngữ Bắc, kế đến là phương ngữ Trung và cuối cùng là phương ngữ Nam. Kết
thúc đợt ghi âm cuối cùng, việc xây dựng bộ ngữ liệu tiếng Việt nói VDSPEC cũng được
hoàn thành với tổng số 150 người nói khác nhau đại diện cho ba phương ngữ chính của
tiếng Việt (Bắc, Trung, Nam).
Trong quá trình ghi âm, mỗi người nói được yêu cầu đọc đủ 25 câu đã được chuẩn
bị sẵn của mỗi chủ đề. Tổng số câu đã ghi âm của VDSPEC là 18750 câu (tương ứng 150
người nói x 125 câu, không kể chủ đề Cơ bản) với dung lượng lưu trữ là 4,84 GB và tổng
cộng thời lượng là 45,12 giờ tiếng nói (Bảng 2.12).
Thời lượng ghi âm được phân bổ tương đối đều theo phương ngữ, giới tính cũng
như theo chủ đề (Bảng 2.12, Bảng 2.13). Giới tính nam gồm 22,42 giờ tiếng nói. Thời
lượng này với giới tính nữ là 22,69 giờ.
Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ
STT Phương ngữ Số câu Thời lượng tiếng nói (giờ)
1 Bắc 6250 14,41
2 Trung 6250 14,65
3 Nam 6250 16,06
Tổng 18750 45,12
78
Phân bố thời lượng ghi âm của các chủ đề trong VDSPEC được thống kê và trình
bày ở Bảng 2.13. Cả năm chủ đề có số câu và thời gian ghi âm gần tương đương nhau.
Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề
Thời lượng tiếng nói
Chủ đề Số câu Số âm tiết
(giờ)
Đời sống 3750 855 09,96
Khoa học 3750 893 08,03
Kinh doanh 3750 729 10,06
Ô tô-xe máy 3750 652 07,31
Pháp luật 3750 855 09,76
Tổng 18750 3984 45,12
2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ
ngữ liệu VDSPEC
2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ
Quy luật biến thiên F0 của các thanh điệu tiếng Việt đã được nghiên cứu và đề cập
tới trong nhiều công trình [2, 119]. Đồ thị ba hệ thống thanh điệu Hà Nội, Huế, Thành phố
Hồ Chí Minh đã được phân tích bằng máy sonograph như trên Hình 2.5.
Luận án đã tiến hành phân tích biến thiên F0 của sáu thanh điệu tiếng Việt trên bộ
ngữ liệu VDSPEC. Mỗi phương ngữ chọn ba giọng nam và ba giọng nữ làm đại diện. Với
mỗi người nói, sáu từ tương ứng với sáu thanh điệu bao gồm "khi", "trường", "thuế",
"mại", "thử", "phẫu" được tách riêng và tính tần số cơ bản F0 bằng bộ công cụ Praat1. Các
từ này được tách từ câu nói liên tục với các từ đứng liền trước và từ đứng liền sau được
trình bày trên Bảng 2.14. Trên thực tế, thời hạn của các thanh điệu là khác nhau. Để làm rõ
sự khác biệt giữa các thanh điệu và dễ dàng quan sát trên cùng đồ thị, độ dài tiếng nói mỗi
thanh điệu được chuẩn hóa về cùng một giá trị là 0,5 giây. Giá trị F0 được vẽ trên đồ thị là
trung bình F0 của ba giọng đã lựa chọn tương ứng với mỗi phương ngữ. Đồ thị biến thiên
sáu thanh điệu tiếng Việt của ba phương ngữ được vẽ gộp trên cùng một hình và tách riêng
theo giới tính (Hình 2.9, Hình 2.10). Trục tung là tần số (đơn vị Hz). Trục hoành là thời
gian đã chuẩn hóa (đơn vị là giây).
Nhìn chung, sự biến thiên F0 của sáu thanh điệu có sự khác biệt đáng kể giữa các
phương ngữ. Dáng điệu biến thiên F0 cũng khá tương đồng với kết quả phân tích đã có
trong [2].
1 www.praat.org
79
Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu
Trừ đứng trước Từ được chọn Từ đứng sau
sau khi thử
thị trường các
giảm thuế chủ
thương mại cổ
khi thử phản
lần phẫu thuật
Đồ thị cho thấy phương ngữ Bắc có phạm vi biến thiên F0 rộng hơn so với hai
phương ngữ còn lại trên cả sáu thanh điệu. Đối với thanh ngang c

File đính kèm:

luan_an_nhan_dang_tu_dong_tieng_noi_phat_am_lien_tuc_cho_cac.pdf