Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt trang 1

Trang 1

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt trang 2

Trang 2

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt trang 3

Trang 3

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt trang 4

Trang 4

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt trang 5

Trang 5

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt trang 6

Trang 6

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt trang 7

Trang 7

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt trang 8

Trang 8

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt trang 9

Trang 9

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 253 trang nguyenduy 11/05/2024 1360
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
luận giá trị đường F0 
được chuyển sang miền logarit và chuẩn hóa về trung bình và độ lệch với kết quả tốt 
nhất là 70,44% trong các thử nghiệm. 
 T1T8 
 Phân lớp Nơ ron 
 Chuẩn hóa 
 Tính đặc trưng 
 thanh điệu 
 Trích chọn F0 
 Sóng âm tiết 
 Hình 4. 2. Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc 
 (4.1) 
 (4.2) 
 ju min j : j j max , E j 1 0.9 E m ax , E j 0.9 E m ax (4.3) 
 jl max j : j j u , E j 0.1 E max , E j 1 0.1 E m ax 
 Để tăng độ chính xác của kết quả nhận dạng thông qua mạng nơ ron dựa trên tri 
thức về sự phụ thuộc thanh vào trường độ âm tiết, chúng tôi sử dụng các luật Heuristic 
sau để loại nhanh một số trường hợp: 
 108 
 Luật 1: trung bình (F0) > Fbeas thanh cao ngược lại thanh thấp. 
 Luật 2: Dur(F) > D0 (ms): không phải các âm tiết có phụ âm cuối là p-t-c 
 FFmax min
 Luật 3: Frate : không phải thanh huyền. 
 Fmid
Trong [6], tác giả đã sử dụng các đặc trưng của một thanh điệu tiếng Việt gồm: F0 ban 
đầu, F0 sau cùng, giá trị độ tăng của F0, trường độ thanh điệu, tỷ số giảm của năng 
lượng, kết hợp với cấc luật 1, 2, 3 (trong thực nghiệm, tham số D0=300, Fbeas =200, Frate 
= 0.3 (ứng với giọng nữ được kiểm tra trên) trên để nhận dạng 8 hiện tượng thanh điệu 
tiếng Việt, âm tiết rời rac, phụ thuộc người nói với kết quả nhận dạng trên 93%. Đây 
cũng là kết quả được báo cáo trong đề tài KC.01.03 [90]. 
STT Thanh điệu Số mẫu huấn Số mẫu kiểm Kết quả(%) 
 liệu tra 
 1 Thanh ngã(x) 214 54 96.20 
 2 Thanh huyền(f) 422 110 99 
 3 Thanh hỏi (r) 394 101 93.06 
 4 Thanh ngang (middle) 438 215 96.70 
 5 Thanh sắc(s) 417 182 98,30 
 6 Thanh sắc có kết thúc 273 78 97,40 
 âm tiết /p/, /t/, /k/ (s2) 
 7 Thanh nặng (j) 341 94 98,90 
 8 Thanh nặng có kết thúc 187 46 93,40 
 âm tiết /p/, /t/, /k/ (j2) 
4.2. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với 
F0 
 Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu, 
các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một 
 109 
vấn đề tất yếu nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử 
lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa 
trên đặc trưng chuẩn MFCC và quy trình huấn luyện và nhận dạng theo thuật toán sau: 
 Bảng 4. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC 
Huấn luyện HMM : Nhận dạng với HMM: 
Đầu vào gồm T frame các đặc trưng Đầu vào gồm T frame các đặc trưng 
MFCC. MFCC. 
Bước 1: Xác định dãy trạng thái tối ưu Giải mã theo Viterbi để xác định tập 
bằng thuật toán Viterbi: nhãn, và dãy trạng thái tối ưu ứng với bộ 
 T
 T tham số mô hình HMM đã cho: 
S ({ st } t 1 ) arg max log p ( O t  , W ) 
 t 1 
Bước 2: Hiệu chỉnh lại tham số mô hình 
HMM: 
Bước 3: Đặt =*, lặp lại tới khi mô hình 
hội tụ. 
 Khi ứng dụng thuật toán nhận dạng HMM trên cho việc nhận dạng tiếng nói liên 
tục không phụ thuộc người nói, hệ thống thường suy giảm độ chính xác với những 
người nói có có đặc trưng giọng nói không phù hợp với những mẫu giọng được sử 
dụng để huấn luyện mô hình HMM. 
 Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ 
cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu tiếng Việt [6] 
[20][62]. Các tiếp cận này chủ yếu vẫn ghép trực tiếp đặc trưng thanh điệu vào các kiểu 
 T
đặc trưng tiếTng nói như MFCC, PLP[53][62]. Có mộ(Wt ti , Sế p { scậ }Tn ) khác arg maxsử dụ logng p ( giáO ,tr sị ) 
 * t t 1  t t
 t 1
 arg max logp ( Ott , s , W )
đường F0, cáct 1 tần số formant để xây dựng một phép hiệu chỉnh lại các đặc trưng 
MFCC, dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả quá trình huấn 
luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống không phụ thuộc người 
nói được cải thiện đáng kế. 
 110 
 Phần này trình bày phương pháp ghép trực tiếp giá trị đường F0 vào các vector 
đặc trưng MFCC đã được hiệu chỉnh theo VTLN và thử nghiệm trong các hệ thống 
nhận dạng tên riêng tiếng Việt phát âm liên tục và độc lập người nói. 
4.2.1. Phép chuẩn hóa VTLN 
 Các hệ nhận dạng tiếng nói thường trích chọn đặc trưng của mỗi khung tiếng nói 
(độ dài 10ms-25ms) theo kiểu MFCC ở thang tần số mel dựa trên đặc điểm cảm thụ tần 
số âm của tai người, tuy vậy các hệ số MFCC không thể hiện được các biến thể bên 
trong của mỗi người nói như VTL (vocal tract length, độ dài bộ cấu âm), dẫn đến việc 
suy giảm chất lượng nhận dạng trong các hệ thống nhận dạng độc lập người nói. 
 VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ 
các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận 
chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học 
của người nói như các tần số formant, hai là cách duyệt trên lưới của tham số hiệu 
chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng. 
 Hình 4. 3. Hiệu chỉnh tần số và trích chọn đặc trưng MFCC 
 Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi 
FFT: X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của 
tín hiệu. Sử dụng M bộ lọc tam giác với khoảng cách giữa các vị trí k trong thang tần 
số mel: 
  
 k 1 ,[,]  
  kk 1
 kk 1 2 (4.4) 
 Bk () , Y()()() m B X ,0 m M-1 (*) 
   k
 k 1 ,[,]    [,] kk 11 
 kk 1
 kk 1 
 111 
 1
 M 1 nm 
 2
 MFCC(n) =  cos log Y ( m ) , 0 n N-1 (4.5) 
 m 0 M
 Khi đó với phép hiệu chỉnh tần số có dạng ’= () thì công thức (*) trở thành : 
 2 (4.6) 
 Y( m )  Bk ( ) X ( (  )) 
  [,] kk 11 
 Bảng dưới đây cho ta một số dạng biến đổi tuyến tính và phi tuyến của hàm 
  fs
 (), sử dụng hàm z mel( ) 1127ln 1 ,  [0, ] và fs là tần số lấy mẫu. 
 2 700
 Bảng 4. 2. Một số dạng của phép hiệu chỉnh tần số 
 Dạng biến đổi Công thức biến đổi 
 Phi tuyến trong miền 1 (1  )sin( )
 (  )  2tan 
 tần số 1 (1  )c os( )
 Tuyến tính từng đoạn 2
 ab , l
 1 1
 trong miền tần số 
 1 ,   22
 (**)()  0 ;[]()HTK  1  ,  lu ,
 11
 bc ,  0 11 
 2
 cd , u
 1 1
 Dịch chuyển trong 
 1127 1127
 (  ) ee  700( 1) (ứng với W (z)=z+ ) 
 miền mel 
 Tuyến tính từng đoạn zzl min
 zmin (), z zll z z
 zzl min
 trong miền mel Wz () 
 1127 
 ()700  e 1, W () z z , z [z,z]lu
 zzmuax 
 zu (), z z u z z u
 zzmuax 
 Tham số [ min, max] (ở đây min = 0.85, max = 1.15) đặc trưng cho mỗi người 
nói có thể được ước lượng tự động từ các giá trị trung bình của formant F3 của tiếng 
 112 
nói đầu vào và của tập huấn luyện [76]. Trong [40] các tác giả ước lượng dựa trên giá 
trị trung bình của đường F0 của câu phát âm. 
 Kiểm nghiệm nhận dạng trên tập tên riêng các trường học chúng tôi thấy phương 
pháp ước lượng này không tăng được đáng kể độ chính xác nhận dạng, do phương 
pháp này mới chỉ nhấn mạnh vào việc thích ứng với lớp giọng có tần số cơ bản cao và 
thấp. Ngoài ra, việc chuẩn hóa VTL cho từng người nói theo phương pháp này tuy đạt 
được hiệu quả về tốc độ xử lý nhưng không thích ứng được với hình dạng đường F0 
của các câu tiếng Việt biến đổi mạnh theo các thanh điệu của âm tiết, giữa giọng nữ và 
giọng nam. 
 Sử dụng chính hàm mục tiêu của các mô hình HMM ( , ), tham số hiệu chỉnh 
tần số [ min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào 
[15][26][50][59][77][73] theo công thức sau: 
 T
 T
 (W , S { st } t 1 ) arg max log p ( O t , s t )
 t 1 (4.7) 
 T
 arg max logp ( O  , s ), O O ( )
 [,] min m ax  t t t t 
 t 1
4.2.2. Tổ hợp giá trị F0 và chuẩn hóa VTLN 
 Phương pháp ghép giá trị F0 vào các hệ số MFCC đã được nắn lại sau phép hiệu 
chỉnh tần số đề xuất trong nghiên cứu của tác giả được thực hiện gồm 4 bước chính 
sau: 
Bước 1. Xác định tham số và hiệu chỉnh lại các vector đặc trưng MFCC nhờ phương 
pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu ở bước 4) 
Bước 2. Tính F0 theo thuật toán RAPT, nội suy xác định giá trị liên tục của đường F0 
trên cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0. 
Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh 
 Thuật toán xác định tham số hiệu chỉnh dựa trên phương pháp huấn luyện hợp 
lý cực đại ML (maximum likelihood) được cài đặt như sau : 
 113 
Bước 4. Huấn luyện và giải mã. 
Giai đoạn huấn luyện : 
 Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame 
Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi: 
 T
 T 
 S ({ st } t 1 ) arg max log p ( O t , W ), O t O t ( )
 t 1
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : 
 T
 * arg max logp ( O  , s ), O O ( ) 
 [,] min m ax  t t t t 
 t 1
Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và 
tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM: 
 T
 **
 * arg max logp ( O  , s , W ), O O ( ) 
  t t t t *
 t 1
Bước 4: Đặt = *, và =*, lặp lại tới khi mô hình hội tụ. 
Giai đoạn giải mã (nhận dạng): 
 Với một phát âm đầu vào gồm T frame 
Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ 
tham số mô hình HMM đã cho: 
 T
 T 
 (W , S { st } t 1 ) arg max log p ( O t , s t )
 t 1
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : 
Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra: 
 T
 * * 
 W arg max log p ( Ott , s )
 t 1 (4.8) 
 Do thuật toán HMM chuẩn có độ phức tạp là O(VN2T), ở đây N là số trạng thái 
của mô hình HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong 
thử nghiệm này, là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu 
vào , nên độ phức tạp của thuật toán HMM có kết hợp với VTLN là O(KVN2T), trong 
 114 
 đó K là số giá trị rời rạc hóa trên lưới giá trị của tham số [ min, max] (ở đây min = 
 0.85, max = 1.15, mức rời rạc hóa theo bước 0.0001) 
Thử nghiệm trên tập tên riêng phức tạp 
 Vấn đề nhận dạng tên “name entity recognition” là một vấn đề mở, tương đối 
 phức tạp, vẫn đang được nghiên cứu trong lĩnh vực nhận dạng tiếng nói [86] [84]. Do 
 vậy để kiểm nghiệm thuật toán chuẩn hóa VTLN kết hợp thông tin ngôn điệu, chúng 
 tôi đã thiết lập thực nghiệm nhận dạng tên của khoảng 300 trường Đại học và Cao đẳng 
 trong nước (một số tên trường có thể không còn trong thực tế). 
 Tập tên riêng này có các đặc điểm sau: 
 Tên trường chứa hơn 200 từ đa âm tiết tiếng Việt bao gồm tên địa danh cổ, tỉnh 
 thành, tên các danh nhân, ngành nghề, phiên âm tiếng nước ngoài, số đếm chỉ chi 
 nhánh trường. 
 Độ dài của một tên trường : ngắn nhất 4 âm tiết, dài nhất 15 âm tiết. 
 Không có 2 âm tiết nào có cùng âm tiết gốc (âm không mang thanh điệu). 
 Các tên trường có sự trùng lặp âm tiết lớn như các cặp tên trường sau 
 {Học viện hành chính quốc gia, Học viện hành chính quốc gia Hồ Chí Minh} 
 {ĐH dân lập Văn Lang, Đại học dân lập Văn hiến} 
 {Trường sỹ quan lục quân một, Trường sỹ quan lục quân hai} 
 {ĐH dân lập Thăng Long, ĐH dân lập Cửu Long} 
 {ĐH lâm nghiệp, ĐH nông nghiệp} 
 {ĐH dân lập Bình Dương, ĐH dân lập Hùng Vương} 
 {ĐH Sư phạm kỹ thuật, ĐH Sư phạm mỹ thuật} 
 Dữ liệu huấn luyện nhanh các mô hình HMM của các âm vị tiếng Việt là các bài 
 đọc truyện và tin tức của 2 phát thanh viên (một nam, một nữ giọng Hà Nội) của đài 
 tiếng nói Việt Nam, có khoảng 23000 câu với dung lượng dữ liệu hơn 1GB. 
 115 
 Hình 4.4: Câu “Các em đã nhận thức thế nào về hoàn cảnh ấy” đã được gán nhãn 
 Dữ liệu huấn luyện thích ứng được ghi bởi giọng đọc của 12 nam, 10 nữ sinh 
viên, môi trường tín hiệu trong lớp học trên giảng đường, mỗi sinh viên đọc 300 tên 
trường đúng một lượt. Tín hiệu thu có tần số lấy mẫu 11025Hz, đơn kênh 16 bit và có 
nhiễu. 
 Dữ liệu kiểm tra hệ thống nhận dạng là giọng đọc của 3 nam, 6 nữ sinh viên và 
một giọng nữ tiếng miền Nam, được thu trong cùng môi trường tín hiệu như với dữ liệu 
huấn luyện thích ứng. 
 Khi tiến hành thử nghiệm, chúng tôi sử dụng phiên bản HTK 3.4 để huấn luyện, 
kiểm thử và trích chọn đặc trưng MFCC thông thường. 
 Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm, 
nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được 
huấn luyện. 
 Do tập nhận dạng là tập tên các trường Đại học – Cao đẳng được cố định nên hệ 
thống thử nghiệm chỉ sử dụng văn phạm câu biểu diễn bằng mạng mà không sử dụng 
mô hình ngôn ngữ (xem [81] và bảng minh họa một phần mạng câu trong phụ lục). 
 116 
 Giá trị đường F0 và các vector đặc trưng MFCC được trích chọn với các frame độ 
dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc 
trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13 
hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector 
MFCC và ghép giá trị F0 sử dụng phương pháp đã trình bày ở trên. 
 Bảng 4. 3. Bảng kết quả thực nghiệm kiểm tra 
Người Đặc trưng chuẩn Đặc trưng MFCC + F0 VTLN-MFCC + F0 
 đọc MFCC 
 mức từ mức câu mức từ mức câu mức từ mức câu 
 Nu1 93,8 82,2 92,7 81,2 96,7 88,5 
 Nu2 97,0 86,3 97,3 88,4 97,6 89,4 
 Nu3 95,5 82,8 93,4 78,7 96,4 87,8 
 Nu4 97,4 90,9 97,0 88,8 97,6 91,9 
 Nu5 95,5 85,1 97,1 91,0 98,9 97,0 
 Nu6 86,7 67,7 88,1 72,9 91,8 81,2 
 Nu7 95,7 84,6 96,9 89,9 98,1 93,8 
Nam1 98,6 92,9 98,5 92,9 98,9 94,9 
Nam2 95,3 79,0 96,5 86,0 97,3 88,0 
Nam3 97,1 88,8 97,7 93,9 98,6 96,2 
Trung 95,3 84,6 95,6 86,4 97,1 90,6 
 bình 
 Các thực nghiệm cho thấy các biến đổi tần số kiểu “tịnh tiến” trong miền mel cho 
kết quả thấp hơn một chút so với phép biến đổi theo hệ số tỉ lệ. Bảng 4.3 được cho với 
phép biến đổi tần số theo phương pháp của HTK (xem bảng 4.2). 
 Quan sát bảng thực nghiệm 4.3, kết quả nhận dạng của “Nu6” thấp do đây là một 
giọng nói tiếng miền Nam, thanh điệu và các tham số VTL hoàn toàn khác so với các 
giọng đọc trong tập huấn luyện (chỉ có giọng miền Bắc). 
 117 
 Hình 4. 5. MFCC chuẩn, câu “ĐH Mỹ thuật TP.HCM“ 
 Nhận dạng nhầm thành: “ĐH luật TP. HCM”. 
 Áp dụng phép hiệu chỉnh VTLN cho giọng “Nu6”, cho kết quả nhận dạng đúng. 
 Người nói “Nam2” thực tế kết quả nhận dạng sẽ cao hơn nhiều, lỗi xảy ra do 
người đọc đã nhầm một số âm tiết của tên trường, hệ thống giải mã cho HMM đã nhận 
dạng phát âm này về tên trường có trong tập từ vựng, chẳng hạn như: 
 Bảng 4. 4. Bảng kết quả giải mã tên trường của người đọc. 
 Phát âm Kết quả giải mã cho tên đúng 
 ĐH dân lập kỹ thuật công nghiệp ĐH dân lập kỹ thuật công nghệ 
 ĐH Thái Bình ĐH Y Thái Bình 
 Học viện bưu chính viễn TP. HCM Học viện bưu chính viễn thông TP. 
 HCM 
 ĐH ngoại thương Đà Nẵng ĐH ngoại ngữ Đà Nẵng 
 Cột giải mã cho tên đúng thể hiện đặc tính “dự đoán của hệ nhận dạng tiêng 
nói“, dù rằng người thử nghiệm phát âm một tên trường không hoàn toàn chính 
xác, hệ thống đã dự báo để trả lại một tên trong cơ sở dữ liệu giống nhất dựa trên 
đồ thị chuyển trạng các âm vị của cơ sở dữ liệu tên riêng. 
 118 
4.2.3. Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant 
 Sử dụng chính hàm mục tiêu của các mô hình HMM ( , ), tham số hiệu chỉnh 
tần số [ min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào 
[15][73][74] theo công thức sau: 
 (4.9) 
 Xác định tham số theo phương pháp này cần sử dụng các kết quả trung gian khi 
xử lý mô hình HMM của hệ thống nhận dạng tiếng nói liên tục: 
 Lưu lại toàn bộ đặc trưng MFCC gốc của các frame tín hiệu tiếng nói đã được 
 Bộ phát hiện kết thúc quá trình duyệt lưới trạng thái HMM. 
 Bộ trả về từ - kết quả của phép nhận dạngT và vị trí theo thời gian cho từng âm vị 
 T
 (W , S { st } t 1 ) arg max log p ( O t , s t )
 (forced alignment, phân đoạn cưỡng bức).t 1 
 T
 Dựa trên các thông arg tin maxnày, hệ thống duy logpệ (t Otìm  tham , s ), O số O khi ( cho ) thay đổi trong 
 [,] min m ax  t t t t 
 t 1
khoảng [ min, max] và tính các xác suất trạng thái HMM tương ứng trên các MFCC 
hiệu chỉnh theo của frame tiếng nói đã được định vị. Cuối cùng hệ thống gọi lại phép 
giải mã HMM nhưng với dãy đặc trưng MFCC đã được hiệu chỉnh bằng VTLN. 
 Với một phát âm đầu vào gồm T frame: 
Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ 
tham số mô hình HMM đã cho: 
 T
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : T
 (W , S { st } t 1 ) arg max log p ( O t , s t )
 t 1
 T
 * arg max logp ( O  , s ), O O ( ) 
 [,] min m ax  t t t t 
 t 1
Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra: 
 T
 *
 * 
 W arg max log p ( Ott , s )
 t 1
 119 
 Quy trình nhận dạng trên tiêu tốn bộ nhớ và thời gian tính toán, không thích hợp 
trong các ứng dụng nhận dạng thời gian thực được xây dựng trên nền các hệ thống tài 
nguyên hạn chế. 
 Theo hướng ước lượng tham số VTLN dựa trên các tham số ngữ âm như F0 và 
formant, trong [40] các tác giả ước lượng dựa trên giá trị trung bình của đường F0 của 
câu phát âm tuy nhiên khi tiến hành thử nghiệm chúng tôi nhận thấy phương pháp ước 
lượng này kém chính xác khi áp dụng cho tiếng Việt do tiếng Việt có một số thanh điệu 
có sự biến đổi mạnh về đường F0 như thanh nặng và thanh ngã. 
 Trong [76] các tác giả đã đề xuất cách ước lượng VTLN tự động từ các giá trị 
trung bình của formant F3 của tiếng nói đầu vào và của tập huấn luyện, tuy nhiên các 
tác giả không đưa ra cách tính trong trường hợp thời gian thực và trong trường hợp 
frame tiếng nói đầu vào là vô thanh (các giá trị F0, formant không xác định được) 
4.2.3.1. Xấp xỉ giá trị trung bình trong thời gian thực 
 Nếu cho trước N hữu hạn số thực x1, x2,,xN thì dễ dàng tính được giá trị trung 
 N
  xk
bình x k 1 . Phép tính giá trị trung bình tuy đơn giản nhưng được sử dụng hiệu 
 mean N
quả trong phép chuẩn hóa đặc trưng MFCC để giảm thiểu sai lệch về phổ giữa đặc 
trưng của tập người huấn luyện và đặc trưng của người nói mới. 
 N
 N
 mfcck
 N 
 mfcc mfcc mfcc k 1
 utt kk 1  k 
 N
  k 1
Ở đây N là số frame của ngữ đoạn tiếng nói, mfcc N là dãy N vector đặc trưng 
 k k 1
MFCC của N frame. Trong [12] [39] các tác giả đã chứng tỏ chỉ với phép chuẩn hóa 
CMN đã cải thiện được độ chính xác nhận dạng tiếng nói. Trong thời gian thực, số 
frame không được xác định cho tới khi bộ tìm kiếm điểm đầu và cuối (Endpoint 
detector) phát hiện được. 
 120 
Vấn đề có thể phát biểu hình thức như sau: 
 Cho trước x là dãy vector số có số chiều hữu hạn , xác định dãy vector 
 nn 1
 y như sau: y = y +x , y = y + x , n=2,3, , (0,1), + =1, y = 0 
 n n 1 1 0 1 n n-1 n 0
hoặc được xác định trước. 
 Trong các ứng dụng xử lý tín hiệu số, tiếng nói hoặc dữ liệu ảnh thường các 
vector xn biến đổi xung quanh một giá trị trung bình (tổng quát là kiểu các biến ngẫu 
nhiên có cùng phân bố)sau khi phép tiền xử lý tín hiệu đã đi qua một phép phân cụm, 
phân loại tín hiệu (chẳng hạn phép phân loại tín hiệu nền/nhiễu/tiếng nói trong xử lý 
tiếng nói.) 
Ký hiệu x là độ dài của vector x. Ta có các mệnh đề sau thể hiện tính chất của CMN: 
Mệnh đề 1:  N > 1, n>N 
 nn 1
 xxkk
 2axNmxk (1)ax n Nmxx n k 2ax Nmx k ( nNmxx )ax n k 
 yy k 1  k 1 1 k N k n 1 k N k n
 nnn 1 n 11 n n n
 Chứng minh : do + =1 ta có, 
 n n 11 n n 
 x x x x
 kk  kk  
 y k 1  y k 1 k 1 x x k 1 
 nn n 1 n 11 n n n n n 
 Từ đó suy ra ước lượng trên. 
 Từ ước lượng này ta thấy để yn gần giá trị trung bình thông thường của x1,x2,,xn 
ta có thể chọn  rất gần 0. 
Mệnh đề 2: 
  N > 1, n > N. 
 N
 yn N y2 N y n y N max x n l N x l 
 N 1 l n N
 Chứng minh : 
 121 
 yyyymn mn 1 1  xxyy mnmn yy mn 1 1  xx mn , tương 
tự 
 ym 1 y n 1  y m 2 y n 2 x m 1 x n 1 , 
 2
 ym y n y m 2 y n 2  x m 1 x n 1 x m x n 
 Bằng quy nạp ta có: 
 N 1
 Nk
 ym y n y m N y n N  x m k x n k 
 k 0
 Suy ra: 
 NN 11
 N k N k
 yynNN 22 yy nN  xx nNkNk yymxx nN ax nlNl 
 N 1 l n N
 kk 00
 N 1
 k 1 N
 Do   1 nên yn N y2 N y n y N max x n l N x l 
  N 1 l n N
 k 0 1 
Mệnh đề 3: xy  là dãy có tổn

File đính kèm:

  • pdfluan_an_nghien_cuu_cac_dac_trung_tin_hieu_va_rang_buoc_ngon.pdf
  • pdfThong tin dong gop LA_ Ngo Hoang Huy.pdf
  • pdfTom Tat LATS Ngo Hoang Huy.pdf