Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt
luận giá trị đường F0 được chuyển sang miền logarit và chuẩn hóa về trung bình và độ lệch với kết quả tốt nhất là 70,44% trong các thử nghiệm. T1T8 Phân lớp Nơ ron Chuẩn hóa Tính đặc trưng thanh điệu Trích chọn F0 Sóng âm tiết Hình 4. 2. Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc (4.1) (4.2) ju min j : j j max , E j 1 0.9 E m ax , E j 0.9 E m ax (4.3) jl max j : j j u , E j 0.1 E max , E j 1 0.1 E m ax Để tăng độ chính xác của kết quả nhận dạng thông qua mạng nơ ron dựa trên tri thức về sự phụ thuộc thanh vào trường độ âm tiết, chúng tôi sử dụng các luật Heuristic sau để loại nhanh một số trường hợp: 108 Luật 1: trung bình (F0) > Fbeas thanh cao ngược lại thanh thấp. Luật 2: Dur(F) > D0 (ms): không phải các âm tiết có phụ âm cuối là p-t-c FFmax min Luật 3: Frate : không phải thanh huyền. Fmid Trong [6], tác giả đã sử dụng các đặc trưng của một thanh điệu tiếng Việt gồm: F0 ban đầu, F0 sau cùng, giá trị độ tăng của F0, trường độ thanh điệu, tỷ số giảm của năng lượng, kết hợp với cấc luật 1, 2, 3 (trong thực nghiệm, tham số D0=300, Fbeas =200, Frate = 0.3 (ứng với giọng nữ được kiểm tra trên) trên để nhận dạng 8 hiện tượng thanh điệu tiếng Việt, âm tiết rời rac, phụ thuộc người nói với kết quả nhận dạng trên 93%. Đây cũng là kết quả được báo cáo trong đề tài KC.01.03 [90]. STT Thanh điệu Số mẫu huấn Số mẫu kiểm Kết quả(%) liệu tra 1 Thanh ngã(x) 214 54 96.20 2 Thanh huyền(f) 422 110 99 3 Thanh hỏi (r) 394 101 93.06 4 Thanh ngang (middle) 438 215 96.70 5 Thanh sắc(s) 417 182 98,30 6 Thanh sắc có kết thúc 273 78 97,40 âm tiết /p/, /t/, /k/ (s2) 7 Thanh nặng (j) 341 94 98,90 8 Thanh nặng có kết thúc 187 46 93,40 âm tiết /p/, /t/, /k/ (j2) 4.2. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0 Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu, các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một 109 vấn đề tất yếu nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa trên đặc trưng chuẩn MFCC và quy trình huấn luyện và nhận dạng theo thuật toán sau: Bảng 4. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC Huấn luyện HMM : Nhận dạng với HMM: Đầu vào gồm T frame các đặc trưng Đầu vào gồm T frame các đặc trưng MFCC. MFCC. Bước 1: Xác định dãy trạng thái tối ưu Giải mã theo Viterbi để xác định tập bằng thuật toán Viterbi: nhãn, và dãy trạng thái tối ưu ứng với bộ T T tham số mô hình HMM đã cho: S ({ st } t 1 ) arg max log p ( O t , W ) t 1 Bước 2: Hiệu chỉnh lại tham số mô hình HMM: Bước 3: Đặt =*, lặp lại tới khi mô hình hội tụ. Khi ứng dụng thuật toán nhận dạng HMM trên cho việc nhận dạng tiếng nói liên tục không phụ thuộc người nói, hệ thống thường suy giảm độ chính xác với những người nói có có đặc trưng giọng nói không phù hợp với những mẫu giọng được sử dụng để huấn luyện mô hình HMM. Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu tiếng Việt [6] [20][62]. Các tiếp cận này chủ yếu vẫn ghép trực tiếp đặc trưng thanh điệu vào các kiểu T đặc trưng tiếTng nói như MFCC, PLP[53][62]. Có mộ(Wt ti , Sế p { scậ }Tn ) khác arg maxsử dụ logng p ( giáO ,tr sị ) * t t 1 t t t 1 arg max logp ( Ott , s , W ) đường F0, cáct 1 tần số formant để xây dựng một phép hiệu chỉnh lại các đặc trưng MFCC, dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả quá trình huấn luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống không phụ thuộc người nói được cải thiện đáng kế. 110 Phần này trình bày phương pháp ghép trực tiếp giá trị đường F0 vào các vector đặc trưng MFCC đã được hiệu chỉnh theo VTLN và thử nghiệm trong các hệ thống nhận dạng tên riêng tiếng Việt phát âm liên tục và độc lập người nói. 4.2.1. Phép chuẩn hóa VTLN Các hệ nhận dạng tiếng nói thường trích chọn đặc trưng của mỗi khung tiếng nói (độ dài 10ms-25ms) theo kiểu MFCC ở thang tần số mel dựa trên đặc điểm cảm thụ tần số âm của tai người, tuy vậy các hệ số MFCC không thể hiện được các biến thể bên trong của mỗi người nói như VTL (vocal tract length, độ dài bộ cấu âm), dẫn đến việc suy giảm chất lượng nhận dạng trong các hệ thống nhận dạng độc lập người nói. VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học của người nói như các tần số formant, hai là cách duyệt trên lưới của tham số hiệu chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng. Hình 4. 3. Hiệu chỉnh tần số và trích chọn đặc trưng MFCC Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi FFT: X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của tín hiệu. Sử dụng M bộ lọc tam giác với khoảng cách giữa các vị trí k trong thang tần số mel: k 1 ,[,] kk 1 kk 1 2 (4.4) Bk () , Y()()() m B X ,0 m M-1 (*) k k 1 ,[,] [,] kk 11 kk 1 kk 1 111 1 M 1 nm 2 MFCC(n) = cos log Y ( m ) , 0 n N-1 (4.5) m 0 M Khi đó với phép hiệu chỉnh tần số có dạng ’= () thì công thức (*) trở thành : 2 (4.6) Y( m ) Bk ( ) X ( ( )) [,] kk 11 Bảng dưới đây cho ta một số dạng biến đổi tuyến tính và phi tuyến của hàm fs (), sử dụng hàm z mel( ) 1127ln 1 , [0, ] và fs là tần số lấy mẫu. 2 700 Bảng 4. 2. Một số dạng của phép hiệu chỉnh tần số Dạng biến đổi Công thức biến đổi Phi tuyến trong miền 1 (1 )sin( ) ( ) 2tan tần số 1 (1 )c os( ) Tuyến tính từng đoạn 2 ab , l 1 1 trong miền tần số 1 , 22 (**)() 0 ;[]()HTK 1 , lu , 11 bc , 0 11 2 cd , u 1 1 Dịch chuyển trong 1127 1127 ( ) ee 700( 1) (ứng với W (z)=z+ ) miền mel Tuyến tính từng đoạn zzl min zmin (), z zll z z zzl min trong miền mel Wz () 1127 ()700 e 1, W () z z , z [z,z]lu zzmuax zu (), z z u z z u zzmuax Tham số [ min, max] (ở đây min = 0.85, max = 1.15) đặc trưng cho mỗi người nói có thể được ước lượng tự động từ các giá trị trung bình của formant F3 của tiếng 112 nói đầu vào và của tập huấn luyện [76]. Trong [40] các tác giả ước lượng dựa trên giá trị trung bình của đường F0 của câu phát âm. Kiểm nghiệm nhận dạng trên tập tên riêng các trường học chúng tôi thấy phương pháp ước lượng này không tăng được đáng kể độ chính xác nhận dạng, do phương pháp này mới chỉ nhấn mạnh vào việc thích ứng với lớp giọng có tần số cơ bản cao và thấp. Ngoài ra, việc chuẩn hóa VTL cho từng người nói theo phương pháp này tuy đạt được hiệu quả về tốc độ xử lý nhưng không thích ứng được với hình dạng đường F0 của các câu tiếng Việt biến đổi mạnh theo các thanh điệu của âm tiết, giữa giọng nữ và giọng nam. Sử dụng chính hàm mục tiêu của các mô hình HMM ( , ), tham số hiệu chỉnh tần số [ min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào [15][26][50][59][77][73] theo công thức sau: T T (W , S { st } t 1 ) arg max log p ( O t , s t ) t 1 (4.7) T arg max logp ( O , s ), O O ( ) [,] min m ax t t t t t 1 4.2.2. Tổ hợp giá trị F0 và chuẩn hóa VTLN Phương pháp ghép giá trị F0 vào các hệ số MFCC đã được nắn lại sau phép hiệu chỉnh tần số đề xuất trong nghiên cứu của tác giả được thực hiện gồm 4 bước chính sau: Bước 1. Xác định tham số và hiệu chỉnh lại các vector đặc trưng MFCC nhờ phương pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu ở bước 4) Bước 2. Tính F0 theo thuật toán RAPT, nội suy xác định giá trị liên tục của đường F0 trên cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0. Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh Thuật toán xác định tham số hiệu chỉnh dựa trên phương pháp huấn luyện hợp lý cực đại ML (maximum likelihood) được cài đặt như sau : 113 Bước 4. Huấn luyện và giải mã. Giai đoạn huấn luyện : Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi: T T S ({ st } t 1 ) arg max log p ( O t , W ), O t O t ( ) t 1 Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : T * arg max logp ( O , s ), O O ( ) [,] min m ax t t t t t 1 Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM: T ** * arg max logp ( O , s , W ), O O ( ) t t t t * t 1 Bước 4: Đặt = *, và =*, lặp lại tới khi mô hình hội tụ. Giai đoạn giải mã (nhận dạng): Với một phát âm đầu vào gồm T frame Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho: T T (W , S { st } t 1 ) arg max log p ( O t , s t ) t 1 Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra: T * * W arg max log p ( Ott , s ) t 1 (4.8) Do thuật toán HMM chuẩn có độ phức tạp là O(VN2T), ở đây N là số trạng thái của mô hình HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong thử nghiệm này, là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu vào , nên độ phức tạp của thuật toán HMM có kết hợp với VTLN là O(KVN2T), trong 114 đó K là số giá trị rời rạc hóa trên lưới giá trị của tham số [ min, max] (ở đây min = 0.85, max = 1.15, mức rời rạc hóa theo bước 0.0001) Thử nghiệm trên tập tên riêng phức tạp Vấn đề nhận dạng tên “name entity recognition” là một vấn đề mở, tương đối phức tạp, vẫn đang được nghiên cứu trong lĩnh vực nhận dạng tiếng nói [86] [84]. Do vậy để kiểm nghiệm thuật toán chuẩn hóa VTLN kết hợp thông tin ngôn điệu, chúng tôi đã thiết lập thực nghiệm nhận dạng tên của khoảng 300 trường Đại học và Cao đẳng trong nước (một số tên trường có thể không còn trong thực tế). Tập tên riêng này có các đặc điểm sau: Tên trường chứa hơn 200 từ đa âm tiết tiếng Việt bao gồm tên địa danh cổ, tỉnh thành, tên các danh nhân, ngành nghề, phiên âm tiếng nước ngoài, số đếm chỉ chi nhánh trường. Độ dài của một tên trường : ngắn nhất 4 âm tiết, dài nhất 15 âm tiết. Không có 2 âm tiết nào có cùng âm tiết gốc (âm không mang thanh điệu). Các tên trường có sự trùng lặp âm tiết lớn như các cặp tên trường sau {Học viện hành chính quốc gia, Học viện hành chính quốc gia Hồ Chí Minh} {ĐH dân lập Văn Lang, Đại học dân lập Văn hiến} {Trường sỹ quan lục quân một, Trường sỹ quan lục quân hai} {ĐH dân lập Thăng Long, ĐH dân lập Cửu Long} {ĐH lâm nghiệp, ĐH nông nghiệp} {ĐH dân lập Bình Dương, ĐH dân lập Hùng Vương} {ĐH Sư phạm kỹ thuật, ĐH Sư phạm mỹ thuật} Dữ liệu huấn luyện nhanh các mô hình HMM của các âm vị tiếng Việt là các bài đọc truyện và tin tức của 2 phát thanh viên (một nam, một nữ giọng Hà Nội) của đài tiếng nói Việt Nam, có khoảng 23000 câu với dung lượng dữ liệu hơn 1GB. 115 Hình 4.4: Câu “Các em đã nhận thức thế nào về hoàn cảnh ấy” đã được gán nhãn Dữ liệu huấn luyện thích ứng được ghi bởi giọng đọc của 12 nam, 10 nữ sinh viên, môi trường tín hiệu trong lớp học trên giảng đường, mỗi sinh viên đọc 300 tên trường đúng một lượt. Tín hiệu thu có tần số lấy mẫu 11025Hz, đơn kênh 16 bit và có nhiễu. Dữ liệu kiểm tra hệ thống nhận dạng là giọng đọc của 3 nam, 6 nữ sinh viên và một giọng nữ tiếng miền Nam, được thu trong cùng môi trường tín hiệu như với dữ liệu huấn luyện thích ứng. Khi tiến hành thử nghiệm, chúng tôi sử dụng phiên bản HTK 3.4 để huấn luyện, kiểm thử và trích chọn đặc trưng MFCC thông thường. Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm, nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được huấn luyện. Do tập nhận dạng là tập tên các trường Đại học – Cao đẳng được cố định nên hệ thống thử nghiệm chỉ sử dụng văn phạm câu biểu diễn bằng mạng mà không sử dụng mô hình ngôn ngữ (xem [81] và bảng minh họa một phần mạng câu trong phụ lục). 116 Giá trị đường F0 và các vector đặc trưng MFCC được trích chọn với các frame độ dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13 hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector MFCC và ghép giá trị F0 sử dụng phương pháp đã trình bày ở trên. Bảng 4. 3. Bảng kết quả thực nghiệm kiểm tra Người Đặc trưng chuẩn Đặc trưng MFCC + F0 VTLN-MFCC + F0 đọc MFCC mức từ mức câu mức từ mức câu mức từ mức câu Nu1 93,8 82,2 92,7 81,2 96,7 88,5 Nu2 97,0 86,3 97,3 88,4 97,6 89,4 Nu3 95,5 82,8 93,4 78,7 96,4 87,8 Nu4 97,4 90,9 97,0 88,8 97,6 91,9 Nu5 95,5 85,1 97,1 91,0 98,9 97,0 Nu6 86,7 67,7 88,1 72,9 91,8 81,2 Nu7 95,7 84,6 96,9 89,9 98,1 93,8 Nam1 98,6 92,9 98,5 92,9 98,9 94,9 Nam2 95,3 79,0 96,5 86,0 97,3 88,0 Nam3 97,1 88,8 97,7 93,9 98,6 96,2 Trung 95,3 84,6 95,6 86,4 97,1 90,6 bình Các thực nghiệm cho thấy các biến đổi tần số kiểu “tịnh tiến” trong miền mel cho kết quả thấp hơn một chút so với phép biến đổi theo hệ số tỉ lệ. Bảng 4.3 được cho với phép biến đổi tần số theo phương pháp của HTK (xem bảng 4.2). Quan sát bảng thực nghiệm 4.3, kết quả nhận dạng của “Nu6” thấp do đây là một giọng nói tiếng miền Nam, thanh điệu và các tham số VTL hoàn toàn khác so với các giọng đọc trong tập huấn luyện (chỉ có giọng miền Bắc). 117 Hình 4. 5. MFCC chuẩn, câu “ĐH Mỹ thuật TP.HCM“ Nhận dạng nhầm thành: “ĐH luật TP. HCM”. Áp dụng phép hiệu chỉnh VTLN cho giọng “Nu6”, cho kết quả nhận dạng đúng. Người nói “Nam2” thực tế kết quả nhận dạng sẽ cao hơn nhiều, lỗi xảy ra do người đọc đã nhầm một số âm tiết của tên trường, hệ thống giải mã cho HMM đã nhận dạng phát âm này về tên trường có trong tập từ vựng, chẳng hạn như: Bảng 4. 4. Bảng kết quả giải mã tên trường của người đọc. Phát âm Kết quả giải mã cho tên đúng ĐH dân lập kỹ thuật công nghiệp ĐH dân lập kỹ thuật công nghệ ĐH Thái Bình ĐH Y Thái Bình Học viện bưu chính viễn TP. HCM Học viện bưu chính viễn thông TP. HCM ĐH ngoại thương Đà Nẵng ĐH ngoại ngữ Đà Nẵng Cột giải mã cho tên đúng thể hiện đặc tính “dự đoán của hệ nhận dạng tiêng nói“, dù rằng người thử nghiệm phát âm một tên trường không hoàn toàn chính xác, hệ thống đã dự báo để trả lại một tên trong cơ sở dữ liệu giống nhất dựa trên đồ thị chuyển trạng các âm vị của cơ sở dữ liệu tên riêng. 118 4.2.3. Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant Sử dụng chính hàm mục tiêu của các mô hình HMM ( , ), tham số hiệu chỉnh tần số [ min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào [15][73][74] theo công thức sau: (4.9) Xác định tham số theo phương pháp này cần sử dụng các kết quả trung gian khi xử lý mô hình HMM của hệ thống nhận dạng tiếng nói liên tục: Lưu lại toàn bộ đặc trưng MFCC gốc của các frame tín hiệu tiếng nói đã được Bộ phát hiện kết thúc quá trình duyệt lưới trạng thái HMM. Bộ trả về từ - kết quả của phép nhận dạngT và vị trí theo thời gian cho từng âm vị T (W , S { st } t 1 ) arg max log p ( O t , s t ) (forced alignment, phân đoạn cưỡng bức).t 1 T Dựa trên các thông arg tin maxnày, hệ thống duy logpệ (t Otìm tham , s ), O số O khi ( cho ) thay đổi trong [,] min m ax t t t t t 1 khoảng [ min, max] và tính các xác suất trạng thái HMM tương ứng trên các MFCC hiệu chỉnh theo của frame tiếng nói đã được định vị. Cuối cùng hệ thống gọi lại phép giải mã HMM nhưng với dãy đặc trưng MFCC đã được hiệu chỉnh bằng VTLN. Với một phát âm đầu vào gồm T frame: Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho: T Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : T (W , S { st } t 1 ) arg max log p ( O t , s t ) t 1 T * arg max logp ( O , s ), O O ( ) [,] min m ax t t t t t 1 Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra: T * * W arg max log p ( Ott , s ) t 1 119 Quy trình nhận dạng trên tiêu tốn bộ nhớ và thời gian tính toán, không thích hợp trong các ứng dụng nhận dạng thời gian thực được xây dựng trên nền các hệ thống tài nguyên hạn chế. Theo hướng ước lượng tham số VTLN dựa trên các tham số ngữ âm như F0 và formant, trong [40] các tác giả ước lượng dựa trên giá trị trung bình của đường F0 của câu phát âm tuy nhiên khi tiến hành thử nghiệm chúng tôi nhận thấy phương pháp ước lượng này kém chính xác khi áp dụng cho tiếng Việt do tiếng Việt có một số thanh điệu có sự biến đổi mạnh về đường F0 như thanh nặng và thanh ngã. Trong [76] các tác giả đã đề xuất cách ước lượng VTLN tự động từ các giá trị trung bình của formant F3 của tiếng nói đầu vào và của tập huấn luyện, tuy nhiên các tác giả không đưa ra cách tính trong trường hợp thời gian thực và trong trường hợp frame tiếng nói đầu vào là vô thanh (các giá trị F0, formant không xác định được) 4.2.3.1. Xấp xỉ giá trị trung bình trong thời gian thực Nếu cho trước N hữu hạn số thực x1, x2,,xN thì dễ dàng tính được giá trị trung N xk bình x k 1 . Phép tính giá trị trung bình tuy đơn giản nhưng được sử dụng hiệu mean N quả trong phép chuẩn hóa đặc trưng MFCC để giảm thiểu sai lệch về phổ giữa đặc trưng của tập người huấn luyện và đặc trưng của người nói mới. N N mfcck N mfcc mfcc mfcc k 1 utt kk 1 k N k 1 Ở đây N là số frame của ngữ đoạn tiếng nói, mfcc N là dãy N vector đặc trưng k k 1 MFCC của N frame. Trong [12] [39] các tác giả đã chứng tỏ chỉ với phép chuẩn hóa CMN đã cải thiện được độ chính xác nhận dạng tiếng nói. Trong thời gian thực, số frame không được xác định cho tới khi bộ tìm kiếm điểm đầu và cuối (Endpoint detector) phát hiện được. 120 Vấn đề có thể phát biểu hình thức như sau: Cho trước x là dãy vector số có số chiều hữu hạn , xác định dãy vector nn 1 y như sau: y = y +x , y = y + x , n=2,3, , (0,1), + =1, y = 0 n n 1 1 0 1 n n-1 n 0 hoặc được xác định trước. Trong các ứng dụng xử lý tín hiệu số, tiếng nói hoặc dữ liệu ảnh thường các vector xn biến đổi xung quanh một giá trị trung bình (tổng quát là kiểu các biến ngẫu nhiên có cùng phân bố)sau khi phép tiền xử lý tín hiệu đã đi qua một phép phân cụm, phân loại tín hiệu (chẳng hạn phép phân loại tín hiệu nền/nhiễu/tiếng nói trong xử lý tiếng nói.) Ký hiệu x là độ dài của vector x. Ta có các mệnh đề sau thể hiện tính chất của CMN: Mệnh đề 1: N > 1, n>N nn 1 xxkk 2axNmxk (1)ax n Nmxx n k 2ax Nmx k ( nNmxx )ax n k yy k 1 k 1 1 k N k n 1 k N k n nnn 1 n 11 n n n Chứng minh : do + =1 ta có, n n 11 n n x x x x kk kk y k 1 y k 1 k 1 x x k 1 nn n 1 n 11 n n n n n Từ đó suy ra ước lượng trên. Từ ước lượng này ta thấy để yn gần giá trị trung bình thông thường của x1,x2,,xn ta có thể chọn rất gần 0. Mệnh đề 2: N > 1, n > N. N yn N y2 N y n y N max x n l N x l N 1 l n N Chứng minh : 121 yyyymn mn 1 1 xxyy mnmn yy mn 1 1 xx mn , tương tự ym 1 y n 1 y m 2 y n 2 x m 1 x n 1 , 2 ym y n y m 2 y n 2 x m 1 x n 1 x m x n Bằng quy nạp ta có: N 1 Nk ym y n y m N y n N x m k x n k k 0 Suy ra: NN 11 N k N k yynNN 22 yy nN xx nNkNk yymxx nN ax nlNl N 1 l n N kk 00 N 1 k 1 N Do 1 nên yn N y2 N y n y N max x n l N x l N 1 l n N k 0 1 Mệnh đề 3: xy là dãy có tổn
File đính kèm:
- luan_an_nghien_cuu_cac_dac_trung_tin_hieu_va_rang_buoc_ngon.pdf
- Thong tin dong gop LA_ Ngo Hoang Huy.pdf
- Tom Tat LATS Ngo Hoang Huy.pdf