Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán trang 1

Trang 1

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán trang 2

Trang 2

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán trang 3

Trang 3

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán trang 4

Trang 4

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán trang 5

Trang 5

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán trang 6

Trang 6

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán trang 7

Trang 7

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán trang 8

Trang 8

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán trang 9

Trang 9

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 137 trang nguyenduy 10/07/2024 690
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán

Luận án Nghiên cứu cải tiến hiệu năng hệ thống mã hóa/giải mã video phân tán
c lại thì
sẽ chọn GOP = 2. Đóng góp này đã được báo cáo tại Hội nghị Quốc tế về các
Công nghệ tiên tiến trong Truyền thông năm 2018 (ATC 2018) [Bài báo 1].
Phần tiếp theo của chương này sẽ trình bày chi tiết các đóng góp được giới
thiệu ở trên và được cấu trúc như sau. Phần 2.2 trình bày các kết quả đạt được
khi thực hiện thay đổi kích thước GOP tại phía mã hóa. Phần 2.3 đề xuất các
phương pháp thực hiện tại phía giải mã để cải thiện hiệu năng nén cho DVC với
phương pháp tạo thông tin phụ trợ bằng cách lọc liên tục trong quá trình giải
mã và cải tiến tính chính xác của tham số α của mô hình hóa nhiễu tương quan
dựa trên mạng nơ-ron. Cuối cùng là kết luận chương được tóm tắt trong phần
2.4.
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 45
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC
tại phía mã hóa
2.2.1 Đặt vấn đề
Trong DVC, SI và CNM là hai thành phần chức năng chính quyết định chủ
yếu đến hiệu năng mã hóa. Mặt khác, kết quả của cả hai quá trình này lại phụ
thuộc vào GOP - số lượng khung hình giữa hai KF liên tiếp nhau. Khi GOP = 2
nghĩa là giữa hai KF có một WZF và khi GOP = 4 nghĩa là giữa hai KF có ba
WZF. Khi kích thước GOP càng lớn, việc dự đoán SIF từ các KF đã giải mã
càng khó khăn vì khoảng cách giữa chúng càng lớn. Cùng với đó, việc ước lượng
CNM cũng trở nên khó chính xác hơn. Vì vậy, trong DVC, GOP thông thường
được chọn bằng 2.
Tuy nhiên, đối với các đoạn video có chuyển động chậm, tương quan giữa
các khung hình cao thì việc ước lượng SI cũng như CNM dễ đạt được kết quả
chính xác. Để trực quan có thể xem xét Hình 2.1 dưới đây. Hình này gồm sáu
khung hình đầu tiên của chuỗi News. Đây là chuỗi được coi là chuyển động chậm
với vùng chuyển động chủ yếu ở phần mặt và với vùng nền tương đối tĩnh. Có
thể thấy rằng các khung hình này gần như giống nhau, ngoại trừ vùng mắt
mở trong khung hình (a) và mắt nhắm trong khung hình (f). Nếu sử dụng kích
thước GOP = 2 nghĩa là các khung hình (a), (c) và (e) sẽ được phân loại là các
KF. Tuy nhiên, khi quan sát bằng mắt có thể nhận thấy các khung hình này
khá giống nhau và có thể chỉ thiết lập các khung hình (a) và (f) là KF là đủ
hay nói cách khác kích thước GOP có thể tăng lên bằng 5. Giải pháp này có
thể tiết kiệm một số lượng lớn các bit và cải thiện hiệu năng nén đáng kể. Một
số nghiên cứu thay đổi kích thước GOP tùy thuộc vào nội dung chuỗi video cho
thấy có thể đạt được kết quả khá tốt với độ phức tạp mã hóa tăng không đáng
kể. Tuy nhiên, các giải thuật điều chỉnh kích thước GOP này phụ thuộc chủ yếu
vào một số giả định có tính xác định. Do đó mức cải thiện hiệu năng nén chưa
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 46
Hình 2.1: Sáu khung hình đầu tiên của chuỗi video News
cao.
Mục đích của đề xuất mới là phân loại kích thước GOP một cách chính xác
hơn dựa trên nội dung video. Do nội dung của dữ liệu video rất đa dạng nên
đề xuất này sử dụng một thuật toán học máy để lựa chọn kích thước GOP cho
mỗi phân đoạn video gồm năm khung hình một cách hiệu quả. Như mô tả trong
hình 2.2, khi đoạn video là chuyển động nhanh thì phân đoạn đó có hai WZF
và khi chuyển động chậm thì có ba WZF.
Hình 2.2: (a) Đoạn chuyển động nhanh và (b) Đoạn chuyển động chậm
Để quyết định chính xác loại của một phân đoạn video bằng phương pháp
học máy, cần phải lựa chọn các đặc trưng mô tả chính xác về nội dung chuyển
động nhanh hay chậm, phức tạp hay đơn giản của phân đoạn đó và sử dụng một
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 47
thuật toán học máy phù hợp để phân loại chuyển động.
Tuy nhiên, việc quyết định kích thước GOP cần phải được thực hiện ở bước
đầu tiên của quá trình mã hóa WZF tại phía mã hóa nên cần lựa chọn một
thuật toán học máy hiệu quả nhưng không quá phức tạp. Điều này là cần thiết
nhằm đảm bảo bộ mã hóa giữ được độ phức tạp thấp như ban đầu. Các đặc
trưng được chọn ngoài việc phản ánh được nội dung chuyển động cũng như cấu
trúc bề mặt của đoạn video cũng cần đảm bảo tính toán nhanh và đơn giản.
Quá trình huấn luyện được thực hiện ngoại tuyến để đảm bảo bộ mã hóa đơn
giản.
Tập dữ liệu huấn luyện đã được thử nghiệm với một số thuật toán học máy
để phân loại bao gồm cây quyết định, Gaussian Naive Bayes và hồi quy logistic
để so sánh độ chính xác. Các kết quả cho thấy cây quyết định cho độ chính xác
cao nhất. Mặc dù thuật toán này đơn giản nhưng đây là một thuật toán phù
hợp với nhiều loại dữ liệu và không cần chuẩn hóa dữ liệu đầu vào. Do đó thuật
toán cây quyết định mà cụ thể là C4.5 [46] được lựa chọn để phân loại kích
thước GOP.
Các đặc trưng sử dụng và quá trình huấn luyện, phân loại được mô tả chi
tiết ở mục 2.2.2.
2.2.2 Phương pháp thay đổi kích thước GOP đề xuất
Phương pháp thay đổi kích thước GOP đề xuất được thực hiện tại bộ mã
hóa DVC. Vì vậy trước khi giới thiệu chi tiết về đề xuất này, phần tiếp theo sẽ
giới thiệu tóm tắt kiến trúc bộ mã hóa đề xuất với mô-đun mới thay đổi kích
thước GOP.
A. Kiến trúc bộ mã hóa AGOP-DVC đề xuất
Kiến trúc mã hóa video phân tán AGOP-DVC với khối đề xuất mới được tô
màu đậm được mô tả trong hình 2.3 dưới đây. Quá trình mã hóa và giải mã có
thể tóm tắt như sau:
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 48
Hình 2.3: Kiến trúc mã hóa video phân tán AGOP-DVC
Quá trình mã hóa
Chuỗi video được chia thành hai loại khung hình là KF và WZF. Trong đề
xuất này, kích thước GOP bằng 2 hoặc 4 tùy thuộc vào nội dung của chuỗi
video. Chi tiết về quá trình lựa chọn kích thước GOP sẽ được trình bày ở phần
sau. Các KF được mã hóa Intra bằng chuẩn mã hóa video truyền thống HEVC
Intra. Các WZF được mã hóa theo nguyên tắc phân tán. Mỗi WZF được chia
thành các khối có kích thước 4 × 4 và mỗi khối được biến đổi DCT 4 × 4. Các
hệ số DCT của mỗi WZF được sắp xếp thành 16 dải trong đó các hệ số có cùng
vị trí từ các khối khác nhau sẽ nằm trong cùng một dải. Các dải DCT này sau
đó được lượng tử vô hướng đồng nhất. Các ma trận lượng tử tương ứng với các
tốc độ khác nhau như trong [56]. Các dải DCT sau lượng tử được nhị phân hóa
và các bit với cùng độ quan trọng được nhóm lại thành các mặt phẳng bit. Các
mặt phẳng bit này được đưa vào bộ mã hóa LDPC để tạo ra các bit chẵn lẻ.
Các bit chẵn lẻ được lưu giữ trong bộ đệm và sẽ gửi tới bộ giải mã tùy theo yêu
cầu của bộ giãi mã.
Quá trình giải mã
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 49
Các KF được giải mã được sử dụng để tạo nên SI. SI này được biến đổi DCT
4× 4 để tạo thành một ước lượng của các hệ số DCT của WZF. Các hệ số DCT
của SI này cùng với nhiễu tương quan được đưa vào bộ giải mã LDPCA. Bộ giải
mã này sẽ sửa các "sai lỗi" trong SI bằng cách sử dụng các bit chẵn lẻ bên mã
hóa gửi sang. Sau khi đã giải mã LDPCA, bộ tái tạo sẽ cùng với các hệ số DCT
của SI để khôi phục lại hệ số DCT của WZF ban đầu. Cuối cùng, biến đổi DCT
ngược được thực hiện để khôi phục lại WZF miền pixel.
B. Phương pháp thay đổi kích thước GOP đề xuất
Trong đề xuất này, mỗi phân đoạn gồm 5 khung hình video đầu vào được
đánh giá để lựa chọn kích thước GOP phù hợp bằng cách trích chọn các đặc
trưng. Các đặc trưng này được đưa vào cây quyết định để phân loại mỗi phân
đoạn này là chuyển động nhanh hay chuyển động chậm để lựa chọn kích thước
GOP phù hợp. Để tiết kiệm thời gian xử lý, quá trình huấn luyện được thực
hiện ngoại tuyến trước khi sử dụng cho quá trình mã hóa.
1) Xác định đặc trưng
Như đề cập ở trên, các đặc trưng được lựa chọn phải phản ánh đầy đủ bản
chất của nội dung video. Vì vậy, một số đặc trưng được lựa chọn liên quan đến
chuyển động trong khi một số khác lại liên quan đến kết cấu.
Hình 2.4 và hình 2.5 mô tả một số đặc trưng của hai chuỗi video Suzie và
Coastguard. Các hình vẽ cho thấy với chuỗi chuyển động chậm Suzie, đặc trưng
SAD ít có sự thay đổi, lược đồ xám đơn giản và trường véc-tơ chuyển động ít.
Ngược lại, với chuỗi chuyển động nhanh Coastguard, đặc trưng SAD có nhiều
sự thay đổi, lược đồ xám có hình dạng phức tạp hơn và trường véc-tơ chuyển
động nhiều gần như trên toàn bộ khung hình. Điều đó cho thấy mỗi đặc trưng
đều đóng vai trò mô tả khá chính xác nội dung chuyển động và kết cấu của mỗi
chuỗi video.
Các đặc trưng nhằm phát hiện các thay đổi về chuyển động bao gồm:
ˆ Sự sai khác của lược đồ xám (DoH).
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 50
Hình 2.4: Một số đặc trưng của chuỗi Suzie
Hình 2.5: Một số đặc trưng của chuỗi Coastguard
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 51
ˆ Trung bình của các vector chuyển động (AMV)
ˆ Số lượng các vector chuyển động (NMV)
ˆ Phương sai trung bình của phân đoạn (ASV)
ˆ Giá trị trung bình của phân đoạn (ASM)
Các đặc trưng phản ánh cấu trúc bề mặt của chuỗi video bao gồm:
ˆ Tổng các sai số tuyệt đối (SAD)
ˆ Phương sai giá trị DC (DCV)
ˆ Trung bình giá trị DC (DCM)
ˆ Phương sai giá trị AC (ACV)
ˆ Trung bình giá trị AC (ACM)
Công thức xác định các đặc trưng như sau:
DoH =
1
N
N−1∑
k=1
(
1
H.W
L−1∑
i=0
|h(KFk+1(i))− h(KFk−1(i))|
)
(2.3)
AMV =
1
N − 1
N−1∑
k=1
MV (KFk+1, KFk−1) (2.4)
NMV =
1
N − 1
N−1∑
k=1
NMV (KFk+1, KFk−1) (2.5)
ASV =
1
N
N∑
k=1
σ2(KFk) (2.6)
ASM =
1
N
N∑
k=1
(
1
H.W
H∑
x=1
W∑
y=1
KFk(x, y)
)
(2.7)
SAD =
1
N − 1
N−1∑
k=1
(
H∑
x=1
W∑
y=1
|KFk+1(x, y)−KFk−1(x, y)|
)
(2.8)
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 52
DCV = σ2DC (2.9)
DCM =
1
N
N∑
k=1
DC(KFk) (2.10)
ACV =
1
N
N∑
k=1
σ2AC(KFk) (2.11)
ACM =
1
N
N∑
k=1
H.W−1∑
i=1
ACi(KFk) (2.12)
ở đó:
ˆ KFk: KF thứ k.
ˆ N : số lượng KF trong phân đoạn 5 khung hình (N = 3).
ˆ H,W là kích thước của khung hình.
ˆ h(KFk(i)): lược đồ xám của KF thứ k tại mức xám i.
ˆ MV (KFk+1, KFk−1): chiều dài tổng của vector chuyển động giữa hai KF.
ˆ NMV (KFk+1, KFk−1): số lượng vector chuyển động giữa hai KF.
ˆ σ2: giá trị phương sai.
ˆ DC(KFk): thành phần DC của KF thứ k.
ˆ ACi(KFk): thành phần AC thứ i của KF thứ k.
2) Quá trình huấn luyện
Tập dữ liệu sử dụng cho quá trình huấn luyện của đề xuất này được trích
xuất từ năm chuỗi video Foreman, Soccer, Hall Monitor, Akiyo, Carphone và
News với các đặc tính chuyển động đa dạng. Tập dữ liệu gồm 352 phân đoạn
video, mỗi phân đoạn gồm 5 khung hình.
Nhãn GOP2 và GOP4 tương ứng cho mỗi phân đoạn được xác định như sau:
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 53
ˆ Với mỗi phân đoạn 5 khung hình thực hiện mã hóa DVC với hai kích thước
GOP=2 và GOP=4.
ˆ Tính BD-PSNR tương ứng với hai cách mã hóa.
ˆ Kích thước GOP nào tương ứng BD-PSNR lớn hơn sẽ được chọn là nhãn
tương ứng cho phân đoạn đó.
Các đặc trưng cùng với nhãn tương ứng của 352 phân đoạn được đưa vào để
huấn luyện bằng thuật toán tiêu biểu của cây quyết định là C4.5 [46].
3) Áp dụng vào quá trình lựa chọn kích thước GOP
Sau quá trình huấn luyện, mô hình cây quyết định xây dựng ở trên sẽ được
sử dụng để lựa chọn kích thước GOP. Chuỗi video đầu vào sẽ được chia thành
các phân đoạn gồm 5 khung hình và các đặc trưng tương ứng với mỗi phân đoạn
được trích xuất. Dựa trên các đặc trưng này, sử dụng mô hình cây quyết định đã
được huấn luyện để chọn ra nhãn tương ứng (GOP2 hay GOP4) cho mỗi phân
đoạn. Sau khi lựa chọn được kích thước GOP phù hợp sẽ thực hiện chia tách
các khung hình thành WZF và KF tùy theo kích thước GOP.
2.2.3 Đánh giá hiệu năng của phương pháp đề xuất
AGOP-DVC
Phương pháp thay đổi kích thước GOP được đánh giá trong ngữ cảnh áp
dụng vào kiến trúc mã hóa video phân tán AGOP-DVC. Hiệu năng được đánh
giá ở đây là hiệu năng RD của AGOP-DVC với hai tham số PSNR (dB) và
Bitrate (bps). Hai đại lượng BD-PSNR và BD-Rate [13] cũng được sử dụng
trong các đánh giá.
Đại lượng BD-PSNR cho biết mức cải thiện tương đối giữa hai phương pháp
bằng cách đo lường sự sai khác trung bình giữa hai đường cong RD trong đó
một đường cong RD được chọn làm đường cong cơ sở. Nếu BD-PSNR dương,
điều đó có nghĩa là đường cong thứ hai tốt hơn đường cong cơ sở và ngược lại.
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 54
Bảng 2.1: Điều kiện thử nghiệm
Chuỗi video
Độ phân giải
không gian
Số lượng
khung hình
Tham số
lượng tử
Coastguard
176x144
300 {25,29,34,40}
Suzie 150 {25,29,34,40}
Pamphlet 150 {25,29,34,40}
Harbour 150 {25,31,36,44}
Tương tự như vậy, đại lượng BD-Rate cho biết mức độ tiết kiệm tốc độ bit giữa
hai phương pháp. Nếu BD-Rate âm, điều đó có nghĩa là đường cong thứ hai tốt
hơn đường cong cơ sở và ngược lại.
Bộ mã hóa tham chiếu được sử dụng để so sánh ở đây dựa trên kiến trúc
DISCOVER. Đây là bộ mã hóa video phân tán DISCOVER [9] với KF được mã
hóa bằng chuẩn mã hóa HEVC. Bộ mã hóa này khi sử dụng kích thước cố định
GOP=2 và GOP=4 có tên gọi lần lượt là GOP2-DVC và GOP4-DVC. Hai bộ
mã hóa này sẽ được so sánh với bộ mã hóa đề xuất AGOP-DVC trên khía cạnh
hiệu năng RD.
A. Điều kiện thử nghiệm
Việc đánh giá hiệu năng nén được thực hiện trên bốn chuỗi video thử nghiệm
Coastguard, Suzie, Pamphlet và Harbour. Các chuỗi này được lựa chọn vì tính
đa dạng về chuyển động và kết cấu trong mỗi chuỗi. Bảng 2.1 mô tả các đặc
điểm chính của các chuỗi video này. Hình 2.6 mô tả các khung hình đầu tiên
của các chuỗi video này.
B. Đánh giá hiệu năng RD
Hiệu năng RD được đo bằng tốc độ bit (bps) và PSNR (dB) đối với bốn
chuỗi video được trình bày trong Bảng 2.2. Như đã dự đoán trước, quan sát cho
thấy các giá trị PSNR của phương pháp đề xuất AGOP-DVC tốt hơn các giá trị
PSNR của GOP4-DVC và xấp xỉ các giá trị PSNR của GOP2-DVC. Các giá trị
bitrate của phương pháp đề xuất cao hơn các giá trị của GOP4-DVC và thấp
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 55
Hình 2.6: Các khung hình đầu tiên của các chuỗi video thử nghiệm
hơn các giá trị của GOP2-DVC. Nói cách khác, các kết quả cho thấy chất lượng
của các khung hình video của phương pháp đề xuất giảm không đáng kể (theo
khía cạnh PSNR) trong khi mức tiết kiệm bitrate lại khá cao. Bảng 2.3 cho thấy
mức tiết kiệm tốc độ bit của phương pháp đề xuất trung bình là 3,37 % và 9,62
% khi so với GOP2-DVC và GOP4-DVC.
2.2 Đề xuất 1: Cải tiến hiệu năng nén cho DVC tại phía mã hóa 56
Bảng 2.2: Hiệu năng RD của các chuỗi video thử nghiệm
Chuỗi video QP
GOP2-DVC GOP4-DVC AGOP-DVC
Bitrate PSNR Bitrate PSNR Bitrate PSNR
Coastguard
26 27760 38,18 28242 34,65 27735 38,14
30 17131 34,87 16140 32,48 17058 34,84
34 9838 31,88 8228 30,36 9760 31,85
38 5256 29,14 3781 28,23 5199 29,12
Trung bình 14996,25 33,52 14097,75 31,43 14938 33,49
Suzie
26 18424 41,58 19719 41,26 18565 41,34
30 10869 38,56 11172 38,23 10530 38,26
34 5725 35,41 5588 35,15 5283 35,29
38 2667 32,24 2353 32,04 2270 32,19
Trung bình 9421,25 36,95 9708,00 36,67 9162,00 36,77
Pamphlet
26 23893,93 41,15 23128,28 41,35 22453,65 41,37
30 15669,90 37,42 14900,70 37,51 14504,50 37,56
34 9013,55 33,18 8567,73 33,24 8349,78 33,29
38 3897,73 28,86 3667,88 28,91 3587,02 28,95
Trung bình 13118,78 35,15 12566,15 35,25 12223,74 35,29
Harbour
26 45656,58 38,04 45680,28 37,62 45337,92 37,81
30 29713,93 34,18 28617,86 33,73 28830,11 33,96
34 16805,14 30,36 15471,99 30,03 15889,86 30,23
38 7646,22 26,24 6768,94 26,09 7082,92 26,22
Trung bình 24955,47 32,20 24134,77 31,86 24285,20 32,06
2.3 Đề xuất 2: Cải tiến hiệu năng nén cho DVC tại phía giải mã 57
Bảng 2.3: Mức tiết kiệm BD-rate [%]
Chuỗi video
AGOP-DVC
vs. GOP2-DVC
AGOP-DVC
vs. GOP4-DVC
Coastguard -0,04 -26,24
Suzie -2,28 -7,52
Pamphlet -9,04 -3,26
Harbour -2,12 -1,48
Trung bình -3,37 -9,62
2.3 Đề xuất 2: Cải tiến hiệu năng nén cho DVC
tại phía giải mã
2.3.1 Đặt vấn đề
Trong DVC, SIF tương ứng với WZF gốc được tạo ra tại phía giải mã bằng
cách sử dụng các KF đã giải mã. Vì vậy, hiệu năng nén của DVC phụ thuộc rất
nhiều các mô-đun tại bộ giải mã như mô-đun tạo SI và mô hình nhiễu tương
quan.
Tạo SI là phần trung tâm của DVC nên có rất nhiều các đề xuất liên quan
đến việc cải thiện SI. DISCOVER sử dụng kỹ thuật ước lượng thông tin phụ trợ
cải tiến. Kỹ thuật này bao gồm ước lượng chuyển động, nội suy chuyển động,
làm mịn chuyển động không gian và bù chuyển động. Trong giải pháp tạo SI
này cũng như rất nhiều các giải pháp tạo SI về sau, ví dụ [32] thường cố gắng
để tìm được ước lượng tốt nhất về WZF gốc trước khi bắt đầu quá trình giải
mã. Và trong quá trình giải mã tất cả các mặt phẳng bit của tất cả các hệ số
DCT, SI ban đầu này được giữ nguyên không thay đổi.
Tuy nhiên, trong codec DISCOVER cũng như các codec theo hướng này, lần
lượt các mặt phẳng bit rồi lần lượt các hệ số được giải mã hay nói cách khác,
SI được “sửa sai” dần dần. Trong trường hợp đó, ta sẽ có thêm nhiều thông tin
2.3 Đề xuất 2: Cải tiến hiệu năng nén cho DVC tại phía giải mã 58
mới tại bộ giải mã trong suốt quá trình giải mã. Các thông tin này có thể được
khai thác để cải thiện thông tin phụ trợ để giải mã cho các hệ số còn lại. Liên
quan đến hướng nghiên cứu này, có một số các đề xuất để tiếp tục cải thiện chất
lượng của SI khi nhận thêm nhiều thông tin mới trong quá trình giải mã [35][4].
Trong [35], để việc tìm kiếm nhanh, khung hình được tái tạo mới được lọc trên
SI ban đầu. Còn trong [4], việc lọc được thực hiện trên các KF trước và sau.
Để cải thiện hơn nữa chất lượng của SI, trong đề xuất này các khung hình mới
tái tạo một phần được lọc trên cả ba khung hình: SIF ban đầu và các KF trước
và sau. Sau quá trình lọc, sử dụng cơ chế kết hợp để xây dựng SI mới có chất
lượng tốt hơn và sử dụng SI mới này để giải mã cho các mặt phẳng bit kế tiếp
Cùng với SI, CNM cũng đóng vai trò quan trọng đối với hiệu năng nén của
DVC. Trong các nghiên cứu trước đây, CNM thường được mô hình hóa với phân
bố Laplace vì phân bố này cân bằng giữa tính chính xác mô hình và độ phức
tạp tính toán. Tuy nhiên, tham số phân bố α của phân bố Laplace như trong
biểu thức 2.1 thường được ước lượng từ các KF đã giải mã trước đó. Các tham
số α này có thể rất khác so với giá trị α thực được tính từ WZF và SIF. Với
mục tiêu ước lượng được tham số α gần với giá trị thực hơn nữa, luận án này
sử dụng mạng nơ-ron để ước lượng giá trị α của mô hình hóa nhiễu tương quan.
Chi tiết của các cải tiến mới về SI và CNM tại bộ giải mã được trình bày chi
tiết trong mục 2.3.2 và các đánh giá được giới thiệu trong mục 2.3.3.
2.3.2 Kiến trúc bộ mã hóa đề xuất Adv-DVC
Sơ đồ kiến trúc mã hóa DVC đề xuất (Adv-DVC)với hai công cụ mã hóa mới
được tô đậm là tạo thông tin phụ trợ và mô hình hóa nhiễu tương quan được mô
tả trong Hình 2.7. Nguyên lý hoạt động của kiến trúc này cũng tương tự như
kiến trúc DVC được giới thiệu trong Hình 2.3 với một số thay đổi như sau: 1)
kích thước GOP=2; 2) Mô-đun Tạo SI tạo thông tin phụ trợ bằng phương pháp
lọc liên tục trong quá trình giải mã; và 3) Mô-đun NN-CNM ước lượng tham số
của CNM dựa trên mạng nơ-ron.
2.3 Đề xuất 2: Cải tiến hiệu năng nén cho DVC tại phía giải mã 59
Hình 2.7: Kiến trúc mã hóa DVC đề xuất Adv-DVC
2.3.3 Các mô-đun mã hóa đề xuất mới
Trong phần này giới thiệu hai mô-đun mã hóa mới thực hiện tại bộ giải mã
và được sử dụng trong kiến trúc DVC đề xuất bao gồm:
ˆ Tạo thông tin phụ trợ bằng cách lọc liên tục trong suốt quá trình giải mã.
ˆ Ước lượng tham số α cho mô hình nhiễu tương quan dựa trên mạng nơ-ron.
A. Tạo thông tin phụ trợ bằng cách lọc liên tục
Trong mô-đun tạo SI này, SIF ban đầu được tạo ra sử dụng kỹ thuật MCTI
sử dụng các KF đã giải mã trước đó gồm KFk+1, KFk−1. SIF ban đầu này được
gọi là SIMCTI .
Mỗi khi một mặt phẳng bit được giải mã LDPCA thành công, chúng được
đưa tới mô-đun tái tạo để khôi phục lại hệ số DCT gốc với sự trợ giúp của
SIF tương ứng. Các hệ số DCT đã tái tạo sẽ thay thế cho các hệ số cùng vị trí
trong SIF trước đó để tạo ra SIF mới được gọi là WZF được giải mã một phần
2.3 Đề xuất 2: Cải tiến hiệu năng nén cho DVC tại phía giải mã 60
(PDWZ).
Quá trình tạo SI bằng cách lọc liên tục được mô tả trong Hình 2.8 dưới đây.
Hình 2.8: Quá trình tạo SI
1) Xác định dải tìm kiếm cho PDWZ
Sau khi giải mã xong một mặt phẳng bit, khu

File đính kèm:

  • pdfluan_an_nghien_cuu_cai_tien_hieu_nang_he_thong_ma_hoagiai_ma.pdf
  • doc2020.Thao.Trang_thong_tin_tieng_Anh.doc
  • docx2020.Thao.Trich_yeu_luan_an_NCS_Nguyen Thi Huong Thao.docx
  • pdf2020.Thao_Tom_tat_luan_an.pdf
  • doc2020.Trang_thong_tin_tieng_Viet.doc