Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet trang 1

Trang 1

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet trang 2

Trang 2

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet trang 3

Trang 3

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet trang 4

Trang 4

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet trang 5

Trang 5

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet trang 6

Trang 6

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet trang 7

Trang 7

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet trang 8

Trang 8

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet trang 9

Trang 9

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 144 trang nguyenduy 07/07/2024 1080
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet

Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet
an áp dụng với các PC thứ yếu. 
Như vậy công thức sử dụng trong phương pháp phân tích phần dư của các công 
trình này tương đương với trường hợp riêng của công thức (2.13) do luận án đề xuất áp 
dụng c=2 và wi=1. Điểm khác biệt là thay vì chuyển đổi ngược các PC của vùng bình 
thường S(N) để thu được z(N) và thực hiện tính d, luận án tính trực tiếp d trong miền con 
PCA. 
2.4.1.2. hương pháp sử dụng thống kê T2 
Như đã trình bày trong chương 1 (mục 1.3.2.2), công thức tính thống kê T2 trong 
các nghiên cứu của Lakhina và Shyu [34, 36, 58] cũng là công thức tính khoảng cách 
Mahalanobis. Trong miền con PCA, công thức tính khoảng cách được áp dụng là: 
22 2 2
1 2
1 1 2
 ...
p
pi
i i p
yy y y
d
    
  (2.16) 
 Như vậy công thức sử dụng tính thống kê T2 trong các công trình đã khảo sát là 
trường hợp riêng của công thức (2.13) do luận án đề xuất áp dụng với tham số c=2, 
wi=1/λi. 
2.5. Phƣơng pháp dPCA [CT7, CT8] 
Luận án đề xuất phương pháp dPCA (Distance-based anomaly detection method 
in PCA subspace) là phương pháp phân tích và phát hiện bất thường dựa trên khoảng 
51 
cách trong miền con PCA. Phương pháp dPCA sử dụng công thức tính khoảng cách 
(2.13) đã được trình bày ở trên. Việc áp dụng các tham số nào trong dPCA được trình 
bày ở phần tiếp theo. 
2.5.1. Lựa chọn các tham số để tính khoảng cách trong dPCA 
Bằng cách thay đổi các trọng số wi và tham số c, ta có thể thiết lập linh hoạt các 
tham số cho công thức tính khoảng cách (2.13). Chọn trọng số thích hợp có thể làm 
giảm sự khác biệt về mức độ biến thiên theo phương sai của mỗi PC trong khoảng 
cách d. 
Về lý thuyết có thể thiết lập những tham số khác nhau trong công thức (2.13). 
Nhưng hiện tại nghiên cứu sinh mới chỉ có thể áp dụng c=2 và c=1 cùng với trọng số 
wi tương ứng. Những khoảng cách đề xuất với c=1 là đóng góp mới của luận án trong 
dPCA. 
Trị riêng i đóng vai trò là phương sai tương ứng với PC thứ i trong miền con 
PCA. Giá trị của các yi sẽ quyết định quan sát đó là bất thường hay không. Giá trị yi 
của một PC với trị riêng nhỏ có thể coi là bất thường tại PC đó nhưng cũng có thể chỉ 
hơn hoặc bằng giá trị yj bình thường (không phải bất thường) của PC có j lớn hơn. 
Khi lấy tổng của |yi| và |yj| trong công thức tính khoảng cách, giá trị bất thường trong yi 
bị mất đi. Vì vậy có thể dùng wi tính theo i để làm giảm sự khác biệt về độ lớn giữa 
các yi tại những PC có sự chênh lệch đáng kể về trị riêng. Ngoài ra, có thể phân tích 
giá trị của từng yi để phát hiện bất thường trong mỗi PC đơn lẻ (trường hợp này 
khoảng cách chỉ tính cho một PC). 
Khi thay đổi wi trong công thức (2.13), các khoảng cách với wi=1 được gọi là 
khoảng cách không trọng số. Khi wi 1 là khoảng cách có trọng số. 
 Đặt c=2, công thức (2.13) trở thành: 
2
q
i i
i r
d w y
  (2.17) 
- Đặt wi=1, công thức (2.17) trở thành 
52 
2 2 2 2
1 ...
q
i r r q
i r
d y y y y 
 
 (2.18) 
Đây chính là công thức tính bình phương khoảng cách Euclidean trong miền con 
PCA với (q-r+1) PC. Công thức này tương đương với công thức được áp dụng trong 
phương pháp phân tích phần dư của các nghiên cứu đã khảo sát trong chương 1 (mục 
1.3.2.1). 
- Trường hợp trọng số wi 1: 
Về lý thuyết có thể chọn nhiều giá trị wi khác nhau nhưng cách thường dùng là 
chuẩn hóa theo phương sai. Do trị riêng λi đóng vai trò là phương sai trong miền con 
PCA nên có thể đặt wi=1/λi . Như vậy: 
22 2 2
2
2
 ...
q
qi r
i r i r q
yy y y
d
    
  (2.19) 
Đây chính là công thức tính bình phương khoảng cách Euclidean trọng số và đồng 
thời là bình phương khoảng cách Mahalanobis trong miền con PCA. Điều này bởi vì 
PCA đã làm mất đi tính tương quan giữa các thành phần chính. Công thức (2.19) là 
công thức đã được áp dụng trong các nghiên cứu đã khảo sát trong chương 1 (mục 
1.3.2.2). 
 Đặt c=1, công thức (2.13) trở thành: 
q
i i
i r
d w y
  (2.20) 
Những công thức với c=1 là đóng góp mới của luận án so với những công trình 
dựa trên phương pháp PCA đã có. 
- Nếu wi =1 công thức (2.20) trở thành: 
 1 ...
q
i r r q
i r
d y y y y 
  (2.21) 
Đây chính là công thức tính khoảng cách Manhattan trong miền con PCA. 
- Trường hợp trọng số wi 1: 
53 
Do trị riêng đóng vai trò là phương sai trong miền con PCA nên có thể đặt trọng số 
của |yi| bằng căn bậc hai của trị riêng tương ứng. Như vậy đặt 1/i iw  , công thức 
(2.20) trở thành: 
2
2
 ...
q
qi r
i r i r q
yy y y
d
    
  (2.22) 
 Nhận xét: 
- wi=1 phù hợp khi tính d với các thành phần chính khi sự chênh lệch giữa các 
trị riêng không lớn, đặc biệt là những PC thứ yếu. 
- wi 1 phù hợp khi tính d với các thành phần chính khi có sự chênh lệch 
đáng kể giữa các trị riêng. Sự chênh lệch thường nằm ở những PC chủ yếu 
hoặc khi dùng tất cả PC để tính khoảng cách. 
- Độ phức tạp của thuật toán tính khoảng cách: 
o Khi c=2 độ phức tạp là O(kn2) với k là số C được sử dụng, n là số 
lượng quan sát được tính khoảng cách. 
o Khi c=1 độ phức tạp là O(kn). 
o Như vậy, khi c=1, độ phức tạp của thuật toán tính khoảng cách giảm 
đi so với c=2. Do đó có thể sử dụng c=1 để giảm độ phức tạp trong 
tính khoảng cách của dPCA so với cách tính trong các công trình 
nghiên cứu điển hình dựa trên CA trước đ y. 
Phần tiếp theo đề xuất phương pháp dPCA hoạt động chế độ phân cấp. 
2.5.2. Sự phân cấp của dPCA 
Hình 2.3 mô tả chế độ hoạt động của phương pháp dPCA. Trong đó dPCA hoạt 
động theo 2 cấp: 
 Cấp 1: dPCA sử dụng PC thứ yếu để tính khoảng cách. Trong trường hợp cần 
thiết có thể sử dụng tất cả PC và bỏ qua cấp 2. Phương pháp này cần 1 mức 
ngưỡng cho khoảng cách được gọi là dPCA1T (dPCA with 1 threshold). Khi sử 
dụng tất cả PC để tính khoảng cách d, có thể phát hiện được bất thường có đột 
biến xuất hiện ở những PC khác nhau. Tuy nhiên sử dụng tất cả PC để tính 
54 
khoảng cách với dPCA1T chỉ được áp dụng khi số thuộc tính p ban đầu không 
quá lớn vì sẽ tốn nhiều tài nguyên của hệ thống và nên đặt trọng số wi 1. 
Cấp 2
dPCA
PC chủ yếu
Cấp 1
Tất cả PC
Chế độ 
hoạt động
PC thứ yếu 
Phân tích từng PC
Hình 2.3. Phân cấp trong phương pháp dPCA 
 Cấp 2: Cấp 2 có các chế độ hoạt động 
- Hoạt động song song với cấp 1: Chế độ song song sử dụng PC chủ yếu để 
tính khoảng cách đồng thời với khoảng cách dùng PC thứ yếu tại cấp 1. 
- Hoạt động dự phòng cho cấp 1: Chế độ dự phòng chỉ sử dụng PC chủ yếu để 
tính khoảng cách với những dữ liệu đã được phát hiện là bình thường tại cấp 1 
để tìm những bất thường mà cấp 1 có thể bỏ sót. Ưu điểm của phương pháp 
này là không cần tính đồng thời tất cả dữ liệu với cả 2 cấp do đó giảm được số 
lượng dữ liệu mà cấp 2 cần xử lý. Nhược điểm là phải chờ sau khi cấp 1 xử lý 
xong, dữ liệu coi là bình thường mới chuyển đến cấp 2. 
- Xét từng PC để phát hiện bất thường nếu cần thiết: phương pháp này khó 
phân tích đồng thời nhiều PC và phải thiết lập mức ngưỡng cho từng PC. 
Khi sử dụng cả PC thứ yếu và PC chủ yếu để tính khoảng cách, mỗi khoảng cách 
cần có một mức ngưỡng riêng nên phương pháp này được luận án đặt tên là dPCA2T 
(dPCA with 2 thresholds). dPCA2T có thể phát hiện thêm bất thường với khoảng cách 
sử dụng PC chủ yếu nhưng đồng thời cũng làm tăng tỷ lệ cảnh báo sai. 
 Số lượng PC sử dụng trong khoảng cách tại cấp 1 và cấp 2: 
Qua những nghiên cứu đã khảo sát cùng với sự đánh giá dựa trên dữ liệu thực tế, 
nghiên cứu sinh thấy rằng số lượng các PC chủ yếu và thứ yếu thường được xác định 
theo thực nghiệm. Thử nghiệm cho thấy PC thứ yếu tại cấp 1 có kết quả phát hiện tốt 
55 
nếu tổng trị riêng các PC này trong khoảng 5% đến 15% của tổng tất cả trị riêng (ứng 
với k =3 đến k=5 PC cuối cùng). Cấp 2 có thể linh hoạt lựa chọn số lượng PC tùy theo 
điều kiện thực tế. Trong luận án số PC chủ yếu tại cấp 2 được lựa chọn trong khoảng 
50% tổng tất cả trị riêng (theo 58, 59]) tương ứng với k ≤ 4 PC đầu tiên. Khi cần thiết 
phát hiện bất thường với nhiều PC hơn thì tăng số PC chủ yếu lên. 
Luận án đánh giá một đặc điểm sau đây của phương pháp 2 mức ngưỡng trong đó 
sử dụng cả khoảng cách của PC chủ yếu và thứ yếu mà những công trình trước đó 58, 
34, 36, 14, 54, 10] chưa đề cập đến: Do phát hiện c ng l c bất thường ở cả C chủ 
yếu v thứ yếu, phương pháp n y cho kết quả phát hiện bất thường (T R) cao hơn một 
chút so với chỉ sử dụng PC thứ yếu. Tuy nhiên phương pháp 2 mức ngưỡng thường 
cũng trả giá bằng t lệ cảnh báo sai (F R) cao hơn v tốn nhiều t i nguyên hơn. 
Trong những hệ thống thực tế, thông thường số lượng dữ liệu bình thường chiếm đa số 
so với bất thường. Vì vậy nếu tỷ lệ cảnh báo sai (FPR) tăng lên một chút cũng làm cho 
số lượng dữ liệu bình thường phát hiện sai là bất thường tăng lên nhiều. Ví dụ: dữ liệu 
bình thường chiếm 90%, bất thường chiếm 10%, như vậy chỉ 1% dữ liệu bình thường 
phát hiện nhầm là bất thường cũng gây ra số lượng lớn cảnh báo sai. Do đó tính 
khoảng cách với cả PC chủ yếu và thứ yếu liên tục như trong các công trình đã khảo 
sát có thể vừa tốn năng lực xử lý, tài nguyên của hệ thống vừa làm tăng FPR không 
cần thiết. 
Khi trạng thái bình thường trong profile thiết lập tốt, phần lớn những bất thường 
trong PC chủ yếu đã được phát hiện với PC thứ yếu tại cấp 1. Trong trường hợp số 
lượng bất thường phát hiện được với cấp 2 không hiệu quả vì cấp 1 đã hoạt động tốt 
thì tùy theo điều kiện thực tế có thể giảm tần suất kiểm tra tại cấp 2 hoặc tắt h n cấp 2 
nhằm giảm tỷ lệ cảnh báo sai (FPR) trong điều kiện dữ liệu bình thường chiếm đa số 
và giảm mức độ tính toán. 
2.5.3. Thiết lập mức ngưỡng 
Thiết lập mức ngưỡng là một vấn đề khó trong các phương pháp phát hiện lưu 
lượng bất thường nói chung. Mức ngưỡng là tham số rất “nhạy cảm” giữa tỷ lệ phát 
56 
hiện bất thường chính xác (đúng) và tỷ lệ cảnh báo sai (phát hiện nhầm dữ liệu bình 
thường là bất thường). 
Một phương pháp là giả định mô hình tuân theo phân bố thống kê biết trước và 
ước lượng tỷ lệ sai số α từ đó tìm mức ngưỡng từ xác suất của (1- α). Một số phân bố 
thống kê có mức ngưỡng tra được ở dạng bảng (ví dụ: phân bố F, phân bố Chi-square 
2) [58, 34, 36]. Trong lĩnh vực phát hiện bất thường, α đóng vai trò là tỷ lệ cảnh báo 
sai ước lượng. 
Phương pháp thứ hai là ước lượng mức ngưỡng dựa trên thực nghiệm. Trong luận 
án, việc thiết lập mức ngưỡng dựa trên hàm phân bố tích lũy thực nghiệm của d. 
Trong xác suất thống kê, hàm phân bố tích luỹ (Cumulative distribution function - 
CDF) được định nghĩa như sau [66]: 
 F(t) = P(d ≤ dN) (2.23) 
nghĩa là xác suất để khoảng cách d nhỏ hơn hoặc bằng mức ngưỡng dN. 
Hàm phân bố tích lũy thực nghiệm (Empirical cumulative distribution function - 
ECDF) là hàm ước tính dựa trên dữ liệu thực nghiệm của hàm phân bố tích luỹ [67]: 
 1
1
( ) ( )
n
n i N
i
F t I d d
n 
 
 (2.24) 
Trong đó: n là tổng số quan sát trong tập dữ liệu, I là hàm chỉ thị, di là khoảng 
cách của quan sát thứ i: 
1, khi 
( )
0,khi 
i N
i N
i N
d d
I d d
d d
 
 
  (2.25)
ECDF không tra bảng như phân bố thống kê F hoặc 2 mà xác định dựa trên thực 
nghiệm. Từ α là tỷ lệ cảnh báo sai ước lượng, ta có thể tính khoảng cách với mức 
ngưỡng dN tương ứng với (1- α) của hàm phân bố tích lũy thực nghiệm. Ví dụ: với α = 
5%, mức ngưỡng lựa chọn tương ứng với 95% của ECDF. Tùy thuộc áp dụng 
dPCA1T hoặc dPCA2T, sẽ cần thiết lập một hoặc hai mức ngưỡng với ECDF. 
2.5.4. Quá trình tạo profile và phát hiện bất thường trong dPCA 
57 
Để tính được khoảng cách d cần thiết phải tạo profile từ tập dữ liệu mẫu (gọi tắt là 
tập mẫu) dựa trên điều kiện bình thường của lưu lượng mạng. Từ tập hợp các giá trị của 
d được với tập dữ liệu mẫu sạch (không chứa bất thường) sẽ thiết lập được giá trị 
ngưỡng dN để phát hiện bất thường. 
 Tạo profile 
Hình 2.4 mô tả quá trình tạo profile trong phương pháp dPCA. Quá trình tạo 
profile được thực hiện như sau: 
- Lựa chọn p thuộc tính đầu vào phù hợp: X1, X2, Xp. Các thuộc tính của n điểm 
(vector) tạo thành ma trận X (n hàng, p cột). 
- Tạo tập dữ liệu mẫu: Tập dữ liệu mẫu được tạo dựa trên trạng thái bình thường 
của lưu lượng mạng. Vì vậy tập dữ liệu mẫu cần sạch hay không chứa bất 
thường (hay ngoại lai). Việc làm sạch mẫu (khử ngoại lai) được trình bày trong 
chương 3 của luận án. 
- Chuẩn hóa dữ liệu đầu vào: Chuẩn hóa thống kê với giá trị trung bình và độ 
lệch chuẩn của mỗi cột trong X. 
- Tính ma trận tương quan, từ đó tính các cặp vectơ riêng, trị riêng, các thành 
phần chính. Cũng có thể áp dụng phương pháp SVD để thực hiện bước này. 
- Sắp xếp các thành phần chính theo thứ tự giảm dần của trị riêng. 
- Tính khoảng cách của mỗi điểm theo dPCA1T hoặc dPCA2T. 
- Xây dựng hàm phân bố tích lũy thực nghiệm dựa trên khoảng cách tính được và 
xác suất. Lựa chọn mức ngưỡng theo sai số hoặc tỷ lệ cảnh báo sai ước lượng. 
Cũng có thể áp dụng phân bố thống kê T2 hoặc 2 để tính mức ngưỡng trong 
một số trường hợp. 
58 
Tập mẫuập ẫu
PCA
Profile
Vectơ riêng
Trị riêng
Trung bình
Độ lệch chuẩn
Mức ngưỡng
rofile
ectơ riêng
rị riêng
rung bình
ộ lệch chuẩn
ức ngưỡng
Chuẩn hóahuẩn hóa
Tính khoảng cáchính khoảng cách
Hình 2.4. Tạo profile trong dPCA 
 Phát hiện bất thường 
Sau khi xây dựng được profile, những quan sát mới được chuyển vào miền con 
PCA và tính khoảng cách để phát hiện bất thường. Quá trình này mô tả trên hình 2.5 
và được thực hiện như sau: 
- Chuẩn hóa dữ liệu mỗi điểm dữ liệu mới với giá trị trung bình và độ lệch chuẩn 
lấy từ profile. 
- Tính giá trị thành phần chính theo các vectơ riêng trong profile. 
- Tính khoảng cách theo dPCA1T hoặc dPCA2T. So sánh giá trị khoảng cách 
tính được với giá trị ngưỡng. 
59 
Quan sát mớiuan sát ớiProfile
Vectơ riêng
Trị riêng
Trung bình
Độ lệch chuẩn
Mức ngưỡng
rofile
ectơ riêng
rị riêng
rung bình
ộ lệch chuẩn
ức ngưỡng
Tính thành phần 
chính
ính thành phần 
chính
Tính khoảng cáchính khoảng cách
So sánh ngƣỡngSo sánh ng ỡng
Phát hiện, cảnh báohát hiện, cảnh báo
Chuẩn hóahuẩn hóa
Hình 2.5. Phát hiện bất thường trong dPCA 
Với dPCA1T: 
Một điểm dữ liệu hoặc quan sát được coi là bất thường nếu: 
p
c
i i
i r
Ndwd y
  (2.26) 
Trong đó: (1 ≤ r ≤ p) 
Ngược lại điểm đó được coi là bình thường. 
Với dPCA2T: 
Một điểm dữ liệu được coi là bất thường nếu: 
1
1 1 2 2OR ( ) ( )
pm
c c
i
i
N i
r
Ni i
i
d d d dw y w y
   với m < r (2.27) 
Ngược lại để một điểm dữ liệu là bình thường thì: 
1
1 1 2 2AN( ) (D ) 
pm
c c
i i i i
i r
N N
i
d d d dw y w y
   (2.28) 
60 
Trong đó: d1 và d2 là khoảng cách tương ứng tính với PC chủ yếu và thứ yếu; dN1 và 
dN2 là mức ngưỡng tương ứng của d1 và d2; OR và AND là các phép tính logic. 
2.6. Thử nghiệm, đánh giá kết quả 
Quá trình thử nghiệm có mục tiêu đánh giá khả năng phát hiện của phương pháp 
dPCA. Các thông số đánh giá được trình bày trong phần tiếp theo. Quá trình thử 
nghiệm được thực hiện trên phần mềm Matlab. Như đã trình bày trong những phần 
trên, để mô hình hóa trạng thái bình thường của hệ thống cần có tập dữ liệu mẫu và tạo 
được profile; từ đó so sánh những quan sát mới với mức ngưỡng để phát hiện bất 
thường. Phần này đánh giá hiệu quả của phương pháp dPCA với các tham số khác 
nhau, so sánh với phương pháp đã có. 
Công thức được áp dụng tính khoảng cách là (2.13) với các bộ tham số khác nhau. 
Trường hợp c=2, wi=1, phương pháp dPCA1T tương tự phương pháp phân tích 
phần dư đã có. 
Trường hợp c=2, wi = 1/i, phương pháp dPCA1T tương tự công thức đã được sử 
dụng trong các công trình đã có sử dụng khoảng cách Mahalanobis. Các công trình này 
sử dụng 2 mức ngưỡng tính khoảng cách với cả thành phần chính chủ yếu và thứ yếu 
(2 mức ngưỡng). Điểm khác biệt của luận án với những công trình này là luận án đánh 
giá cả trường hợp chỉ sử dụng các thành phần chính thứ yếu trong tính khoảng cách 
(dPCA1T) với c=2, wi = 1/i nhưng vẫn đạt kết quả phát hiện chấp nhận được [CT5, 
CT6, CT7]. Trường hợp áp dụng cả thành phần chính chủ yếu và thứ yếu (dPCA2T) 
để phát hiện bất thường luận án có thể sử dụng các tham số linh hoạt hơn thay vì luôn 
sử dụng c=2. 
Trường hợp c=1 cùng với trọng số wi là đề xuất mới của dPCA. Theo phân tích ở 
mục 2.5.1, trọng số wi được lựa chọn là wi=1 hoặc 1/i iw  . 
2.6.1. Các sự kiện và thông số đánh giá độ chính xác 
Độ chính xác là thông số quan trọng nhất của hệ thống phát hiện bất thường. Độ 
chính xác được tính dựa trên tỷ lệ phát hiện đúng và sai của dữ liệu được kiểm tra. Khi 
hệ thống phát hiện một quan sát là bất thường sẽ đưa ra cảnh báo, ngược lại là bình 
thường sẽ không cảnh báo. Các sự kiện và thông số đánh giá độ chính xác bao gồm: 
61 
 Cảnh báo đúng (True Positive - TP): Số lượng quan sát bất thường được phát 
hiện chính xác. 
 Cảnh báo sai (False Positive - FP): Số lượng quan sát bị phát hiện nhầm là bất 
thường nhưng thực tế lại là bình thường. 
 Không cảnh báo đúng (True Negative - TN): Số lượng quan sát bình thường 
được phát hiện chính xác. 
 Không cảnh báo sai (False Negative - FN): Số lượng quan sát được phát hiện là 
bình thường nhưng thực tế lại là bất thường. 
 TPR (True Positive Rate), còn gọi là Recall: Tỷ lệ giữa số quan sát bất thường 
phát hiện chính xác và tổng số quan sát bất thường thử nghiệm. 
TP
TPR
TP FN
 (2.29) 
Trong đó: Tổng số quan sát bất thường thực tế = TP + FN. 
TPR t lệ thuận với TP theo công thức (2.29) vì số lượng quan sát bất thường phát 
hiện đ ng c ng nhiều thì TPR càng cao. 
 FPR (False Positive Rate): Tỷ lệ giữa số quan sát bình thường bị phát hiện sai là 
bất thường và tổng số quan sát bình thường thử nghiệm. 
FP
FPR
TN FP
 (2.30) 
Trong đó: Tổng số quan sát bình thường thực tế = TN + FP. 
FPR t lệ nghịch với TN theo công thức (2.30) vì số lượng quan sát bình thường 
phát hiện đ ng c ng nhiều thì t lệ cảnh báo sai FPR càng giảm. 
Những thông số thường dùng để đánh giá độ chính xác là TPR, FPR [5, 58, 72]. 
Ngoài ra, trong một số phần thử nghiệm, luận án sử dụng thêm biểu đồ biểu thị số 
lượng quan sát bất thường phát hiện đúng (TP ) và số lượng quan sát bình thường phát 
hiện đúng (TN) để minh họa, làm rõ thêm cho tỷ lệ TPR và FPR trình bày ở dạng 
bảng. 
2.6.2. Đồ thị ROC 
62 
Đồ thị ROC (Receiver Operating Curve) (hình 2.6) [5] dùng để biểu diễn khoảng 
cách theo mối quan hệ giữa tỷ lệ TPR và FPR. ROC hay được sử dụng để đánh giá khả 
năng phát hiện bất thường của phương pháp đề xuất [5, 6, 30, 58, 59, 77, 72, 73]. 
Hình dạng của đường cong ROC sẽ cho biết dự đoán trong trường hợp khảo sát có khả 
năng đạt hiệu quả tốt hay không. 
Hình 2.6. Đồ thị ROC 
- Đường cong càng đi dọc theo biên trái trục tung và rồi đi dọc theo biên phía trên 
nằm ngang của không gian vẽ đồ thị chứng tỏ kết quả dự đoán càng chính xác. 
Ví dụ trên hình 2.6 biểu diễn đồ thị của 3 đường cong thì đường cong tốt nhất là 
C rồi đến B và A. Độ chính xác tối ưu (Perfect accuracy) đạt được nếu 
TPR=100% và FPR=0%. 
- Đường cong càng tiến tới thành đường chéo 45 độ (đường nét đứt) thì độ chính 
xác của dự đoán càng kém. 
2.6.3. Lựa chọn tập dữ liệu thử nghiệm 
Trong thử nghiệm, việc tổng hợp dữ liệu lưu lượng bắt được từ những công cụ như 
tcpdump, flowdump thành các thuộc tính cho từng kết nối, kiểm tra và đánh nhãn mỗi 
kết nối là bình thường hay bất thường là rất khó. Một số nghiên cứu tự tạo ra tập dữ liệu 
63 
mô phỏng thường không được đánh nhãn và số lượng hoặc tỷ lệ giữa các loại kết nối 
(connection) hoặc luồng (flow) bình thường và bất thường quá chênh lệch nên rất khó 
đánh giá hiệu suất phát hiện của phương pháp đề xuất. Mặc khác không có gì chắc chắn 
là tập dữ liệu mô phỏng tạo ra được đánh giá cao hơn tập dữ liệu được chấp nhận và sử 
dụng rộng rãi như tập dữ liệu KDD [69]. 
Vì vậy giải pháp thường được sử dụng trong hầu hết các công trình nghiên cứu tới 
nay là đánh giá phương pháp và mô hình thử nghiệm trên tập dữ liệu có sẵn. Cụ thể là 
các tập dữ liệu KDDCUP99 [69] và đặc biệt là tập Kyoto Honeypot [60, 61]. Kyoto 
Honeypot là tập dữ liệu thật thu được từ mạng 

File đính kèm:

  • pdfluan_an_nghien_cuu_de_xuat_phuong_phap_phan_tich_va_phat_hie.pdf
  • pdfTomTat Luan an TS NCS NH Dương.pdf
  • pdfTrang TT Luan an TS NCS NH Dương (TA).pdf
  • pdfTrang TT Luan an TS NCS NH Dương (TV).pdf