Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng Internet
an áp dụng với các PC thứ yếu. Như vậy công thức sử dụng trong phương pháp phân tích phần dư của các công trình này tương đương với trường hợp riêng của công thức (2.13) do luận án đề xuất áp dụng c=2 và wi=1. Điểm khác biệt là thay vì chuyển đổi ngược các PC của vùng bình thường S(N) để thu được z(N) và thực hiện tính d, luận án tính trực tiếp d trong miền con PCA. 2.4.1.2. hương pháp sử dụng thống kê T2 Như đã trình bày trong chương 1 (mục 1.3.2.2), công thức tính thống kê T2 trong các nghiên cứu của Lakhina và Shyu [34, 36, 58] cũng là công thức tính khoảng cách Mahalanobis. Trong miền con PCA, công thức tính khoảng cách được áp dụng là: 22 2 2 1 2 1 1 2 ... p pi i i p yy y y d (2.16) Như vậy công thức sử dụng tính thống kê T2 trong các công trình đã khảo sát là trường hợp riêng của công thức (2.13) do luận án đề xuất áp dụng với tham số c=2, wi=1/λi. 2.5. Phƣơng pháp dPCA [CT7, CT8] Luận án đề xuất phương pháp dPCA (Distance-based anomaly detection method in PCA subspace) là phương pháp phân tích và phát hiện bất thường dựa trên khoảng 51 cách trong miền con PCA. Phương pháp dPCA sử dụng công thức tính khoảng cách (2.13) đã được trình bày ở trên. Việc áp dụng các tham số nào trong dPCA được trình bày ở phần tiếp theo. 2.5.1. Lựa chọn các tham số để tính khoảng cách trong dPCA Bằng cách thay đổi các trọng số wi và tham số c, ta có thể thiết lập linh hoạt các tham số cho công thức tính khoảng cách (2.13). Chọn trọng số thích hợp có thể làm giảm sự khác biệt về mức độ biến thiên theo phương sai của mỗi PC trong khoảng cách d. Về lý thuyết có thể thiết lập những tham số khác nhau trong công thức (2.13). Nhưng hiện tại nghiên cứu sinh mới chỉ có thể áp dụng c=2 và c=1 cùng với trọng số wi tương ứng. Những khoảng cách đề xuất với c=1 là đóng góp mới của luận án trong dPCA. Trị riêng i đóng vai trò là phương sai tương ứng với PC thứ i trong miền con PCA. Giá trị của các yi sẽ quyết định quan sát đó là bất thường hay không. Giá trị yi của một PC với trị riêng nhỏ có thể coi là bất thường tại PC đó nhưng cũng có thể chỉ hơn hoặc bằng giá trị yj bình thường (không phải bất thường) của PC có j lớn hơn. Khi lấy tổng của |yi| và |yj| trong công thức tính khoảng cách, giá trị bất thường trong yi bị mất đi. Vì vậy có thể dùng wi tính theo i để làm giảm sự khác biệt về độ lớn giữa các yi tại những PC có sự chênh lệch đáng kể về trị riêng. Ngoài ra, có thể phân tích giá trị của từng yi để phát hiện bất thường trong mỗi PC đơn lẻ (trường hợp này khoảng cách chỉ tính cho một PC). Khi thay đổi wi trong công thức (2.13), các khoảng cách với wi=1 được gọi là khoảng cách không trọng số. Khi wi 1 là khoảng cách có trọng số. Đặt c=2, công thức (2.13) trở thành: 2 q i i i r d w y (2.17) - Đặt wi=1, công thức (2.17) trở thành 52 2 2 2 2 1 ... q i r r q i r d y y y y (2.18) Đây chính là công thức tính bình phương khoảng cách Euclidean trong miền con PCA với (q-r+1) PC. Công thức này tương đương với công thức được áp dụng trong phương pháp phân tích phần dư của các nghiên cứu đã khảo sát trong chương 1 (mục 1.3.2.1). - Trường hợp trọng số wi 1: Về lý thuyết có thể chọn nhiều giá trị wi khác nhau nhưng cách thường dùng là chuẩn hóa theo phương sai. Do trị riêng λi đóng vai trò là phương sai trong miền con PCA nên có thể đặt wi=1/λi . Như vậy: 22 2 2 2 2 ... q qi r i r i r q yy y y d (2.19) Đây chính là công thức tính bình phương khoảng cách Euclidean trọng số và đồng thời là bình phương khoảng cách Mahalanobis trong miền con PCA. Điều này bởi vì PCA đã làm mất đi tính tương quan giữa các thành phần chính. Công thức (2.19) là công thức đã được áp dụng trong các nghiên cứu đã khảo sát trong chương 1 (mục 1.3.2.2). Đặt c=1, công thức (2.13) trở thành: q i i i r d w y (2.20) Những công thức với c=1 là đóng góp mới của luận án so với những công trình dựa trên phương pháp PCA đã có. - Nếu wi =1 công thức (2.20) trở thành: 1 ... q i r r q i r d y y y y (2.21) Đây chính là công thức tính khoảng cách Manhattan trong miền con PCA. - Trường hợp trọng số wi 1: 53 Do trị riêng đóng vai trò là phương sai trong miền con PCA nên có thể đặt trọng số của |yi| bằng căn bậc hai của trị riêng tương ứng. Như vậy đặt 1/i iw , công thức (2.20) trở thành: 2 2 ... q qi r i r i r q yy y y d (2.22) Nhận xét: - wi=1 phù hợp khi tính d với các thành phần chính khi sự chênh lệch giữa các trị riêng không lớn, đặc biệt là những PC thứ yếu. - wi 1 phù hợp khi tính d với các thành phần chính khi có sự chênh lệch đáng kể giữa các trị riêng. Sự chênh lệch thường nằm ở những PC chủ yếu hoặc khi dùng tất cả PC để tính khoảng cách. - Độ phức tạp của thuật toán tính khoảng cách: o Khi c=2 độ phức tạp là O(kn2) với k là số C được sử dụng, n là số lượng quan sát được tính khoảng cách. o Khi c=1 độ phức tạp là O(kn). o Như vậy, khi c=1, độ phức tạp của thuật toán tính khoảng cách giảm đi so với c=2. Do đó có thể sử dụng c=1 để giảm độ phức tạp trong tính khoảng cách của dPCA so với cách tính trong các công trình nghiên cứu điển hình dựa trên CA trước đ y. Phần tiếp theo đề xuất phương pháp dPCA hoạt động chế độ phân cấp. 2.5.2. Sự phân cấp của dPCA Hình 2.3 mô tả chế độ hoạt động của phương pháp dPCA. Trong đó dPCA hoạt động theo 2 cấp: Cấp 1: dPCA sử dụng PC thứ yếu để tính khoảng cách. Trong trường hợp cần thiết có thể sử dụng tất cả PC và bỏ qua cấp 2. Phương pháp này cần 1 mức ngưỡng cho khoảng cách được gọi là dPCA1T (dPCA with 1 threshold). Khi sử dụng tất cả PC để tính khoảng cách d, có thể phát hiện được bất thường có đột biến xuất hiện ở những PC khác nhau. Tuy nhiên sử dụng tất cả PC để tính 54 khoảng cách với dPCA1T chỉ được áp dụng khi số thuộc tính p ban đầu không quá lớn vì sẽ tốn nhiều tài nguyên của hệ thống và nên đặt trọng số wi 1. Cấp 2 dPCA PC chủ yếu Cấp 1 Tất cả PC Chế độ hoạt động PC thứ yếu Phân tích từng PC Hình 2.3. Phân cấp trong phương pháp dPCA Cấp 2: Cấp 2 có các chế độ hoạt động - Hoạt động song song với cấp 1: Chế độ song song sử dụng PC chủ yếu để tính khoảng cách đồng thời với khoảng cách dùng PC thứ yếu tại cấp 1. - Hoạt động dự phòng cho cấp 1: Chế độ dự phòng chỉ sử dụng PC chủ yếu để tính khoảng cách với những dữ liệu đã được phát hiện là bình thường tại cấp 1 để tìm những bất thường mà cấp 1 có thể bỏ sót. Ưu điểm của phương pháp này là không cần tính đồng thời tất cả dữ liệu với cả 2 cấp do đó giảm được số lượng dữ liệu mà cấp 2 cần xử lý. Nhược điểm là phải chờ sau khi cấp 1 xử lý xong, dữ liệu coi là bình thường mới chuyển đến cấp 2. - Xét từng PC để phát hiện bất thường nếu cần thiết: phương pháp này khó phân tích đồng thời nhiều PC và phải thiết lập mức ngưỡng cho từng PC. Khi sử dụng cả PC thứ yếu và PC chủ yếu để tính khoảng cách, mỗi khoảng cách cần có một mức ngưỡng riêng nên phương pháp này được luận án đặt tên là dPCA2T (dPCA with 2 thresholds). dPCA2T có thể phát hiện thêm bất thường với khoảng cách sử dụng PC chủ yếu nhưng đồng thời cũng làm tăng tỷ lệ cảnh báo sai. Số lượng PC sử dụng trong khoảng cách tại cấp 1 và cấp 2: Qua những nghiên cứu đã khảo sát cùng với sự đánh giá dựa trên dữ liệu thực tế, nghiên cứu sinh thấy rằng số lượng các PC chủ yếu và thứ yếu thường được xác định theo thực nghiệm. Thử nghiệm cho thấy PC thứ yếu tại cấp 1 có kết quả phát hiện tốt 55 nếu tổng trị riêng các PC này trong khoảng 5% đến 15% của tổng tất cả trị riêng (ứng với k =3 đến k=5 PC cuối cùng). Cấp 2 có thể linh hoạt lựa chọn số lượng PC tùy theo điều kiện thực tế. Trong luận án số PC chủ yếu tại cấp 2 được lựa chọn trong khoảng 50% tổng tất cả trị riêng (theo 58, 59]) tương ứng với k ≤ 4 PC đầu tiên. Khi cần thiết phát hiện bất thường với nhiều PC hơn thì tăng số PC chủ yếu lên. Luận án đánh giá một đặc điểm sau đây của phương pháp 2 mức ngưỡng trong đó sử dụng cả khoảng cách của PC chủ yếu và thứ yếu mà những công trình trước đó 58, 34, 36, 14, 54, 10] chưa đề cập đến: Do phát hiện c ng l c bất thường ở cả C chủ yếu v thứ yếu, phương pháp n y cho kết quả phát hiện bất thường (T R) cao hơn một chút so với chỉ sử dụng PC thứ yếu. Tuy nhiên phương pháp 2 mức ngưỡng thường cũng trả giá bằng t lệ cảnh báo sai (F R) cao hơn v tốn nhiều t i nguyên hơn. Trong những hệ thống thực tế, thông thường số lượng dữ liệu bình thường chiếm đa số so với bất thường. Vì vậy nếu tỷ lệ cảnh báo sai (FPR) tăng lên một chút cũng làm cho số lượng dữ liệu bình thường phát hiện sai là bất thường tăng lên nhiều. Ví dụ: dữ liệu bình thường chiếm 90%, bất thường chiếm 10%, như vậy chỉ 1% dữ liệu bình thường phát hiện nhầm là bất thường cũng gây ra số lượng lớn cảnh báo sai. Do đó tính khoảng cách với cả PC chủ yếu và thứ yếu liên tục như trong các công trình đã khảo sát có thể vừa tốn năng lực xử lý, tài nguyên của hệ thống vừa làm tăng FPR không cần thiết. Khi trạng thái bình thường trong profile thiết lập tốt, phần lớn những bất thường trong PC chủ yếu đã được phát hiện với PC thứ yếu tại cấp 1. Trong trường hợp số lượng bất thường phát hiện được với cấp 2 không hiệu quả vì cấp 1 đã hoạt động tốt thì tùy theo điều kiện thực tế có thể giảm tần suất kiểm tra tại cấp 2 hoặc tắt h n cấp 2 nhằm giảm tỷ lệ cảnh báo sai (FPR) trong điều kiện dữ liệu bình thường chiếm đa số và giảm mức độ tính toán. 2.5.3. Thiết lập mức ngưỡng Thiết lập mức ngưỡng là một vấn đề khó trong các phương pháp phát hiện lưu lượng bất thường nói chung. Mức ngưỡng là tham số rất “nhạy cảm” giữa tỷ lệ phát 56 hiện bất thường chính xác (đúng) và tỷ lệ cảnh báo sai (phát hiện nhầm dữ liệu bình thường là bất thường). Một phương pháp là giả định mô hình tuân theo phân bố thống kê biết trước và ước lượng tỷ lệ sai số α từ đó tìm mức ngưỡng từ xác suất của (1- α). Một số phân bố thống kê có mức ngưỡng tra được ở dạng bảng (ví dụ: phân bố F, phân bố Chi-square 2) [58, 34, 36]. Trong lĩnh vực phát hiện bất thường, α đóng vai trò là tỷ lệ cảnh báo sai ước lượng. Phương pháp thứ hai là ước lượng mức ngưỡng dựa trên thực nghiệm. Trong luận án, việc thiết lập mức ngưỡng dựa trên hàm phân bố tích lũy thực nghiệm của d. Trong xác suất thống kê, hàm phân bố tích luỹ (Cumulative distribution function - CDF) được định nghĩa như sau [66]: F(t) = P(d ≤ dN) (2.23) nghĩa là xác suất để khoảng cách d nhỏ hơn hoặc bằng mức ngưỡng dN. Hàm phân bố tích lũy thực nghiệm (Empirical cumulative distribution function - ECDF) là hàm ước tính dựa trên dữ liệu thực nghiệm của hàm phân bố tích luỹ [67]: 1 1 ( ) ( ) n n i N i F t I d d n (2.24) Trong đó: n là tổng số quan sát trong tập dữ liệu, I là hàm chỉ thị, di là khoảng cách của quan sát thứ i: 1, khi ( ) 0,khi i N i N i N d d I d d d d (2.25) ECDF không tra bảng như phân bố thống kê F hoặc 2 mà xác định dựa trên thực nghiệm. Từ α là tỷ lệ cảnh báo sai ước lượng, ta có thể tính khoảng cách với mức ngưỡng dN tương ứng với (1- α) của hàm phân bố tích lũy thực nghiệm. Ví dụ: với α = 5%, mức ngưỡng lựa chọn tương ứng với 95% của ECDF. Tùy thuộc áp dụng dPCA1T hoặc dPCA2T, sẽ cần thiết lập một hoặc hai mức ngưỡng với ECDF. 2.5.4. Quá trình tạo profile và phát hiện bất thường trong dPCA 57 Để tính được khoảng cách d cần thiết phải tạo profile từ tập dữ liệu mẫu (gọi tắt là tập mẫu) dựa trên điều kiện bình thường của lưu lượng mạng. Từ tập hợp các giá trị của d được với tập dữ liệu mẫu sạch (không chứa bất thường) sẽ thiết lập được giá trị ngưỡng dN để phát hiện bất thường. Tạo profile Hình 2.4 mô tả quá trình tạo profile trong phương pháp dPCA. Quá trình tạo profile được thực hiện như sau: - Lựa chọn p thuộc tính đầu vào phù hợp: X1, X2, Xp. Các thuộc tính của n điểm (vector) tạo thành ma trận X (n hàng, p cột). - Tạo tập dữ liệu mẫu: Tập dữ liệu mẫu được tạo dựa trên trạng thái bình thường của lưu lượng mạng. Vì vậy tập dữ liệu mẫu cần sạch hay không chứa bất thường (hay ngoại lai). Việc làm sạch mẫu (khử ngoại lai) được trình bày trong chương 3 của luận án. - Chuẩn hóa dữ liệu đầu vào: Chuẩn hóa thống kê với giá trị trung bình và độ lệch chuẩn của mỗi cột trong X. - Tính ma trận tương quan, từ đó tính các cặp vectơ riêng, trị riêng, các thành phần chính. Cũng có thể áp dụng phương pháp SVD để thực hiện bước này. - Sắp xếp các thành phần chính theo thứ tự giảm dần của trị riêng. - Tính khoảng cách của mỗi điểm theo dPCA1T hoặc dPCA2T. - Xây dựng hàm phân bố tích lũy thực nghiệm dựa trên khoảng cách tính được và xác suất. Lựa chọn mức ngưỡng theo sai số hoặc tỷ lệ cảnh báo sai ước lượng. Cũng có thể áp dụng phân bố thống kê T2 hoặc 2 để tính mức ngưỡng trong một số trường hợp. 58 Tập mẫuập ẫu PCA Profile Vectơ riêng Trị riêng Trung bình Độ lệch chuẩn Mức ngưỡng rofile ectơ riêng rị riêng rung bình ộ lệch chuẩn ức ngưỡng Chuẩn hóahuẩn hóa Tính khoảng cáchính khoảng cách Hình 2.4. Tạo profile trong dPCA Phát hiện bất thường Sau khi xây dựng được profile, những quan sát mới được chuyển vào miền con PCA và tính khoảng cách để phát hiện bất thường. Quá trình này mô tả trên hình 2.5 và được thực hiện như sau: - Chuẩn hóa dữ liệu mỗi điểm dữ liệu mới với giá trị trung bình và độ lệch chuẩn lấy từ profile. - Tính giá trị thành phần chính theo các vectơ riêng trong profile. - Tính khoảng cách theo dPCA1T hoặc dPCA2T. So sánh giá trị khoảng cách tính được với giá trị ngưỡng. 59 Quan sát mớiuan sát ớiProfile Vectơ riêng Trị riêng Trung bình Độ lệch chuẩn Mức ngưỡng rofile ectơ riêng rị riêng rung bình ộ lệch chuẩn ức ngưỡng Tính thành phần chính ính thành phần chính Tính khoảng cáchính khoảng cách So sánh ngƣỡngSo sánh ng ỡng Phát hiện, cảnh báohát hiện, cảnh báo Chuẩn hóahuẩn hóa Hình 2.5. Phát hiện bất thường trong dPCA Với dPCA1T: Một điểm dữ liệu hoặc quan sát được coi là bất thường nếu: p c i i i r Ndwd y (2.26) Trong đó: (1 ≤ r ≤ p) Ngược lại điểm đó được coi là bình thường. Với dPCA2T: Một điểm dữ liệu được coi là bất thường nếu: 1 1 1 2 2OR ( ) ( ) pm c c i i N i r Ni i i d d d dw y w y với m < r (2.27) Ngược lại để một điểm dữ liệu là bình thường thì: 1 1 1 2 2AN( ) (D ) pm c c i i i i i r N N i d d d dw y w y (2.28) 60 Trong đó: d1 và d2 là khoảng cách tương ứng tính với PC chủ yếu và thứ yếu; dN1 và dN2 là mức ngưỡng tương ứng của d1 và d2; OR và AND là các phép tính logic. 2.6. Thử nghiệm, đánh giá kết quả Quá trình thử nghiệm có mục tiêu đánh giá khả năng phát hiện của phương pháp dPCA. Các thông số đánh giá được trình bày trong phần tiếp theo. Quá trình thử nghiệm được thực hiện trên phần mềm Matlab. Như đã trình bày trong những phần trên, để mô hình hóa trạng thái bình thường của hệ thống cần có tập dữ liệu mẫu và tạo được profile; từ đó so sánh những quan sát mới với mức ngưỡng để phát hiện bất thường. Phần này đánh giá hiệu quả của phương pháp dPCA với các tham số khác nhau, so sánh với phương pháp đã có. Công thức được áp dụng tính khoảng cách là (2.13) với các bộ tham số khác nhau. Trường hợp c=2, wi=1, phương pháp dPCA1T tương tự phương pháp phân tích phần dư đã có. Trường hợp c=2, wi = 1/i, phương pháp dPCA1T tương tự công thức đã được sử dụng trong các công trình đã có sử dụng khoảng cách Mahalanobis. Các công trình này sử dụng 2 mức ngưỡng tính khoảng cách với cả thành phần chính chủ yếu và thứ yếu (2 mức ngưỡng). Điểm khác biệt của luận án với những công trình này là luận án đánh giá cả trường hợp chỉ sử dụng các thành phần chính thứ yếu trong tính khoảng cách (dPCA1T) với c=2, wi = 1/i nhưng vẫn đạt kết quả phát hiện chấp nhận được [CT5, CT6, CT7]. Trường hợp áp dụng cả thành phần chính chủ yếu và thứ yếu (dPCA2T) để phát hiện bất thường luận án có thể sử dụng các tham số linh hoạt hơn thay vì luôn sử dụng c=2. Trường hợp c=1 cùng với trọng số wi là đề xuất mới của dPCA. Theo phân tích ở mục 2.5.1, trọng số wi được lựa chọn là wi=1 hoặc 1/i iw . 2.6.1. Các sự kiện và thông số đánh giá độ chính xác Độ chính xác là thông số quan trọng nhất của hệ thống phát hiện bất thường. Độ chính xác được tính dựa trên tỷ lệ phát hiện đúng và sai của dữ liệu được kiểm tra. Khi hệ thống phát hiện một quan sát là bất thường sẽ đưa ra cảnh báo, ngược lại là bình thường sẽ không cảnh báo. Các sự kiện và thông số đánh giá độ chính xác bao gồm: 61 Cảnh báo đúng (True Positive - TP): Số lượng quan sát bất thường được phát hiện chính xác. Cảnh báo sai (False Positive - FP): Số lượng quan sát bị phát hiện nhầm là bất thường nhưng thực tế lại là bình thường. Không cảnh báo đúng (True Negative - TN): Số lượng quan sát bình thường được phát hiện chính xác. Không cảnh báo sai (False Negative - FN): Số lượng quan sát được phát hiện là bình thường nhưng thực tế lại là bất thường. TPR (True Positive Rate), còn gọi là Recall: Tỷ lệ giữa số quan sát bất thường phát hiện chính xác và tổng số quan sát bất thường thử nghiệm. TP TPR TP FN (2.29) Trong đó: Tổng số quan sát bất thường thực tế = TP + FN. TPR t lệ thuận với TP theo công thức (2.29) vì số lượng quan sát bất thường phát hiện đ ng c ng nhiều thì TPR càng cao. FPR (False Positive Rate): Tỷ lệ giữa số quan sát bình thường bị phát hiện sai là bất thường và tổng số quan sát bình thường thử nghiệm. FP FPR TN FP (2.30) Trong đó: Tổng số quan sát bình thường thực tế = TN + FP. FPR t lệ nghịch với TN theo công thức (2.30) vì số lượng quan sát bình thường phát hiện đ ng c ng nhiều thì t lệ cảnh báo sai FPR càng giảm. Những thông số thường dùng để đánh giá độ chính xác là TPR, FPR [5, 58, 72]. Ngoài ra, trong một số phần thử nghiệm, luận án sử dụng thêm biểu đồ biểu thị số lượng quan sát bất thường phát hiện đúng (TP ) và số lượng quan sát bình thường phát hiện đúng (TN) để minh họa, làm rõ thêm cho tỷ lệ TPR và FPR trình bày ở dạng bảng. 2.6.2. Đồ thị ROC 62 Đồ thị ROC (Receiver Operating Curve) (hình 2.6) [5] dùng để biểu diễn khoảng cách theo mối quan hệ giữa tỷ lệ TPR và FPR. ROC hay được sử dụng để đánh giá khả năng phát hiện bất thường của phương pháp đề xuất [5, 6, 30, 58, 59, 77, 72, 73]. Hình dạng của đường cong ROC sẽ cho biết dự đoán trong trường hợp khảo sát có khả năng đạt hiệu quả tốt hay không. Hình 2.6. Đồ thị ROC - Đường cong càng đi dọc theo biên trái trục tung và rồi đi dọc theo biên phía trên nằm ngang của không gian vẽ đồ thị chứng tỏ kết quả dự đoán càng chính xác. Ví dụ trên hình 2.6 biểu diễn đồ thị của 3 đường cong thì đường cong tốt nhất là C rồi đến B và A. Độ chính xác tối ưu (Perfect accuracy) đạt được nếu TPR=100% và FPR=0%. - Đường cong càng tiến tới thành đường chéo 45 độ (đường nét đứt) thì độ chính xác của dự đoán càng kém. 2.6.3. Lựa chọn tập dữ liệu thử nghiệm Trong thử nghiệm, việc tổng hợp dữ liệu lưu lượng bắt được từ những công cụ như tcpdump, flowdump thành các thuộc tính cho từng kết nối, kiểm tra và đánh nhãn mỗi kết nối là bình thường hay bất thường là rất khó. Một số nghiên cứu tự tạo ra tập dữ liệu 63 mô phỏng thường không được đánh nhãn và số lượng hoặc tỷ lệ giữa các loại kết nối (connection) hoặc luồng (flow) bình thường và bất thường quá chênh lệch nên rất khó đánh giá hiệu suất phát hiện của phương pháp đề xuất. Mặc khác không có gì chắc chắn là tập dữ liệu mô phỏng tạo ra được đánh giá cao hơn tập dữ liệu được chấp nhận và sử dụng rộng rãi như tập dữ liệu KDD [69]. Vì vậy giải pháp thường được sử dụng trong hầu hết các công trình nghiên cứu tới nay là đánh giá phương pháp và mô hình thử nghiệm trên tập dữ liệu có sẵn. Cụ thể là các tập dữ liệu KDDCUP99 [69] và đặc biệt là tập Kyoto Honeypot [60, 61]. Kyoto Honeypot là tập dữ liệu thật thu được từ mạng
File đính kèm:
- luan_an_nghien_cuu_de_xuat_phuong_phap_phan_tich_va_phat_hie.pdf
- TomTat Luan an TS NCS NH Dương.pdf
- Trang TT Luan an TS NCS NH Dương (TA).pdf
- Trang TT Luan an TS NCS NH Dương (TV).pdf