Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu trang 1

Trang 1

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu trang 2

Trang 2

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu trang 3

Trang 3

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu trang 4

Trang 4

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu trang 5

Trang 5

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu trang 6

Trang 6

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu trang 7

Trang 7

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu trang 8

Trang 8

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu trang 9

Trang 9

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 146 trang nguyenduy 30/04/2024 1080
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu

Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu
ụng tªp kiºm thû, chia t¡ch tªp hu§n luy»n theo t¿ l» 70/30 tương ùng
với dú li»u cho hu§n luy»n và dú li»u cho kiºm thû). Qu¡ tr¼nh thực nghi»m
toàn bë nh¢n cõa c¡c tªp này đ·u không được sû dụng. Khi kiºm tra c¡c mô
h¼nh, trong c¡c tªp dú li»u kiºm tra, t§t c£ c¡c lo¤i t§n công m¤ng cõa c¡c tªp
 50
dú li»u đều được xem là dú li»u b§t thường và được g¡n nh¢n là 1, cán dú li»u
b¼nh thường được g¡n nh¢n là 0. Toàn bë nh¢n trong tªp kiºm tra đều được bỏ
đi t¤i thời điểm kiºm tra, nh¢n này ch¿ sû dụng sau khi hoàn t§t qu¡ tr¼nh thực
nghi»m, để giúp so s¡nh, đánh gi¡ k¸t qu£ đầu ra c¡c mô h¼nh ph¡t hi»n b§t
thường. C¡c bë dú li»u tr¶n là phê bi¸n trong lĩnh vực an ninh m¤ng [13], [17]
[35], được sû dụng xuy¶n suèt luªn ¡n cho đánh gi¡ c¡c k¸t qu£ nghi¶n cùu.
1.4.2. C¡c ch¿ sè đánh gi¡
 V· cơ b£n, có hai nhóm ch¿ sè đánh gi¡ mët kỹ thuªt ph¡t hi»n b§t thường.
Đầu ti¶n là hi»u n«ng, đây là phương ph¡p để ước lưñng mùc độ tài nguy¶n
c¦n thi¸t cho thuªt to¡n sû dụng, thường bao gồm CPU và bë nhớ. Thù hai là
hi»u qu£, thường ch¿ ra mùc độ v· kh£ n«ng cõa thuªt to¡n. Đối với bài toàn
ph¡t hi»n b§t thường, c¡c ch¿ sè hi»u qu£ để ch¿ kh£ n«ng ph¡t hi»n (prediction
ability or detection ability) cõa h» thèng, nghĩa là kh£ n«ng ph¥n bi»t giúa c¡c
đối tượng b¼nh thường và b§t thường. Th¶m vào đó, ch¿ sè độ ên định cõa kh£
n«ng ph¡t hi»n cũng đưñc sû dụng để đánh gi¡.
 Ngày nay, với sự ph¡t triºn nhanh cõa công ngh» ph¦n cùng, cụ thº là c¡c bë
vi xû lý [102], [103], h¦u h¸t c¡c nhà nghi¶n cùu trong lĩnh vực ph¡t hi»n b§t
thường ch¿ tªp trung vào nghi¶n cùu c£i ti¸n, n¥ng cao kh£ n«ng ph¡t hi»n cõa
h» thèng. Tuỳ theo lo¤i dú li»u đầu ra cõa phương ph¡p NAD có thº cung c§p
(là AS hay BL) mà c¡c ch¿ sè tương ùng thường được sû dụng.
1.4.2.1. Ch¿ sè đánh gi¡ với đầu ra là nh¢n nhị ph¥n
 Độ ch½nh x¡c (Accuracy - ACC): Ch¿ sè này như là t¿ l» giúa c¡c dú li»u
được ph¥n lo¤i đúng tr¶n toàn bë dú li»u, trong bài to¡n OCC đó là bao nhi¶u
m¨u dú li»u được ph¥n lo¤i đúng là b§t thường, là b¼nh thường tr¶n têng sè t§t
c£ c¡ m¨u dú li»u [79]. Công thùc t½nh to¡n ACC như sau,
 TP + TN
 Accuracy(ACC) = (1.18)
 TP + FP + FN + TN
 51
Trong đó, c¡c gi¡ trị TP FP TN và FN được t½nh to¡n bởi ma trªn léi 1.7.
Trong bài to¡n sû dụng ACC như ch¿ sè so s¡nh, ch¿ sè ACC cao ùng với mô
h¼nh đó được đánh gi¡ tèt hơn.
 Ma trªn léi (Confusion Matrix): C¡ch t½nh sû dụng ch¿ sè ACC như ở
tr¶n ch¿ cho bi¸t được bao nhi¶u ph¦n tr«m lượng dú li»u được ph¥n lo¤i đúng
mà không ch¿ ra được cụ thº méi lo¤i được ph¥n lo¤i như th¸ nào. Do vªy, đánh
gi¡ mët phương ph¡p OCC có thº sû dụng ma trªn léi (Confusion matrix) k½ch
thước (2 x 2) như H¼nh 1.7, trong đó c¡c hàng thº hi»n gi¡ trị thªt, c¡c cët thº
hi»n gi¡ trị dự đoán [20], [57]. Phương ph¡t ph¡t hi»n b§t thường m¤ng m¡y t½nh
là để ph¥n bi»t giúa lưu lượng m¤ng đang x²t là b§t thường hay b¼nh thường.
Khi sû dụng c¡c phương ph¡p OCC cho ph¡t hi»n b§t thường, lớp b¼nh thường
(Normal) có thº xem là lớp ¥m t½nh (negative), dú li»u không thuëc lớp b¼nh
thường được xem là b§t thường (Anomaly), là lớp dương t½nh (positive).
 GIÁ TRỊ DỰ ĐOÁN/PHÁT HIỆN
 Dương tính (p) Âm tính (n)
 )
 ’
 p
 (
 h
 n
 í
 t
 True Positive False Negative
 g
 n
 ơ (TP) (FN)
 ư
 T
 D
 Ậ
 H Dương tính thật Âm tính giả
 T
 Ị
 R
 T
 Á
 )
 I
 ’
 n
 G
 (
 h False Positive True Negative
 n
 í
 t
 (FP) (TN)
 m
 Â
 Dương tính giả Âm tính thật
 H¼nh 1.7: Ma trªn léi (Confusion Matrix).
 Khi ho¤t động, h» thèng s³ đưa ra c£nh b¡o hoặc không. C¡c c£nh b¡o có
thº là đúng hay sai, mët sè thuªt ngú được đưa ra để biºu thị c¡c ch¿ sè này
như sau:
 • True positive (TP): Là sè c¡c t§n công hay b§t thường được h» thèng ph¡t
 52
 hi»n ra, gọi là dương t½ch thªt.
 • False positive (FP): Là sè c¡c điểm dú li»u b¼nh thường nhưng được h»
 thèng đưa ra c£nh b¡o, gọi là dương t½nh gi£.
 • True Negative (TN): Là sè c¡c điểm dú li»u b¼nh thường và được h» thèng
 nhªn ra và không đưa ra c£nh b¡o, gọi là ¥m t½nh thªt.
 • False Negative (FN): Là sè c¡c t§n công hay b§t thường nhưng h» thèng
 không ph¡t hi»n ra, gọi là ¥m t½nh gi£.
 T¿ l» ph¡t hi»n và t¿ l» c£nh b¡o sai: Ngoài ACC, cặp ch¿ sè cũng thường
được sû dụng cho đánh gi¡ độ ch½nh x¡c cõa ph¥n lớp là DR và FAR. T¿ l» ph¡t
hi»n (Detection Rate - DR) là t¿ l» giúa têng sè t§n công/bất thường được ph¡t
hi»n đúng tr¶n têng sè t§n công [79], DR được t½nh to¡n theo Công thùc sau,
 TP
 DR = (1.19)
 TP + FN
T¿ l» ph¡t hi»n sai (False Alarm Rate - FAR) là t¿ l» giúa sè điểm dú li»u b¼nh
thường bị đưa ra c£nh b¡o tr¶n têng sè điểm dú li»u b¼nh thường. FAR được
t½nh theo Công thùc sau,
 FP
 F AR = (1.20)
 FP + TN
Theo đó, khi xem x²t cùng mùc FAR, n¸u bë ph¥n lớp nào cho DR tèt hơn th¼
bë ph¥n lớp đó được đánh gi¡ hi»u qu£ hơn.
 Độ đo F1-Score: Khi ¡p dụng cho c¡c bài to¡n thực t¸, đặc bi»t là bài to¡n
v· ph¡t hi»n b§t thường, thường có sự ch¶nh l»ch lớn giúa sè lượng điểm dú li»u
b¼nh thường và b§t thường. Hơn th¸ núa v§n đề ph¡t hi»n sai đối với dú li»u b§t
thường được ưu ti¶n hơn. Do vªy vi»c sû dụng c¡c đơn vị đo như ACC hay DR,
FAR có nhúng h¤n ch¸ [79]. F1-score là đơn vị đo để kh­c phục c¡c h¤n ch¸ đó
[82], F1-score được t½nh dựa tr¶n hai kh¡i ni»m kh¡c là: precision và recall.
 Trong bài to¡n OCC, Precision được định nghĩa là t¿ l» sè điểm dương t½nh
thªt trong sè nhúng điểm được ph¥n lo¤i là dương t½nh (TP + FP). Recall được
 53
định nghĩa là t¿ l» sè điểm dương t½nh thªt trong sè nhúng điểm thực sự là dương
t½nh (TP + FN), theo c¡c Công thùc,
 TP
 precision = (1.21)
 TP + FP
 TP
 recall = (1.22)
 TP + FN
 Và F1-score được t½nh theo Công thùc,
 1 2 · precision · recall
 F 1 − score = 2 = (1.23)
 1 1 precision + recall
 precision + recall
F1-score là ch¿ sè đo c¥n b¬ng giúa precision và recall và được xem là ch¿ sè
ch½nh để đánh gi¡ hi»u qu£ cõa c¡c mô h¼nh (thuªt to¡n) ph¡t hi»n b§t thường
với đầu ra là nh¢n nhị ph¥n [13], [68], [69]. Gi¡ trị F1-score cao thº hi»n mô
h¼nh cho kh£ n«ng ph¡t hi»n b§t thường tèt hơn.
1.4.2.2. Ch¿ sè đánh gi¡ với đầu ra là độ đo b§t thường
 Đường cong ROC và AUC: Khi phương ph¡p ph¥n lớp không thº đưa ra
được nh¢n nhị ph¥n mà là mët độ đo b§t thường, ch¿ sè thường sû dụng cho
đánh gi¡ c¡c phương ph¡p trong trường hñp này là ROC và AUC. Đường cong
ROC (Receiver Operating Characteristic ROC) là đơn vị đo được đề xu§t để
thº hi»n sự c¥n b¬ng cõa DR và FAR [79], [96]. ROC minh ho¤ mèi quan h»
giúa DR và FAR cho mët bë ph¥n lớp cụ thº. Đường cong ROC có đưñc tø hai
tham sè này qua r§t nhi·u c¡c ngưỡng và được t½nh theo công thùc sau [95].
 P (xjpositive)
 ROC = (1.24)
 P (xjnegaitive)
 54
Đỉnh cõa đường cong ROC hướng đến gi¡ trị góc (0,1) tr¶n trục to¤ độ thº hi»n
thuªt to¡n tương ùng được đánh gi¡ hi»u qu£ hơn [13].
 AUC (Area Under Curver) là vùng di»n t½ch dưới đường cong ROC, ch¿ sè
này minh ho¤ ch§t lượng ph¥n lớp cõa mët mô h¼nh học m¡y, ch§t lượng này
được x¡c định g¦n như trung b¼nh tr¶n nhi·u ngưỡng kh¡c nhau. Mët mô h¼nh
ph¥n lớp tèt n¸u AUC ti¸n đến s¡t 1, có nghĩa là mô h¼nh có kh£ n«ng ph¥n bi»t
c¡c lớp dú li»u đang quan s¡t r§t tèt. AUC được sû dụng phê bi¸n khi đánh gi¡
c¡c thuªt to¡n ph¥n lớp kh¡c nhau mà ở đó chưa x¡c định được cụ thº ngưỡng
quy¸t định [20].
1.4.2.3. Độ ên định
 Độ ên định cõa mô h¼nh tr¶n c¡c môi trường m¤ng kh¡c nhau cũng được xem
là mët trong nhúng ch¿ sè đánh gi¡ quan trọng đối với mët gi£i ph¡p ph¡t hi»n
b§t thường m¤ng. Khi xem x²t độ ch½nh x¡c (v½ dụ F1-score, ACC) cõa mët gi£i
thuªt tr¶n c¡c đối tượng quan s¡t (tªp dú li»u) kh¡c nhau, n¸u ch¿ sè được đ¡nh
gi¡ có gi¡ trị ên định hơn c¡c phương ph¡p ph¡t hi»n b§t thường kh¡c tr¶n đa
sè trường hñp th¼ mô h¼nh ph¥n lo¤i đó được đánh gi¡ là tèt hơn [13].
1.5. K¸t luªn
 Chương này tr¼nh bày bèn ph¦n ch½nh, tr¼nh bày nëi dung ki¸n thùc cơ sở và
mët sè nëi dung li¶n quan cõa luªn ¡n. Trong ph¦n thù nh§t, giới thi»u mët sè
kh¡i ni»m li¶n quan, tr¼nh bày mô h¼nh têng quan NAD; làm rã lý do phương
ph¡p hu§n luy»n mô h¼nh NAD theo học b¡n gi¡m s¡t là phù hñp, nëi dung
trong ph¦n cũng tr¼nh bày hai lo¤i đầu ra phê bi¸n cõa mô h¼nh NAD là "Độ
đo b§t thường" và "Nh¢n nhị ph¥n".
 Ph¦n thù hai tr¼nh bày mët sè phương ph¡p đơn OCC phê bi¸n cho NAD
như KDE, LOF, OCSVM. Ti¸p đó giới thi»u mët sè k¸t qu£ nghi¶n cùu NAD
dựa tr¶n học s¥u, tªp trung giới thi»u mô h¼nh học s¥u ti¶u biºu cho NAD, mô
 55
h¼nh SAE. Nëi dung tr¼nh bày kh¯ng định phương ph¡p ph¡t hi»n b§t thường
dựa tr¶n m¤ng nơ-ron học s¥u là ti¶n ti¸n hi»n nay. Tø k¸t qu£ ph¥n t½ch, nëi
dung nghi¶n cùu, ph¡t triºn c¡c phương ph¡p đơn cho ph¡t hi»n b§t thường dựa
tr¶n học s¥u s³ được luªn ¡n tr¼nh bày t¤i Chương 2.
 Ph¦n thù ba giới thi»u v· c¡c phương ph¡p k¸t hñp, têng hñp tø c¡c phương
ph¡p đơn để t¤o mô h¼nh đồng nh§t, hi»u qu£. Tr¼nh bày k¸t qu£ kh£o s¡t, ph¥n
t½ch lý do phương ph¡p têng hñp dú li»u (Data Fusion) là phù hñp cho mục ti¶u
luªn ¡n đề ra. Th¶m vào đó, ph¦n này đi s¥u tr¼nh bày lý thuy¸t D-S và c¡c
nghi¶n cùu li¶n quan. Kh¯ng định, lý thuy¸t Dempster-Shafer (D-S) được đánh
gi¡ là phù hñp cho bài to¡n ph¡t hi»n b§t thường nhờ sự linh ho¤t và không y¶u
c¦u tri thùc ti·n định khi x¥y dựng mô h¼nh.
 Ph¦n cán l¤i tr¼nh bày v· mët sè y¸u tè ch½nh cho thực nghi»m đánh gi¡
thuªt to¡n ph¡t hi»n b§t thường. Đầu ti¶n giới thi»u v· c¡c bë dú li»u phê bi¸n
cho lĩnh vực an ninh m¤ng, giới thi»u c¡ch thùc luªn ¡n sû dụng c¡c bë dú li»u
(10 bë) cho kiºm thû c¡c thuªt to¡n OCC. Ti¸p đó tr¼nh bày v· c¡c ch¿ sè đo
lường thường được sû dụng cho đánh gi¡, so s¡nh c¡c phương ph¡p ph¥n lớp
hay c¡c thuªt to¡n ph¡t hi»n b§t thường. C¡c ch¿ sè đánh gi¡ được ph¥n nhóm
theo d¤ng đầu ra cõa mô h¼nh NAD, ngoài ra ch¿ sè cho đánh gi¡ sự ên định cõa
mët mô h¼nh NAD cũng đưñc đ· cªp. Nëi dung tr¼nh bày trong ph¦n s³ được
sû dụng t¤i c¡c Chương 2, 3 cõa luªn ¡n.
 56
CHƯƠNG 2. PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN
 HÅC SÂU AUTOENCODER
 Chương này tr¼nh bày k¸t qu£ nghi¶n cùu ph¡t triºn mô h¼nh ph¡t hi»n b§t
thường dựa tr¶n học s¥u, nëi dung tr¼nh bày trong bèn ph¦n. Ph¦n đầu, giới
thi»u mët sè h¤n ch¸ mà phương ph¡p học s¥u ti¶u biºu NAD có thº đang gặp
ph£i. Ti¸p đó, tr¼nh bày v· phương ph¡p gi£i quy¸t v§n đề đặt ra thông qua c£i
ti¸n, ph¡t triºn tø mô h¼nh ti¶u biºu đang có. Trong ph¦n ba, tr¼nh bày v· thực
nghi»m, k¸t qu£ và đánh gi¡ gi£i ph¡p đề xu§t thông qua c¡c bë dú li»u phê
bi¸n cho lĩnh vực an ninh m¤ng. Trong ph¦n cuèi, tr¼nh bày k¸t luªn chương.
K¸t qu£ nghi¶n cùu trong chương được công bè tr¶n c¡c công tr¼nh [CT1], [CT5]
(trong ph¦n CÁC CÆNG TRÌNH CÂ LIÊN QUAN ĐẾN LUẬN ÁN).
2.1. Giới thi»u
 Như đã tr¼nh bày ở ph¦n mở đầu, m¤ng nơ-ron học s¥u dựa tr¶n ki¸n trúc
AutoEncoder (Deep AutoEncoder - DeAE) được nhi·u học gi£ quan t¥m nghi¶n
cùu, DeAE có thº kh­c phục c¡c h¤n ch¸ cõa c¡c phương ph¡p truy·n thèng
và được cho là phương ph¡p ti¶n ti¸n (the-state-of-the-art) cho ph¡t hi»n b§t
thường m¤ng [52], [55], [87]. AutoEncoder (AE) là mët m¤ng nơ-ron truy·n
th¯ng đưñc hu§n luy»n để t¡i t¤o đầu ra gièng với đầu vào [15], [53]. DeAE h¼nh
thành tø vi»c sû dụng AE với nhi·u lớp ©n, t¦ng lớp ©n trung t¥m đóng vai
trá n²n dú li»u đầu vào sang không gian thuëc t½nh có sè chi·u th§p hơn theo
hướng, giú l¤i thông tin quan trọng và bỏ đi c¡c thông tin thøa tø dú li»u gèc
ban đầu [17]. C¡c nghi¶n cùu g¦n đây v· AE sû dụng dú li»u t¦ng ©n trung t¥m
làm đại di»n đặc trưng cho dú li»u đầu vào (Feature Representation - FtR). Nhờ
đó giúp cho mô h¼nh gi£i quy¸t v§n đề dú li»u nhi·u chi·u [18], [20], [83]. Mô
 57
h¼nh Shrink AE (SAE) [20] được cho là mô h¼nh ti¶u biºu trong ph¡t hi»n b§t
thường m¤ng. X²t v· kh½a c¤nh hu§n luy»n m¤ng, SAE là mët mở rëng cõa AE
truy·n thèng thông qua sû dụng mët tham sè điều chu©n vào hàm m§t m¡t cõa
AE. SAE được hu§n luy»n để đồng thời thực hi»n hai mục ti¶u là t¡i t¤o dú li»u
đầu ra tø đầu vào và buëc c¡c dú li»u FtR hëi tụ v· gèc to¤ đë. Minh họa cho
H¼nh 2.1: Minh ho¤ ph¥n bè dú li»u: (a) không gian gèc, (b) không gian vector
lớp ©n AE, (c) không gian vector lớp ©n cõa SAE, H¼nh tø [20].
b£n ch§t ho¤t động cõa SAE như t¤i H¼nh 2.1. Trong đó, H¼nh 2.1(a) thº hi»n
không gian dú li»u đầu vào gèc. H¼nh 2.1(b) tr¼nh bày không gian thuëc t½nh
cõa lớp ©n trung t¥m cõa mô h¼nh AE b¼nh thường, và H¼nh 2.1(c) tr¼nh bày
không gian thuëc t½nh cõa lớp ©n trung t¥m cõa mô h¼nh SAE. Qua đó thº hi»n
dú li»u b¼nh thường được ràng buëc để ph¥n bè trong mët vùng không gian nhỏ
g¦n với gèc to¤ độ.
 Mặc dù DeAE mà cụ thº là SAE đã được chùng minh cho hi»u qu£ ph¡t hi»n
b§t thường tèt tr¶n nhi·u tªp dú li»u kiºm thû phê bi¸n [20], phương ph¡p này
hi»n v¨n có thº gặp nhúng h¤n ch¸ nh§t định. (i) Vi»c SAE được hu§n luy»n
để n²n t§t c£ dú li»u hu§n luy»n vào mët cụm (cluster) đơn trong không gian
vector lớp ©n, do vªy SAE có thº đạt hi»u qu£ không cao với trường hñp đối
tượng quan s¡t có dú li»u tr¤ng th¡i b¼nh thường tồn t¤i ở d¤ng nhi·u cụm. (ii)
Mô h¼nh SAE mặc dù cho kh£ n«ng ph¡t hi»n b§t thường m¤ng r§t tèt, tuy vªy
SAE v¨n có thº gặp khó kh«n với mët sè lo¤i t§n công (b§t thường). Trong t¼nh
huèng này, c¡c m¨u t§n công khi được kiºm tra bởi mô h¼nh SAE thường t¤o ra
 58
c¡c vector lớp ©n có xu hướng g¦n gèc to¤ độ hơn, do vªy vi»c ph¥n t¡ch giúa
b¼nh thường và b§t thường khó hơn. C¡c t§n công m¤ng mà SAE gặp khó có
thº do m¨u dú li»u có nhi·u điểm gièng với m¨u dú li»u b¼nh thường, v¼ SAE
cè ²p để dú li»u b¼nh thường được biºu di¹n ở vùng g¦n gèc to¤ độ trong không
gian lớp ©n, do vªy với dú li»u t§n công g¦n gièng với dú li»u b¼nh thường cũng
có thº cho léi t¡i t¤o (Reconstruction Errors - RE) b², và có c¡ch tr¼nh di¹n dú
li»u trong không gian lớp ©n tương tự tương tự như điểm dú li»u b¼nh thường.
Đó có thº là lý do SAE s³ gặp khó cho ph¥n t¡ch m¨u dú li»u b¼nh thường và
b§t thường trong trong trường hñp n¶u tr¶n. Nhªn định tr¶n cũng phù hñp với
sè li»u tø k¸t qu£ công bè cõa t¡c gi£ đã đề xu§t gi£i ph¡p SAE [20, xem B£ng
3], sè li»u cho th§y, SAE gặp cho hi»u qu£ không tèt với lo¤i t§n công Remote
to Local (R2L), đây được cho là lo¤i t§n công m¤ng nguy hiºm và kh¡c so với
đa sè t§n công m¤ng kh¡c như DoS hay Probe [71]. T§n công m¤ng R2L nhúng
b£n th¥n m¢ độc trong c¡c gói tin dú li»u và không t¤o ra c¡c m¨u tu¦n tự như
t§n công DoS và Probe. Điều này làm cho R2L có lưu lượng m¤ng g¦n gièng với
dú li»u b¼nh thường [3], [56], [71].
 Khi xem x²t hai v§n đề tr¶n theo chi·u xû lý cõa dú li»u cõa phương ph¡p
SAE có thº nhªn th§y, h¤n ch¸ thù nh§t n¬m ở vi»c v§n đề xû lý dú li»u trước
khi đẩy vào SAE, ngược l¤i h¤n ch¸ thù hai hoàn toàn n¬m trong ph¦n lãi SAE,
vi»c xû lý c¦n ph£i được c£i ti¸n nëi t¤i trong SAE. Do vªy, hai h¤n ch¸ này
hoàn toàn độc lªp và có thº nghi¶n cùu ri¶ng, k¸t qu£ xû lý tøng h¤n ch¸ đều
góp ph¦n c£i ti¸n thuªt to¡n SAE hi»n có.
2.2. Gi£i ph¡p đề xu§t
 Như đã ph¥n t½ch ở ph¦n Giới thi»u, hai v§n đề mà SAE có thº đang gặp ph£i
n¬m ở c¡c giai đoạn kh¡c nhau cõa mô h¼nh SAE, do vªy để d¹ dàng cho vi»c
mô t£ k¸t qu£ c£i ti¸n, ph¡t triºn. Để có thº d¹ hơn trong vi»c so s¡nh, đánh
gi¡ c¡c đề xu§t c£i ti¸n, Luªn ¡n t¡ch gi£i ph¡p xû lý ri¶ng bi»t cho hai h¤n
 59
ch¸ đặt ra đối với SAE. Đầu ti¶n là c£i ti¸n SAE b¬ng gi£i ph¡p có t¶n KSAE,
thực hi»n ở giai đoạn xû lý dú li»u trước khi đẩy vào SAE. Ti¸p đó, ph¡t triºn
lãi cõa SAE thông qua đề xu§t gi£i ph¡p có t¶n DSAE. Mô t£ mèi li¶n h» tr¶n
SAE, KSAE và DSAE như tr¶n H¼nh 2.2, trong đó xi là m¨u dú li»u đầu vào,
Si là độ đo b§t thường t¤i đầu ra.
 KSAE
 (1)
 x K- s
 i SAE i
 mean
 ý
 E
 l
 A
 ử
 S
 x
 c
 n
 ớ
 ề
 i
 ư
 r
 T
 t SAE
 x s
 i SAE i
 E
 A
 ý
 l
 S
 ử
 n
 â
 X
 h
 n
 DSAE
 (2)
 x s
 i DSAE i
 H¼nh 2.2: Minh họa mèi li¶n h» SAE, KSAE và DSAE
2.2.1. Gi£i ph¡p Clustering-Shrink AutoEncoder
 Để kh­c phục h¤n ch¸ thù nh§t cõa SAE, Luªn ¡n đề xu§t gi£i ph¡p k¸t hñp
kỹ thuªt ph¥n cụm và SAE, đặt t¶n là KSAE (Clustering-Shrink AutoEncoder).
Dựa tr¶n gi£ định r¬ng, phi¶n b£n gèc cõa SAE được hu§n luy»n để điều hướng
toàn bë dú li»u b¼nh thường v· gèc to¤ độ trong không gian dú li»u lớp ©n trung
t¥m cõa AE. V¼ vªy, khi gặp dú li»u đã tồn t¤i ở d¤ng nhi·u cụm th¼ SAE có
thº ho¤t động không hi»u qu£.
 Ph¥n cụm là chia dú li»u thành c¡c nhóm đối tượng tương đương [11], vi»c
chia thành nhi·u cụm để giúp gi£m k½ch thước dú li»u mà v¨n giú được đặc trưng
cõa dú li»u, dú li»u lúc này được mô t£ b¬ng tøng cụm ri¶ng l´. Trong lĩnh vực
học m¡y, ph¥n cụm thuëc bài to¡n học không gi¡m s¡t, mục ti¶u cõa mô h¼nh
 60
ph¥n cụm là g¡n nh¢n cho dú li»u theo sè cụm cho trước hoặc sè cụm tèi ưu
nh§t có thº theo tøng bài to¡n. Thuªt to¡n phê bi¸n nh§t cho ph¥n cụm có thº
kº đến là K-means clustering (K-means) đưñc đề xu§t bởi Mac Queen [11]. Nhờ
sự đơn gi£n, hi»u qu£ mà K-means được ùng dụng nhi·u trong lĩnh vực khai ph¡
dú li»u. V· b£n ch§t, phương ph¡p đ· xu§t có thº ho¤t động với mọi thuªt to¡n
ph¥n cụm, tuy nhi¶n để ti»n cho mô t£ gi£i ph¡p và cài đặt thực nghi»m, luªn
¡n chọn K-means đại di»n cho bước ph¥n cụm trong mô h¼nh học s¥u KSAE.
K-means ho¤t động tr¶n cơ sở, tø tªp dú li»u với N điểm, thuªt to¡n thực hi»n
tr¶n cơ sở x¡c định K trung t¥m là đ¤i di»n cho K cụm dú li»u được t¤o ra, K
trung t¥m được x¡c định dựa vào trung b¼nh kho£ng c¡ch cõa c¡c điểm tương
ùng thuëc cụm đó đến c¡c trung t¥m.
 Công đoạn chia thành K cụm cho trước được thực hi»n trước khi ¡p dụng
SAE. Theo đó, qu¡ tr¼nh hu§n luy»n mô h¼nh KSAE gồm hai công đoạn: Thù
nh§t, dú li»u đầu vào được ph¥n cụm sû dụng thuªt to¡n ph¥n cụm (TTPC),
thuªt to¡n này được hu§n luy»n để chia tªp dú li»u theo sè cụm K, cho trước.
Thù hai, ùng với sè cụm K được chia t¡ch, c¡c mô h¼nh SAE được hu§n luy»n
bởi ch¿ dú li»u ùng với cụm dú li»u tương ùng thu được tø bước thù nh§t. Thuªt
to¡n 2.1 tr¼nh bày chi ti¸t qu¡ tr¼nh hu§n luy»n cõa KSAE.
 Thuªt to¡n 2.1 Hu§n luy»n mô h¼nh KSAE
INPUT: Tªp hu§n luy»n Dn, sè cụm cho trước K.
OUTPUT: trainedTTPC, K trainedSAE.
 TTPC
 1: trained hu§n luy»n thuªt to¡n ph¥n cụm với đầu vào Dn;K.
 j TTPC
 2: K tªp hu§n luy»n D kiºm tra trained với đầu vào Dn.
 3: j 0.
 4: while j < K do
 SAE j
 5: trainedj hu§n luy»n SAE với tªp dú li»u D .
 6: end while
 7: Tr£ v· trainedTTPC, K trainedSAE .
 Sau khi hu§n luy»n, chúng ta thu đưñc 1 (mët) mô h¼nh ph¥n cụm (K-means)
và K mô h¼nh SAE đã được hu§n luy»n. C¡c mô h¼nh này sau đó được sû dụng
cho qu¡ tr¼nh kiºm tra.
 61
 Mô h¼nh kiºm tra KSAE như t¤i H¼nh 2.3, trong mô h¼nh kiºm tra này, c¡c
m¨u dú li»u đầu vào đầu ti¶n được kiºm tra để x¡c định sè cụm bởi mô h¼nh
ph¥n cụm đã được hu§n luy»n, k¸t qu£ tr£ v· là nh¢n Cj ≤ K, ùng với cụm cõa
dú li»u đầu vào. Mô h¼nh SAEj tương ùng sau đó được sû dụng cho kiºm tra để
x¡c định độ đo b§t thường ùng với điºm dú li»u đầu vào.
 H¼nh 2.3: Mô h¼nh kiºm tra theo phương ph¡p KSAE
2.2.2. Gi£i ph¡p Double-shrink AutoEncoder
 Với h¤n ch¸, SAE gặp khó kh«n với mët sè lo¤i t§n công nh§t định, luªn ¡n
đưa ra gi£i ph¡p c£i ti¸n nh¥n cõa SAE, gi£i ph¡p có t¶n DSAE (Double-Shrink
AutoEncoder), nëi dung đưñc tr¼nh bày như sau. Léi t¡i t¤o (RE) cõa mô h¼nh
dựa tr¶n AutoEncoder có thº thº hi»n mùc đë b§t thường cõa dú li»u, RE lớn
thº hi»n vi»c t¡i t¤o dú li»u h¤n ch¸, dú li»u có t½nh b§t thường cao và ngưñc l¤i.
Với c¡c b§t thường mà SAE gặp khó, có hai trường hñp cho vector t¡i t¤o đầu
ra cõa SAE trong trường hñp này. Thù nh§t, cho léi t¡i t¤o (RE) nhỏ, khi đó
m¨u b§t thường đầu ra (được t¡i t¤o) s³ g¦n gièng với m¨u b§t thường đầu vào,
và là b§t thường. So với m¨u b§t thường đầu vào, m¨u dú li»u được t¡i t¤o này
có thº kh¡c xa hơn m¨u dú li»u b¼nh thường. Điều này có thº gi£i th½ch, v¼ m¨u
đầu vào là b§t thường, n¶n qua m¤ng nơ-ron AE s³ cho gi¡ trị t¡i t¤o t¤i đầu ra
(X-out), cũng là b§t thường. X-out có xu th¸ kh¡c xa với m¨u b¼nh thường hơn
v¼ nó đã qua th¶m l¦n được t¡i t¤o l¤i tø m¨u b§t thường. Thù hai, n¸u RE lớn
 62
th¼ m¨u b§t thường được t¡i t¤o, X-out, có xu th¸ kh¡c xa hơn so với m¨u b§t
thườn

File đính kèm:

  • pdfluan_an_phat_trien_mot_so_mo_hinh_phat_hien_bat_thuong_mang.pdf
  • pdfBùi Công Thành_E.pdf
  • pdfBùi Công Thành_V.pdf
  • pdfLA_Bùi Công Thành_TT.pdf