Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu
ụng tªp kiºm thû, chia t¡ch tªp hu§n luy»n theo t¿ l» 70/30 tương ùng với dú li»u cho hu§n luy»n và dú li»u cho kiºm thû). Qu¡ tr¼nh thực nghi»m toàn bë nh¢n cõa c¡c tªp này đ·u không được sû dụng. Khi kiºm tra c¡c mô h¼nh, trong c¡c tªp dú li»u kiºm tra, t§t c£ c¡c lo¤i t§n công m¤ng cõa c¡c tªp 50 dú li»u đều được xem là dú li»u b§t thường và được g¡n nh¢n là 1, cán dú li»u b¼nh thường được g¡n nh¢n là 0. Toàn bë nh¢n trong tªp kiºm tra đều được bỏ đi t¤i thời điểm kiºm tra, nh¢n này ch¿ sû dụng sau khi hoàn t§t qu¡ tr¼nh thực nghi»m, để giúp so s¡nh, đánh gi¡ k¸t qu£ đầu ra c¡c mô h¼nh ph¡t hi»n b§t thường. C¡c bë dú li»u tr¶n là phê bi¸n trong lĩnh vực an ninh m¤ng [13], [17] [35], được sû dụng xuy¶n suèt luªn ¡n cho đánh gi¡ c¡c k¸t qu£ nghi¶n cùu. 1.4.2. C¡c ch¿ sè đánh gi¡ V· cơ b£n, có hai nhóm ch¿ sè đánh gi¡ mët kỹ thuªt ph¡t hi»n b§t thường. Đầu ti¶n là hi»u n«ng, đây là phương ph¡p để ước lưñng mùc độ tài nguy¶n c¦n thi¸t cho thuªt to¡n sû dụng, thường bao gồm CPU và bë nhớ. Thù hai là hi»u qu£, thường ch¿ ra mùc độ v· kh£ n«ng cõa thuªt to¡n. Đối với bài toàn ph¡t hi»n b§t thường, c¡c ch¿ sè hi»u qu£ để ch¿ kh£ n«ng ph¡t hi»n (prediction ability or detection ability) cõa h» thèng, nghĩa là kh£ n«ng ph¥n bi»t giúa c¡c đối tượng b¼nh thường và b§t thường. Th¶m vào đó, ch¿ sè độ ên định cõa kh£ n«ng ph¡t hi»n cũng đưñc sû dụng để đánh gi¡. Ngày nay, với sự ph¡t triºn nhanh cõa công ngh» ph¦n cùng, cụ thº là c¡c bë vi xû lý [102], [103], h¦u h¸t c¡c nhà nghi¶n cùu trong lĩnh vực ph¡t hi»n b§t thường ch¿ tªp trung vào nghi¶n cùu c£i ti¸n, n¥ng cao kh£ n«ng ph¡t hi»n cõa h» thèng. Tuỳ theo lo¤i dú li»u đầu ra cõa phương ph¡p NAD có thº cung c§p (là AS hay BL) mà c¡c ch¿ sè tương ùng thường được sû dụng. 1.4.2.1. Ch¿ sè đánh gi¡ với đầu ra là nh¢n nhị ph¥n Độ ch½nh x¡c (Accuracy - ACC): Ch¿ sè này như là t¿ l» giúa c¡c dú li»u được ph¥n lo¤i đúng tr¶n toàn bë dú li»u, trong bài to¡n OCC đó là bao nhi¶u m¨u dú li»u được ph¥n lo¤i đúng là b§t thường, là b¼nh thường tr¶n têng sè t§t c£ c¡ m¨u dú li»u [79]. Công thùc t½nh to¡n ACC như sau, TP + TN Accuracy(ACC) = (1.18) TP + FP + FN + TN 51 Trong đó, c¡c gi¡ trị TP FP TN và FN được t½nh to¡n bởi ma trªn léi 1.7. Trong bài to¡n sû dụng ACC như ch¿ sè so s¡nh, ch¿ sè ACC cao ùng với mô h¼nh đó được đánh gi¡ tèt hơn. Ma trªn léi (Confusion Matrix): C¡ch t½nh sû dụng ch¿ sè ACC như ở tr¶n ch¿ cho bi¸t được bao nhi¶u ph¦n tr«m lượng dú li»u được ph¥n lo¤i đúng mà không ch¿ ra được cụ thº méi lo¤i được ph¥n lo¤i như th¸ nào. Do vªy, đánh gi¡ mët phương ph¡p OCC có thº sû dụng ma trªn léi (Confusion matrix) k½ch thước (2 x 2) như H¼nh 1.7, trong đó c¡c hàng thº hi»n gi¡ trị thªt, c¡c cët thº hi»n gi¡ trị dự đoán [20], [57]. Phương ph¡t ph¡t hi»n b§t thường m¤ng m¡y t½nh là để ph¥n bi»t giúa lưu lượng m¤ng đang x²t là b§t thường hay b¼nh thường. Khi sû dụng c¡c phương ph¡p OCC cho ph¡t hi»n b§t thường, lớp b¼nh thường (Normal) có thº xem là lớp ¥m t½nh (negative), dú li»u không thuëc lớp b¼nh thường được xem là b§t thường (Anomaly), là lớp dương t½nh (positive). GIÁ TRỊ DỰ ĐOÁN/PHÁT HIỆN Dương tính (p) Âm tính (n) ) ’ p ( h n í t True Positive False Negative g n ơ (TP) (FN) ư T D Ậ H Dương tính thật Âm tính giả T Ị R T Á ) I ’ n G ( h False Positive True Negative n í t (FP) (TN) m  Dương tính giả Âm tính thật H¼nh 1.7: Ma trªn léi (Confusion Matrix). Khi ho¤t động, h» thèng s³ đưa ra c£nh b¡o hoặc không. C¡c c£nh b¡o có thº là đúng hay sai, mët sè thuªt ngú được đưa ra để biºu thị c¡c ch¿ sè này như sau: • True positive (TP): Là sè c¡c t§n công hay b§t thường được h» thèng ph¡t 52 hi»n ra, gọi là dương t½ch thªt. • False positive (FP): Là sè c¡c điểm dú li»u b¼nh thường nhưng được h» thèng đưa ra c£nh b¡o, gọi là dương t½nh gi£. • True Negative (TN): Là sè c¡c điểm dú li»u b¼nh thường và được h» thèng nhªn ra và không đưa ra c£nh b¡o, gọi là ¥m t½nh thªt. • False Negative (FN): Là sè c¡c t§n công hay b§t thường nhưng h» thèng không ph¡t hi»n ra, gọi là ¥m t½nh gi£. T¿ l» ph¡t hi»n và t¿ l» c£nh b¡o sai: Ngoài ACC, cặp ch¿ sè cũng thường được sû dụng cho đánh gi¡ độ ch½nh x¡c cõa ph¥n lớp là DR và FAR. T¿ l» ph¡t hi»n (Detection Rate - DR) là t¿ l» giúa têng sè t§n công/bất thường được ph¡t hi»n đúng tr¶n têng sè t§n công [79], DR được t½nh to¡n theo Công thùc sau, TP DR = (1.19) TP + FN T¿ l» ph¡t hi»n sai (False Alarm Rate - FAR) là t¿ l» giúa sè điểm dú li»u b¼nh thường bị đưa ra c£nh b¡o tr¶n têng sè điểm dú li»u b¼nh thường. FAR được t½nh theo Công thùc sau, FP F AR = (1.20) FP + TN Theo đó, khi xem x²t cùng mùc FAR, n¸u bë ph¥n lớp nào cho DR tèt hơn th¼ bë ph¥n lớp đó được đánh gi¡ hi»u qu£ hơn. Độ đo F1-Score: Khi ¡p dụng cho c¡c bài to¡n thực t¸, đặc bi»t là bài to¡n v· ph¡t hi»n b§t thường, thường có sự ch¶nh l»ch lớn giúa sè lượng điểm dú li»u b¼nh thường và b§t thường. Hơn th¸ núa v§n đề ph¡t hi»n sai đối với dú li»u b§t thường được ưu ti¶n hơn. Do vªy vi»c sû dụng c¡c đơn vị đo như ACC hay DR, FAR có nhúng h¤n ch¸ [79]. F1-score là đơn vị đo để khc phục c¡c h¤n ch¸ đó [82], F1-score được t½nh dựa tr¶n hai kh¡i ni»m kh¡c là: precision và recall. Trong bài to¡n OCC, Precision được định nghĩa là t¿ l» sè điểm dương t½nh thªt trong sè nhúng điểm được ph¥n lo¤i là dương t½nh (TP + FP). Recall được 53 định nghĩa là t¿ l» sè điểm dương t½nh thªt trong sè nhúng điểm thực sự là dương t½nh (TP + FN), theo c¡c Công thùc, TP precision = (1.21) TP + FP TP recall = (1.22) TP + FN Và F1-score được t½nh theo Công thùc, 1 2 · precision · recall F 1 − score = 2 = (1.23) 1 1 precision + recall precision + recall F1-score là ch¿ sè đo c¥n b¬ng giúa precision và recall và được xem là ch¿ sè ch½nh để đánh gi¡ hi»u qu£ cõa c¡c mô h¼nh (thuªt to¡n) ph¡t hi»n b§t thường với đầu ra là nh¢n nhị ph¥n [13], [68], [69]. Gi¡ trị F1-score cao thº hi»n mô h¼nh cho kh£ n«ng ph¡t hi»n b§t thường tèt hơn. 1.4.2.2. Ch¿ sè đánh gi¡ với đầu ra là độ đo b§t thường Đường cong ROC và AUC: Khi phương ph¡p ph¥n lớp không thº đưa ra được nh¢n nhị ph¥n mà là mët độ đo b§t thường, ch¿ sè thường sû dụng cho đánh gi¡ c¡c phương ph¡p trong trường hñp này là ROC và AUC. Đường cong ROC (Receiver Operating Characteristic ROC) là đơn vị đo được đề xu§t để thº hi»n sự c¥n b¬ng cõa DR và FAR [79], [96]. ROC minh ho¤ mèi quan h» giúa DR và FAR cho mët bë ph¥n lớp cụ thº. Đường cong ROC có đưñc tø hai tham sè này qua r§t nhi·u c¡c ngưỡng và được t½nh theo công thùc sau [95]. P (xjpositive) ROC = (1.24) P (xjnegaitive) 54 Đỉnh cõa đường cong ROC hướng đến gi¡ trị góc (0,1) tr¶n trục to¤ độ thº hi»n thuªt to¡n tương ùng được đánh gi¡ hi»u qu£ hơn [13]. AUC (Area Under Curver) là vùng di»n t½ch dưới đường cong ROC, ch¿ sè này minh ho¤ ch§t lượng ph¥n lớp cõa mët mô h¼nh học m¡y, ch§t lượng này được x¡c định g¦n như trung b¼nh tr¶n nhi·u ngưỡng kh¡c nhau. Mët mô h¼nh ph¥n lớp tèt n¸u AUC ti¸n đến s¡t 1, có nghĩa là mô h¼nh có kh£ n«ng ph¥n bi»t c¡c lớp dú li»u đang quan s¡t r§t tèt. AUC được sû dụng phê bi¸n khi đánh gi¡ c¡c thuªt to¡n ph¥n lớp kh¡c nhau mà ở đó chưa x¡c định được cụ thº ngưỡng quy¸t định [20]. 1.4.2.3. Độ ên định Độ ên định cõa mô h¼nh tr¶n c¡c môi trường m¤ng kh¡c nhau cũng được xem là mët trong nhúng ch¿ sè đánh gi¡ quan trọng đối với mët gi£i ph¡p ph¡t hi»n b§t thường m¤ng. Khi xem x²t độ ch½nh x¡c (v½ dụ F1-score, ACC) cõa mët gi£i thuªt tr¶n c¡c đối tượng quan s¡t (tªp dú li»u) kh¡c nhau, n¸u ch¿ sè được đ¡nh gi¡ có gi¡ trị ên định hơn c¡c phương ph¡p ph¡t hi»n b§t thường kh¡c tr¶n đa sè trường hñp th¼ mô h¼nh ph¥n lo¤i đó được đánh gi¡ là tèt hơn [13]. 1.5. K¸t luªn Chương này tr¼nh bày bèn ph¦n ch½nh, tr¼nh bày nëi dung ki¸n thùc cơ sở và mët sè nëi dung li¶n quan cõa luªn ¡n. Trong ph¦n thù nh§t, giới thi»u mët sè kh¡i ni»m li¶n quan, tr¼nh bày mô h¼nh têng quan NAD; làm rã lý do phương ph¡p hu§n luy»n mô h¼nh NAD theo học b¡n gi¡m s¡t là phù hñp, nëi dung trong ph¦n cũng tr¼nh bày hai lo¤i đầu ra phê bi¸n cõa mô h¼nh NAD là "Độ đo b§t thường" và "Nh¢n nhị ph¥n". Ph¦n thù hai tr¼nh bày mët sè phương ph¡p đơn OCC phê bi¸n cho NAD như KDE, LOF, OCSVM. Ti¸p đó giới thi»u mët sè k¸t qu£ nghi¶n cùu NAD dựa tr¶n học s¥u, tªp trung giới thi»u mô h¼nh học s¥u ti¶u biºu cho NAD, mô 55 h¼nh SAE. Nëi dung tr¼nh bày kh¯ng định phương ph¡p ph¡t hi»n b§t thường dựa tr¶n m¤ng nơ-ron học s¥u là ti¶n ti¸n hi»n nay. Tø k¸t qu£ ph¥n t½ch, nëi dung nghi¶n cùu, ph¡t triºn c¡c phương ph¡p đơn cho ph¡t hi»n b§t thường dựa tr¶n học s¥u s³ được luªn ¡n tr¼nh bày t¤i Chương 2. Ph¦n thù ba giới thi»u v· c¡c phương ph¡p k¸t hñp, têng hñp tø c¡c phương ph¡p đơn để t¤o mô h¼nh đồng nh§t, hi»u qu£. Tr¼nh bày k¸t qu£ kh£o s¡t, ph¥n t½ch lý do phương ph¡p têng hñp dú li»u (Data Fusion) là phù hñp cho mục ti¶u luªn ¡n đề ra. Th¶m vào đó, ph¦n này đi s¥u tr¼nh bày lý thuy¸t D-S và c¡c nghi¶n cùu li¶n quan. Kh¯ng định, lý thuy¸t Dempster-Shafer (D-S) được đánh gi¡ là phù hñp cho bài to¡n ph¡t hi»n b§t thường nhờ sự linh ho¤t và không y¶u c¦u tri thùc ti·n định khi x¥y dựng mô h¼nh. Ph¦n cán l¤i tr¼nh bày v· mët sè y¸u tè ch½nh cho thực nghi»m đánh gi¡ thuªt to¡n ph¡t hi»n b§t thường. Đầu ti¶n giới thi»u v· c¡c bë dú li»u phê bi¸n cho lĩnh vực an ninh m¤ng, giới thi»u c¡ch thùc luªn ¡n sû dụng c¡c bë dú li»u (10 bë) cho kiºm thû c¡c thuªt to¡n OCC. Ti¸p đó tr¼nh bày v· c¡c ch¿ sè đo lường thường được sû dụng cho đánh gi¡, so s¡nh c¡c phương ph¡p ph¥n lớp hay c¡c thuªt to¡n ph¡t hi»n b§t thường. C¡c ch¿ sè đánh gi¡ được ph¥n nhóm theo d¤ng đầu ra cõa mô h¼nh NAD, ngoài ra ch¿ sè cho đánh gi¡ sự ên định cõa mët mô h¼nh NAD cũng đưñc đ· cªp. Nëi dung tr¼nh bày trong ph¦n s³ được sû dụng t¤i c¡c Chương 2, 3 cõa luªn ¡n. 56 CHƯƠNG 2. PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN HÅC SÂU AUTOENCODER Chương này tr¼nh bày k¸t qu£ nghi¶n cùu ph¡t triºn mô h¼nh ph¡t hi»n b§t thường dựa tr¶n học s¥u, nëi dung tr¼nh bày trong bèn ph¦n. Ph¦n đầu, giới thi»u mët sè h¤n ch¸ mà phương ph¡p học s¥u ti¶u biºu NAD có thº đang gặp ph£i. Ti¸p đó, tr¼nh bày v· phương ph¡p gi£i quy¸t v§n đề đặt ra thông qua c£i ti¸n, ph¡t triºn tø mô h¼nh ti¶u biºu đang có. Trong ph¦n ba, tr¼nh bày v· thực nghi»m, k¸t qu£ và đánh gi¡ gi£i ph¡p đề xu§t thông qua c¡c bë dú li»u phê bi¸n cho lĩnh vực an ninh m¤ng. Trong ph¦n cuèi, tr¼nh bày k¸t luªn chương. K¸t qu£ nghi¶n cùu trong chương được công bè tr¶n c¡c công tr¼nh [CT1], [CT5] (trong ph¦n CÁC CÆNG TRÌNH C LIÊN QUAN ĐẾN LUẬN ÁN). 2.1. Giới thi»u Như đã tr¼nh bày ở ph¦n mở đầu, m¤ng nơ-ron học s¥u dựa tr¶n ki¸n trúc AutoEncoder (Deep AutoEncoder - DeAE) được nhi·u học gi£ quan t¥m nghi¶n cùu, DeAE có thº khc phục c¡c h¤n ch¸ cõa c¡c phương ph¡p truy·n thèng và được cho là phương ph¡p ti¶n ti¸n (the-state-of-the-art) cho ph¡t hi»n b§t thường m¤ng [52], [55], [87]. AutoEncoder (AE) là mët m¤ng nơ-ron truy·n th¯ng đưñc hu§n luy»n để t¡i t¤o đầu ra gièng với đầu vào [15], [53]. DeAE h¼nh thành tø vi»c sû dụng AE với nhi·u lớp ©n, t¦ng lớp ©n trung t¥m đóng vai trá n²n dú li»u đầu vào sang không gian thuëc t½nh có sè chi·u th§p hơn theo hướng, giú l¤i thông tin quan trọng và bỏ đi c¡c thông tin thøa tø dú li»u gèc ban đầu [17]. C¡c nghi¶n cùu g¦n đây v· AE sû dụng dú li»u t¦ng ©n trung t¥m làm đại di»n đặc trưng cho dú li»u đầu vào (Feature Representation - FtR). Nhờ đó giúp cho mô h¼nh gi£i quy¸t v§n đề dú li»u nhi·u chi·u [18], [20], [83]. Mô 57 h¼nh Shrink AE (SAE) [20] được cho là mô h¼nh ti¶u biºu trong ph¡t hi»n b§t thường m¤ng. X²t v· kh½a c¤nh hu§n luy»n m¤ng, SAE là mët mở rëng cõa AE truy·n thèng thông qua sû dụng mët tham sè điều chu©n vào hàm m§t m¡t cõa AE. SAE được hu§n luy»n để đồng thời thực hi»n hai mục ti¶u là t¡i t¤o dú li»u đầu ra tø đầu vào và buëc c¡c dú li»u FtR hëi tụ v· gèc to¤ đë. Minh họa cho H¼nh 2.1: Minh ho¤ ph¥n bè dú li»u: (a) không gian gèc, (b) không gian vector lớp ©n AE, (c) không gian vector lớp ©n cõa SAE, H¼nh tø [20]. b£n ch§t ho¤t động cõa SAE như t¤i H¼nh 2.1. Trong đó, H¼nh 2.1(a) thº hi»n không gian dú li»u đầu vào gèc. H¼nh 2.1(b) tr¼nh bày không gian thuëc t½nh cõa lớp ©n trung t¥m cõa mô h¼nh AE b¼nh thường, và H¼nh 2.1(c) tr¼nh bày không gian thuëc t½nh cõa lớp ©n trung t¥m cõa mô h¼nh SAE. Qua đó thº hi»n dú li»u b¼nh thường được ràng buëc để ph¥n bè trong mët vùng không gian nhỏ g¦n với gèc to¤ độ. Mặc dù DeAE mà cụ thº là SAE đã được chùng minh cho hi»u qu£ ph¡t hi»n b§t thường tèt tr¶n nhi·u tªp dú li»u kiºm thû phê bi¸n [20], phương ph¡p này hi»n v¨n có thº gặp nhúng h¤n ch¸ nh§t định. (i) Vi»c SAE được hu§n luy»n để n²n t§t c£ dú li»u hu§n luy»n vào mët cụm (cluster) đơn trong không gian vector lớp ©n, do vªy SAE có thº đạt hi»u qu£ không cao với trường hñp đối tượng quan s¡t có dú li»u tr¤ng th¡i b¼nh thường tồn t¤i ở d¤ng nhi·u cụm. (ii) Mô h¼nh SAE mặc dù cho kh£ n«ng ph¡t hi»n b§t thường m¤ng r§t tèt, tuy vªy SAE v¨n có thº gặp khó kh«n với mët sè lo¤i t§n công (b§t thường). Trong t¼nh huèng này, c¡c m¨u t§n công khi được kiºm tra bởi mô h¼nh SAE thường t¤o ra 58 c¡c vector lớp ©n có xu hướng g¦n gèc to¤ độ hơn, do vªy vi»c ph¥n t¡ch giúa b¼nh thường và b§t thường khó hơn. C¡c t§n công m¤ng mà SAE gặp khó có thº do m¨u dú li»u có nhi·u điểm gièng với m¨u dú li»u b¼nh thường, v¼ SAE cè ²p để dú li»u b¼nh thường được biºu di¹n ở vùng g¦n gèc to¤ độ trong không gian lớp ©n, do vªy với dú li»u t§n công g¦n gièng với dú li»u b¼nh thường cũng có thº cho léi t¡i t¤o (Reconstruction Errors - RE) b², và có c¡ch tr¼nh di¹n dú li»u trong không gian lớp ©n tương tự tương tự như điểm dú li»u b¼nh thường. Đó có thº là lý do SAE s³ gặp khó cho ph¥n t¡ch m¨u dú li»u b¼nh thường và b§t thường trong trong trường hñp n¶u tr¶n. Nhªn định tr¶n cũng phù hñp với sè li»u tø k¸t qu£ công bè cõa t¡c gi£ đã đề xu§t gi£i ph¡p SAE [20, xem B£ng 3], sè li»u cho th§y, SAE gặp cho hi»u qu£ không tèt với lo¤i t§n công Remote to Local (R2L), đây được cho là lo¤i t§n công m¤ng nguy hiºm và kh¡c so với đa sè t§n công m¤ng kh¡c như DoS hay Probe [71]. T§n công m¤ng R2L nhúng b£n th¥n m¢ độc trong c¡c gói tin dú li»u và không t¤o ra c¡c m¨u tu¦n tự như t§n công DoS và Probe. Điều này làm cho R2L có lưu lượng m¤ng g¦n gièng với dú li»u b¼nh thường [3], [56], [71]. Khi xem x²t hai v§n đề tr¶n theo chi·u xû lý cõa dú li»u cõa phương ph¡p SAE có thº nhªn th§y, h¤n ch¸ thù nh§t n¬m ở vi»c v§n đề xû lý dú li»u trước khi đẩy vào SAE, ngược l¤i h¤n ch¸ thù hai hoàn toàn n¬m trong ph¦n lãi SAE, vi»c xû lý c¦n ph£i được c£i ti¸n nëi t¤i trong SAE. Do vªy, hai h¤n ch¸ này hoàn toàn độc lªp và có thº nghi¶n cùu ri¶ng, k¸t qu£ xû lý tøng h¤n ch¸ đều góp ph¦n c£i ti¸n thuªt to¡n SAE hi»n có. 2.2. Gi£i ph¡p đề xu§t Như đã ph¥n t½ch ở ph¦n Giới thi»u, hai v§n đề mà SAE có thº đang gặp ph£i n¬m ở c¡c giai đoạn kh¡c nhau cõa mô h¼nh SAE, do vªy để d¹ dàng cho vi»c mô t£ k¸t qu£ c£i ti¸n, ph¡t triºn. Để có thº d¹ hơn trong vi»c so s¡nh, đánh gi¡ c¡c đề xu§t c£i ti¸n, Luªn ¡n t¡ch gi£i ph¡p xû lý ri¶ng bi»t cho hai h¤n 59 ch¸ đặt ra đối với SAE. Đầu ti¶n là c£i ti¸n SAE b¬ng gi£i ph¡p có t¶n KSAE, thực hi»n ở giai đoạn xû lý dú li»u trước khi đẩy vào SAE. Ti¸p đó, ph¡t triºn lãi cõa SAE thông qua đề xu§t gi£i ph¡p có t¶n DSAE. Mô t£ mèi li¶n h» tr¶n SAE, KSAE và DSAE như tr¶n H¼nh 2.2, trong đó xi là m¨u dú li»u đầu vào, Si là độ đo b§t thường t¤i đầu ra. KSAE (1) x K- s i SAE i mean ý E l A ử S x c n ớ ề i ư r T t SAE x s i SAE i E A ý l S ử n â X h n DSAE (2) x s i DSAE i H¼nh 2.2: Minh họa mèi li¶n h» SAE, KSAE và DSAE 2.2.1. Gi£i ph¡p Clustering-Shrink AutoEncoder Để khc phục h¤n ch¸ thù nh§t cõa SAE, Luªn ¡n đề xu§t gi£i ph¡p k¸t hñp kỹ thuªt ph¥n cụm và SAE, đặt t¶n là KSAE (Clustering-Shrink AutoEncoder). Dựa tr¶n gi£ định r¬ng, phi¶n b£n gèc cõa SAE được hu§n luy»n để điều hướng toàn bë dú li»u b¼nh thường v· gèc to¤ độ trong không gian dú li»u lớp ©n trung t¥m cõa AE. V¼ vªy, khi gặp dú li»u đã tồn t¤i ở d¤ng nhi·u cụm th¼ SAE có thº ho¤t động không hi»u qu£. Ph¥n cụm là chia dú li»u thành c¡c nhóm đối tượng tương đương [11], vi»c chia thành nhi·u cụm để giúp gi£m k½ch thước dú li»u mà v¨n giú được đặc trưng cõa dú li»u, dú li»u lúc này được mô t£ b¬ng tøng cụm ri¶ng l´. Trong lĩnh vực học m¡y, ph¥n cụm thuëc bài to¡n học không gi¡m s¡t, mục ti¶u cõa mô h¼nh 60 ph¥n cụm là g¡n nh¢n cho dú li»u theo sè cụm cho trước hoặc sè cụm tèi ưu nh§t có thº theo tøng bài to¡n. Thuªt to¡n phê bi¸n nh§t cho ph¥n cụm có thº kº đến là K-means clustering (K-means) đưñc đề xu§t bởi Mac Queen [11]. Nhờ sự đơn gi£n, hi»u qu£ mà K-means được ùng dụng nhi·u trong lĩnh vực khai ph¡ dú li»u. V· b£n ch§t, phương ph¡p đ· xu§t có thº ho¤t động với mọi thuªt to¡n ph¥n cụm, tuy nhi¶n để ti»n cho mô t£ gi£i ph¡p và cài đặt thực nghi»m, luªn ¡n chọn K-means đại di»n cho bước ph¥n cụm trong mô h¼nh học s¥u KSAE. K-means ho¤t động tr¶n cơ sở, tø tªp dú li»u với N điểm, thuªt to¡n thực hi»n tr¶n cơ sở x¡c định K trung t¥m là đ¤i di»n cho K cụm dú li»u được t¤o ra, K trung t¥m được x¡c định dựa vào trung b¼nh kho£ng c¡ch cõa c¡c điểm tương ùng thuëc cụm đó đến c¡c trung t¥m. Công đoạn chia thành K cụm cho trước được thực hi»n trước khi ¡p dụng SAE. Theo đó, qu¡ tr¼nh hu§n luy»n mô h¼nh KSAE gồm hai công đoạn: Thù nh§t, dú li»u đầu vào được ph¥n cụm sû dụng thuªt to¡n ph¥n cụm (TTPC), thuªt to¡n này được hu§n luy»n để chia tªp dú li»u theo sè cụm K, cho trước. Thù hai, ùng với sè cụm K được chia t¡ch, c¡c mô h¼nh SAE được hu§n luy»n bởi ch¿ dú li»u ùng với cụm dú li»u tương ùng thu được tø bước thù nh§t. Thuªt to¡n 2.1 tr¼nh bày chi ti¸t qu¡ tr¼nh hu§n luy»n cõa KSAE. Thuªt to¡n 2.1 Hu§n luy»n mô h¼nh KSAE INPUT: Tªp hu§n luy»n Dn, sè cụm cho trước K. OUTPUT: trainedTTPC, K trainedSAE. TTPC 1: trained hu§n luy»n thuªt to¡n ph¥n cụm với đầu vào Dn;K. j TTPC 2: K tªp hu§n luy»n D kiºm tra trained với đầu vào Dn. 3: j 0. 4: while j < K do SAE j 5: trainedj hu§n luy»n SAE với tªp dú li»u D . 6: end while 7: Tr£ v· trainedTTPC, K trainedSAE . Sau khi hu§n luy»n, chúng ta thu đưñc 1 (mët) mô h¼nh ph¥n cụm (K-means) và K mô h¼nh SAE đã được hu§n luy»n. C¡c mô h¼nh này sau đó được sû dụng cho qu¡ tr¼nh kiºm tra. 61 Mô h¼nh kiºm tra KSAE như t¤i H¼nh 2.3, trong mô h¼nh kiºm tra này, c¡c m¨u dú li»u đầu vào đầu ti¶n được kiºm tra để x¡c định sè cụm bởi mô h¼nh ph¥n cụm đã được hu§n luy»n, k¸t qu£ tr£ v· là nh¢n Cj ≤ K, ùng với cụm cõa dú li»u đầu vào. Mô h¼nh SAEj tương ùng sau đó được sû dụng cho kiºm tra để x¡c định độ đo b§t thường ùng với điºm dú li»u đầu vào. H¼nh 2.3: Mô h¼nh kiºm tra theo phương ph¡p KSAE 2.2.2. Gi£i ph¡p Double-shrink AutoEncoder Với h¤n ch¸, SAE gặp khó kh«n với mët sè lo¤i t§n công nh§t định, luªn ¡n đưa ra gi£i ph¡p c£i ti¸n nh¥n cõa SAE, gi£i ph¡p có t¶n DSAE (Double-Shrink AutoEncoder), nëi dung đưñc tr¼nh bày như sau. Léi t¡i t¤o (RE) cõa mô h¼nh dựa tr¶n AutoEncoder có thº thº hi»n mùc đë b§t thường cõa dú li»u, RE lớn thº hi»n vi»c t¡i t¤o dú li»u h¤n ch¸, dú li»u có t½nh b§t thường cao và ngưñc l¤i. Với c¡c b§t thường mà SAE gặp khó, có hai trường hñp cho vector t¡i t¤o đầu ra cõa SAE trong trường hñp này. Thù nh§t, cho léi t¡i t¤o (RE) nhỏ, khi đó m¨u b§t thường đầu ra (được t¡i t¤o) s³ g¦n gièng với m¨u b§t thường đầu vào, và là b§t thường. So với m¨u b§t thường đầu vào, m¨u dú li»u được t¡i t¤o này có thº kh¡c xa hơn m¨u dú li»u b¼nh thường. Điều này có thº gi£i th½ch, v¼ m¨u đầu vào là b§t thường, n¶n qua m¤ng nơ-ron AE s³ cho gi¡ trị t¡i t¤o t¤i đầu ra (X-out), cũng là b§t thường. X-out có xu th¸ kh¡c xa với m¨u b¼nh thường hơn v¼ nó đã qua th¶m l¦n được t¡i t¤o l¤i tø m¨u b§t thường. Thù hai, n¸u RE lớn 62 th¼ m¨u b§t thường được t¡i t¤o, X-out, có xu th¸ kh¡c xa hơn so với m¨u b§t thườn
File đính kèm:
- luan_an_phat_trien_mot_so_mo_hinh_phat_hien_bat_thuong_mang.pdf
- Bùi Công Thành_E.pdf
- Bùi Công Thành_V.pdf
- LA_Bùi Công Thành_TT.pdf