Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING)

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING) trang 1

Trang 1

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING) trang 2

Trang 2

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING) trang 3

Trang 3

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING) trang 4

Trang 4

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING) trang 5

Trang 5

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING) trang 6

Trang 6

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING) trang 7

Trang 7

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING) trang 8

Trang 8

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING) trang 9

Trang 9

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING) trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 36 trang nguyenduy 07/06/2024 1110
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING)", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING)

Luận án Ứng dụng mạng Nơron xây dựng thuật toán tự động phát triển các trang Web đánh cắp thông tin trên mạng (PHISHING)
 If-Then mà đã xác định được mức độ 
 thuộc của các đặc trưng vào tập kết quả KQ. Trong quá trình nghiên cứu tính chất 
 của các đặc trưng, nghiên cứu sinh nhận thấy các đặc trưng có chung đặc điểm là 
 khi giá trị của đặc trưng vượt quá ngưỡng giá trị nào đó sẽ có xu hướng là trang 
 web phishing hoặc là trang web thật và khi giá trị của đặc trưng nhỏ hơn ngưỡng 
 giá trị nào đó thì ngược lại. Do vậy, các hàm liên thuộc dùng để tính giá trị mờ 
 cho các đặc trưng phải có đồ thị dạng hình chữ s và z là phù hợp nhất. 
 9 
Hình 4.6 - Mô hình hệ thống của phương pháp tự động nhận dạng phishing với bộ điều 
 khiển sử dụng lý thuyết mờ. 
 0, xa
 x a2 a b
 2,ax
 ba 2
 S(,,) x a b (4.2) 
 x b2 a b
 1 2 , xb
 ba 2
 1, xb
 1, xa
 x a2 a b
 1 2 , ax
 ba 2
 Z(,,) x a b (4.3) 
 x b2 a b
 2, xb
 ba 2
 0, xb
 Giai đoạn 4: Tính giá trị trung bình cho MP (Mean Phishing) và ML (Mean 
 Legitimate). Giai đoạn này tổng hợp mức độ thuộc của tất cả đặc trưng đối với kết 
 quả là Phishing và tổng hợp mức độ thuộc của tất cả đặc trưng đối với kết quả là 
 Legitimate theo phương pháp tính giá trị trung bình. MP là trung bình cộng giá trị 
 10 
 của các biến ngôn ngữ Phishing được tính theo công thức (4.4), ML là trung bình 
 cộng của các biến ngôn ngữ Legitimate được tính theo công thức (4.5). 
 N
 Pi
 MP i 1 (4.4) 
 N
 N
 Li
 ML i 1 (4.5) 
 N
 Giai đoạn 5: So sánh MP và ML để xác định trang web phishing theo thuật toán 
 trình bày trong hình 4.7. 
 If MP > ML then 
 “Trang web phishing ” 
 else 
 “Trang web thật” 
 End if 
 Hình 4.7 - Thuật toán xác định kết quả của phương pháp tự động nhận dạng phishing 
 với bộ điều khiển sử dụng lý thuyết mờ. 
4.3.2 Thực nghiệm 
4.3.2.1 Dữ liệu thực nghiệm 
 Giống phần 4.2.2.1 
4.3.2.2 Kết quả thực nghiệm 
  Kết quả thực nghiệm được đánh giá theo sai số RMSE 
 Kết quả thực nghiệm được đánh giá theo sai số RMSE đạt tỷ lệ nhận dạng chính 
xác là 98,17%. 
  Kết quả thực nghiệm được đánh giá theo ROC 
 Kết quả thực nghiệm trên 5 tập dữ liệu kiểm tra được trình bày trong bảng 4.2. 
 Bảng 4.2 - Kết quả tỷ lệ nhận dạng theo ROC của phương pháp tự động nhận dạng 
 phishing với bộ điều khiển sử dụng lý thuyết mờ. 
 Tỷ lệ Tỷ lệ Tỷ lệ Tỷ lệ 
 Tập dữ liệu Tỷ lệ trung 
 “True “False “True “False 
 kiểm tra bình 
 Positive” Positive” Negative” Negative” 
 1 98,29% 2,19% 97,81% 1,71% 98,05% 
 2 99,19% 1,59% 98,41% 0,81% 98,80% 
 3 97,64% 0,91% 99,09% 2,36% 98,35% 
 4 98,09% 1,51% 98,49% 1,91% 98,29% 
 5 97,92% 1,31% 98,69% 2,08% 98,30% 
 11 
  So sánh kết quả thực nghiệm với phương pháp [12, 13] 
 Dựa theo đánh giá của ROC trong hình 4.3, đồ thị ROC so sánh giữa phương 
pháp sử dụng lý thuyết mờ và phương pháp [12, 13] được trình bày trong hình 4.8 và 
hình 4.9 cho thấy phương pháp [12, 13] kém hiệu quả hơn phương pháp sử dụng lý 
thuyết mờ khá nhiều. 
 Hình 4.8- Đồ thị ROC so sánh tỷ lệ nhận dạng trang web phishing giữa phương pháp tự 
 động nhận dạng với bộ điều khiển sử dụng lý thuyết mờ và phương pháp [12, 13]. 
 Hình 4.9 - Đồ thị ROC so sánh tỷ lệ nhận dạng trang web thật giữa phương pháp tự 
 động nhận dạng với bộ điều khiển sử dụng lý thuyết mờ và phương pháp [12, 13]. 
4.3.3 Thảo luận 
 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng lý thuyết 
mờ đã ứng dụng được ý nghĩa của hàm liên thuộc trong lý thuyết mờ nhằm tối ưu hóa 
tri thức cho từng đặc trưng. Mỗi đặc trưng có 2 biến ngôn ngữ là Phishing và 
Legitimate, hàm liên thuộc của từng biến ngôn ngữ tính mức độ thuộc của đặc trưng 
đối với biến ngôn ngữ Phishing và Legitimate, bước tính này chính là đưa tri thức vào 
cho từng đặc trưng. Đồng thời bước tính này cũng chính là bước tính mức độ thuộc 
của từng đặc trưng vào tập kết quả KQ bao gồm Phishing và Legitimate mà không cần 
dùng tập luật suy diễn If-Then. Phương pháp này tính toán đơn giản, tốc độ tính toán 
nhanh, thuật toán dễ cài đặt với độ phức tạp thuật toán O(n) nhưng hiệu quả khá tốt với 
tỷ lệ nhận dạng đúng trên 98% và tỷ lệ nhận dạng sai dưới 2%. Hơn nữa, khi thực 
 12 
nghiệm nhận dạng online mặc dù ảnh hưởng bởi nhiều yếu tố như tốc độ đường truyền 
Internet, thời gian truy xuất của các API, v.v nhưng thời gian nhận dạng chưa đến một 
giây. Tuy nhiên, phương pháp này vẫn còn khuyết điểm trong giai đoạn tổng hợp mức 
độ thuộc của các đặc trưng sử dụng phương pháp tính trung bình cộng của MP và ML 
chưa phải là phương pháp tốt vì đánh đồng các đặc trưng có mức độ quan trọng là như 
nhau. Hơn nữa, việc xác định giá trị hai tham số a, b của các hàm liên thuộc s-shaped 
và z-shaped dựa vào kinh nghiệm của chuyên gia hoặc tập mẫu, điều này mang tính 
chủ quan. Các khuyết điểm trên sẽ được khắc phục dần ở các phương pháp sau. 
4.4 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mạng 
nơron đơn lớp 
 Phương pháp này nhằm khắc phục khuyết điểm về vấn đề xác định trọng số của 
phương pháp sử dụng đặc trưng heuristic. Trọng số của các đặc trưng heuristic trong 
phương pháp này được tính từ quá trình luyện mạng nơron, do đó các trọng số này sẽ 
tối ưu hơn. Phương pháp này sử dụng hàm tác động (Activation Function) là hàm sigmoid 
vì trong quá trình thực nghiệm nghiên cứu sinh sử dụng 2 hàm tác động phổ biến là 
sigmoid và hyperbolic tangent và nhận thấy hàm tác động sigmoid hiệu quả hơn. Phương 
pháp này được trình bày trong các công trình của nghiên cứu sinh [CT6, CT10, CT11]. 
4.4.1 Mô hình hệ thống 
 Mô hình hệ thống bao gồm 4 giai đoạn được thể hiện trong hình 4.10. 
 Giai đoạn 1: Chọn các đặc trưng sử dụng cho hệ thống như là PrimaryDomain, 
 SubDomain, PathDomain, PageRank, AlexaRank, AlexaReputation. 
 Giai đoạn 2: Tiền xử lý tính giá trị cho các đặc trưng. 
 Giai đoạn 3: Sử dụng mô hình nơron đơn lớp để tính toán giá trị cho hệ thống. 
 Giai đoạn 4: Xác định kết quả nhận dạng dựa vào giá trị xuất của nút xuất so 
 sánh với ngưỡng nhận dạng. 
 Hình 4.10 - Mô hình hệ thống của phương pháp tự động nhận dạng phishing với bộ điều 
 khiển sử dụng mạng nơron đơn lớp. 
 13 
4.4.2 Thực nghiệm 
4.4.2.1 Dữ liệu thực nghiệm 
 Giống phần 4.2.2.1 
4.4.2.2 Kết quả thực nghiệm 
  Kết quả thực nghiệm được đánh giá theo sai số RMSE 
 Kết quả thực nghiệm được đánh giá theo sai số RMSE đạt tỷ lệ nhận dạng chính 
xác là 98,43%. 
  Kết quả thực nghiệm được đánh giá theo ROC 
 Kết quả thực nghiệm trên 5 tập dữ liệu kiểm tra được trình bày trong bảng 4.3. 
 Bảng 4.3 - Kết quả tỷ lệ nhận dạng theo ROC của phương pháp sử dụng mạng nơron 
 đơn lớp. 
 Tỷ lệ Tỷ lệ Tỷ lệ Tỷ lệ 
 Tập dữ liệu Tỷ lệ trung 
 “True “False “True “False 
 kiểm tra bình 
 Positive” Positive” Negative” Negative” 
 1 98,12% 1,11% 98,89% 1,88% 98,50% 
 2 98,21% 1,41% 98,59% 1,79% 98,40% 
 3 97,72% 1,51% 98,49% 2,28% 98,10% 
 4 99,09% 1,69% 98,31% 0,91% 98,70% 
 5 98,60% 1,60% 98,40% 1,40% 98,50% 
  So sánh kết quả thực nghiệm với phương pháp [105] 
 Đồ thị so sánh kết quả thực nghiệm giữa phương pháp [105] và phương pháp sử 
dụng mạng nơron đơn lớp được trình bày trong hình 4.11. 
 Hình 4.11 - So sánh kết quả thực nghiệm giữa phương pháp [105] và phương pháp sử 
 dụng mạng nơron đơn lớp. 
4.4.4 Thảo luận 
 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mạng nơron 
đơn lớp đã ứng dụng được khả năng học của mạng nơron để xác định các trọng số tối 
 14 
ưu cho từng đặc trưng. Giá trị từng đặc trưng được chuẩn hóa về đoạn [0,1] làm cho 
quá trình luyện mạng nhanh hội tụ và hiệu quả hơn. Quá trình luyện mạng của phương 
pháp này được thực hiện off-line, còn quá trình nhận dạng được thực hiện online với 
tính toán đơn giản, tốc độ tính toán nhanh với độ phức tạp thuật toán O(n), hiệu quả 
khá tốt với tỷ lệ nhận dạng đúng khoảng 98,4% và tỷ lệ nhận dạng sai khoảng 1,16%. 
Hơn nữa, khi thực nghiệm nhận dạng online mặc dù ảnh hưởng bởi nhiều yếu tố như 
tốc độ đường truyền Internet, thời gian truy xuất của các API, v.v nhưng thời gian 
nhận dạng chưa đến một giây. Tuy nhiên, phương pháp này chưa khắc phục được 
nhược điểm của mạng nơron truyền thống là tốc độ học chậm và quá trình luyện mạng 
dễ xảy ra vấn đề tối ưu cục bộ. Do vậy, cần phải xây dựng mạng nơron ứng dụng được 
những tính năng ưu việt của lý thuyết mờ để đưa tri thức vào cho các nơron làm tăng 
tốc độ học và làm tăng hiệu quả quá trình luyện mạng, tránh xảy ra vấn đề tối ưu cục bộ 
và thời gian hội tụ nhanh hơn. 
4.5 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình 
nơron mờ 4 lớp 
 Mạng nơron có thể tối ưu hóa các tham số và trọng số thông qua khả năng học 
của chúng. Tuy nhiên, việc xác định số lớp ẩn và số nút ẩn cho cấu trúc mạng nơron là 
công việc phức tạp. Hiện nay, chưa có phương pháp tổng quan và tối ưu nào để xác 
định số lớp ẩn và số nút ẩn cho cấu trúc mạng nơron mà chỉ dựa vào quá trình thực 
nghiệm để xác định. Mặt khác, giá trị các nút ngõ vào của mạng nơron thường là các 
giá trị thô của các đặc trưng sẽ làm quá trình luyện mạng bị tối ưu cục bộ dẫn đến khó 
hội tụ và hiệu quả luyện mạng không cao. Trang web phishing tiến hóa rất nhanh làm 
phát sinh thêm các đặc trưng mới cũng như một số các đặc trưng cũ không còn ý nghĩa 
nữa. Với sự thay đổi tăng hoặc giảm số lượng đặc trưng như vậy, một mạng nơron 
truyền thống sẽ phải thay đổi lại cấu trúc khi có sự thay đổi về đặc trưng, điều này làm 
tăng chi phí và gây ảnh hưởng đến cấu trúc hệ thống. Từ ý tưởng của tác giả Robert 
Fullér [38] kết hợp lý thuyết mờ và mạng nơron thành mô hình nơron mờ lai nhằm 
khắc phục khuyết điểm của từng phương pháp riêng biệt, nghiên cứu sinh kết hợp 
phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng lý thuyết mờ 
không dựa vào tập luật (trình bày mục 4.3) với phương pháp sử dụng mạng nơron 
thành phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình 
nơron mờ 4 lớp. Mô hình nơron mờ 4 lớp này sử dụng lý thuyết mờ để đưa tri thức vào 
ngõ vào của nơron nhằm biến các “nơron” đầu vào thành “nơron mờ” trước khi đưa 
vào mạng nơron. Nhờ vậy, làm tăng tốc độ học và quá trình luyện mạng của mạng 
nơron. Đồng thời, vì mô hình nơron mờ 4 lớp kế thừa các ưu điểm của bộ điều khiển 
sử dụng lý thuyết mờ không dựa vào tập luật nên khi có sự thay đổi các đặc trưng ngõ 
vào thì vẫn giữ nguyên cấu trúc mô hình nơron mờ. Hơn nữa, trong mô hình này các 
 15 
hàm liên thuộc được cải tiến bằng cách sử dụng hàm liên thuộc left sigmoid và hàm 
liên thuộc right sigmoid có một tham số, làm giảm tính chủ quan khi xác định giá trị 
tham số cho các hàm liên thuộc. Phương pháp này được trình bày trong các công trình 
của nghiên cứu sinh [CT3, CT4]. 
4.5.1 Mô hình hệ thống 
 Mô hình hệ thống bao gồm 4 giai đoạn được thể hiện trong hình 4.12. 
 Trích lọc các đặc trưng 
 Tính giá trị cho các đặc 
 trưng 
 Bộ điều khiển sử dụng 
 mô hình nơron mờ 4 lớp 
 Xác định kết quả nhận 
 dạng 
 Hình 4.12 - Mô hình hệ thống phương pháp tự động nhận dạng phishing sử dụng mô 
 hình nơron mờ 4 lớp. 
 Giai đoạn 1: Trích lọc các đặc trưng như là PrimaryDomain, SubDomain, 
 PathDomain, PageRank, AlexaRank, AlexaReputation. 
 Giai đoạn 2: Tiền xử lý tính giá trị các đặc trưng. 
 Giai đoạn 3: Sử dụng mô hình nơron mờ 4 lớp để tính toán các giá trị xuất của 
 hệ thống (xem chi tiết mục 4.5.2 và 4.5.3). 
 Giai đoạn 4: Xác định kết quả nhận dạng dựa vào giá trị xuất của hệ thống và 
 ngưỡng. 
4.5.2. Bộ điều khiển sử dụng mô hình nơron mờ 4 lớp 
 Cấu trúc mô hình nơron mờ 4 lớp bao gồm hai khối, khối đầu là hệ thống mờ và 
khối sau là mạng nơron 3 lớp. Trong đó, khối đầu gồm có hai lớp là lớp thứ nhất và 
lớp thứ hai; khối sau là mạng nơron 3 lớp bao gồm lớp thứ hai, lớp thứ ba và lớp thứ 
tư. Mô hình nơron mờ này được mô tả trong hình 4.13. 
 16 
 Hình 4.13 - Mô hình nơron mờ 4 lớp. 
 Lớp thứ nhất bao gồm N nút cũng chính là N đặc trưng. Mỗi nút có 2 biến ngôn 
ngữ là Phishing (trang web phishing) và Legitimate (trang web thật). 
 Lớp thứ hai bao gồm 2*N nút, trong đó N nút thuộc biến ngôn ngữ Phishing (Pi , 
i=1..n) được tính theo công thức của hàm liên thuộc left sigmoid (4.6) và N nút thuộc 
biến ngôn ngữ Legitimate (Li, i=1..n) được tính theo công thức của hàm liên thuộc 
right sigmoid (4.7). 
 e ()xb
 P(,) x b (4.6) 
 1 e ()xb
 1
 L(,) x b (4.7) 
 1 e ()xb
 Hình 4.14 biểu diễn đồ thị của hàm liên thuộc right sigmoid L(x) và hình 4.15 
 biểu diễn đồ thị hàm liên thuộc left sigmoid P(x). 
 17 
 Hình 4.14 - Đồ thị hàm liên thuộc right Hình 4.15 - Đồ thị hàm liên thuộc left 
 sigmoid L(x). sigmoid P(x). 
 Lớp thứ ba bao gồm 2 nút ML và MP, nút MP được tổng hợp từ các nút Pi và 
nút ML được tổng hợp từ các nút Li. 
 Lớp thứ tư còn gọi là lớp xuất bao gồm một nút. Giá trị xuất của nút này dùng 
để nhận dạng trang web là phishing hay là trang web thật. Hàm tác động của nút xuất 
trong mô hình này sử dụng hàm sigmoid vì trong quá trình thực nghiệm chúng tôi sử 
dụng 2 hàm tác động phổ biến là sigmoid và hyperbolic tangent và nhận thấy hàm tác 
động sigmoid hiệu quả hơn. 
4.5.3 Thuật toán luyện mạng của nơron mờ 4 lớp 
 Trong mô hình nơron mờ 4 lớp sử dụng thuật toán luyện mạng lan truyền ngược 
sai số [44] được mô tả trong hình 4.16. 
4.5.2 Thực nghiệm 
4.5.2.1 Dữ liệu thực nghiệm 
 Giống phần 4.2.2.1 
4.5.2.2 Kết quả thực nghiệm 
  Kết quả thực nghiệm được đánh giá theo sai số RMSE 
 Kết quả thực nghiệm được đánh giá theo sai số RMSE đạt tỷ lệ nhận dạng chính 
xác là 99,10%. 
  Kết quả thực nghiệm được đánh giá theo ROC 
 Kết quả thực nghiệm trên 5 tập dữ liệu kiểm tra được trình bày trong bảng 4.4. 
 18 
 Khởi tạo trọng số 
 Tính giá trị các nút trong lớp thứ 2 
 Tính giá trị nhập và xuất cho từng nút của lớp thứ 3 
 Tính giá trị nhập cho nút xuất 
 Tính giá trị xuất cho nút xuất 
 Tính lỗi cho nút xuấ t 
 Tính lỗi cho từng nút trong l ớp thứ 3 
 Tính lỗi tổng hợp cho lớp thứ 3 
 Tính lỗi hệ thống 
 Lỗi hệ thống <= Chưa Cập nhật trọng 
 Ngưỡng hoặc vòng số 
 lặp kết thúc 
 Có 
 Kết thúc luyện mạng 
Hình 4.16 - Thuật toán luyện mạng của phương pháp tự động nhận dạng phishing sử 
 dụng mô hình nơron mờ 4 lớp. 
 Bảng 4.4 - Kết quả tỷ lệ nhận dạng theo ROC của phương pháp tự động nhận dạng 
 phishing với bộ điều khiển sử dụng mô hình nơron mờ 4 lớp. 
 Tỷ lệ Tỷ lệ Tỷ lệ Tỷ lệ 
 Tập dữ liệu Tỷ lệ trung 
 “True “False “True “False 
 kiểm tra bình 
 Positive” Positive” Negative” Negative” 
 1 98,90% 0,70% 99,30% 1,10% 99,10% 
 2 99,40% 0,90% 99,10% 0,60% 99,25% 
 19 
 Tỷ lệ Tỷ lệ Tỷ lệ Tỷ lệ 
 Tập dữ liệu Tỷ lệ trung 
 “True “False “True “False 
 kiểm tra bình 
 Positive” Positive” Negative” Negative” 
 3 98,61% 0,80% 99,20% 1,39% 98,90% 
 4 99,60% 1,29% 98,71% 0,40% 99,15% 
 5 99,00% 0,80% 99,20% 1,00% 99,10% 
 So sánh kết quả thực nghiệm với các phương pháp khác 
 Kết quả thực nghiệm của các phương pháp được so sánh với nhau và được mô tả 
trong hình 4.17. 
 Hình 4.17 - So sánh kết quả thực nghiệm giữa phương pháp tự động nhận dạng phishing 
 với bộ điều khiển sử dụng mô hình nơron mờ 4 lớp với các phương pháp khác. 
4.5.5 Thảo luận 
 Phương pháp này xây dựng mô hình nơron mờ 4 lớp nhằm ứng dụng ưu điểm 
của lý thuyết mờ đưa tri thức vào các nơron nhằm làm tăng hiệu quả của mạng nơron 
trong quá trình luyện mạng cũng như trong quá trình nhận dạng. Quá trình luyện mạng 
của phương pháp này được thực hiện off-line, còn quá trình nhận dạng thực hiện 
online với tính toán đơn giản, tốc độ tính toán nhanh với độ phức tạp thuật toán O(n), 
hiệu quả khá tốt với tỷ lệ nhận dạng đúng khoảng 99% và tỷ lệ nhận dạng sai khoảng 
1%. Hơn nữa, khi thực nghiệm nhận dạng online mặc dù ảnh hưởng bởi nhiều yếu tố 
như tốc độ đường truyền Internet, thời gian truy xuất của các API, v.v nhưng thời gian 
nhận dạng khoảng hơn giây. Tuy nhiên, phương pháp này còn một số khuyết điểm như 
hàm liên thuộc vẫn còn tham số b nên vẫn còn mang tính chủ quan, v.v. Do vậy, cần 
phát triển hoàn thiện hơn mô hình nơron mờ 4 lớp để làm tăng hiệu quả nhận dạng: 
 - Sử dụng các phép toán mờ trong khối tổng hợp các mức độ thuộc của các giá trị 
 mờ nhằm tận dụng những ưu điểm của lý thuyết mờ vào việc tính toán cho 
 hiệu quả hơn. 
 20 
 - Hàm liên thuộc nên loại bỏ hết các tham số làm tăng thêm tính khách quan cho 
 việc xử lý cũng như kết quả đạt được. 
4.6 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình 
nơron mờ 5 lớp 
 Mô hình nơron mờ trong phương pháp này bao gồm 5 lớp được phát triển từ mô 
hình nơron mờ 4 lớp, kế thừa được tất cả các ưu điểm của mô hình nơron mờ 4 lớp và 
khắc phục các khuyết điểm của mô hình nơron mờ 4 lớp bằng cách sử dụng các phép 
tính mờ để tổng hợp các giá trị mờ trên cùng một biến ngôn ngữ trong giai đoạn tổng 
hợp mức độ thuộc của các đặc trưng vào tập kết quả KQ nhằm làm tăng hiệu quả tính 
toán, đồng thời loại bỏ tất cả các tham số của hàm liên thuộc làm tăng tính khách quan 
khi tính các giá trị mờ cho các biến ngôn ngữ. Trong mô hình nơron mờ 5 lớp này, sử 
dụng khối hệ thống mờ để chuẩn hóa dữ liệu ngõ vào cho mạng nơron trước khi luyện 
mạng nơron nhằm làm tăng hiệu quả luyện mạng, tránh tối ưu cục bộ và làm tăng tính 
hội tụ khi luyện mạng. Tỷ lệ học trong quá trình luyện mạng được sử dụng là tỷ lệ học 
thích nghi. Phương pháp này được trình bày trong các công trình của nghiên cứu sinh 
[CT1, CT2, CT5]. 
4.6 1 Mô hình hệ thống 
 Mô hình hệ thống bao gồm 4 giai đoạn được thể hiện trong hình 4.18. 
 Hình 4.18 - Mô hình hệ thống phương pháp tự động nhận dạng phishing với bộ điều 
 khiển sử dụng mô hình nơron mờ 5 lớp. 
 Giai đoạn 1: Trích lọc các đặc trưng như là PrimaryDomain, SubDomain, 
 PathDomain, PageRank, GoogleIndex, BackLink. 
 Giai đoạn 2: Tiền xử lý tính giá trị các đặc trưng. Giá trị các đặc trưng được 
 tính trong đoạn [0, 1]. 
 21 
 Giai đoạn 3: Sử dụng mô hình nơron mờ 5 lớp để tính các giá trị của hệ thống 
 (xem chi tiết mục 4.6.2 và 4.6.3) . 
 Giai đoạn 4: Xác định kết quả nhận dạng dựa vào kết quả xuất mạng nơron mờ 
 và ngưỡng. 
4.6.2 Bộ điều khiển sử dụng mô hình nơron mờ 4 lớp 
 Mô hình nơron mờ 5 lớp bao gồm hai phần, phần đầu là phần mờ và phần sau là 
mạng nơron đơn lớp. Trong đó, phần đầu bao gồm lớp thứ nhất, lớp thứ hai và lớp thứ 
ba; phần sau là mạng nơron đơn lớp bao gồm lớp thứ tư và lớp thứ năm. Mô hình 
nơron mờ này được mô tả trong hình 4.19. 
 Hình 4.19 - Mô hình nơron mờ 5 lớp. 
 Lớp thứ nhất bao gồm N nút cũng chính là N đặc trưng. Mỗi nút có 2 biến ngôn 
ngữ là Phishing (trang web phishing) và Legitimate (trang web thật). Giá trị của N đặc 
trưng trong đoạn từ 0-1 được tính trong quá trình tiền xử lý. Hình 4.20 mô tả ý nghĩa 
giá trị đặc trưng của lớp thứ nhất. 
 Lớp thứ hai bao gồm 2*N nút, trong đó N nút thuộc biến ngôn ngữ Phishing 
được tính theo công thức của hàm liên thuộc left sigmoid (4.8) và N nút thuộc biến 
ngôn ngữ Legitimate được tính theo công thức của hàm liên thuộc right sigmoid (4.9). 
Giá trị từng nút trong lớp thứ nhất trong đoạn từ 0-1 được ánh xạ sang đoạn từ Min-
 22 
Max theo công thức (4.10) trước khi đưa vào các hàm liên thuộc tính toán vì các tính 
chất đặc trưng của hàm liên thuộc này. 
 e x
 (4.8) 
 Px() x
 1 e
 1
 (4.9) 
 Lx() x
 1 e
 Valuenew Value old *( Max Min ) Min (4.10) 
 Ở đây, Valueold là giá trị của các đặc trưng trong đoạn từ 0-1, Min và Max là giá trị do 
người thiết kế mô hình xác định cho phù hợp. 
 Hình 4.20 - Biểu thị ý nghĩa giá trị của từng nút trong lớp thứ nhất 
 Hình 4.21 biểu diễn đồ thị của hàm liên thuộc right sigmoid L(x) và hình 4.22 
biểu diễn đồ thị hàm liên thuộc left sigmoid P(x). 
 Hình 4.21 - Đồ thị hàm liên thuộc right sigmoid L(x) cho mô hình nơron mờ 5 lớp. 
 Hình 4.22 - Đồ thị hàm liên thuộc left sigmoid P(x) cho mô hình nơron mờ 5 lớp. 
 Lớp thứ ba bao gồm 2 nút πp và πL , nút πp là tổng hợp các nút Pi ở lớp thứ hai 
và nút πL là tổng hợp các nút Li ở lớp thứ hai theo phép toán AND. Giá trị 2 nút trong 
lớp này được tính theo công thức (4.11) 

File đính kèm:

  • pdfluan_an_ung_dung_mang_noron_xay_dung_thuat_toan_tu_dong_phat.pdf