Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS
và các nhãn này nhận các giá trị rời rạc. Đầu vào của bài tốn phân lớp là một tập các mẫu dữ liệu huấn luyện với một nhãn phân lớp 50 cho mỗi mẫu dữ liệu. Đầu ra là bộ phân lớp dựa trên tập huấn luyện hoặc những nhãn phân lớp. Kỹ thuật phân lớp dữ liệu gồm hai bước: Bước 1: xây dựng mơ hình từ tập huấn luyện gọi là bước học (learning step, hay pha học: learning phase) và tập dữ liệu gán nhãn phục vụ quá trình học này được gọi là dữ liệu huấn luyện (training data). Dữ liệu huấn luyện là một tập các phần tử dữ liệu cĩ gán nhãn. Một điểm (phần tử) dữ liệu X thường được biểu diễn bằng một vector n chiều X=(x1, x2,, xn), trong đĩ mỗi thành phần xi trong vector chứa một giá trị biểu diễn thuộc tính (attribute, cịn được gọi là đặc trưng: feature) Ai của phần tử dữ liệu đĩ. Về bản chất trong bước 1 này, các thuật tốn phân lớp học ra hàm y=f(X) để từ đĩ khi cĩ một phần tử X mới nĩ sẽ dự đốn ra nhãn y tương ứng với X. Theo khía cạnh này thì ta cĩ thể thấy bước 1 là quá trình học ra một hàm cĩ khả năng dự đốn được nhãn lớp dữ liệu. Bước 2: Sử dụng mơ hình – kiểm tra tính đúng đắn của mơ hình và dùng nĩ để phân lớp dữ liệu mới. Hình 2.3. Quá trình học và sử dụng mơ hình (bộ) phân lớp Tùy vào các thuật tốn khác nhau mà hàm f(X) cĩ thể cĩ các dạng khác nhau như ở dạng luật (rule), cây quyết định (decision tree) hay các cơng thức tốn học Hình 2.3 minh họa quá trình học và sử dụng mơ hình phân lớp đối với bài tốn dự báo dịch tả nhưng với một điểm khác biệt về giá trị của biến đầu ra. Biến dịch tả chỉ 51 nhận một trong ba giá trị “0” (khơng cĩ dịch tả ), “1” (“mức tả thấp”), và “2” (“mức tả cao”). Kiểm thử trong phân lớp Hiện nay, tồn tại nhiều độ đo để đánh giá các mơ hình mà điển hình nhất là bộ độ đo (độ hồi tưởng, độ chính xác, f1 (f)) và bộ độ đo (độ chính xác, hệ số lỗi). So sánh các mơ hình cĩ thể sử dụng một hoặc một vài độ đo cũng như thực hiện trên một bộ các tập dữ liệu liên quan tới bài tốn phân lớp đang nghiên cứu. Trong phương án kiểm thử theo bộ độ đo (độ hồi tưởng, độ chính xác, f1 (f)), lớp đang quan tâm được gọi là lớp dương (positives), và lớp cịn lại được gọi là lớp âm (negatives). Mỗi điểm dữ liệu trong tập dữ liệu kiểm thử sẽ thuộc vào một trong bốn tình huống sau đây: - Gọi TP là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống mà giá trị thực sự và giá trị dự báo đều là P. - Gọi TN là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống mà giá trị thực sự và giá trị dự báo đều là N. - Gọi FP là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống mà giá trị thực sự là P và giá trị dự báo là N. - Gọi FN là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống giá trị thực sự là N và giá trị dự báo là P. Ma trận nhầm lẫn là tổng hợp các kết quả trên đây thể hiện trong bảng 2.3. Bảng 2.3: Ma trận nhầm lẫn. Lớp dự báo Lớp = P Lớp = N Lớp thực sự Lớp = P TP FN Lớp = N FP TN Khi đĩ, độ hồi tưởng (recall) , độ chính xác (precision) , và độ đo f kết hợp độ hồi tưởng và độ chính xác được xác định theo các cơng thức sau đây: TP TP = = ( 2 +1) TP + FP , TP + FN , f = (2.6) 2 + Độ đo f1 (trường hợp =1) được sử dụng rất phổ biến và thường được viết là f. 2.2.3. Dự báo bệnh tả dựa trên học máy hồi qui và phân lớp 52 Ý tưởng trong thực nghiệm này là thiết lập mơ hình dự báo phân vùng phù hợp với yêu cầu dự báo theo phạm vi quận/ huyện tại Hà nội. Mơ hình dự báo sẽ xem xét hai trường hợp biến cục bộ (giá trị từng quận/huyện) và mơ hình biến tồn cục (giá trị trong tồn bộ khu vực bao gồm nhiều quận/ huyện). Tại mơ hình cục bộ, các yếu tố trong mơ hình bao gồm (i) trạng thái dịch tả trong quá khứ và các giá trị khí hậu trong quá khứ ở quận-huyện đang được xem xét và (ii) trạng thái dịch tả trong quá khứ ở các quận – huyện lân cận với quận-huyện đang được xem xét. Giá trị các yếu tố khí hậu tương ứng với một quận-huyện được lấy từ giá trị đo được tại trạm đo gần nhất tới quận - huyện đĩ. Tại mơ hình dự báo tồn cục sẽ xét biến mục tiêu là một vector tình trạng dịch tả cho tồn bộ khu vực (bao gồm các quận – huyện), cịn các biến điều kiện bao gồm mọi giá trị quá khứ trạng thái tả và giá trị quá khứ khí hậu trong tồn Hà Nội. Dữ liệu thực nghiệm được lựa chọn từ tập dữ liệu đã mơ tả trong Chương 1 của luận án theo hướng hạn chế phạm vi các chiều khơng gian, thời gian như sau: Về chiều thời gian, do các giai đoạn 2001-2006 và 2011-2012 hoặc khơng cĩ số liệu về ca dịch tả cho nên mơ hình dự báo được tập trung vào giai đoạn các năm 2007-2010. Mơ hình dự báo dịch tả tại khu vực Hà Nội thuộc loại bài tốn dự báo dữ liệu chuỗi thời gian, vì vậy, tập dữ liệu được dùng để học mơ hình là tập dữ liệu “quá khứ” (từ tháng 01/2007 đến tháng 06/2010) và tập dữ liệu kiểm tra mơ hình là tập dữ liệu “tương lai” (từ tháng 07/2010 đến tháng 12/2010). Thơng qua giải pháp lựa chọn đặc trưng, mối tương quan giữa yếu tố khí hậu với trạng thái dịch tả cũng được xem xét. Nghiên cứu này sử dụng bộ cơng cụ STATISTICA để khảo sát độ tương quan giữa biến mục tiêu (trạng thái dịch tả trong tương lai) với các biến điều kiện (trạng thái dịch tả, yếu tố khí hậu hiện thời và trong quá khứ) và chỉ các biến điều kiện cĩ tương quan thực sự với biến mục tiêu mới được giữ lại trong biểu diễn dữ liệu cho mơ hình dự báo. Bài tốn xây dựng mơ hình dự báo bùng phát dịch tả được diễn giải như sau: Coi đơn vị thời gian là tháng: chỉ số thời gian dữ liệu nhận các giá trị 0, 1, 2,.., t, t+1,.... Biến ra y là trạng thái dịch tả cần dự báo tại thời điểm t+k, trong đĩ t là thời điểm dự báo và k là khoảng cách dự báo (dự báo trước k tháng). Giá trị biến ra hoặc là liên tục 53 (số bệnh nhân mắc dịch tả) tương ứng với mơ hình hồi quy, hoặc là rời rạc {0, 1,.., N} hoặc {Cĩ dịch tả, Khơng cĩ dịch tả} tương ứng với mơ hình phân lớp. Các số liệu đã cĩ về giá trị của biến về dịch tả, về mơi trường và khí hậu sẽ được tập hợp thành tập dữ liệu ví dụ Dexample. Như vậy với khoảng cách dự báo k = 2 thì bài tốn được phát biểu như sau: Đầu vào: Tập dữ liệu ví dụ Dexample bao gồm các phần tử dữ liệu d cĩ dạng: d = (KHt-2, KHt-1, DTLCt-2, DTLCt-1, DTt-2, DTt-1, DTt) Trong đĩ, KHt-2, KHt-1 lần lượt là giá trị khí hậu vào thời điểm t-2, t-1 tại quận/huyện đang xét, là danh sách các biến khí hậu – thủy văn trong thực tế. DTLCt- 2, DTLCt-1 lần lượt là giá trị dịch tả vào thời điểm t-2, t-1 tại quận/huyện lân cận với quận/huyện đang xét. DTt-2, DTt-1, DTt lần lượt là giá trị dịch tả vào thời điểm t-2, t- 1, t tại quận/huyện đang xét. Như vậy, DTt là biến mục tiêu, tập { KHt-2, KHt-1, DTLCt- 2, DTLCt-1, DTt-2, DTt-1} là tập biến đầu vào. Đầu ra: Mơ hình dự báo thường được viết dưới dạng y=f (x1, x2,..., xn) + (trong trường hợp mơ hình hồi quy) hoặc một mơ hình tương ứng theo một thuật tốn phân lớp. Từ tập dữ liệu đầu vào, xây dựng mơ hình dự báo đầu ra, thực nghiệm áp dụng các kĩ thuật hồi quy, phân lớp. Áp dụng các bộ cơng cụ phân tích dữ liệu cĩ các thành phần thực thi các mơ hình hồi quy, phân lớp điển hình. Mơ hình cục bộ cho một quận huyện, mỗi điểm dữ liệu thể hiện cho một vector (KHi,t-2, KHi,t-1, KHLCi,t-1,KHLCi,t-2,DTLCi,t-1, DTLCi,t-2,DTi,t) trong đĩ DTi,t là biến mục tiêu và những biến khác là biến điều kiện. Ở mơ hình dự báo tồn cục, mỗi điểm dữ liệu thể hiện cho một vector (KHt-2, KHt-1, DTt-1,DTt-2,DTt) trong đĩ DTt là vetor mục tiêu và những biến khác là biến điều kiện. Ở mơ hình biểu diễn dữ liệu cục bộ, dự báo tình trạng dịch tả cho quận-huyện QHi tại thời điểm t dựa trên thơng tin về tình trạng dịch tả và khí hậu ở quận-huyện QHi và các quận huyện lân cận tại thời điểm t-1 và t-2. Các tham số khí hậu được xác định dựa trên dữ liệu tại các trạm khí tượng, thủy văn gần nhất với quận huyện đang dự báo. Ở mơ hình biểu diễn dữ liệu tồn cục, biến mục tiêu là tình trạng dịch tả tại 29 54 quận/huyện ở thời điểm t. Các biến điều kiện là trạng thái dịch tả ở tất cả các quận/huyện trong thời điểm t-1 và t-2 và tham số khí hậu được lấy ở tất cả các trạm trong thời điểm t-1 và t-2. Nghiên cứu áp dụng việc lựa chọn đặc trưng, một vài các đặc trưng yếu sẽ được loại bỏ. Tập mẫu nhận được sau bước Chọn đặc trưng được phân thành hai tập dữ liệu độc lập.Việc phân chia để tập dữ liệu học và tập dữ liệu kiểm thử rời rạc nhau nhằm đảm bảo tính độc lập giữa việc huấn luyện với việc đánh giá mơ hình dự báo, do đĩ việc đánh giá mơ hình dự báo đảm bảo tính khách quan. Thành phần xây dựng mơ hình Thành phần chuẩn bị dữ liệu Dữ liệu thu thập Thuật tốn hồi quy/phân lớp Training Dataset Phân loại theo thời gian và khơng gian Mơ hình hồi quy/phân lớp Test Dataset Dữ liệu đã phân loại Biểu diễn dữ liệu Tập dữ liệu mẫu Mơ hình dự báo Tập điểm dữ liệu Chọn đặc trưng Hình 2.4. Lưu đồ xây dựng mơ hình dự báo dịch tả dựa trên hồi qui, phân lớp 55 Thực nghiệm được thực hiện sử dụng chức năng Feature Selection từ bộ cơng cụ STATISTICA2 xác định hệ số tương quan (Correlation Coefficient) của các biến điều kiện với (các) biến mục tiêu và chỉ cĩ các biến điều kiện cĩ hệ số tương quan với (các) biến mục tiêu được giữ lại. Để tiến hành xây dựng mơ hình, các thuật tốn khai phá dữ liệu đã được áp dụng bao gồm: hồi qui tuyến tính, RandomForest,, Naive Bayes, SVM. Tập dữ liệu học sẽ sử dụng cho đào tạo mơ hình và tập dữ liệu kiểm thử sẽ được dùng để đánh giá mơ hình. Để đánh giá hiệu quả của việc áp dụng giải pháp lựa chọn đặc trưng, hai trường hợp đầu vào là dữ liệu gốc và dữ liệu đã chọn đặc trưng đều được tiến hành. Cả hai trường hợp biểu diễn dữ liệu cục bộ và tồn cục được tiến hành để so sánh, xác định mối quan hệ giữa các yếu tố khí hậu và dịch tả, nghiên cứu thực hiện với trường hợp biến điều kiện chỉ là các yếu tố khí hậu và trường hợp kết hợp cả khí hậu và dịch tả với các giá trị phân 2 lớp {0,1} và phân 3 lớp {0,1,2}; cuối cùng là thực hiện với trường hợp biến điều kiện chỉ là yếu tố trạng thái dịch. Việc xử lý dữ liệu được tiến hành trên bộ dữ liệu đã thu thập của luận án thơng qua các bước sau: - Thứ nhất, dữ liệu dịch tả tại các năm 2007 đến 2010 được thống kê theo từng tháng, trong mỗi tháng lại thống kê theo từng quận/huyện, theo độ tuổi, theo giới tính. - Thứ hai, tiến hành chia 29 quận/huyện vào các trạm khí hậu dựa trên quan sát bản đồ. Sau đĩ lọc lấy các giá trị sau trong các năm 2007-2010: Nhiệt độ trung bình ngày trung bình theo tháng, nhiệt độ cao nhất ngày trung bình theo tháng, nhiệt độ thấp nhất ngày trung bình theo tháng, tổng lượng mưa tháng, độ ẩm trung bình ngày trung bình theo tháng, độ ẩm cao nhất ngày trung bình theo tháng, độ ẩm thấp nhất ngày trung bình theo tháng, tổng số giờ nắng của tháng, vận tốc giĩ trung bình ngày trung bình theo tháng. 2 Cơng cụ thống kê STATISTICA 56 - Thứ ba, chia 29 quận/huyện vào ba trạm thủy văn dựa trên quan sát bản đồ. Sau đĩ lọc lấy giá trị mực nước bình quân từng tháng trong các năm 2007-2010. Cuối cùng tổng hợp các dữ liệu thống kê được tạo 29 file dạng.csv ứng với 29 quận/huyện. Trong đĩ, mỗi file sẽ chứa 46 điểm dữ liệu (từ tháng 3-2007 đến tháng 12-2010). Mỗi điểm dữ liệu sẽ chứa các thuộc tính ứng với điểm dữ liệu đã xác định ở phần phát biểu bài tốn: d = (KHt-2, KHt-1, DTLCt-2, DTLCt-1, DTt-2, DTt-1, DTt). Sử dụng một số độ đo đánh giá mơ hình dự báo, điển hình là các độ đo Sai số tuyệt đổi trung bình (Mean absolute error: MAE), Sai số trung bình quân phương (Root mean squared error: RMSE), hệ số tương quan (Correlation coefficient: CC), độ hồi tưởng (Recall), độ chính xác (Precision) và độ đo F (F-Measure) [45]. Các cơng thức tính tốn sau đây được áp dụng cho các độ đo tương ứng: n n ( p − a )2 pi − ai i i MAE = i=1 RMSE = i=1 n , n , n 2 ( pi − p) S PA CC = ( pi − p)(ai − a) i=1 (2.7) S PA = SP = S P S A , trong đĩ n −1 , n −1 , n n n 2 (ai − a) pi ai S = i=1 p = i=1 a = i=1 A n −1 , n , và n 2.2.4.Kết quả thử nghiệm Áp dụng tính năng lựa chọn đặc trưng trong bộ cơng cụ STATISTICA với điều kiện lọc là giá trị p-value<=0.09 ứng với độ tin cậy 91%. Sau khi áp dụng hồi quy tuyến tính với mơ hình của 29 quận riêng biệt cho kết quả: Sau khi lọc đặc trưng hệ số tương quan (Correlation coefficient) cĩ tốt hơn (càng gần 1 hoặc -1), sai số tuyệt đối (Mean absolute error) và sai số căn quân phương (Root mean squared error) giảm đáng kể. Biểu đồ 2.1 và 2.2 dưới đây là kết quả tiêu biểu cho mơ hình dự báo của hai huyện Ba Vì và Chương Mỹ 57 Biểu đồ lọc đặc trưng của Huyện Ba Vì 13.166 3.0934 0.0221 -0.3931 0.4511 0.847 CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED COEFFICIENT ERROR Chưa lọc đặc trưng Biểu đồ 2.1: Kết quả so sánh lọc đặc trưng cho mơ hình huyện Ba Vì Biểu đồ lọc đặc trưng của Chương Mỹ 81.1395 40.8952 44.769 0.0633 19.3027 -0.3921 CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED COEFFICIENT ERROR Chưa lọc đặc trưng Lọc đặc trưng Biểu đồ 2.2: Kết quả so sánh lọc đặc trưng cho mơ hình huyện Chương Mỹ Từ kết quả lọc đặc trưng cho thấy, các thuộc tính dịch tả lân cận và dịch tả tại quận huyện xem xét ở tháng t-1, một số biến khí hậu cho giá trị p-value nhỏ hơn. Áp dụng thuật tốn hồi quy tuyến tính cho mơ hình gộp 29 quận huyện khi chứa cả các thuộc tính t-1, t-2 và khi chỉ cĩ thuộc tính t-1. Kết quả thể hiện trong biểu đồ 2.3 58 Linear Regression 5.1425 5.0157 2.8307 2.62 0.4875 0.5197 CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED COEFFICIENT ERROR Giá trị khi chứa cả thuộc tính t-1, t-2 Giá trị khi chỉ chứa cả thuộc tính t-1 Biểu đồ 2.3: Kết quả đánh giá mơ hình áp dụng hồi quy tuyến tính Biểu đồ 2.3 cho thấy hệ số tương quan của mơ hình đạt được tương đối. Đồng thời, sau khi bỏ các thuộc tính t-2 kết quả mơ hình đạt được cao hơn: Hệ sơ tương quan dương tăng, các độ đo lỗi giảm 2.2.4.1.Kết quả mơ hình cục bộ Mơ hình dự báo cho 29 quận /huyện ở Hà nội. Kết quả thực nghiệm cho 2 quận điển hình được thể hiện ở bảng sau: 59 Bảng 2.4: Kết quả mơ hình cho hai quận điển hình Đống Đa và Hồng Mai Quận/Huyện Các độ đo Linear NaiveBayes LibSVM RandomForest Regression Đống Đa CC -0.0713 MAE 22.8332 0.2504 0.2222 0.333 RMSE 26.5469 0.4741 0.4714 0.5774 Precision 0.583 0.444 0.7220 Recall 0.667 0.667 0.5000 F-Measure 0.611 0.533 0.5280 Hồng Mai CC 0.5317 MAE 12.7367 0.2227 0.2222 0.222 RMSE 13.8483 0.453 0.4714 0.4714 Precision 0.444 0.444 0.5830 Recall 0.667 0.667 0.6670 F-Measure 0.533 0.533 0.6110 Độ đo đánh giá mơ hình kết quả cho các quận-huyện nằm trong vùng dịch tả là khá thấp trong khoảng từ 0.6 và 0.758. Giá trị hệ số tương quan dường như bị tách biệt. Trong một số trường hợp, giá trị tuyệt đối là rất nhỏ, cho biết khơng cĩ sự tương quan giữa biến mục tiêu và biến điều kiện. Nhưng cũng cĩ một số trường hợp cĩ giá trị tuyệt đối cao và cĩ sự tương quan giữa biến mục tiêu và biến điều kiện (Xem chi tiết phụ lục 2) 2.2.4.2.Kết quả mơ hình tồn cục Với mơ hình tồn cục cĩ ba thực nghiệm đã được tiến hành. • Thực nghiệm thứ nhất kết hợp trạng thái khí hậu và dịch tả để làm các biến điều kiện sử dụng cho mơ hình. • Thực nghiệm thứ hai chỉ cĩ biến khí hậu được sử dụng cho mơ hình. • Thực nghiệm cuối cùng chỉ cĩ biến trạng thái dịch tả được sử dụng cho mơ hình. 60 Trong mỗi thực nghiệm, thì biến số thời gian “t-12” chỉ dẫn kết quả khi lấy dữ liệu trong quá khứ của hai tháng t-1 và t-2, trong khi “t-1” chỉ dẫn kết quả khi lấy dữ liệu trong quá khứ trong một tháng t-1; Kết quả thực nghiệm trong trường hợp kết hợp các biến điều kiện khí hậu và dịch tả với mơ hình hồi qui được thể hiện trong bảng và viểu đồ sau: 5.1425 5.0157 2.8307 2.62 0.4875 0.5197 CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED COEFFICIENT ERROR Giá trị khi chứa cả thuộc tính t-1, t-2 Giá trị khi chỉ chứa cả thuộc tính t-1 Biểu đồ 2.4 Kết quả hồi qui trong trường hợp kết hợp các biến điều kiện Và bảng 2.5 thể hiện với các bộ phân lớp Nạve Bayes, SVM, RandomForest. Bảng 2.5 Kết quả mơ hình với các bộ phân lớp NaiveBayes LibSVM RandomForest Số lớp Các độ đo t-12 t-1 t-12 t-1 t-12 t-1 Hai lớp {0,1} MAE 0.1406 0.0958 0.0958 0.0958 0.1145 0.1860 RMSE 0.2913 0.3095 0.3095 0.3095 0.3082 0.3935 Precision 0.7190 0.7330 0.7330 0.7330 0.7330 0.7190 Recall 0.7010 0.8560 0.8560 0.8560 0.8560 0.7010 F-Measure 0.7100 0.7900 0.7900 0.7900 0.7900 0.7100 Ba lớp {0,1,2} MAE 0.1558 0.1437 0.1437 0.1437 0.1718 0.2354 RMSE 0.3791 0.3790 0.3790 0.3790 0.3775 0.4223 Precision 0.7330 0.7330 0.7330 0.7330 0.7330 0.8890 Recall 0.8560 0.8560 0.8560 0.8560 0.8560 0.7760 F-Measure 0.7900 0.7900 0.7900 0.7900 0.7900 0.8060 61 Cả hai trường hợp, hệ số tương quan trong khoảng 0.5 và độ đo đánh giá mơ hình trong khoảng 0.8 và MAE từ 0.1 tới 0.2. Thuật tốn RandomTree là thuật tốn tốt nhất trong thực nghiệm phân ba lớp {0,1,2}. Kết quả thực nghiêm hồi qui khi kết hợp với biến điều kiện chỉ là khí hậu thể hiện trong hình sau: 14.4287 12.3981 15 10.5614 8.2019 10 5 0.4699 0 -0.0179 Correlation Mean absolute Root mean squared -5 coefficient error error t-12 t-1 Biểu đồ 2.5: Kết quả hồi qui trong trường hợp biến điều kiện chỉ là khí hậu Kết quả thực nghiệp phân lớp với biến điều kiện chỉ là khí hậu thể hiện trong bảng 2.6 Bảng 2.6 Kết quả mơ hình phân lớp khi biến điều kiện chỉ là khí hậu NaiveBayes LibSVM RandomForest Số lớp Các độ đo t-12 t-1 t-12 t-1 t-12 t-1 Hai lớp MAE 0.0958 0.0975 0.0958 0.0958 0.1315 0.1900 {0,1} RMSE 0.3095 0.3093 0.3095 0.3095 0.3261 0.3973 Precision 0.7330 0.7330 0.7330 0.7330 0.7330 0.7190 Recall 0.8560 0.8560 0.8560 0.8560 0.8560 0.7010 F-Measure 0.7900 0.7900 0.7900 0.7900 0.7900 0.7100 Ba lớp MAE 0.1437 0.1437 0.1437 0.1437 0.3363 0.5660 {0,1,2} RMSE 0.3790 0.3790 0.3790 0.3790 0.5322 0.7178 Precision 0.7330 0.7330 0.7330 0.7330 0.7200 0.6330 Recall 0.8560 0.8560 0.8560 0.8560 0.7010 0.3790 F-Measure 0.7900 0.7900 0.7900 0.7900 0.7100 0.4700 62 Hệ số tương quan trong trường hợp t-2 là -0.0179 (khơng tương quan) và hệ số tương quan trong trường hợp t-1 là 0.4699 (tương quan trung bình). Các độ đo đánh giá mơ hình cĩ giá trị trong khoảng gần 0.8. Thuật tốn RandomForest là thuật tốn kém hiệu quả hơn trong mơ hình ba lớp {0,1,2} Kết quả thực nghiệm với biến điều kiện chỉ là trạng thái dịch tả Bảng 2.7 Kết quả phân lớp khi biến điều kiện chỉ là trạng thái dịch tả NaiveBayes LibSVM RandomForest Số lớp Các độ đo t-12 t-1 t-12 t-1 t-12 t-1 Hai lớp MAE 0.5225 0.1393 0.0958 0.0958 0.1138 0.2041 {0,1} RMSE 0.7178 0.3336 0.3095 0.3095 0.2471 0.3765 Precision 0.8400 0.8260 0.7330 0.7330 0.8760 0.7260 Recall 0.2070 0.8280 0.8560 0.8560 0.8790 0.7070 F-Measure 0.2860 0.8180 0.7900 0.7900 0.8750 0.7170 Ba lớp MAE 0.6515 0.1759 0.1437 0.1437 0.1853 0.3127 {0,1,2} RMSE 0.7825 0.3182 0.3790 0.3790 0.2941 0.4026 Precision 0.8510 0.7330 0.7330 0.7330 0.9150 0.8520 Recall 0.2990 0.8560 0.8560 0.8560 0.9080 0.5980 F-Measure 0.3100 0.7900 0.7900 0.7900 0.9110 0.6560 13.4135 14 11.2281 12 10 7.83117.6677 8 6 4 2 0.3890.3298 0 Correlation Mean absolute error Root mean squared coefficient error Giá trị khi chứa cả thuộc tính t-12 Giá trị khi chỉ chứa thuộc tínht-1 Biểu đồ 2.6 Kết quả hồi qui khi biến điều kiện chỉ là trạng thái dịch tả 63 Kết luận: Kết quả thực nghiệm là cơ sở để so sánh tác động của biểu diễn cục bộ và biểu diễn tồn cục cũng như lựa chọn được kỹ thuật xây dựng mơ hình phù hợp cho từng trường hợp dự báo. Qua phân tích các kết quả thực nghiệm, so sánh tác động của biểu diễn cục bộ và biểu diễn tồn cục cĩ thể rút ra một số nhận xét sau đây: - Nghiên cứu cho k
File đính kèm:
- luan_an_nghien_cuu_mot_so_mo_hinh_du_bao_dich_ta_dua_tren_kh.pdf
- 2 TomTat LA-NCS LeThiNgocAnh.pdf
- 3 Trang thong tin LA (TV)-NCS LeThiNgocAnh.pdf
- 4 Trang thong tin LA (TA)-NCS LeThiNgocAnh.pdf