Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS trang 1

Trang 1

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS trang 2

Trang 2

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS trang 3

Trang 3

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS trang 4

Trang 4

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS trang 5

Trang 5

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS trang 6

Trang 6

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS trang 7

Trang 7

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS trang 8

Trang 8

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS trang 9

Trang 9

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 137 trang nguyenduy 29/06/2024 310
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS

Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS
và các nhãn này nhận các giá trị rời rạc. Đầu vào 
của bài tốn phân lớp là một tập các mẫu dữ liệu huấn luyện với một nhãn phân lớp 
 50 
cho mỗi mẫu dữ liệu. Đầu ra là bộ phân lớp dựa trên tập huấn luyện hoặc những nhãn 
phân lớp. Kỹ thuật phân lớp dữ liệu gồm hai bước: 
 Bước 1: xây dựng mơ hình từ tập huấn luyện gọi là bước học (learning step, 
hay pha học: learning phase) và tập dữ liệu gán nhãn phục vụ quá trình học này được 
gọi là dữ liệu huấn luyện (training data). Dữ liệu huấn luyện là một tập các phần tử 
dữ liệu cĩ gán nhãn. Một điểm (phần tử) dữ liệu X thường được biểu diễn bằng một 
vector n chiều X=(x1, x2,, xn), trong đĩ mỗi thành phần xi trong vector chứa một giá 
trị biểu diễn thuộc tính (attribute, cịn được gọi là đặc trưng: feature) Ai của phần tử 
dữ liệu đĩ. Về bản chất trong bước 1 này, các thuật tốn phân lớp học ra hàm y=f(X) 
để từ đĩ khi cĩ một phần tử X mới nĩ sẽ dự đốn ra nhãn y tương ứng với X. Theo 
khía cạnh này thì ta cĩ thể thấy bước 1 là quá trình học ra một hàm cĩ khả năng dự 
đốn được nhãn lớp dữ liệu. 
 Bước 2: Sử dụng mơ hình – kiểm tra tính đúng đắn của mơ hình và dùng nĩ để 
phân lớp dữ liệu mới. 
 Hình 2.3. Quá trình học và sử dụng mơ hình (bộ) phân lớp 
 Tùy vào các thuật tốn khác nhau mà hàm f(X) cĩ thể cĩ các dạng khác nhau 
như ở dạng luật (rule), cây quyết định (decision tree) hay các cơng thức tốn học 
Hình 2.3 minh họa quá trình học và sử dụng mơ hình phân lớp đối với bài tốn dự 
báo dịch tả nhưng với một điểm khác biệt về giá trị của biến đầu ra. Biến dịch tả chỉ 
 51 
nhận một trong ba giá trị “0” (khơng cĩ dịch tả ), “1” (“mức tả thấp”), và “2” (“mức 
tả cao”). 
 Kiểm thử trong phân lớp 
 Hiện nay, tồn tại nhiều độ đo để đánh giá các mơ hình mà điển hình nhất là bộ 
độ đo (độ hồi tưởng, độ chính xác, f1 (f)) và bộ độ đo (độ chính xác, hệ số lỗi). So 
sánh các mơ hình cĩ thể sử dụng một hoặc một vài độ đo cũng như thực hiện trên một 
bộ các tập dữ liệu liên quan tới bài tốn phân lớp đang nghiên cứu. Trong phương án 
kiểm thử theo bộ độ đo (độ hồi tưởng, độ chính xác, f1 (f)), lớp đang quan tâm được 
gọi là lớp dương (positives), và lớp cịn lại được gọi là lớp âm (negatives). Mỗi điểm 
dữ liệu trong tập dữ liệu kiểm thử sẽ thuộc vào một trong bốn tình huống sau đây: 
 - Gọi TP là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống mà giá trị 
thực sự và giá trị dự báo đều là P. 
 - Gọi TN là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống mà giá trị 
thực sự và giá trị dự báo đều là N. 
 - Gọi FP là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống mà giá trị 
thực sự là P và giá trị dự báo là N. 
 - Gọi FN là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống giá trị thực 
sự là N và giá trị dự báo là P. 
 Ma trận nhầm lẫn là tổng hợp các kết quả trên đây thể hiện trong bảng 2.3. 
 Bảng 2.3: Ma trận nhầm lẫn. 
 Lớp dự báo 
 Lớp = P Lớp = N 
 Lớp thực sự 
 Lớp = P TP FN 
 Lớp = N FP TN 
 Khi đĩ, độ hồi tưởng (recall) , độ chính xác (precision) , và độ đo f kết hợp 
độ hồi tưởng và độ chính xác được xác định theo các cơng thức sau đây: 
 TP TP
 = = ( 2 +1) 
 TP + FP , TP + FN , f = (2.6) 
   2 + 
 Độ đo f1 (trường hợp =1) được sử dụng rất phổ biến và thường được viết là f. 
2.2.3. Dự báo bệnh tả dựa trên học máy hồi qui và phân lớp 
 52 
 Ý tưởng trong thực nghiệm này là thiết lập mơ hình dự báo phân vùng phù hợp 
với yêu cầu dự báo theo phạm vi quận/ huyện tại Hà nội. Mơ hình dự báo sẽ xem xét 
hai trường hợp biến cục bộ (giá trị từng quận/huyện) và mơ hình biến tồn cục (giá 
trị trong tồn bộ khu vực bao gồm nhiều quận/ huyện). Tại mơ hình cục bộ, các yếu 
tố trong mơ hình bao gồm (i) trạng thái dịch tả trong quá khứ và các giá trị khí hậu 
trong quá khứ ở quận-huyện đang được xem xét và (ii) trạng thái dịch tả trong quá 
khứ ở các quận – huyện lân cận với quận-huyện đang được xem xét. Giá trị các yếu 
tố khí hậu tương ứng với một quận-huyện được lấy từ giá trị đo được tại trạm đo gần 
nhất tới quận - huyện đĩ. Tại mơ hình dự báo tồn cục sẽ xét biến mục tiêu là một 
vector tình trạng dịch tả cho tồn bộ khu vực (bao gồm các quận – huyện), cịn các 
biến điều kiện bao gồm mọi giá trị quá khứ trạng thái tả và giá trị quá khứ khí hậu 
trong tồn Hà Nội. 
 Dữ liệu thực nghiệm được lựa chọn từ tập dữ liệu đã mơ tả trong Chương 1 của 
luận án theo hướng hạn chế phạm vi các chiều khơng gian, thời gian như sau: Về 
chiều thời gian, do các giai đoạn 2001-2006 và 2011-2012 hoặc khơng cĩ số liệu về 
ca dịch tả cho nên mơ hình dự báo được tập trung vào giai đoạn các năm 2007-2010. 
Mơ hình dự báo dịch tả tại khu vực Hà Nội thuộc loại bài tốn dự báo dữ liệu chuỗi 
thời gian, vì vậy, tập dữ liệu được dùng để học mơ hình là tập dữ liệu “quá khứ” (từ 
tháng 01/2007 đến tháng 06/2010) và tập dữ liệu kiểm tra mơ hình là tập dữ liệu 
“tương lai” (từ tháng 07/2010 đến tháng 12/2010). Thơng qua giải pháp lựa chọn đặc 
trưng, mối tương quan giữa yếu tố khí hậu với trạng thái dịch tả cũng được xem xét. 
Nghiên cứu này sử dụng bộ cơng cụ STATISTICA để khảo sát độ tương quan giữa 
biến mục tiêu (trạng thái dịch tả trong tương lai) với các biến điều kiện (trạng thái 
dịch tả, yếu tố khí hậu hiện thời và trong quá khứ) và chỉ các biến điều kiện cĩ tương 
quan thực sự với biến mục tiêu mới được giữ lại trong biểu diễn dữ liệu cho mơ hình 
dự báo. 
Bài tốn xây dựng mơ hình dự báo bùng phát dịch tả được diễn giải như sau: 
Coi đơn vị thời gian là tháng: chỉ số thời gian dữ liệu nhận các giá trị 0, 1, 2,.., t, t+1,.... 
Biến ra y là trạng thái dịch tả cần dự báo tại thời điểm t+k, trong đĩ t là thời điểm dự 
báo và k là khoảng cách dự báo (dự báo trước k tháng). Giá trị biến ra hoặc là liên tục 
 53 
(số bệnh nhân mắc dịch tả) tương ứng với mơ hình hồi quy, hoặc là rời rạc {0, 1,.., N} 
hoặc {Cĩ dịch tả, Khơng cĩ dịch tả} tương ứng với mơ hình phân lớp. 
Các số liệu đã cĩ về giá trị của biến về dịch tả, về mơi trường và khí hậu sẽ được tập 
hợp thành tập dữ liệu ví dụ Dexample. Như vậy với khoảng cách dự báo k = 2 thì bài 
tốn được phát biểu như sau: 
Đầu vào: Tập dữ liệu ví dụ Dexample bao gồm các phần tử dữ liệu d cĩ dạng: 
 d = (KHt-2, KHt-1, DTLCt-2, DTLCt-1, DTt-2, DTt-1, DTt) 
 Trong đĩ, KHt-2, KHt-1 lần lượt là giá trị khí hậu vào thời điểm t-2, t-1 tại 
quận/huyện đang xét, là danh sách các biến khí hậu – thủy văn trong thực tế. DTLCt-
2, DTLCt-1 lần lượt là giá trị dịch tả vào thời điểm t-2, t-1 tại quận/huyện lân cận với 
quận/huyện đang xét. DTt-2, DTt-1, DTt lần lượt là giá trị dịch tả vào thời điểm t-2, t-
1, t tại quận/huyện đang xét. Như vậy, DTt là biến mục tiêu, tập { KHt-2, KHt-1, DTLCt-
2, DTLCt-1, DTt-2, DTt-1} là tập biến đầu vào. 
 Đầu ra: Mơ hình dự báo thường được viết dưới dạng y=f (x1, x2,..., xn) +  (trong 
trường hợp mơ hình hồi quy) hoặc một mơ hình tương ứng theo một thuật tốn phân lớp. 
 Từ tập dữ liệu đầu vào, xây dựng mơ hình dự báo đầu ra, thực nghiệm áp dụng 
các kĩ thuật hồi quy, phân lớp. Áp dụng các bộ cơng cụ phân tích dữ liệu cĩ các thành 
phần thực thi các mơ hình hồi quy, phân lớp điển hình. 
 Mơ hình cục bộ cho một quận huyện, mỗi điểm dữ liệu thể hiện cho một vector 
(KHi,t-2, KHi,t-1, KHLCi,t-1,KHLCi,t-2,DTLCi,t-1, DTLCi,t-2,DTi,t) trong đĩ DTi,t là biến 
mục tiêu và những biến khác là biến điều kiện. Ở mơ hình dự báo tồn cục, mỗi điểm 
dữ liệu thể hiện cho một vector (KHt-2, KHt-1, DTt-1,DTt-2,DTt) trong đĩ DTt là vetor 
mục tiêu và những biến khác là biến điều kiện. 
 Ở mơ hình biểu diễn dữ liệu cục bộ, dự báo tình trạng dịch tả cho quận-huyện 
QHi tại thời điểm t dựa trên thơng tin về tình trạng dịch tả và khí hậu ở quận-huyện 
QHi và các quận huyện lân cận tại thời điểm t-1 và t-2. Các tham số khí hậu được xác 
định dựa trên dữ liệu tại các trạm khí tượng, thủy văn gần nhất với quận huyện đang 
dự báo. 
 Ở mơ hình biểu diễn dữ liệu tồn cục, biến mục tiêu là tình trạng dịch tả tại 29 
 54 
quận/huyện ở thời điểm t. Các biến điều kiện là trạng thái dịch tả ở tất cả các 
quận/huyện trong thời điểm t-1 và t-2 và tham số khí hậu được lấy ở tất cả các trạm 
trong thời điểm t-1 và t-2. 
 Nghiên cứu áp dụng việc lựa chọn đặc trưng, một vài các đặc trưng yếu sẽ được 
loại bỏ. Tập mẫu nhận được sau bước Chọn đặc trưng được phân thành hai tập dữ 
liệu độc lập.Việc phân chia để tập dữ liệu học và tập dữ liệu kiểm thử rời rạc nhau 
nhằm đảm bảo tính độc lập giữa việc huấn luyện với việc đánh giá mơ hình dự báo, 
do đĩ việc đánh giá mơ hình dự báo đảm bảo tính khách quan. 
 Thành phần xây dựng mơ hình 
 Thành phần chuẩn bị dữ liệu 
 Dữ liệu thu thập 
 Thuật tốn hồi quy/phân lớp 
 Training Dataset 
 Phân loại theo thời gian 
 và khơng gian 
 Mơ hình hồi quy/phân lớp 
 Test Dataset 
 Dữ liệu đã phân loại 
 Biểu diễn dữ liệu 
 Tập dữ liệu mẫu 
 Mơ hình dự báo 
 Tập điểm dữ liệu 
 Chọn đặc trưng 
 Hình 2.4. Lưu đồ xây dựng mơ hình dự báo dịch tả dựa trên hồi qui, phân lớp 
 55 
 Thực nghiệm được thực hiện sử dụng chức năng Feature Selection từ bộ cơng 
cụ STATISTICA2 xác định hệ số tương quan (Correlation Coefficient) của các biến 
điều kiện với (các) biến mục tiêu và chỉ cĩ các biến điều kiện cĩ hệ số tương quan 
với (các) biến mục tiêu được giữ lại. 
 Để tiến hành xây dựng mơ hình, các thuật tốn khai phá dữ liệu đã được áp dụng 
bao gồm: hồi qui tuyến tính, RandomForest,, Naive Bayes, SVM. Tập dữ liệu học sẽ 
sử dụng cho đào tạo mơ hình và tập dữ liệu kiểm thử sẽ được dùng để đánh giá mơ 
hình. 
 Để đánh giá hiệu quả của việc áp dụng giải pháp lựa chọn đặc trưng, hai trường 
hợp đầu vào là dữ liệu gốc và dữ liệu đã chọn đặc trưng đều được tiến hành. Cả hai 
trường hợp biểu diễn dữ liệu cục bộ và tồn cục được tiến hành để so sánh, xác định 
mối quan hệ giữa các yếu tố khí hậu và dịch tả, nghiên cứu thực hiện với trường hợp 
biến điều kiện chỉ là các yếu tố khí hậu và trường hợp kết hợp cả khí hậu và dịch tả 
với các giá trị phân 2 lớp {0,1} và phân 3 lớp {0,1,2}; cuối cùng là thực hiện với 
trường hợp biến điều kiện chỉ là yếu tố trạng thái dịch. 
 Việc xử lý dữ liệu được tiến hành trên bộ dữ liệu đã thu thập của luận án thơng 
qua các bước sau: 
 - Thứ nhất, dữ liệu dịch tả tại các năm 2007 đến 2010 được thống kê theo từng 
tháng, trong mỗi tháng lại thống kê theo từng quận/huyện, theo độ tuổi, theo giới tính. 
 - Thứ hai, tiến hành chia 29 quận/huyện vào các trạm khí hậu dựa trên quan sát 
bản đồ. Sau đĩ lọc lấy các giá trị sau trong các năm 2007-2010: Nhiệt độ trung bình 
ngày trung bình theo tháng, nhiệt độ cao nhất ngày trung bình theo tháng, nhiệt độ 
thấp nhất ngày trung bình theo tháng, tổng lượng mưa tháng, độ ẩm trung bình ngày 
trung bình theo tháng, độ ẩm cao nhất ngày trung bình theo tháng, độ ẩm thấp nhất 
ngày trung bình theo tháng, tổng số giờ nắng của tháng, vận tốc giĩ trung bình ngày 
trung bình theo tháng. 
 2 Cơng cụ thống kê STATISTICA  
 56 
 - Thứ ba, chia 29 quận/huyện vào ba trạm thủy văn dựa trên quan sát bản đồ. 
Sau đĩ lọc lấy giá trị mực nước bình quân từng tháng trong các năm 2007-2010. 
 Cuối cùng tổng hợp các dữ liệu thống kê được tạo 29 file dạng.csv ứng với 29 
quận/huyện. Trong đĩ, mỗi file sẽ chứa 46 điểm dữ liệu (từ tháng 3-2007 đến tháng 
12-2010). Mỗi điểm dữ liệu sẽ chứa các thuộc tính ứng với điểm dữ liệu đã xác định 
ở phần phát biểu bài tốn: d = (KHt-2, KHt-1, DTLCt-2, DTLCt-1, DTt-2, DTt-1, DTt). 
 Sử dụng một số độ đo đánh giá mơ hình dự báo, điển hình là các độ đo Sai số 
tuyệt đổi trung bình (Mean absolute error: MAE), Sai số trung bình quân phương 
(Root mean squared error: RMSE), hệ số tương quan (Correlation coefficient: CC), 
độ hồi tưởng (Recall), độ chính xác (Precision) và độ đo F (F-Measure) [45]. Các 
cơng thức tính tốn sau đây được áp dụng cho các độ đo tương ứng: 
 n n
 ( p − a )2
  pi − ai  i i
 MAE = i=1 RMSE = i=1
 n , n , 
 n
 2
 ( pi − p)
 S PA 
 CC = ( pi − p)(ai − a) i=1 (2.7) 
 S PA = SP =
 S P S A , trong đĩ n −1 , n −1 , 
 n n n
 2
 (ai − a)  pi ai
 S = i=1 p = i=1 a = i=1
 A n −1 , n , và n 
2.2.4.Kết quả thử nghiệm 
 Áp dụng tính năng lựa chọn đặc trưng trong bộ cơng cụ STATISTICA với điều 
kiện lọc là giá trị p-value<=0.09 ứng với độ tin cậy 91%. Sau khi áp dụng hồi quy 
tuyến tính với mơ hình của 29 quận riêng biệt cho kết quả: Sau khi lọc đặc trưng hệ 
số tương quan (Correlation coefficient) cĩ tốt hơn (càng gần 1 hoặc -1), sai số tuyệt 
đối (Mean absolute error) và sai số căn quân phương (Root mean squared error) giảm 
đáng kể. Biểu đồ 2.1 và 2.2 dưới đây là kết quả tiêu biểu cho mơ hình dự báo của hai 
huyện Ba Vì và Chương Mỹ 
 57 
 Biểu đồ lọc đặc trưng của Huyện Ba Vì
 13.166
 3.0934
 0.0221 -0.3931 0.4511 0.847
 CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED 
 COEFFICIENT ERROR
 Chưa lọc đặc trưng
 Biểu đồ 2.1: Kết quả so sánh lọc đặc trưng cho mơ hình huyện Ba Vì 
 Biểu đồ lọc đặc trưng của Chương Mỹ
 81.1395
 40.8952 44.769
 0.0633 19.3027
 -0.3921
 CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED 
 COEFFICIENT ERROR
 Chưa lọc đặc trưng Lọc đặc trưng
 Biểu đồ 2.2: Kết quả so sánh lọc đặc trưng cho mơ hình huyện Chương Mỹ 
 Từ kết quả lọc đặc trưng cho thấy, các thuộc tính dịch tả lân cận và dịch tả tại 
quận huyện xem xét ở tháng t-1, một số biến khí hậu cho giá trị p-value nhỏ hơn. 
 Áp dụng thuật tốn hồi quy tuyến tính cho mơ hình gộp 29 quận huyện khi chứa 
cả các thuộc tính t-1, t-2 và khi chỉ cĩ thuộc tính t-1. Kết quả thể hiện trong biểu đồ 
2.3 
 58 
 Linear Regression
 5.1425 5.0157
 2.8307
 2.62
 0.4875 0.5197
 CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED 
 COEFFICIENT ERROR
 Giá trị khi chứa cả thuộc tính t-1, t-2 Giá trị khi chỉ chứa cả thuộc tính t-1
 Biểu đồ 2.3: Kết quả đánh giá mơ hình áp dụng hồi quy tuyến tính 
 Biểu đồ 2.3 cho thấy hệ số tương quan của mơ hình đạt được tương đối. Đồng 
thời, sau khi bỏ các thuộc tính t-2 kết quả mơ hình đạt được cao hơn: Hệ sơ tương 
quan dương tăng, các độ đo lỗi giảm 
2.2.4.1.Kết quả mơ hình cục bộ 
 Mơ hình dự báo cho 29 quận /huyện ở Hà nội. Kết quả thực nghiệm cho 2 quận 
điển hình được thể hiện ở bảng sau: 
 59 
 Bảng 2.4: Kết quả mơ hình cho hai quận điển hình Đống Đa và Hồng Mai 
Quận/Huyện Các độ đo Linear NaiveBayes LibSVM RandomForest 
 Regression 
Đống Đa CC -0.0713 
 MAE 22.8332 0.2504 0.2222 0.333 
 RMSE 26.5469 0.4741 0.4714 0.5774 
 Precision 0.583 0.444 0.7220 
 Recall 0.667 0.667 0.5000 
 F-Measure 0.611 0.533 0.5280 
Hồng Mai CC 0.5317 
 MAE 12.7367 0.2227 0.2222 0.222 
 RMSE 13.8483 0.453 0.4714 0.4714 
 Precision 0.444 0.444 0.5830 
 Recall 0.667 0.667 0.6670 
 F-Measure 0.533 0.533 0.6110 
 Độ đo đánh giá mơ hình kết quả cho các quận-huyện nằm trong vùng dịch tả là 
khá thấp trong khoảng từ 0.6 và 0.758. Giá trị hệ số tương quan dường như bị tách 
biệt. Trong một số trường hợp, giá trị tuyệt đối là rất nhỏ, cho biết khơng cĩ sự tương 
quan giữa biến mục tiêu và biến điều kiện. Nhưng cũng cĩ một số trường hợp cĩ giá 
trị tuyệt đối cao và cĩ sự tương quan giữa biến mục tiêu và biến điều kiện (Xem chi 
tiết phụ lục 2) 
2.2.4.2.Kết quả mơ hình tồn cục 
Với mơ hình tồn cục cĩ ba thực nghiệm đã được tiến hành. 
• Thực nghiệm thứ nhất kết hợp trạng thái khí hậu và dịch tả để làm các biến điều 
 kiện sử dụng cho mơ hình. 
• Thực nghiệm thứ hai chỉ cĩ biến khí hậu được sử dụng cho mơ hình. 
• Thực nghiệm cuối cùng chỉ cĩ biến trạng thái dịch tả được sử dụng cho mơ hình. 
 60 
Trong mỗi thực nghiệm, thì biến số thời gian “t-12” chỉ dẫn kết quả khi lấy dữ liệu 
trong quá khứ của hai tháng t-1 và t-2, trong khi “t-1” chỉ dẫn kết quả khi lấy dữ liệu 
trong quá khứ trong một tháng t-1; 
Kết quả thực nghiệm trong trường hợp kết hợp các biến điều kiện khí hậu và dịch tả 
với mơ hình hồi qui được thể hiện trong bảng và viểu đồ sau: 
 5.1425 5.0157
 2.8307 2.62
 0.4875 0.5197
 CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED 
 COEFFICIENT ERROR
 Giá trị khi chứa cả thuộc tính t-1, t-2 Giá trị khi chỉ chứa cả thuộc tính t-1
 Biểu đồ 2.4 Kết quả hồi qui trong trường hợp kết hợp các biến điều kiện 
 Và bảng 2.5 thể hiện với các bộ phân lớp Nạve Bayes, SVM, RandomForest. 
 Bảng 2.5 Kết quả mơ hình với các bộ phân lớp 
 NaiveBayes LibSVM RandomForest 
Số lớp Các độ đo 
 t-12 t-1 t-12 t-1 t-12 t-1 
Hai lớp {0,1} MAE 0.1406 0.0958 0.0958 0.0958 0.1145 0.1860 
 RMSE 0.2913 0.3095 0.3095 0.3095 0.3082 0.3935 
 Precision 0.7190 0.7330 0.7330 0.7330 0.7330 0.7190 
 Recall 0.7010 0.8560 0.8560 0.8560 0.8560 0.7010 
 F-Measure 0.7100 0.7900 0.7900 0.7900 0.7900 0.7100 
Ba lớp {0,1,2} MAE 0.1558 0.1437 0.1437 0.1437 0.1718 0.2354 
 RMSE 0.3791 0.3790 0.3790 0.3790 0.3775 0.4223 
 Precision 0.7330 0.7330 0.7330 0.7330 0.7330 0.8890 
 Recall 0.8560 0.8560 0.8560 0.8560 0.8560 0.7760 
 F-Measure 0.7900 0.7900 0.7900 0.7900 0.7900 0.8060 
 61 
 Cả hai trường hợp, hệ số tương quan trong khoảng 0.5 và độ đo đánh giá mơ 
hình trong khoảng 0.8 và MAE từ 0.1 tới 0.2. Thuật tốn RandomTree là thuật tốn 
tốt nhất trong thực nghiệm phân ba lớp {0,1,2}. 
 Kết quả thực nghiêm hồi qui khi kết hợp với biến điều kiện chỉ là khí hậu 
thể hiện trong hình sau: 
 14.4287
 12.3981
 15 10.5614
 8.2019
 10
 5 0.4699
 0
 -0.0179
 Correlation Mean absolute Root mean squared
 -5
 coefficient error error
 t-12 t-1
 Biểu đồ 2.5: Kết quả hồi qui trong trường hợp biến điều kiện chỉ là khí hậu 
 Kết quả thực nghiệp phân lớp với biến điều kiện chỉ là khí hậu thể hiện trong 
bảng 2.6 
 Bảng 2.6 Kết quả mơ hình phân lớp khi biến điều kiện chỉ là khí hậu 
 NaiveBayes LibSVM RandomForest 
Số lớp Các độ đo 
 t-12 t-1 t-12 t-1 t-12 t-1 
Hai lớp MAE 0.0958 0.0975 0.0958 0.0958 0.1315 0.1900 
{0,1} RMSE 0.3095 0.3093 0.3095 0.3095 0.3261 0.3973 
 Precision 0.7330 0.7330 0.7330 0.7330 0.7330 0.7190 
 Recall 0.8560 0.8560 0.8560 0.8560 0.8560 0.7010 
 F-Measure 0.7900 0.7900 0.7900 0.7900 0.7900 0.7100 
Ba lớp MAE 0.1437 0.1437 0.1437 0.1437 0.3363 0.5660 
{0,1,2} RMSE 0.3790 0.3790 0.3790 0.3790 0.5322 0.7178 
 Precision 0.7330 0.7330 0.7330 0.7330 0.7200 0.6330 
 Recall 0.8560 0.8560 0.8560 0.8560 0.7010 0.3790 
 F-Measure 0.7900 0.7900 0.7900 0.7900 0.7100 0.4700 
 62 
 Hệ số tương quan trong trường hợp t-2 là -0.0179 (khơng tương quan) và hệ số 
 tương quan trong trường hợp t-1 là 0.4699 (tương quan trung bình). Các độ đo đánh 
 giá mơ hình cĩ giá trị trong khoảng gần 0.8. Thuật tốn RandomForest là thuật tốn 
 kém hiệu quả hơn trong mơ hình ba lớp {0,1,2} 
 Kết quả thực nghiệm với biến điều kiện chỉ là trạng thái dịch tả 
 Bảng 2.7 Kết quả phân lớp khi biến điều kiện chỉ là trạng thái dịch tả 
 NaiveBayes LibSVM RandomForest 
Số lớp Các độ đo 
 t-12 t-1 t-12 t-1 t-12 t-1 
Hai lớp MAE 0.5225 0.1393 0.0958 0.0958 0.1138 0.2041 
{0,1} RMSE 0.7178 0.3336 0.3095 0.3095 0.2471 0.3765 
 Precision 0.8400 0.8260 0.7330 0.7330 0.8760 0.7260 
 Recall 0.2070 0.8280 0.8560 0.8560 0.8790 0.7070 
 F-Measure 0.2860 0.8180 0.7900 0.7900 0.8750 0.7170 
Ba lớp MAE 0.6515 0.1759 0.1437 0.1437 0.1853 0.3127 
{0,1,2} RMSE 0.7825 0.3182 0.3790 0.3790 0.2941 0.4026 
 Precision 0.8510 0.7330 0.7330 0.7330 0.9150 0.8520 
 Recall 0.2990 0.8560 0.8560 0.8560 0.9080 0.5980 
 F-Measure 0.3100 0.7900 0.7900 0.7900 0.9110 0.6560 
 13.4135
 14
 11.2281
 12
 10 7.83117.6677
 8
 6
 4
 2 0.3890.3298
 0
 Correlation Mean absolute error Root mean squared
 coefficient error
 Giá trị khi chứa cả thuộc tính t-12 Giá trị khi chỉ chứa thuộc tínht-1
 Biểu đồ 2.6 Kết quả hồi qui khi biến điều kiện chỉ là trạng thái dịch tả 
 63 
 Kết luận: 
 Kết quả thực nghiệm là cơ sở để so sánh tác động của biểu diễn cục bộ và biểu 
diễn tồn cục cũng như lựa chọn được kỹ thuật xây dựng mơ hình phù hợp cho từng 
trường hợp dự báo. Qua phân tích các kết quả thực nghiệm, so sánh tác động của biểu 
diễn cục bộ và biểu diễn tồn cục cĩ thể rút ra một số nhận xét sau đây: 
 - Nghiên cứu cho k

File đính kèm:

  • pdfluan_an_nghien_cuu_mot_so_mo_hinh_du_bao_dich_ta_dua_tren_kh.pdf
  • pdf2 TomTat LA-NCS LeThiNgocAnh.pdf
  • pdf3 Trang thong tin LA (TV)-NCS LeThiNgocAnh.pdf
  • pdf4 Trang thong tin LA (TA)-NCS LeThiNgocAnh.pdf