Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu một số mô hình dự báo dịch tả dựa trên khai phá dữ liệu và phân tích không gian ứng dụng công nghệ GIS
và các nhãn này nhận các giá trị rời rạc. Đầu vào
của bài tốn phân lớp là một tập các mẫu dữ liệu huấn luyện với một nhãn phân lớp
50
cho mỗi mẫu dữ liệu. Đầu ra là bộ phân lớp dựa trên tập huấn luyện hoặc những nhãn
phân lớp. Kỹ thuật phân lớp dữ liệu gồm hai bước:
Bước 1: xây dựng mơ hình từ tập huấn luyện gọi là bước học (learning step,
hay pha học: learning phase) và tập dữ liệu gán nhãn phục vụ quá trình học này được
gọi là dữ liệu huấn luyện (training data). Dữ liệu huấn luyện là một tập các phần tử
dữ liệu cĩ gán nhãn. Một điểm (phần tử) dữ liệu X thường được biểu diễn bằng một
vector n chiều X=(x1, x2,, xn), trong đĩ mỗi thành phần xi trong vector chứa một giá
trị biểu diễn thuộc tính (attribute, cịn được gọi là đặc trưng: feature) Ai của phần tử
dữ liệu đĩ. Về bản chất trong bước 1 này, các thuật tốn phân lớp học ra hàm y=f(X)
để từ đĩ khi cĩ một phần tử X mới nĩ sẽ dự đốn ra nhãn y tương ứng với X. Theo
khía cạnh này thì ta cĩ thể thấy bước 1 là quá trình học ra một hàm cĩ khả năng dự
đốn được nhãn lớp dữ liệu.
Bước 2: Sử dụng mơ hình – kiểm tra tính đúng đắn của mơ hình và dùng nĩ để
phân lớp dữ liệu mới.
Hình 2.3. Quá trình học và sử dụng mơ hình (bộ) phân lớp
Tùy vào các thuật tốn khác nhau mà hàm f(X) cĩ thể cĩ các dạng khác nhau
như ở dạng luật (rule), cây quyết định (decision tree) hay các cơng thức tốn học
Hình 2.3 minh họa quá trình học và sử dụng mơ hình phân lớp đối với bài tốn dự
báo dịch tả nhưng với một điểm khác biệt về giá trị của biến đầu ra. Biến dịch tả chỉ
51
nhận một trong ba giá trị “0” (khơng cĩ dịch tả ), “1” (“mức tả thấp”), và “2” (“mức
tả cao”).
Kiểm thử trong phân lớp
Hiện nay, tồn tại nhiều độ đo để đánh giá các mơ hình mà điển hình nhất là bộ
độ đo (độ hồi tưởng, độ chính xác, f1 (f)) và bộ độ đo (độ chính xác, hệ số lỗi). So
sánh các mơ hình cĩ thể sử dụng một hoặc một vài độ đo cũng như thực hiện trên một
bộ các tập dữ liệu liên quan tới bài tốn phân lớp đang nghiên cứu. Trong phương án
kiểm thử theo bộ độ đo (độ hồi tưởng, độ chính xác, f1 (f)), lớp đang quan tâm được
gọi là lớp dương (positives), và lớp cịn lại được gọi là lớp âm (negatives). Mỗi điểm
dữ liệu trong tập dữ liệu kiểm thử sẽ thuộc vào một trong bốn tình huống sau đây:
- Gọi TP là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống mà giá trị
thực sự và giá trị dự báo đều là P.
- Gọi TN là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống mà giá trị
thực sự và giá trị dự báo đều là N.
- Gọi FP là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống mà giá trị
thực sự là P và giá trị dự báo là N.
- Gọi FN là số lượng các điểm dữ liệu thuộc Dtest rơi vào tình huống giá trị thực
sự là N và giá trị dự báo là P.
Ma trận nhầm lẫn là tổng hợp các kết quả trên đây thể hiện trong bảng 2.3.
Bảng 2.3: Ma trận nhầm lẫn.
Lớp dự báo
Lớp = P Lớp = N
Lớp thực sự
Lớp = P TP FN
Lớp = N FP TN
Khi đĩ, độ hồi tưởng (recall) , độ chính xác (precision) , và độ đo f kết hợp
độ hồi tưởng và độ chính xác được xác định theo các cơng thức sau đây:
TP TP
= = ( 2 +1)
TP + FP , TP + FN , f = (2.6)
2 +
Độ đo f1 (trường hợp =1) được sử dụng rất phổ biến và thường được viết là f.
2.2.3. Dự báo bệnh tả dựa trên học máy hồi qui và phân lớp
52
Ý tưởng trong thực nghiệm này là thiết lập mơ hình dự báo phân vùng phù hợp
với yêu cầu dự báo theo phạm vi quận/ huyện tại Hà nội. Mơ hình dự báo sẽ xem xét
hai trường hợp biến cục bộ (giá trị từng quận/huyện) và mơ hình biến tồn cục (giá
trị trong tồn bộ khu vực bao gồm nhiều quận/ huyện). Tại mơ hình cục bộ, các yếu
tố trong mơ hình bao gồm (i) trạng thái dịch tả trong quá khứ và các giá trị khí hậu
trong quá khứ ở quận-huyện đang được xem xét và (ii) trạng thái dịch tả trong quá
khứ ở các quận – huyện lân cận với quận-huyện đang được xem xét. Giá trị các yếu
tố khí hậu tương ứng với một quận-huyện được lấy từ giá trị đo được tại trạm đo gần
nhất tới quận - huyện đĩ. Tại mơ hình dự báo tồn cục sẽ xét biến mục tiêu là một
vector tình trạng dịch tả cho tồn bộ khu vực (bao gồm các quận – huyện), cịn các
biến điều kiện bao gồm mọi giá trị quá khứ trạng thái tả và giá trị quá khứ khí hậu
trong tồn Hà Nội.
Dữ liệu thực nghiệm được lựa chọn từ tập dữ liệu đã mơ tả trong Chương 1 của
luận án theo hướng hạn chế phạm vi các chiều khơng gian, thời gian như sau: Về
chiều thời gian, do các giai đoạn 2001-2006 và 2011-2012 hoặc khơng cĩ số liệu về
ca dịch tả cho nên mơ hình dự báo được tập trung vào giai đoạn các năm 2007-2010.
Mơ hình dự báo dịch tả tại khu vực Hà Nội thuộc loại bài tốn dự báo dữ liệu chuỗi
thời gian, vì vậy, tập dữ liệu được dùng để học mơ hình là tập dữ liệu “quá khứ” (từ
tháng 01/2007 đến tháng 06/2010) và tập dữ liệu kiểm tra mơ hình là tập dữ liệu
“tương lai” (từ tháng 07/2010 đến tháng 12/2010). Thơng qua giải pháp lựa chọn đặc
trưng, mối tương quan giữa yếu tố khí hậu với trạng thái dịch tả cũng được xem xét.
Nghiên cứu này sử dụng bộ cơng cụ STATISTICA để khảo sát độ tương quan giữa
biến mục tiêu (trạng thái dịch tả trong tương lai) với các biến điều kiện (trạng thái
dịch tả, yếu tố khí hậu hiện thời và trong quá khứ) và chỉ các biến điều kiện cĩ tương
quan thực sự với biến mục tiêu mới được giữ lại trong biểu diễn dữ liệu cho mơ hình
dự báo.
Bài tốn xây dựng mơ hình dự báo bùng phát dịch tả được diễn giải như sau:
Coi đơn vị thời gian là tháng: chỉ số thời gian dữ liệu nhận các giá trị 0, 1, 2,.., t, t+1,....
Biến ra y là trạng thái dịch tả cần dự báo tại thời điểm t+k, trong đĩ t là thời điểm dự
báo và k là khoảng cách dự báo (dự báo trước k tháng). Giá trị biến ra hoặc là liên tục
53
(số bệnh nhân mắc dịch tả) tương ứng với mơ hình hồi quy, hoặc là rời rạc {0, 1,.., N}
hoặc {Cĩ dịch tả, Khơng cĩ dịch tả} tương ứng với mơ hình phân lớp.
Các số liệu đã cĩ về giá trị của biến về dịch tả, về mơi trường và khí hậu sẽ được tập
hợp thành tập dữ liệu ví dụ Dexample. Như vậy với khoảng cách dự báo k = 2 thì bài
tốn được phát biểu như sau:
Đầu vào: Tập dữ liệu ví dụ Dexample bao gồm các phần tử dữ liệu d cĩ dạng:
d = (KHt-2, KHt-1, DTLCt-2, DTLCt-1, DTt-2, DTt-1, DTt)
Trong đĩ, KHt-2, KHt-1 lần lượt là giá trị khí hậu vào thời điểm t-2, t-1 tại
quận/huyện đang xét, là danh sách các biến khí hậu – thủy văn trong thực tế. DTLCt-
2, DTLCt-1 lần lượt là giá trị dịch tả vào thời điểm t-2, t-1 tại quận/huyện lân cận với
quận/huyện đang xét. DTt-2, DTt-1, DTt lần lượt là giá trị dịch tả vào thời điểm t-2, t-
1, t tại quận/huyện đang xét. Như vậy, DTt là biến mục tiêu, tập { KHt-2, KHt-1, DTLCt-
2, DTLCt-1, DTt-2, DTt-1} là tập biến đầu vào.
Đầu ra: Mơ hình dự báo thường được viết dưới dạng y=f (x1, x2,..., xn) + (trong
trường hợp mơ hình hồi quy) hoặc một mơ hình tương ứng theo một thuật tốn phân lớp.
Từ tập dữ liệu đầu vào, xây dựng mơ hình dự báo đầu ra, thực nghiệm áp dụng
các kĩ thuật hồi quy, phân lớp. Áp dụng các bộ cơng cụ phân tích dữ liệu cĩ các thành
phần thực thi các mơ hình hồi quy, phân lớp điển hình.
Mơ hình cục bộ cho một quận huyện, mỗi điểm dữ liệu thể hiện cho một vector
(KHi,t-2, KHi,t-1, KHLCi,t-1,KHLCi,t-2,DTLCi,t-1, DTLCi,t-2,DTi,t) trong đĩ DTi,t là biến
mục tiêu và những biến khác là biến điều kiện. Ở mơ hình dự báo tồn cục, mỗi điểm
dữ liệu thể hiện cho một vector (KHt-2, KHt-1, DTt-1,DTt-2,DTt) trong đĩ DTt là vetor
mục tiêu và những biến khác là biến điều kiện.
Ở mơ hình biểu diễn dữ liệu cục bộ, dự báo tình trạng dịch tả cho quận-huyện
QHi tại thời điểm t dựa trên thơng tin về tình trạng dịch tả và khí hậu ở quận-huyện
QHi và các quận huyện lân cận tại thời điểm t-1 và t-2. Các tham số khí hậu được xác
định dựa trên dữ liệu tại các trạm khí tượng, thủy văn gần nhất với quận huyện đang
dự báo.
Ở mơ hình biểu diễn dữ liệu tồn cục, biến mục tiêu là tình trạng dịch tả tại 29
54
quận/huyện ở thời điểm t. Các biến điều kiện là trạng thái dịch tả ở tất cả các
quận/huyện trong thời điểm t-1 và t-2 và tham số khí hậu được lấy ở tất cả các trạm
trong thời điểm t-1 và t-2.
Nghiên cứu áp dụng việc lựa chọn đặc trưng, một vài các đặc trưng yếu sẽ được
loại bỏ. Tập mẫu nhận được sau bước Chọn đặc trưng được phân thành hai tập dữ
liệu độc lập.Việc phân chia để tập dữ liệu học và tập dữ liệu kiểm thử rời rạc nhau
nhằm đảm bảo tính độc lập giữa việc huấn luyện với việc đánh giá mơ hình dự báo,
do đĩ việc đánh giá mơ hình dự báo đảm bảo tính khách quan.
Thành phần xây dựng mơ hình
Thành phần chuẩn bị dữ liệu
Dữ liệu thu thập
Thuật tốn hồi quy/phân lớp
Training Dataset
Phân loại theo thời gian
và khơng gian
Mơ hình hồi quy/phân lớp
Test Dataset
Dữ liệu đã phân loại
Biểu diễn dữ liệu
Tập dữ liệu mẫu
Mơ hình dự báo
Tập điểm dữ liệu
Chọn đặc trưng
Hình 2.4. Lưu đồ xây dựng mơ hình dự báo dịch tả dựa trên hồi qui, phân lớp
55
Thực nghiệm được thực hiện sử dụng chức năng Feature Selection từ bộ cơng
cụ STATISTICA2 xác định hệ số tương quan (Correlation Coefficient) của các biến
điều kiện với (các) biến mục tiêu và chỉ cĩ các biến điều kiện cĩ hệ số tương quan
với (các) biến mục tiêu được giữ lại.
Để tiến hành xây dựng mơ hình, các thuật tốn khai phá dữ liệu đã được áp dụng
bao gồm: hồi qui tuyến tính, RandomForest,, Naive Bayes, SVM. Tập dữ liệu học sẽ
sử dụng cho đào tạo mơ hình và tập dữ liệu kiểm thử sẽ được dùng để đánh giá mơ
hình.
Để đánh giá hiệu quả của việc áp dụng giải pháp lựa chọn đặc trưng, hai trường
hợp đầu vào là dữ liệu gốc và dữ liệu đã chọn đặc trưng đều được tiến hành. Cả hai
trường hợp biểu diễn dữ liệu cục bộ và tồn cục được tiến hành để so sánh, xác định
mối quan hệ giữa các yếu tố khí hậu và dịch tả, nghiên cứu thực hiện với trường hợp
biến điều kiện chỉ là các yếu tố khí hậu và trường hợp kết hợp cả khí hậu và dịch tả
với các giá trị phân 2 lớp {0,1} và phân 3 lớp {0,1,2}; cuối cùng là thực hiện với
trường hợp biến điều kiện chỉ là yếu tố trạng thái dịch.
Việc xử lý dữ liệu được tiến hành trên bộ dữ liệu đã thu thập của luận án thơng
qua các bước sau:
- Thứ nhất, dữ liệu dịch tả tại các năm 2007 đến 2010 được thống kê theo từng
tháng, trong mỗi tháng lại thống kê theo từng quận/huyện, theo độ tuổi, theo giới tính.
- Thứ hai, tiến hành chia 29 quận/huyện vào các trạm khí hậu dựa trên quan sát
bản đồ. Sau đĩ lọc lấy các giá trị sau trong các năm 2007-2010: Nhiệt độ trung bình
ngày trung bình theo tháng, nhiệt độ cao nhất ngày trung bình theo tháng, nhiệt độ
thấp nhất ngày trung bình theo tháng, tổng lượng mưa tháng, độ ẩm trung bình ngày
trung bình theo tháng, độ ẩm cao nhất ngày trung bình theo tháng, độ ẩm thấp nhất
ngày trung bình theo tháng, tổng số giờ nắng của tháng, vận tốc giĩ trung bình ngày
trung bình theo tháng.
2 Cơng cụ thống kê STATISTICA
56
- Thứ ba, chia 29 quận/huyện vào ba trạm thủy văn dựa trên quan sát bản đồ.
Sau đĩ lọc lấy giá trị mực nước bình quân từng tháng trong các năm 2007-2010.
Cuối cùng tổng hợp các dữ liệu thống kê được tạo 29 file dạng.csv ứng với 29
quận/huyện. Trong đĩ, mỗi file sẽ chứa 46 điểm dữ liệu (từ tháng 3-2007 đến tháng
12-2010). Mỗi điểm dữ liệu sẽ chứa các thuộc tính ứng với điểm dữ liệu đã xác định
ở phần phát biểu bài tốn: d = (KHt-2, KHt-1, DTLCt-2, DTLCt-1, DTt-2, DTt-1, DTt).
Sử dụng một số độ đo đánh giá mơ hình dự báo, điển hình là các độ đo Sai số
tuyệt đổi trung bình (Mean absolute error: MAE), Sai số trung bình quân phương
(Root mean squared error: RMSE), hệ số tương quan (Correlation coefficient: CC),
độ hồi tưởng (Recall), độ chính xác (Precision) và độ đo F (F-Measure) [45]. Các
cơng thức tính tốn sau đây được áp dụng cho các độ đo tương ứng:
n n
( p − a )2
pi − ai i i
MAE = i=1 RMSE = i=1
n , n ,
n
2
( pi − p)
S PA
CC = ( pi − p)(ai − a) i=1 (2.7)
S PA = SP =
S P S A , trong đĩ n −1 , n −1 ,
n n n
2
(ai − a) pi ai
S = i=1 p = i=1 a = i=1
A n −1 , n , và n
2.2.4.Kết quả thử nghiệm
Áp dụng tính năng lựa chọn đặc trưng trong bộ cơng cụ STATISTICA với điều
kiện lọc là giá trị p-value<=0.09 ứng với độ tin cậy 91%. Sau khi áp dụng hồi quy
tuyến tính với mơ hình của 29 quận riêng biệt cho kết quả: Sau khi lọc đặc trưng hệ
số tương quan (Correlation coefficient) cĩ tốt hơn (càng gần 1 hoặc -1), sai số tuyệt
đối (Mean absolute error) và sai số căn quân phương (Root mean squared error) giảm
đáng kể. Biểu đồ 2.1 và 2.2 dưới đây là kết quả tiêu biểu cho mơ hình dự báo của hai
huyện Ba Vì và Chương Mỹ
57
Biểu đồ lọc đặc trưng của Huyện Ba Vì
13.166
3.0934
0.0221 -0.3931 0.4511 0.847
CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED
COEFFICIENT ERROR
Chưa lọc đặc trưng
Biểu đồ 2.1: Kết quả so sánh lọc đặc trưng cho mơ hình huyện Ba Vì
Biểu đồ lọc đặc trưng của Chương Mỹ
81.1395
40.8952 44.769
0.0633 19.3027
-0.3921
CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED
COEFFICIENT ERROR
Chưa lọc đặc trưng Lọc đặc trưng
Biểu đồ 2.2: Kết quả so sánh lọc đặc trưng cho mơ hình huyện Chương Mỹ
Từ kết quả lọc đặc trưng cho thấy, các thuộc tính dịch tả lân cận và dịch tả tại
quận huyện xem xét ở tháng t-1, một số biến khí hậu cho giá trị p-value nhỏ hơn.
Áp dụng thuật tốn hồi quy tuyến tính cho mơ hình gộp 29 quận huyện khi chứa
cả các thuộc tính t-1, t-2 và khi chỉ cĩ thuộc tính t-1. Kết quả thể hiện trong biểu đồ
2.3
58
Linear Regression
5.1425 5.0157
2.8307
2.62
0.4875 0.5197
CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED
COEFFICIENT ERROR
Giá trị khi chứa cả thuộc tính t-1, t-2 Giá trị khi chỉ chứa cả thuộc tính t-1
Biểu đồ 2.3: Kết quả đánh giá mơ hình áp dụng hồi quy tuyến tính
Biểu đồ 2.3 cho thấy hệ số tương quan của mơ hình đạt được tương đối. Đồng
thời, sau khi bỏ các thuộc tính t-2 kết quả mơ hình đạt được cao hơn: Hệ sơ tương
quan dương tăng, các độ đo lỗi giảm
2.2.4.1.Kết quả mơ hình cục bộ
Mơ hình dự báo cho 29 quận /huyện ở Hà nội. Kết quả thực nghiệm cho 2 quận
điển hình được thể hiện ở bảng sau:
59
Bảng 2.4: Kết quả mơ hình cho hai quận điển hình Đống Đa và Hồng Mai
Quận/Huyện Các độ đo Linear NaiveBayes LibSVM RandomForest
Regression
Đống Đa CC -0.0713
MAE 22.8332 0.2504 0.2222 0.333
RMSE 26.5469 0.4741 0.4714 0.5774
Precision 0.583 0.444 0.7220
Recall 0.667 0.667 0.5000
F-Measure 0.611 0.533 0.5280
Hồng Mai CC 0.5317
MAE 12.7367 0.2227 0.2222 0.222
RMSE 13.8483 0.453 0.4714 0.4714
Precision 0.444 0.444 0.5830
Recall 0.667 0.667 0.6670
F-Measure 0.533 0.533 0.6110
Độ đo đánh giá mơ hình kết quả cho các quận-huyện nằm trong vùng dịch tả là
khá thấp trong khoảng từ 0.6 và 0.758. Giá trị hệ số tương quan dường như bị tách
biệt. Trong một số trường hợp, giá trị tuyệt đối là rất nhỏ, cho biết khơng cĩ sự tương
quan giữa biến mục tiêu và biến điều kiện. Nhưng cũng cĩ một số trường hợp cĩ giá
trị tuyệt đối cao và cĩ sự tương quan giữa biến mục tiêu và biến điều kiện (Xem chi
tiết phụ lục 2)
2.2.4.2.Kết quả mơ hình tồn cục
Với mơ hình tồn cục cĩ ba thực nghiệm đã được tiến hành.
• Thực nghiệm thứ nhất kết hợp trạng thái khí hậu và dịch tả để làm các biến điều
kiện sử dụng cho mơ hình.
• Thực nghiệm thứ hai chỉ cĩ biến khí hậu được sử dụng cho mơ hình.
• Thực nghiệm cuối cùng chỉ cĩ biến trạng thái dịch tả được sử dụng cho mơ hình.
60
Trong mỗi thực nghiệm, thì biến số thời gian “t-12” chỉ dẫn kết quả khi lấy dữ liệu
trong quá khứ của hai tháng t-1 và t-2, trong khi “t-1” chỉ dẫn kết quả khi lấy dữ liệu
trong quá khứ trong một tháng t-1;
Kết quả thực nghiệm trong trường hợp kết hợp các biến điều kiện khí hậu và dịch tả
với mơ hình hồi qui được thể hiện trong bảng và viểu đồ sau:
5.1425 5.0157
2.8307 2.62
0.4875 0.5197
CORRELATION MEAN ABSOLUTE ERROR ROOT MEAN SQUARED
COEFFICIENT ERROR
Giá trị khi chứa cả thuộc tính t-1, t-2 Giá trị khi chỉ chứa cả thuộc tính t-1
Biểu đồ 2.4 Kết quả hồi qui trong trường hợp kết hợp các biến điều kiện
Và bảng 2.5 thể hiện với các bộ phân lớp Nạve Bayes, SVM, RandomForest.
Bảng 2.5 Kết quả mơ hình với các bộ phân lớp
NaiveBayes LibSVM RandomForest
Số lớp Các độ đo
t-12 t-1 t-12 t-1 t-12 t-1
Hai lớp {0,1} MAE 0.1406 0.0958 0.0958 0.0958 0.1145 0.1860
RMSE 0.2913 0.3095 0.3095 0.3095 0.3082 0.3935
Precision 0.7190 0.7330 0.7330 0.7330 0.7330 0.7190
Recall 0.7010 0.8560 0.8560 0.8560 0.8560 0.7010
F-Measure 0.7100 0.7900 0.7900 0.7900 0.7900 0.7100
Ba lớp {0,1,2} MAE 0.1558 0.1437 0.1437 0.1437 0.1718 0.2354
RMSE 0.3791 0.3790 0.3790 0.3790 0.3775 0.4223
Precision 0.7330 0.7330 0.7330 0.7330 0.7330 0.8890
Recall 0.8560 0.8560 0.8560 0.8560 0.8560 0.7760
F-Measure 0.7900 0.7900 0.7900 0.7900 0.7900 0.8060
61
Cả hai trường hợp, hệ số tương quan trong khoảng 0.5 và độ đo đánh giá mơ
hình trong khoảng 0.8 và MAE từ 0.1 tới 0.2. Thuật tốn RandomTree là thuật tốn
tốt nhất trong thực nghiệm phân ba lớp {0,1,2}.
Kết quả thực nghiêm hồi qui khi kết hợp với biến điều kiện chỉ là khí hậu
thể hiện trong hình sau:
14.4287
12.3981
15 10.5614
8.2019
10
5 0.4699
0
-0.0179
Correlation Mean absolute Root mean squared
-5
coefficient error error
t-12 t-1
Biểu đồ 2.5: Kết quả hồi qui trong trường hợp biến điều kiện chỉ là khí hậu
Kết quả thực nghiệp phân lớp với biến điều kiện chỉ là khí hậu thể hiện trong
bảng 2.6
Bảng 2.6 Kết quả mơ hình phân lớp khi biến điều kiện chỉ là khí hậu
NaiveBayes LibSVM RandomForest
Số lớp Các độ đo
t-12 t-1 t-12 t-1 t-12 t-1
Hai lớp MAE 0.0958 0.0975 0.0958 0.0958 0.1315 0.1900
{0,1} RMSE 0.3095 0.3093 0.3095 0.3095 0.3261 0.3973
Precision 0.7330 0.7330 0.7330 0.7330 0.7330 0.7190
Recall 0.8560 0.8560 0.8560 0.8560 0.8560 0.7010
F-Measure 0.7900 0.7900 0.7900 0.7900 0.7900 0.7100
Ba lớp MAE 0.1437 0.1437 0.1437 0.1437 0.3363 0.5660
{0,1,2} RMSE 0.3790 0.3790 0.3790 0.3790 0.5322 0.7178
Precision 0.7330 0.7330 0.7330 0.7330 0.7200 0.6330
Recall 0.8560 0.8560 0.8560 0.8560 0.7010 0.3790
F-Measure 0.7900 0.7900 0.7900 0.7900 0.7100 0.4700
62
Hệ số tương quan trong trường hợp t-2 là -0.0179 (khơng tương quan) và hệ số
tương quan trong trường hợp t-1 là 0.4699 (tương quan trung bình). Các độ đo đánh
giá mơ hình cĩ giá trị trong khoảng gần 0.8. Thuật tốn RandomForest là thuật tốn
kém hiệu quả hơn trong mơ hình ba lớp {0,1,2}
Kết quả thực nghiệm với biến điều kiện chỉ là trạng thái dịch tả
Bảng 2.7 Kết quả phân lớp khi biến điều kiện chỉ là trạng thái dịch tả
NaiveBayes LibSVM RandomForest
Số lớp Các độ đo
t-12 t-1 t-12 t-1 t-12 t-1
Hai lớp MAE 0.5225 0.1393 0.0958 0.0958 0.1138 0.2041
{0,1} RMSE 0.7178 0.3336 0.3095 0.3095 0.2471 0.3765
Precision 0.8400 0.8260 0.7330 0.7330 0.8760 0.7260
Recall 0.2070 0.8280 0.8560 0.8560 0.8790 0.7070
F-Measure 0.2860 0.8180 0.7900 0.7900 0.8750 0.7170
Ba lớp MAE 0.6515 0.1759 0.1437 0.1437 0.1853 0.3127
{0,1,2} RMSE 0.7825 0.3182 0.3790 0.3790 0.2941 0.4026
Precision 0.8510 0.7330 0.7330 0.7330 0.9150 0.8520
Recall 0.2990 0.8560 0.8560 0.8560 0.9080 0.5980
F-Measure 0.3100 0.7900 0.7900 0.7900 0.9110 0.6560
13.4135
14
11.2281
12
10 7.83117.6677
8
6
4
2 0.3890.3298
0
Correlation Mean absolute error Root mean squared
coefficient error
Giá trị khi chứa cả thuộc tính t-12 Giá trị khi chỉ chứa thuộc tínht-1
Biểu đồ 2.6 Kết quả hồi qui khi biến điều kiện chỉ là trạng thái dịch tả
63
Kết luận:
Kết quả thực nghiệm là cơ sở để so sánh tác động của biểu diễn cục bộ và biểu
diễn tồn cục cũng như lựa chọn được kỹ thuật xây dựng mơ hình phù hợp cho từng
trường hợp dự báo. Qua phân tích các kết quả thực nghiệm, so sánh tác động của biểu
diễn cục bộ và biểu diễn tồn cục cĩ thể rút ra một số nhận xét sau đây:
- Nghiên cứu cho kFile đính kèm:
luan_an_nghien_cuu_mot_so_mo_hinh_du_bao_dich_ta_dua_tren_kh.pdf
2 TomTat LA-NCS LeThiNgocAnh.pdf
3 Trang thong tin LA (TV)-NCS LeThiNgocAnh.pdf
4 Trang thong tin LA (TA)-NCS LeThiNgocAnh.pdf

