Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian
huật toán có thể phát hiện các luật
63
Nếu tập mờ khoảng cách thời gian được chọn là LT={lt} tức là chỉ có duy
nhất một phân hoạch đối với khoảng cách thời gian và hàm thành viên nhận
giá trị:
{
đồng thời, các tập mờ của các thuộc tính định lượng chỉ được phân hoạch
thành 1 thuộc tính mờ và các hàm thành viên nhận giá trị:
( ) {
Khi đó CSDL mờ được tạo sẽ có dạng CSDL nhị phân hay CSDL giao
dịch, các giá trị của thuộc tính định lượng suy biến thành các giá trị nhị phân
(1 hoặc 0). Như vậy thuật toán có thể phát hiện luật kết hợp dạng
với a, b, c là các thuộc tính xảy ra cùng giao dịch.
2.4. Thử nghiệm thuật toán
2.4.1. Dữ liệu thử nghiệm
Dữ liệu thử nghiệm có tên Istanbul Stock Exchange được thu thập từ
CSDL UCI [113] bao gồm số liệu 7 chỉ số chứng khoán: SP, DAX, FTSE,
NIKKEI, BOVESPA, MSCE_EU, MSCI_EM từ các ngày 05/06/2009 đến
22/02/2011 và CSDL chứng khoán Việt Nam (VNINDEX) được lấy tại [114]
bao gồm giá đóng cửa của chỉ số VN30 và 10 mã chứng khoán thuộc rổ
VN30 gồm: BVH, CII, FPT, GMD, HPG, KDC, SSI, VCB, VIC, VNM của
1161 phiên giao dịch từ ngày 02/01/2013 đến ngày 31/08/2017. Dữ liệu gồm
các thông tin sau:
Mã chứng khoán (hoặc chỉ số VN30)
Phiên giao dịch
Giá đóng cửa
Thông tin về các tập dữ liệu được mô tả trong Bảng 2.3:
Bảng 2.3. Dữ liệu thử nghiệm ISTANBUL STOCK EXCHANGE
64
CSDL Số thuộc tính Số giao dịch
ISTANBUL STOCK EXCHANGE 8 537
VNINDEX 11 1161
Đối với tập dữ liệu VNINDEX, dữ liệu được chuyển đổi thành tập dữ liệu
mới phù hợp với mô hình dự báo gồm các thông tin sau:
Mã chứng khoán: Tên mã chứng khoán
Thời điểm: Số nguyên dương biểu diễn thứ tự của phiên giao dịch so
với thời điểm ban đầu, thời điểm ban đầu (nhận giá trị 1) là của phiên
giao dịch đầu tiên trong tập dữ liệu (ngày 02/01/2013).
Tỉ lệ thay đổi: Biểu diễn tỉ lệ thay đổi (Tăng/Giảm) được tính dựa theo
phần trăm thay đổi của giá đóng cửa phiên giao dịch với giá đóng cửa
phiên giao dịch liền trước.
Thuật toán FTQ được viết trên ngôn ngữ lập trình C# và được thực hiện
trên máy tính có chip Intel Core i5 2.5GHz processor, 4GB RAM, Windows7.
Đối với tập dữ liệu ISTANBUL STOCK EXCHANGE:
LT={Short, Medium, Long} là tập các tập mờ với khoảng cách thời gian
và có các hàm thành viên như được mô tả trong Ví dụ 2.3. Mỗi thuộc tính
định lượng được phân hoạch với số phân hoạch là 3 và có các hàm thành viên
như công thức (2.1)
Đối với tập dữ liệu VNINDEX
Các tập mờ đối với thuộc tính định lượng
Thuộc tính định lượng về Tỉ lệ thay đổi của các mã chứng khoán được
phân hoạch thành các tập mờ là {RHigh, RNormal, RLow, ILow,
INormal, IHigh} và các hàm thành viên biểu diễn tỉ lệ này được định
nghĩa như Hình 2.1.
65
RHigh RNormal RLow 1 ILow INormal IHigh
0
-4% -2.5% -1% 1% 2.5% 4%
Hình 2.1. Các hàm thành viên của các tập mờ ứng với tỉ lệ tăng/giảm của các
mã chứng khoán
Tỉ lệ thay đổi của chỉ số VN30 cũng được phân hoạch thành 3 tập mờ
giống như các tập mờ của các mã chứng khoán {RHigh, RNormal,
RLow, ILow, INormal, IHigh}. Các hàm thành viên tương ứng với các
tập mở của tỉ lệ thay đổi chỉ số VN30 được định nghĩa như Hình 2.2
DHigh DNormal DLow 1 ILow INormal IHigh
0
-1.1% -0.8% -0.5% 0.5% 0.8% 1.1%
Hình 2.2. Các hàm thành viên của các tập mờ của Tỉ lệ thay đổi chỉ số VN30
Các tập mờ đối với khoảng cách thời gian
Khoảng cách thời gian giữa các giao dịch được phân hoạch thành 3 tập
mờ {Short, Medium, Long} và các hàm thành viên tương ứng với các
tập mờ về khoảng cách thời gian được định nghĩa như Hình 2.3.
Short Medium Long
1
1 3 5
Hình 2.3. Các hàm thành viên của các tập mờ thời gian
66
2.4.2. Kết quả thử nghiệm
a) Thử nghiệm với CSDL ISTANBUL STOCK EXCHANGE
Hình 2.4 biểu diễn mối quan hệ giữa số lượng luật tìm được từ thuật toán
FTQ và độ tin cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ
trợ cực tiểu min_sup
Hình 2.4. Mối quan hệ giữa số lượng luật tìm được từ thuật toán FTQ và độ
tin cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ trợ cực
tiểu min_sup
Với các độ tin cậy cực tiểu min_conf khác nhau, số lượng luật thu được
thay đổi ứng với min_sup được biểu diến trong Hình 2.5:
67
Hình 2.5. Mối quan hệ giữa số lượng luật tìm được và min_sup với min_conf
khác nhau.
Hình 2.6 biểu diễn chi phí thời gian thực hiện thuật toán ứng với các độ
hỗ trợ cực tiểu min_sup trong trường hợp độ tin cậy cực tiểu min_conf=70%
160
140
120
100
80
60
Thời (giây) gian Thời
40
20
0
0.15 0.18 0.21 0.24 0.27 0.3 0.33
min_sup
Hình 2.6. Chi phí thời gian thực hiện khi min_conf=70%
Hình 2.7 và Hình 2.8 biểu diễn kết quả so sánh số luật và thời gian thực
hiện của phương pháp mờ hóa khoảng cách thời gian (A) với phương pháp
chia khoảng khoảng cách thời gian (B). Khoảng thời gian trong phương pháp
chia khoảng (B) được chia đều thành 3 khoảng, các giá trị của khoảng cách
thời gian nhận giá trị 1 nếu thuộc khoảng, ngược lại nhận giá trị 0.
68
Hình 2.7. So sánh số luật của phương pháp mờ hóa (A) và phương pháp chia
khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán FTQ
Hình 2.8. So sánh thời gian chạy của phương pháp mờ hóa (A) và phương
pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán
FTQ
Kết quả thử nghiệm ở trên cho thấy số lượng luật thu được từ thuật toán
FTQ cũng như chi phí thời gian của thuật toán tăng nhanh khi giảm độ hỗ trợ
cực tiểu min_sup. Điều này là hợp lý vì khi độ hỗ trợ cực tiểu giảm thì số
69
lượng chuỗi mờ với khoảng cách thời gian mờ tăng dẫn đến số lượng các ứng
cử viên tăng lên đòi hỏi thuật toán phải thực hiện tính toán nhiều hơn.
Số luật tìm được cũng như thời gian thực hiện trong trường hợp mờ hóa
khoảng cách thời gian là nhiều hơn so với số luật tìm được đối với trường hợp
chia khoảng khoảng cách thời gian tương ứng. Tuy nhiên, xu hướng tăng
giảm của số luật cũng như thời gian thực hiện của cả (A) và (B) thay đổi theo
độ hỗ trợ cực tiểu là giống nhau.
b) Thử nghiệm với CSDL VNINDEX
Với độ hỗ trợ cực tiểu min_sup là 7%, độ tin cậy cực tiểu min_conf là
70% và chỉ lựa chọn về phải của luật là chỉ số VN30, kết quả thử
nghiệm thu được các luật như trong Bảng 2.4:
Bảng 2.4. Kết quả thử nghiệm thuật toán FTQ với min_sup=7% và
min_con=70%
TT Luật Độ hỗ trợ Độ tin cậy
1. VNM_ILow,Short,VICILow,Short,FPTILow,Short,BV 7.4% 75.2%
HILow → VN30RHigh
2. VNMILow,Short,VICILow,Short,FPTILow,Short,HPGI 7.1% 72.4%
Low → VN30RHigh
3. VNMILow,Short,BVHILow,Short,BVHILow 7.9% 72.3%
→ VN30RHigh
4. BVHILow,Short,VNMILow,Short,BVHILow 7.4% 71.1%
→ VN30RHigh
5. VNMILow,Short,VICILow,Short,FPTILow,Short,SSIIL 7.3% 71.1%
ow → VN30RHigh
6. VNMILow,Short,BVHILow,Short,VICILow,Short,VN 7.6% 70.9%
MILow → VN30RHigh
9.4% 70.9%
7. BVHILow,Short,BVHILow → VN30RHigh
8. VNMILow,Short,VICILow,Short,BVHILow,Short,VN 7.4% 70.7%
MILow → VN30RHigh
9. VNMILow,Short,VICILow,Short,KDCILow,Short,VN 8.0% 70.5%
MILow → VN30RHigh
70
10. VICILow,Short,GMDILow,Short,BVHILow 7.3% 70.5%
→ VN30RHigh
11. VNMILow,Short,VICILow,Short,KDCILow,Short,VIC 7.0% 70.0%
ILow → VN30RHigh
12. BVHILow,Short,VICILow,Short,GMDILow 7.1% 70.0%
→ VN30RHigh
13. VNMILow,Short,VNMILow,Short,VICILow,Short,FP 7.1% 70.0%
TILow,Short,VNMILow → VN30RHigh
14. VICILow,Short,GMDRLow,Short,VNMILow 7.5% 70.0%
→ VN30RHigh
15. VICILow,Short,KDCILow,Short,BVHILow 7.5% 70.0%
→ VN30RHigh
Ý nghĩa các luật trong Bảng 2.4 được diễn giải trong Bảng 2.5
Bảng 2.5. Ý nghĩa các luật thu được đối với CSDL VNINDEX
TT Luật Ý nghĩa
VNMILow,Short,VICILow,Short,FPT Nếu mã chứng khoán VNM tăng ILow,
sau đó thời gian Short VIC tăng ILow,
ILow,Short,BVHILow → VN30RHigh
sau đó thời gian Short FPT tăng ILow,
1. sau đó thời gian Short BVH tăng ILow
thì chỉ số VN30 sẽ giảm RHigh tại thời
điểm Long tiếp theo với độ tin cậy 75.2%
VNMILow,Short,VICILow,Short,FPT Nếu mã chứng khoán VNM tăng ILow,
sau đó thời gian Short VIC tăng ILow,
ILow,Short,HPGILow → VN30RHigh
sau đó thời gian Short FPT tăng ILow,
2. sau đó thời gian Short HPG tăng ILow thì
chỉ số VN30 sẽ giảm RHigh tại thời điểm
Long tiếp theo với độ tin cậy 72.4%
VNMILow,Short,BVHILow, Nếu mã chứng khoán VNM tăng ILow,
sau đó thời gian Short BVH tăng ILow,
Short,BVHILow → VN30RHigh
3. sau đó thời gian Short BVH lại tăng ILow
thì chỉ số VN30 sẽ giảm RHigh tại thời
điểm Long tiếp theo với độ tin cậy 72.3%
BVHILow,Short,VNMILow, Nếu mã chứng khoán BVH tăng ILow,
sau đó thời gian Short VNM tăng ILow,
Short,BVHILow → VN30RHigh
4. sau đó thời gian Short BVH tăng ILow
thì chỉ số VN30 sẽ giảm RHigh tại thời
71
điểm Long tiếp theo với độ tin cậy 71.1%
VNMILow,Short,VICILow,Short,FPT Nếu mã chứng khoán VNM tăng ILow,
sau đó thời gian Short VIC tăng ILow,
ILow,Short,SSIILow → VN30RHigh
sau đó thời gian Short FPT tăng ILow,
5. sau đó thời gian Short SSI tăng ILow thì
chỉ số VN30 sẽ giảm RHigh tại thời điểm
Long tiếp theo với độ tin cậy 71.1%
VNMILow,Short,BVHILow,Short,VI Nếu mã chứng khoán VNM tăng ILow,
CILow,Short,VNMILow sau đó thời gian Short BVH tăng ILow,
sau đó thời gian Short VIC tăng ILow,
→ VN30RHigh
6. sau đó thời gian Short VNM tăng ILow
thì chỉ số VN30 sẽ giảm RHigh tại thời
điểm Long tiếp theo với độ tin cậy 70.9%
BVHILow,Short,BVHILow Nếu mã chứng khoán BVH tăng ILow,
sau đó thời gian Short BVH lại tăng ILow
→ VN30RHigh
7. thì chỉ số VN30 sẽ giảm RHigh tại thời
điểm Long tiếp theo với độ tin cậy 70.9%
VNMILow,Short,VICILow,Short,BV Nếu mã chứng khoán VNM tăng ILow,
HILow,Short,VNMILow sau đó thời gian Short VIC tăng ILow,
sau đó thời gian Short BVH tăng ILow,
→ VN30RHigh
8. sau đó thời gian Short VNM tăng ILow
thì chỉ số VN30 sẽ giảm RHigh tại thời
điểm Long tiếp theo với độ tin cậy 70.7%
VNMILow,Short,VICILow,Short,KD Nếu mã chứng khoán VNM tăng ILow,
CILow,Short,VNMILow sau đó thời gian Short VIC tăng ILow,
sau đó thời gian Short KDC tăng ILow,
→ VN30RHigh
9. sau đó thời gian Short VNM tăng ILow
thì chỉ số VN30 sẽ giảm RHigh tại thời
điểm Long tiếp theo với độ tin cậy 70.5%
VICILow,Short,GMDILow,Short,BV Nếu mã chứng khoán VIC tăng ILow, sau
đó thời gian Short GMD tăng ILow, sau
HILow → VN30RHigh
10. đó thời gian Short BVH tăng ILow thì chỉ
số VN30 sẽ giảm RHigh tại thời điểm
Long tiếp theo với độ tin cậy 70.5%
Nếu mã chứng khoán VNM tăng ILow,
sau đó thời gian Short VIC tăng ILow,
VNMILow,Short,VICILow,Short,KD sau đó thời gian Short KDC tăng ILow,
11.
CILow,Short,VICILow → VN30RHigh sau đó thời gian Short VIC tăng ILow thì
chỉ số VN30 sẽ giảm RHigh tại thời điểm
Long tiếp theo với độ tin cậy 70%
72
Nếu mã chứng khoán BVH tăng ILow,
sau đó thời gian Short VIC tăng ILow,
BVHILow,Short,VICILow,Short,GM
12. sau đó thời gian Short GMD tăng ILow
DILow → VN30RHigh thì chỉ số VN30 sẽ giảm RHigh tại thời
điểm Long tiếp theo với độ tin cậy 70%
Nếu mã chứng khoán VNM tăng ILow,
sau đó thời gian Short VNM tăng tiếp
ILow, sau đó thời gian Short VIC tăng
VNMILow,Short,VNMILow,Short,VI
C ,Short,FPT ,Short,VNM ILow, sau đó thời gian Short FPT tăng
13. ILow ILow ILo
Ilow, sau đó thời gian Short VNM tăng
w → VN30RHigh Ilow thì chỉ số VN30 sẽ giảm RHigh tại
thời điểm Long tiếp theo với độ tin cậy
70%
VICILow,Short,GMDRLow,Short,VN Nếu mã chứng khoán VIC tăng ILow, sau
đó thời gian Short GMD giảm RLow, sau
MILow → VN30RHigh
14. đó thời gian Short VNM tăng ILow thì
chỉ số VN30 sẽ giảm RHigh tại thời điểm
Long tiếp theo với độ tin cậy 70%
VICILow,Short,KDCILow,Short,BV Nếu mã chứng khoán VIC tăng ILow, sau
đó thời gian Short KDC giảm RLow, sau
HILow → VN30RHigh
15. đó thời gian Short BVH tăng ILow thì chỉ
số VN30 sẽ giảm RHigh tại thời điểm
Long tiếp theo với độ tin cậy 70%
Từ Bảng 2.5, mối quan hệ giữa thay đổi chỉ số VN30 và các mã chứng
khoán liên quan được thể hiện qua các luật thu được có thể góp phần vào quá
trình dự báo biến động chỉ số VN30, kết quả này rất hữu ích cho các nhà đầu
tư chứng khoán phái sinh [CT7].
Kết luận Chƣơng 2
Trong chương này luận án đã trình bày giải pháp phát hiện các luật kết
hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các
CSDL định lượng có yếu tố thời gian bằng cách đề xuất thuật toán phát hiện
luật kết hợp mờ với khoảng cách thời gian mờ trong các CSDL như vậy.
Thuật toán đó được gọi là FTQ. Theo thuật toán này, các thuộc tính định
lượng và khoảng cách thời gian xảy ra giữa các giao dịch đều được mờ hóa .
Thuật toán FTQ được phát triển từ ý tưởng thuật toán Apriori [2], một chuỗi
73
phổ biến độ dài k nhận được bằng cách liên kết hai chuỗi phổ biến độ dài k-1.
Chương này cũng trình bày kết quả thử nghiệm thuật toán FTQ trên các
CSDL thực, so sánh với phương pháp chia khoảng tương ứng và phân tích ý
nghĩa của luật thu được.
Với việc lựa chọn các hàm thành viên một cách thích hợp, thuật toán FTQ
trở thành thuật toán phát hiện luật kết hợp hoặc luật kết hợp mờ với khoảng
cách thời gian là những số chính xác tương ứng trong các CSDL giao dịch
hoặc CSDL định lượng cùng có yếu tố thời gian. Hơn nữa khi CSDL định
lượng có yếu tố thời gian suy biến thành CSDL giao dịch có yếu tố thời gian,
khi đó mỗi thuộc tính được mờ hóa thành 1 tập mờ tương ứng và các hàm
thành viên chỉ nhận các giá trị là 1 hoặc 0, thuật toán này trở thành thuật toán
phát hiện luật kết hợp với khoảng cách thời gian mờ.
Có thể thấy rằng thuật toán FTQ chỉ áp dụng được đối với các CSDL định
lượng có yếu tố thời gian, không áp dụng được đối với các CSDL chuỗi định
lượng có yếu tố thời gian. Chương 3 tiếp theo, luận án trình bày giải pháp để
phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của các
giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian.
74
CHƯƠNG 3. PHÁT HIỆN MẪU CHUỖI CÓ TÍNH ĐẾN KHOẢNG
CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƢỢNG CÓ
YẾU TỐ THỜI GIAN
Trong chương 1, luận án đã xác định vấn đề cần được nghiên cứu về phát
hiện mẫu chuỗi cố điển trong các CSDL chuỗi định lượng có yếu tố thời gian.
Ở chương này, luận án sẽ trình bày giải pháp giải quyết vấn đề cần nghiên
cứu đó. Cụ thể trong chương này, luận án sẽ trình bày thuật toán phát hiện
mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của các giao dịch trong
các CSDL chuỗi định lượng có yếu tố thời gian. Các mẫu chuỗi tìm được khi
đó được gọi là mẫu chuỗi mờ với khoảng cách thời gian mờ.
Vấn đề phát hiện mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của
các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian đã được
giải quyết theo cách tiếp cận từ đơn giản đến phức tạp. Cách tiếp cận bắt đầu
bằng việc nghiên cứu giải quyết bài toán phát hiện mẫu chuỗi với khoảng
cách thời gian xác định [CT1] trong các CSDL giao dịch có yếu tố thời gian,
tiếp theo là giải quyết bài toán phát hiện mẫu chuỗi mờ với khoảng cách thời
gian xác định [CT6] trong các CSDL chuỗi định lượng có yếu tố thời gian và
cuối cùng là phát hiện mẫu chuỗi cổ điền mờ với khoảng cách thời gian mờ
trong các CSDL như vậy và kết quả nghiên cứu giải quyết bài toán này đã
được đăng trên tạp chí Cybernetics and Information Technologies [CT5].
Chương này tập trung trình bày kết quả nghiên cứu của bài báo [CT5].
3.1. Giới thiệu
Phát hiện mẫu chuỗi là hướng nghiên cứu và ứng dụng quan trọng trong
lĩnh vực khai phá dữ liệu. Phát hiện mẫu chuỗi từ CSDL chuỗi giao dịch được
giới thiệu lần đầu vào năm 1995 [39]. Các luật chuỗi được sinh từ các mẫu
chuỗi cho biết mối quan hệ giữa các sự kiện (hay mục dữ liệu) theo trình tự
thời gian theo từng đối tượng và có dạng “Nếu khách hàng mua mặt hàng a
thì khách hàng đó sẽ quay lại mua mặt hàng b“ [39]–[42], [49]. Vấn đề phát
hiện mẫu chuỗi được mở rộng đối với các CSDL chuỗi định lượng, ở đó các
75
thuộc tính nhận giá trị số hoặc phân loại cũng được nhiều nghiên cứu đề cập
đến [53]–[57]. Trong các nghiên cứu này, các giá trị của các thuộc tính được
chuyển đổi thành các tập mờ và các mẫu chuỗi khi đó được gọi là mẫu chuỗi
mờ.
Vấn đề phát hiện các mẫu chuỗi với khoảng cách thời gian xảy ra giữa các
mục của cùng một đối tượng trong các CSDL chuỗi giao dịch đã được nghiên
cứu trong [60], [61]. Trong [61], các mẫu chuỗi có dạng 〈 〉, trong
đó a, b, c là mục, là các phạm vi thời gian của khoảng cách thời gian
giữa các giao dịch trong chuỗi và được gọi là mẫu chuỗi với khoảng cách thời
gian. Nhằm khắc phục hiện tượng “sắc nét” của việc chia khoảng thời gian
(time range) tại các điểm gần ranh giới các khoảng chia như trong [61],
nghiên cứu [63] đã đề xuất và giải quyết vấn đề phát hiện các mẫu chuỗi với
khoảng cách thời gian mờ từ các CSDL chuỗi giao dịch dựa trên việc chuyển
khoảng cách thời gian thành các tập mờ. Các mẫu chuỗi trong nghiên cứu
[63] đã biểu diễn mối quan hệ giữa các sự kiện dạng 〈 〉,
trong đó a, b, c là các mục còn Short, Long là các tập mờ gắn với khoảng cách
thời gian giữa các giao dịch trong chuỗi.
Nghiên cứu [CT1] đã đề xuất và giải quyết vấn đề phát mẫu chuỗi với
khoảng cách thời gian rõ trong CSDL giao dịch có yếu tố thời gian. Mẫu
chuỗi này dạng “Một khách hàng mua mặt hàng a hôm nay, khách hàng đó sẽ
mua mặt hàng b sau 2 ngày tiếp theo”. Thuật toán SITARM đã được đề xuất
để phát hiện mẫu chuỗi trong [CT1]. Thuật toán SITARM sử dụng cửa sổ
trượt thời gian (sliding windows) để chuyển CSDL chuỗi có yếu tố thời gian
thành CSDL chuỗi không có yếu tố thời gian, dựa trên ý tưởng thuật toán
CHARM [9] để phát hiện các mẫu chuỗi đề xuất.
Nghiên cứu [CT6] đã đề xuất và giải quyết vấn đề phát mẫu chuỗi mờ với
khoảng cách thời gian rõ trong CSDL định lượng có yếu tố thời gian. Mẫu
chuỗi này dạng “Một khách hàng mua mặt hàng a một lượng Ít hôm nay,
khách hàng đó sẽ mua mặt hàng b một lượng Nhiều sau 2 ngày tiếp theo”.
76
Thuật toán FSPFTI đã được đề xuất để phát hiện mẫu chuỗi trong [CT6].
Thuật toán FSPFTI sử dụng cửa sổ trượt thời gian (sliding windows) để
chuyển CSDL chuỗi định lượng có yếu tố thời gian thành CSDL chuỗi định
lượng không có yếu tố thời gian, mờ hóa các thuộc tính định lượng, dựa trên ý
tưởng thuật toán CHARM [9] để phát hiện các mẫu chuỗi đề xuất.
Như vậy, nghiên cứu [CT1] và [CT6] chỉ phát hiện các mẫu chuỗi với
khoảng cách thời gian rõ và trong nghiên cứu [CT6], các thuộc tính định
lượng trong CSDL được mờ hóa. Mục đích của chương này đề xuất và phát
hiện mẫu chuỗi dạng tổng quát đó là mẫu chuỗi mờ với khoảng thời gian mờ.
Đây là vấn đề thứ 2 đặt ra của luận án. Các mẫu chuỗi này có dạng
〈 〉, trong đó là các tập mờ gắn
với các thuộc tính a, b, c và Short, Long là các tập mờ của khoảng cách thời
gian. Từ các mẫu chuỗi này, ta có thể phát hiện các luật dạng “Nếu một khách
hàng mua mặt hàng a với số lượng Ít và mặt hàng b với lượng Nhiều sau thời
gian Short thì khách hàng đó sẽ mua mặt hàng c một lượng TB với thời gian
Long”. Ý tưởng chính của thuật toán FSPFTIM được đề xuất trong chương
này là sử dụng lý thuyết mờ để chuyển đổi các thuộc tính định lượng, khoảng
cách thời gian thành các khái niệm mờ; tìm chuỗi có độ dài k bằng cách liên
kết 2 chuỗi phổ biến có độ dài k-1 theo cách giống như thuật toán Apriori [2],
[63] , từ đó tìm ra tất cả các mẫu chuỗi mờ với khoảng cách thời gian mờ.
3.2. Một số khái niệm cơ bản
Định nghĩa 3.1 Gọi I={ } là tập các thuộc tính, s =
〈 〉 là một chuỗi định lượng có yếu tố
thời gian, trong đó I là thuộc tính (1 k n), ( ≥0) là thời điểm tương
ứng với xảy ra, với 2 k n và ( ) = , nhận giá trị số
hoặc phân loại. Một CSDL chuỗi định lượng có yếu tố thời gian QSD là tập
tất cả các chuỗi định lượng có yếu tố thời gian.
77
File đính kèm:
luan_an_phat_hien_luat_ket_hop_va_luat_chuoi_mo_trong_co_so.pdf
2.Mau3_DongGopMoi_TV.doc
3.Mau3_DongGopMoi_TiengAnh.docx
4.TrichYeuLuanAn.docx
DMCongTrinh-NCS Truong Duc Phuong.pdf
DMCongTrinh-NCS Truong Duc Phuong_1.pdf
Những đóng góp mới TA.TV. Trích yếu - Trương Đức Phương_0001.pdf
TomTat - NCS Truong Duc Phuong_EN.pdf
TomTat - NCS Truong Duc Phuong_VN.pdf

