Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian trang 1

Trang 1

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian trang 2

Trang 2

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian trang 3

Trang 3

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian trang 4

Trang 4

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian trang 5

Trang 5

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian trang 6

Trang 6

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian trang 7

Trang 7

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian trang 8

Trang 8

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian trang 9

Trang 9

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 146 trang nguyenduy 16/05/2024 620
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian

Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian
huật toán có thể phát hiện các luật 
 63 
 Nếu tập mờ khoảng cách thời gian được chọn là LT={lt} tức là chỉ có duy 
nhất một phân hoạch đối với khoảng cách thời gian và hàm thành viên nhận 
giá trị: 
 { 
 đồng thời, các tập mờ của các thuộc tính định lượng chỉ được phân hoạch 
thành 1 thuộc tính mờ và các hàm thành viên nhận giá trị: 
 ( ) { 
 Khi đó CSDL mờ được tạo sẽ có dạng CSDL nhị phân hay CSDL giao 
dịch, các giá trị của thuộc tính định lượng suy biến thành các giá trị nhị phân 
(1 hoặc 0). Như vậy thuật toán có thể phát hiện luật kết hợp dạng 
với a, b, c là các thuộc tính xảy ra cùng giao dịch. 
2.4. Thử nghiệm thuật toán 
2.4.1. Dữ liệu thử nghiệm 
 Dữ liệu thử nghiệm có tên Istanbul Stock Exchange được thu thập từ 
CSDL UCI [113] bao gồm số liệu 7 chỉ số chứng khoán: SP, DAX, FTSE, 
NIKKEI, BOVESPA, MSCE_EU, MSCI_EM từ các ngày 05/06/2009 đến 
22/02/2011 và CSDL chứng khoán Việt Nam (VNINDEX) được lấy tại [114] 
bao gồm giá đóng cửa của chỉ số VN30 và 10 mã chứng khoán thuộc rổ 
VN30 gồm: BVH, CII, FPT, GMD, HPG, KDC, SSI, VCB, VIC, VNM của 
1161 phiên giao dịch từ ngày 02/01/2013 đến ngày 31/08/2017. Dữ liệu gồm 
các thông tin sau: 
 Mã chứng khoán (hoặc chỉ số VN30) 
 Phiên giao dịch 
 Giá đóng cửa 
 Thông tin về các tập dữ liệu được mô tả trong Bảng 2.3: 
 Bảng 2.3. Dữ liệu thử nghiệm ISTANBUL STOCK EXCHANGE 
 64 
 CSDL Số thuộc tính Số giao dịch 
 ISTANBUL STOCK EXCHANGE 8 537 
 VNINDEX 11 1161 
 Đối với tập dữ liệu VNINDEX, dữ liệu được chuyển đổi thành tập dữ liệu 
mới phù hợp với mô hình dự báo gồm các thông tin sau: 
 Mã chứng khoán: Tên mã chứng khoán 
 Thời điểm: Số nguyên dương biểu diễn thứ tự của phiên giao dịch so 
 với thời điểm ban đầu, thời điểm ban đầu (nhận giá trị 1) là của phiên 
 giao dịch đầu tiên trong tập dữ liệu (ngày 02/01/2013). 
 Tỉ lệ thay đổi: Biểu diễn tỉ lệ thay đổi (Tăng/Giảm) được tính dựa theo 
 phần trăm thay đổi của giá đóng cửa phiên giao dịch với giá đóng cửa 
 phiên giao dịch liền trước. 
 Thuật toán FTQ được viết trên ngôn ngữ lập trình C# và được thực hiện 
trên máy tính có chip Intel Core i5 2.5GHz processor, 4GB RAM, Windows7. 
 Đối với tập dữ liệu ISTANBUL STOCK EXCHANGE: 
 LT={Short, Medium, Long} là tập các tập mờ với khoảng cách thời gian 
và có các hàm thành viên như được mô tả trong Ví dụ 2.3. Mỗi thuộc tính 
định lượng được phân hoạch với số phân hoạch là 3 và có các hàm thành viên 
như công thức (2.1) 
 Đối với tập dữ liệu VNINDEX 
 Các tập mờ đối với thuộc tính định lượng 
 Thuộc tính định lượng về Tỉ lệ thay đổi của các mã chứng khoán được 
 phân hoạch thành các tập mờ là {RHigh, RNormal, RLow, ILow, 
 INormal, IHigh} và các hàm thành viên biểu diễn tỉ lệ này được định 
 nghĩa như Hình 2.1. 
 65 
 RHigh RNormal RLow 1 ILow INormal IHigh 
 0 
 -4% -2.5% -1% 1% 2.5% 4% 
Hình 2.1. Các hàm thành viên của các tập mờ ứng với tỉ lệ tăng/giảm của các 
 mã chứng khoán 
 Tỉ lệ thay đổi của chỉ số VN30 cũng được phân hoạch thành 3 tập mờ 
 giống như các tập mờ của các mã chứng khoán {RHigh, RNormal, 
 RLow, ILow, INormal, IHigh}. Các hàm thành viên tương ứng với các 
 tập mở của tỉ lệ thay đổi chỉ số VN30 được định nghĩa như Hình 2.2 
 DHigh DNormal DLow 1 ILow INormal IHigh 
 0 
 -1.1% -0.8% -0.5% 0.5% 0.8% 1.1% 
 Hình 2.2. Các hàm thành viên của các tập mờ của Tỉ lệ thay đổi chỉ số VN30 
 Các tập mờ đối với khoảng cách thời gian 
 Khoảng cách thời gian giữa các giao dịch được phân hoạch thành 3 tập 
 mờ {Short, Medium, Long} và các hàm thành viên tương ứng với các 
 tập mờ về khoảng cách thời gian được định nghĩa như Hình 2.3. 
 Short Medium Long 
 1 
 1 3 5 
 Hình 2.3. Các hàm thành viên của các tập mờ thời gian 
 66 
2.4.2. Kết quả thử nghiệm 
 a) Thử nghiệm với CSDL ISTANBUL STOCK EXCHANGE 
 Hình 2.4 biểu diễn mối quan hệ giữa số lượng luật tìm được từ thuật toán 
FTQ và độ tin cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ 
trợ cực tiểu min_sup 
 Hình 2.4. Mối quan hệ giữa số lượng luật tìm được từ thuật toán FTQ và độ 
 tin cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ trợ cực 
 tiểu min_sup 
 Với các độ tin cậy cực tiểu min_conf khác nhau, số lượng luật thu được 
thay đổi ứng với min_sup được biểu diến trong Hình 2.5: 
 67 
 Hình 2.5. Mối quan hệ giữa số lượng luật tìm được và min_sup với min_conf 
 khác nhau. 
 Hình 2.6 biểu diễn chi phí thời gian thực hiện thuật toán ứng với các độ 
hỗ trợ cực tiểu min_sup trong trường hợp độ tin cậy cực tiểu min_conf=70% 
 160
 140
 120
 100
 80
 60
 Thời (giây) gian Thời
 40
 20
 0
 0.15 0.18 0.21 0.24 0.27 0.3 0.33
 min_sup 
 Hình 2.6. Chi phí thời gian thực hiện khi min_conf=70% 
 Hình 2.7 và Hình 2.8 biểu diễn kết quả so sánh số luật và thời gian thực 
hiện của phương pháp mờ hóa khoảng cách thời gian (A) với phương pháp 
chia khoảng khoảng cách thời gian (B). Khoảng thời gian trong phương pháp 
chia khoảng (B) được chia đều thành 3 khoảng, các giá trị của khoảng cách 
thời gian nhận giá trị 1 nếu thuộc khoảng, ngược lại nhận giá trị 0. 
 68 
 Hình 2.7. So sánh số luật của phương pháp mờ hóa (A) và phương pháp chia 
 khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán FTQ 
 Hình 2.8. So sánh thời gian chạy của phương pháp mờ hóa (A) và phương 
 pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán 
 FTQ 
 Kết quả thử nghiệm ở trên cho thấy số lượng luật thu được từ thuật toán 
FTQ cũng như chi phí thời gian của thuật toán tăng nhanh khi giảm độ hỗ trợ 
cực tiểu min_sup. Điều này là hợp lý vì khi độ hỗ trợ cực tiểu giảm thì số 
 69 
lượng chuỗi mờ với khoảng cách thời gian mờ tăng dẫn đến số lượng các ứng 
cử viên tăng lên đòi hỏi thuật toán phải thực hiện tính toán nhiều hơn. 
 Số luật tìm được cũng như thời gian thực hiện trong trường hợp mờ hóa 
khoảng cách thời gian là nhiều hơn so với số luật tìm được đối với trường hợp 
chia khoảng khoảng cách thời gian tương ứng. Tuy nhiên, xu hướng tăng 
giảm của số luật cũng như thời gian thực hiện của cả (A) và (B) thay đổi theo 
độ hỗ trợ cực tiểu là giống nhau. 
 b) Thử nghiệm với CSDL VNINDEX 
 Với độ hỗ trợ cực tiểu min_sup là 7%, độ tin cậy cực tiểu min_conf là 
 70% và chỉ lựa chọn về phải của luật là chỉ số VN30, kết quả thử 
 nghiệm thu được các luật như trong Bảng 2.4: 
 Bảng 2.4. Kết quả thử nghiệm thuật toán FTQ với min_sup=7% và 
 min_con=70% 
 TT Luật Độ hỗ trợ Độ tin cậy 
 1. VNM_ILow,Short,VICILow,Short,FPTILow,Short,BV 7.4% 75.2% 
 HILow → VN30RHigh 
 2. VNMILow,Short,VICILow,Short,FPTILow,Short,HPGI 7.1% 72.4% 
 Low → VN30RHigh 
 3. VNMILow,Short,BVHILow,Short,BVHILow 7.9% 72.3% 
 → VN30RHigh 
 4. BVHILow,Short,VNMILow,Short,BVHILow 7.4% 71.1% 
 → VN30RHigh 
 5. VNMILow,Short,VICILow,Short,FPTILow,Short,SSIIL 7.3% 71.1% 
 ow → VN30RHigh 
 6. VNMILow,Short,BVHILow,Short,VICILow,Short,VN 7.6% 70.9% 
 MILow → VN30RHigh 
 9.4% 70.9% 
 7. BVHILow,Short,BVHILow → VN30RHigh 
 8. VNMILow,Short,VICILow,Short,BVHILow,Short,VN 7.4% 70.7% 
 MILow → VN30RHigh 
 9. VNMILow,Short,VICILow,Short,KDCILow,Short,VN 8.0% 70.5% 
 MILow → VN30RHigh 
 70 
10. VICILow,Short,GMDILow,Short,BVHILow 7.3% 70.5% 
 → VN30RHigh 
11. VNMILow,Short,VICILow,Short,KDCILow,Short,VIC 7.0% 70.0% 
 ILow → VN30RHigh 
12. BVHILow,Short,VICILow,Short,GMDILow 7.1% 70.0% 
 → VN30RHigh 
13. VNMILow,Short,VNMILow,Short,VICILow,Short,FP 7.1% 70.0% 
 TILow,Short,VNMILow → VN30RHigh 
14. VICILow,Short,GMDRLow,Short,VNMILow 7.5% 70.0% 
 → VN30RHigh 
15. VICILow,Short,KDCILow,Short,BVHILow 7.5% 70.0% 
 → VN30RHigh 
 Ý nghĩa các luật trong Bảng 2.4 được diễn giải trong Bảng 2.5 
 Bảng 2.5. Ý nghĩa các luật thu được đối với CSDL VNINDEX 
 TT Luật Ý nghĩa 
 VNMILow,Short,VICILow,Short,FPT Nếu mã chứng khoán VNM tăng ILow, 
 sau đó thời gian Short VIC tăng ILow, 
 ILow,Short,BVHILow → VN30RHigh 
 sau đó thời gian Short FPT tăng ILow, 
1. sau đó thời gian Short BVH tăng ILow 
 thì chỉ số VN30 sẽ giảm RHigh tại thời 
 điểm Long tiếp theo với độ tin cậy 75.2% 
 VNMILow,Short,VICILow,Short,FPT Nếu mã chứng khoán VNM tăng ILow, 
 sau đó thời gian Short VIC tăng ILow, 
 ILow,Short,HPGILow → VN30RHigh 
 sau đó thời gian Short FPT tăng ILow, 
2. sau đó thời gian Short HPG tăng ILow thì 
 chỉ số VN30 sẽ giảm RHigh tại thời điểm 
 Long tiếp theo với độ tin cậy 72.4% 
 VNMILow,Short,BVHILow, Nếu mã chứng khoán VNM tăng ILow, 
 sau đó thời gian Short BVH tăng ILow, 
 Short,BVHILow → VN30RHigh 
3. sau đó thời gian Short BVH lại tăng ILow 
 thì chỉ số VN30 sẽ giảm RHigh tại thời 
 điểm Long tiếp theo với độ tin cậy 72.3% 
 BVHILow,Short,VNMILow, Nếu mã chứng khoán BVH tăng ILow, 
 sau đó thời gian Short VNM tăng ILow, 
 Short,BVHILow → VN30RHigh 
4. sau đó thời gian Short BVH tăng ILow 
 thì chỉ số VN30 sẽ giảm RHigh tại thời 
 71 
 điểm Long tiếp theo với độ tin cậy 71.1% 
 VNMILow,Short,VICILow,Short,FPT Nếu mã chứng khoán VNM tăng ILow, 
 sau đó thời gian Short VIC tăng ILow, 
 ILow,Short,SSIILow → VN30RHigh 
 sau đó thời gian Short FPT tăng ILow, 
5. sau đó thời gian Short SSI tăng ILow thì 
 chỉ số VN30 sẽ giảm RHigh tại thời điểm 
 Long tiếp theo với độ tin cậy 71.1% 
 VNMILow,Short,BVHILow,Short,VI Nếu mã chứng khoán VNM tăng ILow, 
 CILow,Short,VNMILow sau đó thời gian Short BVH tăng ILow, 
 sau đó thời gian Short VIC tăng ILow, 
 → VN30RHigh 
6. sau đó thời gian Short VNM tăng ILow 
 thì chỉ số VN30 sẽ giảm RHigh tại thời 
 điểm Long tiếp theo với độ tin cậy 70.9% 
 BVHILow,Short,BVHILow Nếu mã chứng khoán BVH tăng ILow, 
 sau đó thời gian Short BVH lại tăng ILow 
 → VN30RHigh 
7. thì chỉ số VN30 sẽ giảm RHigh tại thời 
 điểm Long tiếp theo với độ tin cậy 70.9% 
 VNMILow,Short,VICILow,Short,BV Nếu mã chứng khoán VNM tăng ILow, 
 HILow,Short,VNMILow sau đó thời gian Short VIC tăng ILow, 
 sau đó thời gian Short BVH tăng ILow, 
 → VN30RHigh 
8. sau đó thời gian Short VNM tăng ILow 
 thì chỉ số VN30 sẽ giảm RHigh tại thời 
 điểm Long tiếp theo với độ tin cậy 70.7% 
 VNMILow,Short,VICILow,Short,KD Nếu mã chứng khoán VNM tăng ILow, 
 CILow,Short,VNMILow sau đó thời gian Short VIC tăng ILow, 
 sau đó thời gian Short KDC tăng ILow, 
 → VN30RHigh 
9. sau đó thời gian Short VNM tăng ILow 
 thì chỉ số VN30 sẽ giảm RHigh tại thời 
 điểm Long tiếp theo với độ tin cậy 70.5% 
 VICILow,Short,GMDILow,Short,BV Nếu mã chứng khoán VIC tăng ILow, sau 
 đó thời gian Short GMD tăng ILow, sau 
 HILow → VN30RHigh 
10. đó thời gian Short BVH tăng ILow thì chỉ 
 số VN30 sẽ giảm RHigh tại thời điểm 
 Long tiếp theo với độ tin cậy 70.5% 
 Nếu mã chứng khoán VNM tăng ILow, 
 sau đó thời gian Short VIC tăng ILow, 
 VNMILow,Short,VICILow,Short,KD sau đó thời gian Short KDC tăng ILow, 
11. 
 CILow,Short,VICILow → VN30RHigh sau đó thời gian Short VIC tăng ILow thì 
 chỉ số VN30 sẽ giảm RHigh tại thời điểm 
 Long tiếp theo với độ tin cậy 70% 
 72 
 Nếu mã chứng khoán BVH tăng ILow, 
 sau đó thời gian Short VIC tăng ILow, 
 BVHILow,Short,VICILow,Short,GM
12. sau đó thời gian Short GMD tăng ILow 
 DILow → VN30RHigh thì chỉ số VN30 sẽ giảm RHigh tại thời 
 điểm Long tiếp theo với độ tin cậy 70% 
 Nếu mã chứng khoán VNM tăng ILow, 
 sau đó thời gian Short VNM tăng tiếp 
 ILow, sau đó thời gian Short VIC tăng 
 VNMILow,Short,VNMILow,Short,VI
 C ,Short,FPT ,Short,VNM ILow, sau đó thời gian Short FPT tăng 
13. ILow ILow ILo
 Ilow, sau đó thời gian Short VNM tăng 
 w → VN30RHigh Ilow thì chỉ số VN30 sẽ giảm RHigh tại 
 thời điểm Long tiếp theo với độ tin cậy 
 70% 
 VICILow,Short,GMDRLow,Short,VN Nếu mã chứng khoán VIC tăng ILow, sau 
 đó thời gian Short GMD giảm RLow, sau 
 MILow → VN30RHigh 
14. đó thời gian Short VNM tăng ILow thì 
 chỉ số VN30 sẽ giảm RHigh tại thời điểm 
 Long tiếp theo với độ tin cậy 70% 
 VICILow,Short,KDCILow,Short,BV Nếu mã chứng khoán VIC tăng ILow, sau 
 đó thời gian Short KDC giảm RLow, sau 
 HILow → VN30RHigh 
15. đó thời gian Short BVH tăng ILow thì chỉ 
 số VN30 sẽ giảm RHigh tại thời điểm 
 Long tiếp theo với độ tin cậy 70% 
 Từ Bảng 2.5, mối quan hệ giữa thay đổi chỉ số VN30 và các mã chứng 
khoán liên quan được thể hiện qua các luật thu được có thể góp phần vào quá 
trình dự báo biến động chỉ số VN30, kết quả này rất hữu ích cho các nhà đầu 
tư chứng khoán phái sinh [CT7]. 
Kết luận Chƣơng 2 
 Trong chương này luận án đã trình bày giải pháp phát hiện các luật kết 
hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các 
CSDL định lượng có yếu tố thời gian bằng cách đề xuất thuật toán phát hiện 
luật kết hợp mờ với khoảng cách thời gian mờ trong các CSDL như vậy. 
Thuật toán đó được gọi là FTQ. Theo thuật toán này, các thuộc tính định 
lượng và khoảng cách thời gian xảy ra giữa các giao dịch đều được mờ hóa . 
Thuật toán FTQ được phát triển từ ý tưởng thuật toán Apriori [2], một chuỗi 
 73 
phổ biến độ dài k nhận được bằng cách liên kết hai chuỗi phổ biến độ dài k-1. 
Chương này cũng trình bày kết quả thử nghiệm thuật toán FTQ trên các 
CSDL thực, so sánh với phương pháp chia khoảng tương ứng và phân tích ý 
nghĩa của luật thu được. 
 Với việc lựa chọn các hàm thành viên một cách thích hợp, thuật toán FTQ 
trở thành thuật toán phát hiện luật kết hợp hoặc luật kết hợp mờ với khoảng 
cách thời gian là những số chính xác tương ứng trong các CSDL giao dịch 
hoặc CSDL định lượng cùng có yếu tố thời gian. Hơn nữa khi CSDL định 
lượng có yếu tố thời gian suy biến thành CSDL giao dịch có yếu tố thời gian, 
khi đó mỗi thuộc tính được mờ hóa thành 1 tập mờ tương ứng và các hàm 
thành viên chỉ nhận các giá trị là 1 hoặc 0, thuật toán này trở thành thuật toán 
phát hiện luật kết hợp với khoảng cách thời gian mờ. 
 Có thể thấy rằng thuật toán FTQ chỉ áp dụng được đối với các CSDL định 
lượng có yếu tố thời gian, không áp dụng được đối với các CSDL chuỗi định 
lượng có yếu tố thời gian. Chương 3 tiếp theo, luận án trình bày giải pháp để 
phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của các 
giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian. 
 74 
 CHƯƠNG 3. PHÁT HIỆN MẪU CHUỖI CÓ TÍNH ĐẾN KHOẢNG 
 CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƢỢNG CÓ 
 YẾU TỐ THỜI GIAN 
 Trong chương 1, luận án đã xác định vấn đề cần được nghiên cứu về phát 
hiện mẫu chuỗi cố điển trong các CSDL chuỗi định lượng có yếu tố thời gian. 
Ở chương này, luận án sẽ trình bày giải pháp giải quyết vấn đề cần nghiên 
cứu đó. Cụ thể trong chương này, luận án sẽ trình bày thuật toán phát hiện 
mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của các giao dịch trong 
các CSDL chuỗi định lượng có yếu tố thời gian. Các mẫu chuỗi tìm được khi 
đó được gọi là mẫu chuỗi mờ với khoảng cách thời gian mờ. 
 Vấn đề phát hiện mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của 
các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian đã được 
giải quyết theo cách tiếp cận từ đơn giản đến phức tạp. Cách tiếp cận bắt đầu 
bằng việc nghiên cứu giải quyết bài toán phát hiện mẫu chuỗi với khoảng 
cách thời gian xác định [CT1] trong các CSDL giao dịch có yếu tố thời gian, 
tiếp theo là giải quyết bài toán phát hiện mẫu chuỗi mờ với khoảng cách thời 
gian xác định [CT6] trong các CSDL chuỗi định lượng có yếu tố thời gian và 
cuối cùng là phát hiện mẫu chuỗi cổ điền mờ với khoảng cách thời gian mờ 
trong các CSDL như vậy và kết quả nghiên cứu giải quyết bài toán này đã 
được đăng trên tạp chí Cybernetics and Information Technologies [CT5]. 
Chương này tập trung trình bày kết quả nghiên cứu của bài báo [CT5]. 
3.1. Giới thiệu 
 Phát hiện mẫu chuỗi là hướng nghiên cứu và ứng dụng quan trọng trong 
lĩnh vực khai phá dữ liệu. Phát hiện mẫu chuỗi từ CSDL chuỗi giao dịch được 
giới thiệu lần đầu vào năm 1995 [39]. Các luật chuỗi được sinh từ các mẫu 
chuỗi cho biết mối quan hệ giữa các sự kiện (hay mục dữ liệu) theo trình tự 
thời gian theo từng đối tượng và có dạng “Nếu khách hàng mua mặt hàng a 
thì khách hàng đó sẽ quay lại mua mặt hàng b“ [39]–[42], [49]. Vấn đề phát 
hiện mẫu chuỗi được mở rộng đối với các CSDL chuỗi định lượng, ở đó các 
 75 
thuộc tính nhận giá trị số hoặc phân loại cũng được nhiều nghiên cứu đề cập 
đến [53]–[57]. Trong các nghiên cứu này, các giá trị của các thuộc tính được 
chuyển đổi thành các tập mờ và các mẫu chuỗi khi đó được gọi là mẫu chuỗi 
mờ. 
 Vấn đề phát hiện các mẫu chuỗi với khoảng cách thời gian xảy ra giữa các 
mục của cùng một đối tượng trong các CSDL chuỗi giao dịch đã được nghiên 
cứu trong [60], [61]. Trong [61], các mẫu chuỗi có dạng 〈 〉, trong 
đó a, b, c là mục, là các phạm vi thời gian của khoảng cách thời gian 
giữa các giao dịch trong chuỗi và được gọi là mẫu chuỗi với khoảng cách thời 
gian. Nhằm khắc phục hiện tượng “sắc nét” của việc chia khoảng thời gian 
(time range) tại các điểm gần ranh giới các khoảng chia như trong [61], 
nghiên cứu [63] đã đề xuất và giải quyết vấn đề phát hiện các mẫu chuỗi với 
khoảng cách thời gian mờ từ các CSDL chuỗi giao dịch dựa trên việc chuyển 
khoảng cách thời gian thành các tập mờ. Các mẫu chuỗi trong nghiên cứu 
[63] đã biểu diễn mối quan hệ giữa các sự kiện dạng 〈 〉, 
trong đó a, b, c là các mục còn Short, Long là các tập mờ gắn với khoảng cách 
thời gian giữa các giao dịch trong chuỗi. 
 Nghiên cứu [CT1] đã đề xuất và giải quyết vấn đề phát mẫu chuỗi với 
khoảng cách thời gian rõ trong CSDL giao dịch có yếu tố thời gian. Mẫu 
chuỗi này dạng “Một khách hàng mua mặt hàng a hôm nay, khách hàng đó sẽ 
mua mặt hàng b sau 2 ngày tiếp theo”. Thuật toán SITARM đã được đề xuất 
để phát hiện mẫu chuỗi trong [CT1]. Thuật toán SITARM sử dụng cửa sổ 
trượt thời gian (sliding windows) để chuyển CSDL chuỗi có yếu tố thời gian 
thành CSDL chuỗi không có yếu tố thời gian, dựa trên ý tưởng thuật toán 
CHARM [9] để phát hiện các mẫu chuỗi đề xuất. 
 Nghiên cứu [CT6] đã đề xuất và giải quyết vấn đề phát mẫu chuỗi mờ với 
khoảng cách thời gian rõ trong CSDL định lượng có yếu tố thời gian. Mẫu 
chuỗi này dạng “Một khách hàng mua mặt hàng a một lượng Ít hôm nay, 
khách hàng đó sẽ mua mặt hàng b một lượng Nhiều sau 2 ngày tiếp theo”. 
 76 
Thuật toán FSPFTI đã được đề xuất để phát hiện mẫu chuỗi trong [CT6]. 
Thuật toán FSPFTI sử dụng cửa sổ trượt thời gian (sliding windows) để 
chuyển CSDL chuỗi định lượng có yếu tố thời gian thành CSDL chuỗi định 
lượng không có yếu tố thời gian, mờ hóa các thuộc tính định lượng, dựa trên ý 
tưởng thuật toán CHARM [9] để phát hiện các mẫu chuỗi đề xuất. 
 Như vậy, nghiên cứu [CT1] và [CT6] chỉ phát hiện các mẫu chuỗi với 
khoảng cách thời gian rõ và trong nghiên cứu [CT6], các thuộc tính định 
lượng trong CSDL được mờ hóa. Mục đích của chương này đề xuất và phát 
hiện mẫu chuỗi dạng tổng quát đó là mẫu chuỗi mờ với khoảng thời gian mờ. 
Đây là vấn đề thứ 2 đặt ra của luận án. Các mẫu chuỗi này có dạng 
〈 〉, trong đó là các tập mờ gắn 
với các thuộc tính a, b, c và Short, Long là các tập mờ của khoảng cách thời 
gian. Từ các mẫu chuỗi này, ta có thể phát hiện các luật dạng “Nếu một khách 
hàng mua mặt hàng a với số lượng Ít và mặt hàng b với lượng Nhiều sau thời 
gian Short thì khách hàng đó sẽ mua mặt hàng c một lượng TB với thời gian 
Long”. Ý tưởng chính của thuật toán FSPFTIM được đề xuất trong chương 
này là sử dụng lý thuyết mờ để chuyển đổi các thuộc tính định lượng, khoảng 
cách thời gian thành các khái niệm mờ; tìm chuỗi có độ dài k bằng cách liên 
kết 2 chuỗi phổ biến có độ dài k-1 theo cách giống như thuật toán Apriori [2], 
[63] , từ đó tìm ra tất cả các mẫu chuỗi mờ với khoảng cách thời gian mờ. 
3.2. Một số khái niệm cơ bản 
Định nghĩa 3.1 Gọi I={ } là tập các thuộc tính, s = 
〈 〉 là một chuỗi định lượng có yếu tố 
thời gian, trong đó I là thuộc tính (1 k n), ( ≥0) là thời điểm tương 
ứng với xảy ra, với 2 k n và ( ) = , nhận giá trị số 
hoặc phân loại. Một CSDL chuỗi định lượng có yếu tố thời gian QSD là tập 
tất cả các chuỗi định lượng có yếu tố thời gian. 
 77 
 

File đính kèm:

  • pdfluan_an_phat_hien_luat_ket_hop_va_luat_chuoi_mo_trong_co_so.pdf
  • doc2.Mau3_DongGopMoi_TV.doc
  • docx3.Mau3_DongGopMoi_TiengAnh.docx
  • docx4.TrichYeuLuanAn.docx
  • pdfDMCongTrinh-NCS Truong Duc Phuong.pdf
  • pdfDMCongTrinh-NCS Truong Duc Phuong_1.pdf
  • pdfNhững đóng góp mới TA.TV. Trích yếu - Trương Đức Phương_0001.pdf
  • pdfTomTat - NCS Truong Duc Phuong_EN.pdf
  • pdfTomTat - NCS Truong Duc Phuong_VN.pdf