Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian
huật toán có thể phát hiện các luật 63 Nếu tập mờ khoảng cách thời gian được chọn là LT={lt} tức là chỉ có duy nhất một phân hoạch đối với khoảng cách thời gian và hàm thành viên nhận giá trị: { đồng thời, các tập mờ của các thuộc tính định lượng chỉ được phân hoạch thành 1 thuộc tính mờ và các hàm thành viên nhận giá trị: ( ) { Khi đó CSDL mờ được tạo sẽ có dạng CSDL nhị phân hay CSDL giao dịch, các giá trị của thuộc tính định lượng suy biến thành các giá trị nhị phân (1 hoặc 0). Như vậy thuật toán có thể phát hiện luật kết hợp dạng với a, b, c là các thuộc tính xảy ra cùng giao dịch. 2.4. Thử nghiệm thuật toán 2.4.1. Dữ liệu thử nghiệm Dữ liệu thử nghiệm có tên Istanbul Stock Exchange được thu thập từ CSDL UCI [113] bao gồm số liệu 7 chỉ số chứng khoán: SP, DAX, FTSE, NIKKEI, BOVESPA, MSCE_EU, MSCI_EM từ các ngày 05/06/2009 đến 22/02/2011 và CSDL chứng khoán Việt Nam (VNINDEX) được lấy tại [114] bao gồm giá đóng cửa của chỉ số VN30 và 10 mã chứng khoán thuộc rổ VN30 gồm: BVH, CII, FPT, GMD, HPG, KDC, SSI, VCB, VIC, VNM của 1161 phiên giao dịch từ ngày 02/01/2013 đến ngày 31/08/2017. Dữ liệu gồm các thông tin sau: Mã chứng khoán (hoặc chỉ số VN30) Phiên giao dịch Giá đóng cửa Thông tin về các tập dữ liệu được mô tả trong Bảng 2.3: Bảng 2.3. Dữ liệu thử nghiệm ISTANBUL STOCK EXCHANGE 64 CSDL Số thuộc tính Số giao dịch ISTANBUL STOCK EXCHANGE 8 537 VNINDEX 11 1161 Đối với tập dữ liệu VNINDEX, dữ liệu được chuyển đổi thành tập dữ liệu mới phù hợp với mô hình dự báo gồm các thông tin sau: Mã chứng khoán: Tên mã chứng khoán Thời điểm: Số nguyên dương biểu diễn thứ tự của phiên giao dịch so với thời điểm ban đầu, thời điểm ban đầu (nhận giá trị 1) là của phiên giao dịch đầu tiên trong tập dữ liệu (ngày 02/01/2013). Tỉ lệ thay đổi: Biểu diễn tỉ lệ thay đổi (Tăng/Giảm) được tính dựa theo phần trăm thay đổi của giá đóng cửa phiên giao dịch với giá đóng cửa phiên giao dịch liền trước. Thuật toán FTQ được viết trên ngôn ngữ lập trình C# và được thực hiện trên máy tính có chip Intel Core i5 2.5GHz processor, 4GB RAM, Windows7. Đối với tập dữ liệu ISTANBUL STOCK EXCHANGE: LT={Short, Medium, Long} là tập các tập mờ với khoảng cách thời gian và có các hàm thành viên như được mô tả trong Ví dụ 2.3. Mỗi thuộc tính định lượng được phân hoạch với số phân hoạch là 3 và có các hàm thành viên như công thức (2.1) Đối với tập dữ liệu VNINDEX Các tập mờ đối với thuộc tính định lượng Thuộc tính định lượng về Tỉ lệ thay đổi của các mã chứng khoán được phân hoạch thành các tập mờ là {RHigh, RNormal, RLow, ILow, INormal, IHigh} và các hàm thành viên biểu diễn tỉ lệ này được định nghĩa như Hình 2.1. 65 RHigh RNormal RLow 1 ILow INormal IHigh 0 -4% -2.5% -1% 1% 2.5% 4% Hình 2.1. Các hàm thành viên của các tập mờ ứng với tỉ lệ tăng/giảm của các mã chứng khoán Tỉ lệ thay đổi của chỉ số VN30 cũng được phân hoạch thành 3 tập mờ giống như các tập mờ của các mã chứng khoán {RHigh, RNormal, RLow, ILow, INormal, IHigh}. Các hàm thành viên tương ứng với các tập mở của tỉ lệ thay đổi chỉ số VN30 được định nghĩa như Hình 2.2 DHigh DNormal DLow 1 ILow INormal IHigh 0 -1.1% -0.8% -0.5% 0.5% 0.8% 1.1% Hình 2.2. Các hàm thành viên của các tập mờ của Tỉ lệ thay đổi chỉ số VN30 Các tập mờ đối với khoảng cách thời gian Khoảng cách thời gian giữa các giao dịch được phân hoạch thành 3 tập mờ {Short, Medium, Long} và các hàm thành viên tương ứng với các tập mờ về khoảng cách thời gian được định nghĩa như Hình 2.3. Short Medium Long 1 1 3 5 Hình 2.3. Các hàm thành viên của các tập mờ thời gian 66 2.4.2. Kết quả thử nghiệm a) Thử nghiệm với CSDL ISTANBUL STOCK EXCHANGE Hình 2.4 biểu diễn mối quan hệ giữa số lượng luật tìm được từ thuật toán FTQ và độ tin cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ trợ cực tiểu min_sup Hình 2.4. Mối quan hệ giữa số lượng luật tìm được từ thuật toán FTQ và độ tin cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ trợ cực tiểu min_sup Với các độ tin cậy cực tiểu min_conf khác nhau, số lượng luật thu được thay đổi ứng với min_sup được biểu diến trong Hình 2.5: 67 Hình 2.5. Mối quan hệ giữa số lượng luật tìm được và min_sup với min_conf khác nhau. Hình 2.6 biểu diễn chi phí thời gian thực hiện thuật toán ứng với các độ hỗ trợ cực tiểu min_sup trong trường hợp độ tin cậy cực tiểu min_conf=70% 160 140 120 100 80 60 Thời (giây) gian Thời 40 20 0 0.15 0.18 0.21 0.24 0.27 0.3 0.33 min_sup Hình 2.6. Chi phí thời gian thực hiện khi min_conf=70% Hình 2.7 và Hình 2.8 biểu diễn kết quả so sánh số luật và thời gian thực hiện của phương pháp mờ hóa khoảng cách thời gian (A) với phương pháp chia khoảng khoảng cách thời gian (B). Khoảng thời gian trong phương pháp chia khoảng (B) được chia đều thành 3 khoảng, các giá trị của khoảng cách thời gian nhận giá trị 1 nếu thuộc khoảng, ngược lại nhận giá trị 0. 68 Hình 2.7. So sánh số luật của phương pháp mờ hóa (A) và phương pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán FTQ Hình 2.8. So sánh thời gian chạy của phương pháp mờ hóa (A) và phương pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán FTQ Kết quả thử nghiệm ở trên cho thấy số lượng luật thu được từ thuật toán FTQ cũng như chi phí thời gian của thuật toán tăng nhanh khi giảm độ hỗ trợ cực tiểu min_sup. Điều này là hợp lý vì khi độ hỗ trợ cực tiểu giảm thì số 69 lượng chuỗi mờ với khoảng cách thời gian mờ tăng dẫn đến số lượng các ứng cử viên tăng lên đòi hỏi thuật toán phải thực hiện tính toán nhiều hơn. Số luật tìm được cũng như thời gian thực hiện trong trường hợp mờ hóa khoảng cách thời gian là nhiều hơn so với số luật tìm được đối với trường hợp chia khoảng khoảng cách thời gian tương ứng. Tuy nhiên, xu hướng tăng giảm của số luật cũng như thời gian thực hiện của cả (A) và (B) thay đổi theo độ hỗ trợ cực tiểu là giống nhau. b) Thử nghiệm với CSDL VNINDEX Với độ hỗ trợ cực tiểu min_sup là 7%, độ tin cậy cực tiểu min_conf là 70% và chỉ lựa chọn về phải của luật là chỉ số VN30, kết quả thử nghiệm thu được các luật như trong Bảng 2.4: Bảng 2.4. Kết quả thử nghiệm thuật toán FTQ với min_sup=7% và min_con=70% TT Luật Độ hỗ trợ Độ tin cậy 1. VNM_ILow,Short,VICILow,Short,FPTILow,Short,BV 7.4% 75.2% HILow → VN30RHigh 2. VNMILow,Short,VICILow,Short,FPTILow,Short,HPGI 7.1% 72.4% Low → VN30RHigh 3. VNMILow,Short,BVHILow,Short,BVHILow 7.9% 72.3% → VN30RHigh 4. BVHILow,Short,VNMILow,Short,BVHILow 7.4% 71.1% → VN30RHigh 5. VNMILow,Short,VICILow,Short,FPTILow,Short,SSIIL 7.3% 71.1% ow → VN30RHigh 6. VNMILow,Short,BVHILow,Short,VICILow,Short,VN 7.6% 70.9% MILow → VN30RHigh 9.4% 70.9% 7. BVHILow,Short,BVHILow → VN30RHigh 8. VNMILow,Short,VICILow,Short,BVHILow,Short,VN 7.4% 70.7% MILow → VN30RHigh 9. VNMILow,Short,VICILow,Short,KDCILow,Short,VN 8.0% 70.5% MILow → VN30RHigh 70 10. VICILow,Short,GMDILow,Short,BVHILow 7.3% 70.5% → VN30RHigh 11. VNMILow,Short,VICILow,Short,KDCILow,Short,VIC 7.0% 70.0% ILow → VN30RHigh 12. BVHILow,Short,VICILow,Short,GMDILow 7.1% 70.0% → VN30RHigh 13. VNMILow,Short,VNMILow,Short,VICILow,Short,FP 7.1% 70.0% TILow,Short,VNMILow → VN30RHigh 14. VICILow,Short,GMDRLow,Short,VNMILow 7.5% 70.0% → VN30RHigh 15. VICILow,Short,KDCILow,Short,BVHILow 7.5% 70.0% → VN30RHigh Ý nghĩa các luật trong Bảng 2.4 được diễn giải trong Bảng 2.5 Bảng 2.5. Ý nghĩa các luật thu được đối với CSDL VNINDEX TT Luật Ý nghĩa VNMILow,Short,VICILow,Short,FPT Nếu mã chứng khoán VNM tăng ILow, sau đó thời gian Short VIC tăng ILow, ILow,Short,BVHILow → VN30RHigh sau đó thời gian Short FPT tăng ILow, 1. sau đó thời gian Short BVH tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 75.2% VNMILow,Short,VICILow,Short,FPT Nếu mã chứng khoán VNM tăng ILow, sau đó thời gian Short VIC tăng ILow, ILow,Short,HPGILow → VN30RHigh sau đó thời gian Short FPT tăng ILow, 2. sau đó thời gian Short HPG tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 72.4% VNMILow,Short,BVHILow, Nếu mã chứng khoán VNM tăng ILow, sau đó thời gian Short BVH tăng ILow, Short,BVHILow → VN30RHigh 3. sau đó thời gian Short BVH lại tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 72.3% BVHILow,Short,VNMILow, Nếu mã chứng khoán BVH tăng ILow, sau đó thời gian Short VNM tăng ILow, Short,BVHILow → VN30RHigh 4. sau đó thời gian Short BVH tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời 71 điểm Long tiếp theo với độ tin cậy 71.1% VNMILow,Short,VICILow,Short,FPT Nếu mã chứng khoán VNM tăng ILow, sau đó thời gian Short VIC tăng ILow, ILow,Short,SSIILow → VN30RHigh sau đó thời gian Short FPT tăng ILow, 5. sau đó thời gian Short SSI tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 71.1% VNMILow,Short,BVHILow,Short,VI Nếu mã chứng khoán VNM tăng ILow, CILow,Short,VNMILow sau đó thời gian Short BVH tăng ILow, sau đó thời gian Short VIC tăng ILow, → VN30RHigh 6. sau đó thời gian Short VNM tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 70.9% BVHILow,Short,BVHILow Nếu mã chứng khoán BVH tăng ILow, sau đó thời gian Short BVH lại tăng ILow → VN30RHigh 7. thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 70.9% VNMILow,Short,VICILow,Short,BV Nếu mã chứng khoán VNM tăng ILow, HILow,Short,VNMILow sau đó thời gian Short VIC tăng ILow, sau đó thời gian Short BVH tăng ILow, → VN30RHigh 8. sau đó thời gian Short VNM tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 70.7% VNMILow,Short,VICILow,Short,KD Nếu mã chứng khoán VNM tăng ILow, CILow,Short,VNMILow sau đó thời gian Short VIC tăng ILow, sau đó thời gian Short KDC tăng ILow, → VN30RHigh 9. sau đó thời gian Short VNM tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 70.5% VICILow,Short,GMDILow,Short,BV Nếu mã chứng khoán VIC tăng ILow, sau đó thời gian Short GMD tăng ILow, sau HILow → VN30RHigh 10. đó thời gian Short BVH tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 70.5% Nếu mã chứng khoán VNM tăng ILow, sau đó thời gian Short VIC tăng ILow, VNMILow,Short,VICILow,Short,KD sau đó thời gian Short KDC tăng ILow, 11. CILow,Short,VICILow → VN30RHigh sau đó thời gian Short VIC tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 70% 72 Nếu mã chứng khoán BVH tăng ILow, sau đó thời gian Short VIC tăng ILow, BVHILow,Short,VICILow,Short,GM 12. sau đó thời gian Short GMD tăng ILow DILow → VN30RHigh thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 70% Nếu mã chứng khoán VNM tăng ILow, sau đó thời gian Short VNM tăng tiếp ILow, sau đó thời gian Short VIC tăng VNMILow,Short,VNMILow,Short,VI C ,Short,FPT ,Short,VNM ILow, sau đó thời gian Short FPT tăng 13. ILow ILow ILo Ilow, sau đó thời gian Short VNM tăng w → VN30RHigh Ilow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 70% VICILow,Short,GMDRLow,Short,VN Nếu mã chứng khoán VIC tăng ILow, sau đó thời gian Short GMD giảm RLow, sau MILow → VN30RHigh 14. đó thời gian Short VNM tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 70% VICILow,Short,KDCILow,Short,BV Nếu mã chứng khoán VIC tăng ILow, sau đó thời gian Short KDC giảm RLow, sau HILow → VN30RHigh 15. đó thời gian Short BVH tăng ILow thì chỉ số VN30 sẽ giảm RHigh tại thời điểm Long tiếp theo với độ tin cậy 70% Từ Bảng 2.5, mối quan hệ giữa thay đổi chỉ số VN30 và các mã chứng khoán liên quan được thể hiện qua các luật thu được có thể góp phần vào quá trình dự báo biến động chỉ số VN30, kết quả này rất hữu ích cho các nhà đầu tư chứng khoán phái sinh [CT7]. Kết luận Chƣơng 2 Trong chương này luận án đã trình bày giải pháp phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian bằng cách đề xuất thuật toán phát hiện luật kết hợp mờ với khoảng cách thời gian mờ trong các CSDL như vậy. Thuật toán đó được gọi là FTQ. Theo thuật toán này, các thuộc tính định lượng và khoảng cách thời gian xảy ra giữa các giao dịch đều được mờ hóa . Thuật toán FTQ được phát triển từ ý tưởng thuật toán Apriori [2], một chuỗi 73 phổ biến độ dài k nhận được bằng cách liên kết hai chuỗi phổ biến độ dài k-1. Chương này cũng trình bày kết quả thử nghiệm thuật toán FTQ trên các CSDL thực, so sánh với phương pháp chia khoảng tương ứng và phân tích ý nghĩa của luật thu được. Với việc lựa chọn các hàm thành viên một cách thích hợp, thuật toán FTQ trở thành thuật toán phát hiện luật kết hợp hoặc luật kết hợp mờ với khoảng cách thời gian là những số chính xác tương ứng trong các CSDL giao dịch hoặc CSDL định lượng cùng có yếu tố thời gian. Hơn nữa khi CSDL định lượng có yếu tố thời gian suy biến thành CSDL giao dịch có yếu tố thời gian, khi đó mỗi thuộc tính được mờ hóa thành 1 tập mờ tương ứng và các hàm thành viên chỉ nhận các giá trị là 1 hoặc 0, thuật toán này trở thành thuật toán phát hiện luật kết hợp với khoảng cách thời gian mờ. Có thể thấy rằng thuật toán FTQ chỉ áp dụng được đối với các CSDL định lượng có yếu tố thời gian, không áp dụng được đối với các CSDL chuỗi định lượng có yếu tố thời gian. Chương 3 tiếp theo, luận án trình bày giải pháp để phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian. 74 CHƯƠNG 3. PHÁT HIỆN MẪU CHUỖI CÓ TÍNH ĐẾN KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƢỢNG CÓ YẾU TỐ THỜI GIAN Trong chương 1, luận án đã xác định vấn đề cần được nghiên cứu về phát hiện mẫu chuỗi cố điển trong các CSDL chuỗi định lượng có yếu tố thời gian. Ở chương này, luận án sẽ trình bày giải pháp giải quyết vấn đề cần nghiên cứu đó. Cụ thể trong chương này, luận án sẽ trình bày thuật toán phát hiện mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian. Các mẫu chuỗi tìm được khi đó được gọi là mẫu chuỗi mờ với khoảng cách thời gian mờ. Vấn đề phát hiện mẫu chuỗi có tính đến khoảng cách thời gian xảy ra của các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian đã được giải quyết theo cách tiếp cận từ đơn giản đến phức tạp. Cách tiếp cận bắt đầu bằng việc nghiên cứu giải quyết bài toán phát hiện mẫu chuỗi với khoảng cách thời gian xác định [CT1] trong các CSDL giao dịch có yếu tố thời gian, tiếp theo là giải quyết bài toán phát hiện mẫu chuỗi mờ với khoảng cách thời gian xác định [CT6] trong các CSDL chuỗi định lượng có yếu tố thời gian và cuối cùng là phát hiện mẫu chuỗi cổ điền mờ với khoảng cách thời gian mờ trong các CSDL như vậy và kết quả nghiên cứu giải quyết bài toán này đã được đăng trên tạp chí Cybernetics and Information Technologies [CT5]. Chương này tập trung trình bày kết quả nghiên cứu của bài báo [CT5]. 3.1. Giới thiệu Phát hiện mẫu chuỗi là hướng nghiên cứu và ứng dụng quan trọng trong lĩnh vực khai phá dữ liệu. Phát hiện mẫu chuỗi từ CSDL chuỗi giao dịch được giới thiệu lần đầu vào năm 1995 [39]. Các luật chuỗi được sinh từ các mẫu chuỗi cho biết mối quan hệ giữa các sự kiện (hay mục dữ liệu) theo trình tự thời gian theo từng đối tượng và có dạng “Nếu khách hàng mua mặt hàng a thì khách hàng đó sẽ quay lại mua mặt hàng b“ [39]–[42], [49]. Vấn đề phát hiện mẫu chuỗi được mở rộng đối với các CSDL chuỗi định lượng, ở đó các 75 thuộc tính nhận giá trị số hoặc phân loại cũng được nhiều nghiên cứu đề cập đến [53]–[57]. Trong các nghiên cứu này, các giá trị của các thuộc tính được chuyển đổi thành các tập mờ và các mẫu chuỗi khi đó được gọi là mẫu chuỗi mờ. Vấn đề phát hiện các mẫu chuỗi với khoảng cách thời gian xảy ra giữa các mục của cùng một đối tượng trong các CSDL chuỗi giao dịch đã được nghiên cứu trong [60], [61]. Trong [61], các mẫu chuỗi có dạng 〈 〉, trong đó a, b, c là mục, là các phạm vi thời gian của khoảng cách thời gian giữa các giao dịch trong chuỗi và được gọi là mẫu chuỗi với khoảng cách thời gian. Nhằm khắc phục hiện tượng “sắc nét” của việc chia khoảng thời gian (time range) tại các điểm gần ranh giới các khoảng chia như trong [61], nghiên cứu [63] đã đề xuất và giải quyết vấn đề phát hiện các mẫu chuỗi với khoảng cách thời gian mờ từ các CSDL chuỗi giao dịch dựa trên việc chuyển khoảng cách thời gian thành các tập mờ. Các mẫu chuỗi trong nghiên cứu [63] đã biểu diễn mối quan hệ giữa các sự kiện dạng 〈 〉, trong đó a, b, c là các mục còn Short, Long là các tập mờ gắn với khoảng cách thời gian giữa các giao dịch trong chuỗi. Nghiên cứu [CT1] đã đề xuất và giải quyết vấn đề phát mẫu chuỗi với khoảng cách thời gian rõ trong CSDL giao dịch có yếu tố thời gian. Mẫu chuỗi này dạng “Một khách hàng mua mặt hàng a hôm nay, khách hàng đó sẽ mua mặt hàng b sau 2 ngày tiếp theo”. Thuật toán SITARM đã được đề xuất để phát hiện mẫu chuỗi trong [CT1]. Thuật toán SITARM sử dụng cửa sổ trượt thời gian (sliding windows) để chuyển CSDL chuỗi có yếu tố thời gian thành CSDL chuỗi không có yếu tố thời gian, dựa trên ý tưởng thuật toán CHARM [9] để phát hiện các mẫu chuỗi đề xuất. Nghiên cứu [CT6] đã đề xuất và giải quyết vấn đề phát mẫu chuỗi mờ với khoảng cách thời gian rõ trong CSDL định lượng có yếu tố thời gian. Mẫu chuỗi này dạng “Một khách hàng mua mặt hàng a một lượng Ít hôm nay, khách hàng đó sẽ mua mặt hàng b một lượng Nhiều sau 2 ngày tiếp theo”. 76 Thuật toán FSPFTI đã được đề xuất để phát hiện mẫu chuỗi trong [CT6]. Thuật toán FSPFTI sử dụng cửa sổ trượt thời gian (sliding windows) để chuyển CSDL chuỗi định lượng có yếu tố thời gian thành CSDL chuỗi định lượng không có yếu tố thời gian, mờ hóa các thuộc tính định lượng, dựa trên ý tưởng thuật toán CHARM [9] để phát hiện các mẫu chuỗi đề xuất. Như vậy, nghiên cứu [CT1] và [CT6] chỉ phát hiện các mẫu chuỗi với khoảng cách thời gian rõ và trong nghiên cứu [CT6], các thuộc tính định lượng trong CSDL được mờ hóa. Mục đích của chương này đề xuất và phát hiện mẫu chuỗi dạng tổng quát đó là mẫu chuỗi mờ với khoảng thời gian mờ. Đây là vấn đề thứ 2 đặt ra của luận án. Các mẫu chuỗi này có dạng 〈 〉, trong đó là các tập mờ gắn với các thuộc tính a, b, c và Short, Long là các tập mờ của khoảng cách thời gian. Từ các mẫu chuỗi này, ta có thể phát hiện các luật dạng “Nếu một khách hàng mua mặt hàng a với số lượng Ít và mặt hàng b với lượng Nhiều sau thời gian Short thì khách hàng đó sẽ mua mặt hàng c một lượng TB với thời gian Long”. Ý tưởng chính của thuật toán FSPFTIM được đề xuất trong chương này là sử dụng lý thuyết mờ để chuyển đổi các thuộc tính định lượng, khoảng cách thời gian thành các khái niệm mờ; tìm chuỗi có độ dài k bằng cách liên kết 2 chuỗi phổ biến có độ dài k-1 theo cách giống như thuật toán Apriori [2], [63] , từ đó tìm ra tất cả các mẫu chuỗi mờ với khoảng cách thời gian mờ. 3.2. Một số khái niệm cơ bản Định nghĩa 3.1 Gọi I={ } là tập các thuộc tính, s = 〈 〉 là một chuỗi định lượng có yếu tố thời gian, trong đó I là thuộc tính (1 k n), ( ≥0) là thời điểm tương ứng với xảy ra, với 2 k n và ( ) = , nhận giá trị số hoặc phân loại. Một CSDL chuỗi định lượng có yếu tố thời gian QSD là tập tất cả các chuỗi định lượng có yếu tố thời gian. 77
File đính kèm:
- luan_an_phat_hien_luat_ket_hop_va_luat_chuoi_mo_trong_co_so.pdf
- 2.Mau3_DongGopMoi_TV.doc
- 3.Mau3_DongGopMoi_TiengAnh.docx
- 4.TrichYeuLuanAn.docx
- DMCongTrinh-NCS Truong Duc Phuong.pdf
- DMCongTrinh-NCS Truong Duc Phuong_1.pdf
- Những đóng góp mới TA.TV. Trích yếu - Trương Đức Phương_0001.pdf
- TomTat - NCS Truong Duc Phuong_EN.pdf
- TomTat - NCS Truong Duc Phuong_VN.pdf