Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt trang 1

Trang 1

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt trang 2

Trang 2

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt trang 3

Trang 3

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt trang 4

Trang 4

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt trang 5

Trang 5

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt trang 6

Trang 6

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt trang 7

Trang 7

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt trang 8

Trang 8

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt trang 9

Trang 9

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 142 trang nguyenduy 26/04/2024 1010
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt

Luận án Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt
 và giải thuật phân lớp. 
 - Ứng dụng mô hình đồ thị Dendrogram để giảm số chiều của véc tơ. 
 Bên cạnh đó, tôi đề xuất mô hình cải tiến dựa trên học máy bán giám sát và mô 
hình không gian véc tơ như sau: 
 Hình 1.8 Mô hình đề xuất phân lớp văn bản sử dụng Self-training 
 Những giải pháp này sẽ được tôi trình bày chi tiết trong các chương tiếp theo. 
 1.6. Tiểu kết chương 
 Trong chương này, tôi đã trình bày các kết quả nghiên cứu tổng quan về học 
máy, các ứng dụng, các dạng dữ liệu, các phương pháp học máy, nghiên cứu tổng 
 51 
quan về học bán giám sát, tìm hiểu một số phương pháp, thuật toán học bán giám 
sát, thuật toán máy véc tơ hỗ trợ SVM áp dụng vào phân loại văn bản tiếng Việt, 
cách biểu diễn văn bản bằng véc tơ nhằm đưa ra mô hình tổng quát hệ thống phân 
loại văn bản và đề xuất giải pháp nhằm nâng cao chất lượng phân loại bằng mô hình 
phân loại văn bản, góp phần giải quyết các vấn đề nêu trên triển khai 3 nội dung: 
 - Xây dựng kho dữ liệu phục vụ phân loại văn bản tiếng Việt. 
 - Trình bày giải pháp sử dụng mô hình cự ly trắc địa trong phân loại văn bản. 
 - Đề xuất giải pháp gom cụm, rút gọn số chiều véc tơ phục vụ phân loại văn bản 
 dựa trên đồ thị Dendrogram. 
 Từ mô hình trên đề xuất mô hình cải tiến dựa trên học bán giám sát và mô hình 
không gian véc tơ. Nội dung của chương là cơ sở quan trọng để triển khai các nội 
dung nghiên cứu đề xuất sẽ trình bày trong các chương sau. 
 52 
 Chương 2. XÂY DỰNG KHO DỮ LIỆU 
 Chương này, trình bày các vấn đề cơ bản về kho dữ liệu như mục đích, yêu 
cầu, xây dựng kiến trúc kho dữ liệu phục vụ cho phân loại văn bản tiếng Việt, phân 
tích, đặc tả dữ liệu, thiết kế kho dữ liệu, đưa ra giải pháp xây dựng kho dữ liệu, 
đồng thời đây chính là cơ sở dữ liệu cho kho để áp dụng vào thực nghiệm phân loại 
văn bản tiếng Việt ở các chương sau. 
 2.1. Giới thiệu kho dữ liệu phân loại văn bản tiếng Việt 
 a. Giới thiệu 
 Ứng dụng kỹ thuật học bán giám sát vào phân loại văn bản tiếng Việt là lĩnh vực 
đang được các nhà nghiên cứu trong và ngoài nước quan tâm, để phục vụ phân loại 
văn bản tốt, trước hết chúng ta phải có kho dữ liệu tốt, cho đến nay vẫn chưa có kho 
dữ liệu văn bản tiếng Việt chuẩn để phục vụ cho phân loại văn bản tiếng Việt [84]. 
Các văn bản tiếng Việt được sử dụng trong những nghiên cứu trước đây của các nhà 
nghiên cứu Việt Nam đều được tạo bởi chính họ và chưa được kiểm chứng, do đó 
kết quả nghiên cứu mang tính chủ quan. Trong khi đó thế giới đã có nhiều kho dữ 
liệu được sử dụng rộng rãi với nhiều ngôn ngữ khác nhau, đặc biệt tiếng Anh như 
Reuters-21578, the RCV1 và 20 News Group [16][17]. Việc xây dựng một kho dữ 
liệu lớn đây là một công việc mất rất nhiều thời gian, công sức. Các kho dữ liệu trên 
thế giới ra đời, đều trải qua một quá trình để từng bước hoàn thiện và tạo ra một kho 
dữ liệu đầy đủ. Chính vì lý do này việc xây dựng kho dữ liệu chuẩn là cần thiết. 
 Tuy nhiên, số lượng dữ liệu lớn không nói lên được nhiều điều, vì vấn đề quan 
trọng hơn đó chính là chất lượng của kho dữ liệu. Chất lượng của kho dữ liệu chính 
là độ phù hợp khi gán một văn bản mẫu vào một chủ đề. Đối với một văn bản mẫu 
có nội dung không rõ ràng thuộc chủ đề nào thì nó sẽ khó được sắp xếp ở vị trí nào 
trong các chủ đề liên quan, trong nghiên cứu này tôi sẽ sử dụng thuật toán Naĩve 
Bayes để phân loại văn bản thông qua đó kiểm thử độ xác thực việc gán chủ đề lên 
văn bản mẫu [33][49]. 
 53 
 b. Mục đích của kho dữ liệu phục vụ phân loại văn bản tiếng Việt 
 Kho dữ liệu nhằm hỗ trợ để tổ chức thực hiện tốt, hiệu quả công việc phục vụ 
phân loại văn bản tiếng Việt, như có những quyết định hợp lý, nhanh một cách hiệu 
quả và chính xác. Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau. 
Dữ liệu trong kho phải được xử lý để giảm thời gian và độ phức tạp khi phân loại 
văn bản. Xác định và làm sạch những dữ liệu thừa, không quan trọng của tài liệu 
giúp cho hệ thống phân loại văn bản tiếng Việt xác định độ tương tự giữa tài liệu 
cần phân loại và tập mẫu được hiệu quả hơn. 
 2.2. Tổng quan về kho dữ liệu 
 2.2.1. Khái niệm kho dữ liệu 
 Kho dữ liệu là tập hợp dữ liệu tương đối ổn định (ít hay thay đổi), được cập nhật 
theo thời gian và được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết 
định về mặt quản lý trong huấn luyện và kiểm thử cụ thể: 
 - Chứa số lượng lớn dữ liệu có liên quan trong quá khứ, thông tin luôn được cập 
nhật, truy xuất nhanh, không giới hạn kích thước. 
 - Được tối ưu hóa cho các thao tác đọc trong các yêu cầu truy vấn dữ liệu. Điều 
này đối lập với các cơ sở dữ liệu trong các hệ thống xử lý tác vụ được thiết kế để hỗ 
trợ cho tất cả các thao tác cập nhật, thay đổi, chỉnh sửa dữ liệu. 
 - Tải lên các dữ liệu mới hoặc dữ liệu được cập nhật định kỳ, rõ ràng và đồng 
nhất, dữ liệu được chuẩn hóa theo một chuẩn chung. 
 Kho dữ liệu gồm những đặc tính sau: 
 - Hướng chủ đề: nghĩa là dữ liệu sẽ cung cấp thông tin về một chủ đề cụ thể 
hơn. Kho dữ liệu theo hướng chủ đề nên nó sẽ cho phép phân tích thông tin được 
kết nối với một chủ đề cụ thể nào đó, để hỗ trợ trong việc phân tích dữ liệu. 
 - Tích hợp: là dữ liệu được thu thập trong kho dữ liệu có thể đến từ nhiều 
nguồn khác nhau, nhưng được kết hợp với nhau thành một thể thống nhất. 
 - Tính ổn định: có nghĩa là sẽ không có việc cập nhật dữ liệu được lưu trữ 
trong kho dữ liệu mà thay vào đó là các thông tin được tổ chức để hiển thị các thay 
đổi của dữ liệu đó. Dữ liệu trong kho được sử dụng cho việc phân tích nên các thao 
 54 
tác cập nhật hay xóa có thể làm ảnh hưởng tới việc phân tích này. Vì vậy, dữ liệu 
trong kho không bao giờ được cập nhật và xóa bỏ. Khi nào một thuộc tính cụ thể 
hoặc mục dữ liệu được cập nhật tại nguồn thì phiên bản mới của nó được lưu trữ 
trong kho dữ liệu để vô hiệu hóa phiên bản dữ liệu cũ. 
 - Có tính lịch sử: các thông tin trong kho dữ liệu được cập nhật tập trung theo 
thời gian và lưu trữ lâu dài, toàn bộ lịch sử dữ liệu được lưu vết. 
 - Gắn thời gian: kho dữ liệu lưu trữ dữ liệu từ quá khứ cũng như hiện tại, mỗi 
tập tin chứa một yếu tố thời gian như một phần của khóa chính để bảo đảm tính duy 
nhất của mỗi tập tin và cung cấp một đặc trưng về thời gian cho dữ liệu. Toàn bộ dữ 
liệu trong kho được tạo ra và gắn với một giá trị thời gian nhất định. 
 Kho dữ liệu phục vụ phân loại văn bản là một tập hợp các văn bản được tạo ra, 
gồm tập dữ liệu huấn luyện (training) và tập dữ liệu kiểm thử (testing). 
 - Tập dữ liệu huấn luyện: chứa các văn bản đã được gán vào các chủ đề cho 
trước, dùng để huấn luyện cho giải thuật “máy học” cách nhận biết chủ đề của các 
văn bản, máy học bằng cách tập hợp các từ trong tập văn bản này vào cơ sở tri thức. 
Do đó tập dữ liệu cho giai đoạn này cực kỳ quan trọng trong việc phân loại văn bản 
với cơ sở tri thức đó. 
 - Tập dữ liệu kiểm thử: dùng để đánh giá tính khả thi và độ chính xác của giải 
thuật phân loại sau khi xây dựng thành công chương trình. 
 2.2.2. Đặc điểm của kho dữ liệu 
 Trước tiên kho dữ liệu là cơ sở dữ liệu lớn, kho dữ liệu thường chỉ đọc, kho dữ 
liệu hướng về tính ổn định, thông tin có thể lấy từ nhiều nguồn khác nhau, thông tin 
đưa vào sẽ được làm sạch và đưa vào cấu trúc của dữ liệu đó chính là cơ sở dữ liệu 
rất lớn. Kho dữ liệu rất lớn có thể khai thác thông tin dễ dàng thì bản thân kho dữ 
liệu phải được chuyển hóa, phân ra thành những chủ đề do đó những chủ đề chuyên 
môn hóa đó tạo thành một cơ sở dữ liệu chuyên biệt đó là dữ liệu chủ đề. Mọi quản 
trị cơ sở dữ liệu hỗ trợ cho việc truy vấn thông tin trong dữ liệu chủ đề rồi đưa ra 
quyết định, nhận định những thông tin trong dữ liệu chủ đề đó là OLAP (On line 
 55 
Analytical Processing) là bộ phân tích trực tuyến. Để đảm bảo độ chính xác cao 
trong kết quả phân loại cuối cùng thì không chỉ cần một thuật toán tốt, đáng tin cậy 
mà cần phải có một kho dữ liệu tốt. Điều kiện đủ của một kho dữ liệu tốt là: nguồn 
gốc, tính đầy đủ, tính hiệu quả. 
 a. Nguồn gốc: Một vấn đề luôn luôn được đặt ra khi xây dựng một kho dữ liệu, 
đó là dữ liệu sẽ được lấy ở đâu? Nguồn gốc của một kho dữ liệu chính là nơi mà 
người xây dựng kho lấy về, từ đó các dữ liệu thô được tinh chỉnh thành các dữ liệu 
dùng trong kho. Do đó, nếu nguồn gốc của dữ liệu đáng tin cậy, cơ sở dữ liệu lớn 
thì kho dữ liệu có các văn bản đầy đủ và khá chính xác. 
 b. Tính đầy đủ: Một kho dữ liệu tốt nếu như nó cung cấp đủ các thành phần mà 
người dùng cần. Tức là kho dữ liệu phải có văn bản học thì đúng là văn bản học, 
văn bản để kiểm thử thì đúng là văn bản kiểm thử. Các dữ liệu trong kho phải có 
nhiệm vụ và vị trí rõ ràng, không có sự mập mờ cũng như dư thừa hay thiếu sót. 
 c. Tính hiệu quả: được đánh giá trên hai mặt: tốc độ và sự chính xác. Với hai kho 
dữ liệu như nhau, nếu ta cùng kiểm nghiệm một thuật toán thì việc sử dụng kho dữ 
liệu với thời gian nhanh hơn sẽ giúp ta tiết kiệm thời gian. Nhưng nếu chỉ nhanh thì 
không đủ, điều ta cần là phải chính xác. 
 Tính hiệu quả của một kho dữ liệu sẽ được tăng lên qua một thời gian dài sử 
dụng và liên tục chỉnh sửa, cập nhật. Để thu được một kho dữ liệu hoàn chỉnh và có 
hiệu quả cao cần có một thời gian dài, xây dựng và phát triển. Và chính các kết quả 
thực nghiệm kho dữ liệu sẽ khẳng định nó có hiệu quả hay không, cụ thể hơn là có 
dùng được hay không. 
 2.2.3. Mục đích của kho dữ liệu 
 Đáp ứng mọi yêu cầu thông tin cho người sử dụng. Thông tin phải trực quan và 
dễ hiểu với người dùng. Hỗ trợ đưa ra những quyết định nhanh và hợp lý. 
 - Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau. 
 - Thông tin trong kho dữ liệu phải đảm bảo tính nhất quán. 
 - Thích nghi với sự thay đổi và có tính bảo mật cao. 
 56 
 Để đạt được những mục tiêu trên cần thực hiện các công việc sau: 
 - Truy cập dễ dàng: thông tin lưu trữ trong kho dữ liệu phải trực quan và dễ hiểu 
với người dùng, dữ liệu được trình bày thông qua các tên gọi quen thuộc và gần gữi 
với nhiệm vụ người dùng. Nâng cao chất lượng dữ liệu bằng phương pháp làm sạch, 
dữ liệu được truy xuất dễ dàng, hệ thống dữ liệu một cách nhất quán, thích nghi và 
thay đổi linh hoạt. Tốc độ truy cập nhanh, do phải xử lý số lượng tập tin lớn cùng 
một lúc nên đây là một trong những yêu cầu phải có của một kho dữ liệu. 
 - Tính nhất quán: Dữ liệu trong kho thường đến từ nhiều nguồn khác nhau. Do 
vậy trước khi được đưa vào kho cần phải đảm bảo về chất lượng giúp cho việc đồng 
nhất dữ liệu trở nên dễ dàng. Tổng hợp và kết nối nguồn dữ liệu đồng thời đồng bộ 
hóa các nguồn dữ liệu với kho dữ liệu. Quản lý các siêu dữ liệu, đồng nhất các hệ 
cơ sở dữ liệu, dữ liệu phải kiểm soát việc truy cập một cách hiệu quả. Một nguyên 
tắc được đặt ra cho quá trình này là. Nếu dữ liệu có cùng tên thì bắt buộc phải chỉ 
đến cùng một địa chỉ, nếu dữ liệu chỉ đến các thực thể khác nhau thì phải được đặt 
tên khác nhau. 
 - Thích nghi với sự thay đổi: Dữ liệu cần phải được thiết kế để xử lý những thay 
đổi có thể xẩy ra. Vì thay đổi là điều không thể tránh khỏi cho bất cứ ứng dụng nào, 
nói vậy có nhiều khi có thay đổi mới dữ liệu cũ vẫn phải đảm bảo tính đúng đắn. 
Tích hợp, tóm tắt và tổ chức dữ liệu theo từng chủ đề. 
 - Kho dữ liệu phải chính xác để hỗ trợ quá trình ra quyết định. Đây là mục tiêu 
quan trọng của yêu cầu xây dựng kho dữ liệu, những giá trị muốn đưa vào thông tin 
để từ đó đưa ra những chiến lược góp phần đem lại kết quả xử lý tốt nhất. 
 - Tính bảo mật: Dữ liệu trong kho đến từ nhiều nguồn khác nhau. Vì vậy việc bảo 
mật thông tin là một điều vô cùng quan trọng. 
 2.2.4. Kiến trúc kho dữ liệu 
 a. Kiến trúc DWH cơ bản: đây là kiến trúc đơn giản cho kho dữ liệu (Data 
warehouse (DWH)) 
 57 
 Hình 2.1 Kiến trúc DWH cơ bản 
 b. Kiến trúc DWH với khu vực xử lý (Staging Area): thêm thành phần làm sạch 
và xử lý dữ liệu trước khi đưa vào kho. 
 Hình 2.2 Kiến trúc DWH với khu vực xử lý 
 c. Kiến trúc DWH với khu vực xử lý và dữ liệu chủ đề: ngoài khu vự xử lý 
(Staging Area) như kiến trúc trên thì có thêm kho dữ liệu chủ đề (Data Mart). Dữ 
liệu được chuyển đổi và biểu diễn theo yêu cầu của một nhóm người dùng. 
 58 
 Hình 2.3 Kiến trúc DWH với khu vự xử lý và kho dữ liệu chủ đề 
 Các thành phần của kho dữ liệu: 
 Nguồn dữ liệu (Data Sources): rất nhiều nguồn khác nhau và có cấu trúc dữ liệu 
khác nhau. 
 - Nguồn dữ liệu bên trong: là nguồn dữ liệu chính để xây dựng kho dữ liệu, 
chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp. 
 - Dữ liệu từ hệ thống phân tích: là dữ liệu được tổng hợp từ dữ liệu nguồn đã cũ 
và tổ chức lại theo nhiều phương pháp khác nhau. 
 - Dữ liệu từ bên ngoài: là các dữ liệu từ các nguồn ngoài hệ thống tác nghiệp 
như từ Internet. Có thể do các tổ chức khác thu thập và tạo ra, nó được sử dụng cho 
các yêu cầu phân tích dữ liệu. 
 - Dữ liệu từ các hệ thống nguồn thường hỗn tạp và chứa nhiều cấu trúc khác 
nhau ví dụ: các cơ sở dữ liệu, từ các tập tin Excel, các tập tin thô, hay dạng XML, ... 
Vì thế trước khi đưa vào kho dữ liệu cần phải chuyển đổi và tích hợp dữ liệu. 
 Khu vực xử lý (Staging Area): Ở khu vực này dữ liệu được sử dụng các kỹ 
thuật làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trước khi đưa vào 
kho dữ liệu đích. 
 - Tiền xử lý: định dạng tài liệu và chuyển đổi tài liệu sang định dạng có thể chấp 
nhận được trong kho dữ liệu. Chứng thực và chuẩn hóa ngôn ngữ. 
 - Xử lý chính: dữ liệu đưa về hình thức chuẩn phù hợp cho việc tìm kiếm và 
khai phá dữ liệu hiệu quả. Quá trình này bao gồm: phân cụm, trích chọn và tổng 
hợp đặc trưng, lập chỉ mục. 
 59 
 Siêu dữ liệu (Metadata): là thành phần cơ bản để xây dựng và quản lý kho dữ 
liệu. Siêu dữ liệu không phải là dữ liệu phân tích, nó chỉ mô tả thông tin của tài liệu. 
Miêu tả dữ liệu trong quá trình xây dựng, quản lý và hoạt động của kho. 
 Kho dữ liệu (Data Warehouse): là cơ sở dữ liệu được tổ chức lại theo mô hình 
hình sao hay mô hình bông tuyết. Mô hình được phi chuẩn hóa, chấp nhận sự dư 
thừa dữ liệu trong lưu trữ dữ liệu chính vì thế mô hình dữ liệu đơn giản hơn nên 
việc truy vấn dễ dàng hơn và tốc độ xử lý cũng nhanh hơn mô hình dữ liệu chưa 
được chuẩn hóa. Ngoài ra kho dữ liệu còn chứa các siêu dữ liệu. 
 Kho dữ liệu chủ đề (Data Marts): Kho dữ liệu chủ đề có đặc điểm giống với 
kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chủ 
đề. Các kho dữ liệu chủ đề là một tập con của kho dữ liệu hoặc được xây dựng độc 
lập từ đó tích hợp lại thành kho dữ liệu. 
 2.3. Phân tích yêu cầu 
 Phân tích và định rõ yêu cầu là bước kỹ thuật đầu tiên trong tiến trình kỹ nghệ 
phần mềm. Tại bước này các phát biểu chung về phạm vi phần mềm được làm mịn 
thành một bản đặc tả cụ thể để trở thành nền tảng cho mọi hoạt động kỹ nghệ phần 
mềm sau đó. Việc phân tích phải tập trung vào các miền thông tin, chức năng và 
hành vi của vấn đề. Để hiểu rõ yêu cầu, người ta tạo ra mô hình, phân hoạch vấn đề 
và tạo ra những biểu diễn mô tả cho bản chất của yêu cầu rồi sau đó đi vào các chi 
tiết. Trong nhiều trường hợp, không thể nào đặc tả được đầy đủ mọi vấn đề tại giai 
đoạn đầu. Việc làm bản mẫu thường giúp chỉ ra cách tiếp cận khác để từ đó có thể 
làm mịn thêm yêu cầu. Để tiến hành đúng đắn việc làm bản mẫu, có thể cần tới các 
công cụ và kỹ thuật đặc biệt. Kết quả của việc phân tích là tạo ra bản đặc tả các yêu 
cầu phần mềm. Đặc tả cần được xét duyệt để đảm bảo rằng người phát triển và 
khách hàng có cùng nhận biết về hệ thống cần phát triển. 
 2.3.1. Xây dựng kho 
 Quản trị hệ thống thông tin đáp ứng được những yêu cầu ở mức độ cao nghĩa là 
thông tin mang tính phân tích và có khả năng hỗ trợ quyết định. Tuy nhiên việc xây 
dựng một hệ thống như vậy vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi 
 60 
kích thước cũng như độ phức tạp của môi trường thông tin tăng lên. Những hệ 
thống thông tin xây dựng theo phương pháp truyền thống không làm hài lòng người 
sử dụng và các nhà quản lý hệ thống thông tin. Những mục tiêu này không thể đạt 
được bởi dữ liệu ngày càng tăng, lưu trữ phân tán ở nhiều dạng không tương thích 
với nhau. Nhiều hệ cơ sở dữ liệu đã được xây dựng không tương thích với nhau, 
quản trị dữ liệu phức tạp. Giải pháp cho tất cả các vẫn đề nêu trên chính là việc xây 
dựng một kho dữ liệu. 
 Những yêu cầu đặt ra khi xây dựng kho dữ liệu: 
 - Kho dữ liệu được xây dựng trực tuyến phục vụ yêu cầu mọi lúc mọi nơi. 
 - Kho dữ liệu được xây dựng dựa theo hai nguồn cung cấp: nguồn dữ liệu ban 
đầu trong quá trình xây dựng kho dữ liệu và nguồn dữ liệu do người quản trị tải lên 
trực tiếp vào kho khi kho dữ liệu hoàn thành. 
 - Dữ liệu của kho được sưu tập từ các bài viết trên website theo các chủ đề đã 
được xác định như: bóng đá, giáo dục, pháp luật, quốc tế, xã hội, ... nguồn dữ liệu 
đó được tổng hợp từ 4 website điện tử khác nhau được đọc nhiều nhất: vnexpress, 
tuoitre, dantri, vietnamnet. 
 - Dữ liệu trước khi đưa vào kho cần được mô tả thông tin liên quan như: chủ đề, 
ngày phát hành, phông chữ, kích thước, nguồn gốc văn bản, tác giả, văn bản (tiêu 
đề, nội dung tóm tắt (nếu có), câu đầu tiên của văn bản, nội dung). 
 - Số lượng bài được tải về lưu trữ kho tài liệu hiển thị danh sách tài liệu theo chủ 
đề, số lượng, dung lượng, định dạng dữ liệu chủ yếu dưới dạng .TXT và chưa được 
xử lý cụ thể: 
 Bảng 2.1 Dữ liệu thô tải về 
 STT Loại tài liệu Số lượng bài đã tải về Tổng dung lượng 
 1 Bóng đá 1512 363411 KB 
 2 Giáo dục 1231 335561 KB 
 3 Pháp luật 1194 175410 KB 
 4 Quốc tế 1208 255815 KB 
 5 Xã hội 1152 232633 KB 
 61 
 2.3.2. Khai thác kho 
 Khai thác kho dữ liệu là một quá trình trích xuất thông tin có mối quan hệ hoặc 
có mối tương quan nhất định từ một kho dữ liệu lớn nhằm mục đích dự đoán các xu 
thế, các hành vi trong tương lai hoặc tìm kiếm những tập thông tin hữu ích mà bình 
thường không thể nhận diện được. Trên thực tế, khai thác kho dữ liệu chỉ là một 
bước thiết yếu trong quá trình khai thác tri thức trong cơ sở dữ liệu, quá trình này 
bao gồm các bước sau: 
 - Bước 1: Làm sạch dữ liệu là loại bỏ nhiễu hoặc các dữ liệu không thích hợp. 
 - Bước 2: Tập hợp dữ liệu là tích hợp dữ liệu từ nhiều nguồn khác nhau: Cơ sở 
dữ liệu, kho dữ liệu, file văn bản,  
 - Bước 3: Chọn dữ liệu ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm 
vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu. 
 - Bước 4: Chuyển đổi dữ liệu là dữ liệu sẽ được chuyển đổi về dạng phù hợp 
cho việc khai thác dữ liệu bằng cách thực hiện các thao tác nhóm hoặc tập hợp. 
 - Bước 5: Khai thác dữ liệu đây là giai đoạn thiết yếu, trong đó các phương 
pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu. 
 - Bước 6: Đánh giá mẫu là đánh giá sự hữu ích của các mẫu biểu diễn tri thức 
dựa vào một số phép đo. 
 - Bước 7: Mô tả tri thức là sử dụng các kỹ thuật trình diễn và trực quan hóa dữ 
liệu để biểu diễn tri thức khai thác được cho người sử dụng, quá trình khai thác tri 
thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là 
quá trình lặp đi lặp lại các bước. 
 Dữ liệu của kho được khai thác bởi hai đối tượng: 
 - Người sử dụng: Thông qua môi trường web, người sử dụng có thể xem danh 
sách tài liệu có trong kho theo nhiều tiêu chí và tải dữ liệu về. 
 - Hệ thống phân loại văn bản tiếng Việt: có thể sử dụng dữ liệu trong kho để 
phân tích, so khớp nhằm đưa ra kết quả đánh giá cho một tài liệu cần phân loại. Các 
tài liệu phục vụ cho cả 2 giai đoạn là huấn luyện và kiểm thử. 
 62 
 2.3.3. Cập nhật kho 
 Cập nhật dữ liệu vào kho có tính chất quan trọng đối với kho. Việc cập nhật dữ 
liệu vào giúp kho dữ liệu có nguồn dữ liệu phong phú với nhiều chủ đề khác nhau 
và đảm bảo dữ liệu có độ bao phủ lớn phục vụ cho phân loại văn bản tiếng Việt. Đối 
với kho dữ liệu phục vụ phân loại tiếng Việt, để nâng cao mức độ chính xác của tài 
liệu trong việc chọn chủ đề trước khi tải lên sẽ qua bước phân loại học máy kiểm 
thử, kết q

File đính kèm:

  • pdfluan_an_nghien_cuu_ung_dung_ky_thuat_hoc_ban_giam_sat_vao_li.pdf