Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán trang 1

Trang 1

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán trang 2

Trang 2

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán trang 3

Trang 3

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán trang 4

Trang 4

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán trang 5

Trang 5

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán trang 6

Trang 6

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán trang 7

Trang 7

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán trang 8

Trang 8

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán trang 9

Trang 9

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 106 trang nguyenduy 14/06/2024 670
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán

Luận án Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán
 chọn hướng tiếp cận theo giải pháp 3 này. 
 29 
 Hình 1.10. Kiến trúc hệ thống theo giải pháp 3 
 1.4. Kết luận Chương 1 
 Chương này đã trình bày những kết quả nghiên cứu tổng quan về quá trình 
soạn thảo và tìm kiếm tài liệu chứa công thức toán. Việc soạn thảo và biểu diễn 
công thức toán trên các công cụ soạn thảo và đặc biệt trên Web hiện đang là một 
vấn đề được quan tâm. 
 Qua kết quả nghiên cứu cho thấy các công cụ tìm kiếm tài liệu dựa trên công 
thức toán là cần thiết trong công tác quản lý, khai thác các tài liệu khoa học. Tuy 
nhiên, hiện nay các công thức toán đang được biểu diễn và lưu trữ theo quá nhiều 
dạng khác nhau, phụ thuộc vào các công cụ khác nhau, các nhà phát triển khác 
nhau. 
 Vấn đề đặt ra là làm thế nào để chuyển các dạng biểu diễn và lưu trữ khác 
nhau này về một chuẩn biểu diễn và lưu trữ công thức chung để giúp cho người sử 
dụng dễ dàng xem và sao chép công thức toán trên các công cụ soạn thảo khác nhau 
cũng như triển khai chức năng tìm kiếm. 
 30 
 Để giải quyết vấn đề đặt ra ở trên, luận án tập trung nghiên cứu đề xuất các 
mô hình phù hợp, phát triển các bộ công cụ để soạn thảo công thức, soạn thảo chú 
thích và tìm kiếm công thức toán và tìm kiếm tài liệu dựa trên công thức toán cũng 
như các giải pháp lưu trữ, quản lý và khai thác dữ liệu các công thức toán trên các 
tài liệu, đặc biệt là trên môi trường Web. 
 31 
 CHƯƠNG 2. BIỂU DIỄN VÀ LƯU TRỮ CÔNG THỨC TOÁN 
 Nội dung chương này sẽ tập trung trình bày đề xuất mô hình thống nhất 
cách biểu diễn và lưu trữ công thức toán trong văn bản, dựa trên ngôn ngữ đánh 
dấu MathML. Trên cơ sở lưu trữ chung đó, luận án đề xuất giải pháp để soạn thảo 
văn bản có chứa các công thức toán và dễ dàng sao chép, chuyển đổi công thức 
toán được lưu trữ dưới các tiêu chuẩn biểu diễn khác nhau. 
 2.1. Mô hình biểu diễn và tìm kiếm công thức toán trong văn bản 
 Hiện nay, có rất nhiều phần mềm cho phép soạn thảo công thức toán trên 
văn bản như Microsoft Word, OpenOffice.org Math, Acrobat, WebEditor, Mặc 
dù kết quả hiển thị các công thức toán là tương tự nhau, nhưng mỗi phần mềm 
soạn thảo văn bản có một chuẩn lưu trữ nội dung riêng, đặc biệt là lưu trữ nội dung 
các công thức toán như biểu diễn ở Hình 2.1: 
 Hình 2.1. Mô hình biểu diễn công thức toán trong văn bản truyền thống 
 Theo mô hình biểu diễn ở Hình 2.1 thì đối với mỗi công cụ soạn thảo khác 
nhau sẽ có chuẩn lưu trữ công thức toán khác nhau, cụ thể như với Microsoft Word 
lưu công thức toán theo chuẩn của Microsoft Word, OpenOffice Writer lưu công 
thức toán theo chuẩn của OpenOffice Math, LaTex lưu công thức toán theo chuẩn 
của LaTex,... Thực tế này dẫn đến một số khó khăn: 
 - Không thể sao chép công thức toán từ một công cụ soạn thảo này sang các 
công cụ soạn thảo khác, vì các chuẩn lưu trữ không tương thích với nhau. 
 32 
 - Khó khăn khi tìm kiếm tài liệu dựa trên công thức toán được soạn thảo và 
lưu trữ trên các công cụ soạn thảo khác nhau này. 
 Từ những khó khăn thực tế này, luận án đề xuất xây dựng một môi trường 
soạn thảo, biểu diễn và lưu trữ thống nhất, cho phép sao chép, tìm kiếm, chuyển 
đổi giữa các chuẩn lưu trữ khác nhau một cách dễ dàng. Hình 2.2 mô tả mô hình đề 
xuất của luận án. Theo đó, một hệ thống quản lí và tìm kiếm tài liệu chứa công 
thức toán có hai mức: Thứ nhất là mức quản lí các công thức toán trong phạm vi 
một văn bản (mức thấp). Thứ hai là mức tìm kiếm các tài liệu dựa trên công thức 
toán (mức cao). Mức cao sẽ được trình bày chi tiết trong chương 3 của luận án. 
Nội dung chương này tập trung trình bày về mức thấp của mô hình đề xuất. 
 Hình 2.2. Mô hình biểu diễn và lưu trữ công thức toán trong văn bản 
 đề xuất 
 Ở mức thấp, luận án đề xuất một mô hình biểu diễn và lưu trữ công thức 
toán theo một chuẩn chung, là ngôn ngữ MathML. Khi đó, các công thức toán sẽ 
 33 
có một hệ thống soạn thảo đồng bộ chung, một hệ thống lưu trữ chung và một hệ 
thống hiển thị chung. Khi đó, có hai vấn đề nảy sinh: 
 - Làm sao để chuyển đổi các công thức toán từ môi trường soạn thảo truyền 
thống ban đầu sang môi trường soạn thảo đồng bộ chung? 
 - Làm sao chuyển đổi các công thức toán từ môi trường lưu trữ truyền thống 
ban đầu sang môi trường lưu trữ đồng bộ chung? 
 Để giải quyết hai vấn đề này, luận án đề xuất xây dựng một bộ chuyển đổi 
giữa cách biểu diễn các công thức toán từ dạng ban đầu sang dạng đồng bộ chung, 
và ngược lại, chuyển đổi cách biểu diễn các công thức toán từ dạng đồng bộ chung 
sang các dạng biểu diễn đang tồn tại trong thực tế hiện nay. 
 Đồng thời, trên nền tảng là hệ thống biểu diễn và lưu trữ chung, thống nhất 
này, luận án xây dựng mô đun cho phép sao chép công thức toán giữa các tài liệu, 
và mô đun cho phép tìm kiếm công thức toán trong phạm vi một tài liệu. Như vậy, 
mô hình đề xuất của luận án (như minh họa trong Hình 2.2), ở mức thấp, bao gồm 
năm mô đun chức năng: 
 - Một là mô đun đồng bộ chung để biểu diễn và lưu trữ công thức toán, dựa 
trên MathML. 
 - Hai là mô đun soạn thảo công thức toán đồng bộ chung dựa trên Amaya. 
 - Ba là mô đun sao chép công thức toán trên Amaya và MathML. 
 - Bốn là bộ chuyển đổi giữa các cách biểu diễn công thức toán truyền thống 
đang tồn tại sang dạng biểu diễn đồng bộ chung, và ngược lại. 
 - Năm là mô đun tìm kiếm công thức toán trong nội dung một tài liệu, dựa 
trên bộ tìm kiếm của MathML. 
 Kiến trúc chi tiết và phương thức hoạt động của mỗi mô đun này sẽ được 
trình bày trong các mục tiếp theo. 
 34 
 2.2. Biểu diễn và lưu trữ công thức toán với MathML 
 Đối với tiêu chuẩn lưu trữ, luận án đề xuất sử dụng MathML vì đây là tiêu 
chuẩn được hỗ trợ bởi đa số các công cụ soạn thảo văn bản hiện nay và đặc biệt là 
được hỗ trợ bởi các trình duyệt Web. 
 Để phát triển thử nghiệm công cụ soạn thảo văn bản cho phép soạn và lưu 
trữ công thức dưới dạng MathML, luận án sử dụng mã nguồn mở Amaya và tích 
hợp vào đó các công cụ phát triển mới để tìm kiếm và sao chép công thức toán qua 
lại với các phần mềm soạn thảo văn bản khác. 
 MathML được hỗ trợ bởi các phần mềm văn phòng như Microsoft Word, 
OpenOffice.org cùng với các phần mềm tính toán kỹ thuật như Maple, 
Mathematica, và MathCad trên nền nhiều hệ điều hành khác nhau như Linux, 
Windows, 
 Ưu điểm: 
 - Không chỉ hiển thị tốt mà còn chứa ý nghĩa nội dung công thức toán. 
 - Dễ dàng sử dụng trên các trình duyệt Web. 
 - Cho phép hiển thị ngay công thức một cách đẹp mắt. 
 - Truyền tải ý nghĩa toán học cho các phần mềm tính toán. 
 Nhược điểm: 
 - Cấu trúc không ngắn gọn như TeX. 
 - Cần có công cụ soạn thảo thân thiện với người dùng. 
 - Hiển thị trên trình duyệt: 
 - Các trình duyệt thân thiện như Mozilla Firefox, Amaya thì chúng đều cho 
 phép hiển thị trực tiếp MathML. 
 35 
 - Các trình duyệt khác cần phần mềm hỗ trợ như: các phiên bản trước 
 Internet Explore cài thêm MathPlayer, từ Internet Explore 6 cài 
 JavaScript MathJax. 
 Tất cả các ký hiệu toán học muốn thể hiện phải được đặt trong các cặp tab 
 như sau: 
 ???? 
 Các thẻ ký hiệu toán học 
 ???? 
 Một số thẻ đặc trưng của MathML 
 Bảng 2.1 Một số thẻ đặc trưng của MathML 
Số TT Thẻ Giải thích 
 1 Thẻ hằng số 
 2 Thẻ ký tự 
 3 Thẻ tạo số mũ trên 
 4 Thẻ tạo số mũ dưới 
 5 
 Thẻ tạo căn số bậc 2 
 6 n Thẻ căn bậc n 
 7 Thẻ số chia 
 8 &Plus; Thẻ số cộng 
 9 &Minus; Thẻ phép trừ 
 10 ⁢ Thẻ phép nhân 
 36 
Số TT Thẻ Giải thích 
 11 TeXt Thẻ nội dung văn bản 
 12 Thẻ biểu thức 
 13 Thẻ ma trận 
 14 Thẻ hàng trong một bảng hoặc 
 ma trận 
 15 Thẻ khoảng trắng 
 16 Thẻ khai báo ứng dụng hàm 
 17 Thẻ hàm phép toán bằng (=) 
 18 Thẻ hàm phép toán chia 
 19 Thẻ hàm phép toán trừ 
 20 Thẻ hàm phép toán cộng 
 21 Thẻ hàm phép toán nhân 
 22 Thẻ hàm phép toán căn bậc 2 
 23 <root/ Thẻ dùng căn bậc cao thì viết 
 theo cú pháp và n là số căn 
 bậc. 
 n 
 24 Thẻ hàm lũy thừa 
 25 77 Thẻ định nghĩa hằng 
 ... ... ... 
 Việc soạn thảo một tài liệu bằng ngôn ngữ đánh dấu MathML bằng cách 
 dùng một công cụ soạn thảo hỗ trợ chuẩn MathML cần phải tuân thủ theo các tab 
 37 
được quy định sẵn. MathML cung cấp 2 cách thức trình bày ngôn ngữ đánh dấu 
toán học. Một là nhằm nhấn mạnh cách trình bày của công thức và hai là nhấn 
mạnh nội dung của toán học. 
 Với công thức tính nghiệm của phương trình bậc 2: 
 b b2 4 ac
 x 
 2a
 Sơ đồ biểu diễn công thức: 
 2 4acbb
 x 
 2a
 x = 
 2
 b b 4ac 2 a 
 - b b2 4 ac
 b - 4 a c 
 Hình 2.3. Minh họa cách trình bày công thức 
 Ví dụ nhấn mạnh cách trình bày: 
mrow> 
 x 
 = 
 - 
 b 
 38 
 ± 
 b 
 2 
 - 
 4 
 ⁢ 
 a 
 ⁢ 
 c 
 2 
 ⁢ 
 a 
 2.3. Soạn thảo và hiển thị công thức toán với Amaya 
 Để soạn thảo văn bản, luận án đề xuất sử dụng phần mềm mã nguồn mở 
Amaya [38]. Amaya là phần mềm theo kiểu WYSIWYG, người dùng có thể vừa 
soạn thảo và vừa có thể xem hiển thị kết quả trên trình duyệt. Các bộ công cụ của 
Amaya ở chế độ bảng lựa chọn tương tự như Microsoft Word, OpenOffice.Org 
Math,... [14]. 
 39 
 Hình 2.4. Cấu trúc thành phần của mã nguồn mở Amaya 
 - Abstract tree (cây trừu tượng): Có vai trò cung cấp thêm thông tin các yếu 
tố vào trong cấu trúc ví dụ như định dạng tiêu đề, đoạn văn, Thư viện Thot sử 
dụng một cấu trúc trung gian là Box tree để hiển thị nội dung trên màn hình. 
 - Cấu trúc lô-gíc của tài liệu bị hạn chế theo các quy tắc nhất định được quy 
định trong DTDs. Những quy định này xác định làm thế nào các yếu tố có sẵn trong 
cây trừu tượng có thể lắp ráp để tạo một cấu trúc hợp lệ và sự kết hợp giữa thuộc 
tính và yếu tố. 
 - Amaya sử dụng một số lược đồ trình bày để xác định cách bố trí khác nhau 
cho các tài liệu HTML. Các lược đồ này tự động mở rộng với các quy tắc tương ứng 
với quy tắc CSS khi các yêu cầu đặc biệt liên quan. 
 - Thư viện Thot cung cấp cho các nhà phát triển những hàm trong thư viện 
API, có cơ chế cho phép thay đổi và mở rộng các chức năng bằng việc can thiệp vào 
trong mã nguồn mở. 
 - Với chức năng của Parsers (phân tích cú pháp): Phân tích cú pháp dữ liệu 
vào và xây dựng cấu trúc lô-gíc trong cây trừu tượng của tài liệu cho HTML, XML 
và CSS. 
 40 
 - Amaya thừa kế nhiều chức năng từ thư viện Thot. Ví dụ giao diện người 
dùng, cơ chế chuyển đổi ngôn ngữ dựa trên DTDs. 
 - Libwww HTTP: Amaya truy cập từ xa các máy chủ Web thông qua 
Libwww, thực hiện bởi HTTP/1.1. 
 2.4. Sao chép công thức toán trong Amaya 
 Amaya là một trình soạn thảo đồng thời là trình duyệt Web [38]. Vì vậy, 
mọi dữ liệu được tạo ra phải tuân thủ theo định dạng của một trang XHTML. 
Amaya có khả năng tự sinh thẻ khi sao chép dữ liệu dạng chuỗi từ ứng dụng khác 
vào trình duyệt nhưng không thể tự sinh ra các thẻ của SVG (Scalable Vector 
Graphics) khi sao chép dữ liệu hình ảnh từ ứng dụng khác sang. 
 Vì vậy, luận án đề xuất xây dựng một chương trình thường trú và tích hợp 
vào Amaya để cho phép sao chép công thức được soạn thảo từ một ứng dụng khác 
sang trình duyệt Amaya. Cách hoạt động của chương trình này như sau: 
 Văn© bản Sao chép Dán 
 Clipboard Clipboard Văn bản 
 Xử lý 
 Xử lý 
 Kiểm tra định dạng Chuyển sang MathML 
 Chương trình thường trú 
 Hình 2.5. Sơ đồ quá trình chuyển đổi dữ liệu trong ClipBoard 
 Ý tưởng đề xuất là tiến hành sao chép công thức dưới dạng Text vào 
ClipBoard rồi sau đó xử lý trên ClipBoard để chuyển sang ngôn ngữ đánh dấu 
MathML và cuối cùng chúng ta có thể dán vào Amaya. 
 Về sao chép công thức, chương trình thường trú Math Clipboard Converter 
sẽ nhận dạng bộ mã hóa đang dùng và tự động chuyển về chuẩn MathML. Ví dụ 
minh họa dưới đây cho thấy chương trình đang thông báo đã nhận dạng được chuỗi 
 41 
dữ liệu của công thức và thực hiện chuyển đổi dữ liệu sang MathML. Ở Hình 2.6, 
khung bên trái là ngôn ngữ đánh dấu công thức toán trong văn bản nguồn và khung 
bên phải là đoạn mã phát sinh tự động khi thực hiện lệnh dán từ Clipboard và hiển 
thị công thức tương ứng với mã lệnh. 
 Ví dụ, chuyển đổi từ ngôn ngữ đánh dấu trong OpenOffice.Org Math sang 
mã định dạng MathML trong Amaya. 
 Hình 2.6. Chương trình thường trú Math Clipboard Converted 
 Trước hết, chúng ta so sánh định dạng của hai công cụ soạn thảo này. Ví dụ, 
cách biểu diễn dữ liệu căn ở hai ngôn ngữ đánh dấu: 
 Bảng 2.2. So sánh cách biểu diễn hai ngôn ngữ đánh dấu 
 OpenOffice.Org 
 Amaya 
 Writer 
 sqrt{x+3} <math 
 x 3 
 xmlns="
 h/MathML"> 
 x 
 + 
 3 
 42 
 x 1003 sqrt{3x-100} <math 
 xmlns="
 h/MathML"> 
 3 
 x 
 − 
 100 
 Đối với phần mềm soạn thảo OpenOffice.Org Writer, công thức được xem 
như là một đối tượng trong trình soạn thảo. Khác với phần mềm soạn thảo 
Microsoft Word, OpenOffice.Org Writer có thể cho xem mã của công thức khi 
soạn thảo. Vì lý do này, chúng ta có thể sao chép công thức dưới dạng text vào 
ClipBoard rồi sau đó xử lý trên ClipBoard để chuyển sang ngôn ngữ đánh dấu 
MathML và dán vào Amaya. 
 Để thực hiện việc sao chép công thức từ trình soạn thảo OpenOffice.Org 
Writer sang công cụ được phát triển dựa trên Amaya, việc thực hiện như sau: 
 - Mục đích: Thuật toán này chỉ giải quyết việc chuyển đổi dữ liệu Text từ 
OpenOffice.Org sang MathML theo định dạng của Amaya cho trường hợp là căn 
bậc hai. 
 - Input: Công thức căn bậc hai trong OpenOffice.Org. 
 - Output: Căn bậc hai theo định dạng MathML theo cấu trúc của Amaya. 
 - Thuật toán chuyển đổi dữ liệu Text từ OpenOffice.Org sang MathML theo 
định dạng của Amaya cho trường hợp là căn bậc hai: 
 43 
 Bắt đầu 
 SZText= 
 Clipboard.AsText 
Nlen=stlen(SZText); j=1; i=1; 
mathtext[j]= 
k=post(‘sqrt’,SZText) 
for d= k to 4 do 
delete(SZText[d]); 
Mathtext[j]=’ ’ 
i=i+1 
 F 
 While i ‘}’ 
 T 
 T MathText[j]=’’+SZTe
 If SZText[i] in [a..z] xt[i]+’’ 
 i=i+1 
 F 
 Tam=’’; 
 T While SZText[i]  [0..9] 
 If SZText[i] in [0..9] [ 
 i=i+1 
 tam=tam+SZText[i] 
 ] 
 MathText[j]=’’+tam+’’ 
 F i=i+1, j=j+1 
 T MathText[j]=’’+’ 
 If SZText[i] =’.’ Or ⁢’+’’ 
 i=i+1 
 F 
 T MathText[j]=’’+’ 
 If SZText[i] =’-’ −’+’’ 
 i=i+1 
 F 
 MathText[j]=’’+’+’’<
 T 
 If SZText[i] =’+’ /mo>’ 
 i=i+1 
 Mathtext[j]=’ ’ 
 MathText[j]=’ 
 for i=1 to j do 
 Clipboard.AsText = MathText[i] 
 Kết thúc 
 Hình 2.7. Thuật toán sao chép công thức qua ClipBoard 
 44 
 2.5. Chuyển đổi công thức MathML với các định dạng khác 
 Việc chuyển đổi định dạng giữa MathML và các định dạng khác cho công 
thức toán không gặp nhiều khó khăn khi triển khai trong thực tế. Vấn đề là tìm ra sự 
tương đương giữa MathML và chuẩn biểu diễn tương ứng trong TeX, LATEX, 
Microsoft Word,... để tạo ánh xạ khi chuyển đổi [35]. 
 Mô hình chuyển đổi từ MathML sang TeX được biểu diễn ở Hình 2.8. 
 Đối tượng trong Đối tượng trong 
 MathML TeX 
 Tập tin ánh xạ 
 MathML  TeX 
 Hình 2.8. Mô hình chuyển đổi công thức từ MathML sang TeX 
 Một đối tượng trong MathML được biểu diễn theo một cấu trúc được qui 
định trong mô hình đối tượng tài liệu (DOM) qui định bởi W3C [19]. 
 Ví dụ, một đối tượng được viết trong MathML như sau: 
 ∑ 
 x 
 3 
 i 
 45 
 Đối tượng này sẽ được biểu diễn dưới dạng cây như sau: 
 math 
 mo msupub 
 &sum mi mn mi 
 x 3 i 
 Hình 2.9. Biểu diễn dạng cây của công thức MathML 
 Một đối tượng trong TeX cũng được biểu diễn dưới dạng cây nhưng khác với 
cây trong MathML về mặt lô-gíc. Mỗi một mức của cây này tương ứng với một 
nhóm trong TeX. Ví dụ: một biểu thức trong TeX $\sqrt {1-\alpha} + x^{3+a}$ sẽ 
được biểu diễn dưới dạng cây như sau: 
 \sqrt + x  
 1 - \alpha 3 + a 
 Hình 2.10. Biểu diễn dưới dạng cây của đối tượng TeX 
 Để thực hiện việc chuyển đổi giữa MathML và TeX, ta cần có một tập tin lưu 
trữ thông tin ánh xạ mỗi phần tử của MathML sang một phần tử tương ứng trong 
TeX. Tập tin ánh xạ là một thành phần có vai trò rất quan trọng trong quá trình 
chuyển đổi. Nó mô tả sự tương ứng một – một giữa mỗi phần tử của MathML và 
TeX. Tập tin ánh xạ chứa một XML-form và bao gồm cả mẫu để biểu diễn cả 
MathML và TeX. 
 46 
 Cú pháp chung để mô tả sự tương ứng của các đối tượng trong MathML và 
TeX được viết như sau: 
 . . . 
 [MathML expression] 
 . . . 
 - Ví dụ: dành cho phân số 
 2.6. Kết luận Chương 2 
 Chương này đã đề xuất mô hình biểu diễn và lưu trữ đồng bộ các công thức 
toán gồm hai mức: Mức thấp cho việc quản lí công thức toán trong phạm vi một tài 
liệu. Trong mức thấp này, MathML được đề xuất sử dụng như là tiêu chuẩn trung 
tâm phục vụ việc lưu trữ và xử lý các công thức toán. Môi trường soạn thảo được đề 
xuất xây dựng dựa trên mã nguồn mở Amaya, có hỗ trợ soạn thảo công thức toán 
theo chuẩn MathML. Mô hình này hỗ trợ việc chuyển đổi, sao chép công thức toán 
 47 
giữa các dạng khác nhau vào một môi trường soạn thảo và lưu trữ thống nhất sử 
dụng tiêu chuẩn MathML. 
 Kết quả của chương này đã được công bố trong các công trình số [1], số [2] 
và số [5]. 
 Mức cao của mô hình đề xuất cho phép tìm kiếm tài liệu dựa trên công thức 
toán, nội dung chi tiết của mức này sẽ được trình bày trong chương tiếp theo. 
 48 
 CHƯƠNG 3. TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN 
 Trên cơ sở mô hình biểu diễn thống nhất ở mức thấp trong mô hình hai mức 
như đã trình bày ở chương 2, nội dung chương này sẽ trình bày đề xuất mô hình tìm 
kiếm các tài liệu, đặc biệt là các tài liệu trên môi trường Web dựa trên công thức 
toán. Đề xuất ở chương này gồm 2 mảng là tìm kiếm trên các tài liệu, trang Web 
thông thường và tìm kiếm dựa trên Semantic Web. 
 3.1. Bài toán tìm kiếm tài liệu 
 Mục đích của tìm kiếm tài liệu/thông tin là hiển thị cho người dùng một tập 
các thông tin thỏa mãn nhu cầu của họ. Chúng ta định nghĩa thông tin cần thiết là 
“câu truy vấn” (query) và các thông tin được chọn là “tài liệu” (documents) thỏa 
mãn câu truy vấn. Hầu hết các cách tiếp cận trong tìm kiếm dựa trên 2 thành phần 
chính: một là các kỹ thuật để biểu diễn thông tin (câu truy vấn, tài liệu) và hai là 
phương pháp so sánh các cách biểu diễn này. Mục đích là để tự động qui trình kiểm 
tra các tài liệu bằng cách tính toán độ tương đồng giữa các câu truy vấn và tài liệu. 
Qui trình tự động này thành công khi nó trả về các kết quả giống với các kết quả 
được con người tạo ra khi so sánh câu truy vấn với các tài liệu. 
 Có một vấn đề thường xảy ra đối với hệ thống tìm kiếm là những từ mà 
người dùng đưa ra trong câu truy vấn thường khác xa những từ trong tập tài liệu 
chứa thông tin mà họ tìm kiếm. Để giải quyết vấn đề này hệ thống đã tạo ra các hàm 
biểu diễn xử lý các câu truy vấn và các tài liệu một cách khác nhau để đạt đến một 
độ tương thích nào đó. 
 Gọi miền xác định của hàm biểu diễn câu truy vấn q là Q, tập hợp các câu 
truy vấn có thể có; và miền giá trị của nó là R, không gian thống nhất biểu diễn 
thông tin. Gọi miền xác định của hàm biểu diễn tài liệu d là D, tập hợp các tài liệu; 
và miền giá trị của nó là R. Miền xác định của hàm so sánh c là R × R và miền giá 
trị của nó là [0,1], tập các số thực từ 0 đến 1. Trong một hệ thống tìm kiếm lý 
tưởng: 
 49 
 Xử lý của con người [0,1] 
 Không gian 
 Truy vấn Tài liệu 
 tài liệu D 
Hàm biểu diễn truy vấn q Hàm biểu diễn tài liệu d 
 Không gian 
 Biểu diễn 1 Biểu diễn 2 
 Hình 3.1 Chú thích hình biểu diễn R 
 Hàm so sánh c [0,1] 
 Hình 3.1. Mô hình hệ thống tìm kiếm thông tin 
 c(q(query), d(doc)) = j(query, doc), query Q, doc D 
 với j: Q × D [0,1] biểu diễn việc xử lý của người dùng giữa các mối quan 
 hệ của thông tin trên câu truy vấn và thông tin trong tài liệu. 
 Một cách biểu diễn thông tin khác mà hiện nay đang được lựa chọn đó là dựa 
 trên Ontology. Giống như các Web thông thường, SemanticWeb toán học không 
 những cho phép tác giả của các công trình toán học xuất bản tài liệu trực tuyến của 
 họ mà còn tích lũy thành những cơ sở dữ liệu kiến thức toán học khổng lồ, phi tập 
 trung và năng động. Tác giả các công trình toán có thể chú thích ngữ nghĩ

File đính kèm:

  • pdfluan_an_nghien_cuu_phuong_phap_tim_kiem_tai_lieu_dua_tren_co.pdf
  • pdf2.Tom tat_Cao Xuan Tuan.pdf
  • pdf3.Trang thong tin LA Cao Xuan Tuan (TV).pdf
  • pdf4. Trang thong tin LA Cao Xuan Tuan (TA).pdf