Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ trang 1

Trang 1

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ trang 2

Trang 2

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ trang 3

Trang 3

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ trang 4

Trang 4

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ trang 5

Trang 5

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ trang 6

Trang 6

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ trang 7

Trang 7

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ trang 8

Trang 8

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ trang 9

Trang 9

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 159 trang nguyenduy 02/05/2024 1150
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ

Luận án Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ
OR instruction^0.5)^4 (production^1 OR manufacture^0.5 OR 
fabricate^0.5)^2. 
 2.3.5.7 Gán trọng số dựa trên kết quả quá trình khử nhập nhằng 
 Trong thuật toán Chọn bản dịch một cách tuần tự (2.3.4.3), tại bước sắp xếp 
 
lại các phương án dịch, mỗi phương án dịch  của từ tiếng Việt vi được gán giá 
điểm cohesion bằng cách sử dụng công thức (2.13), đo mức độ liên quan của 
phương án dịch này với phương án dịch được coi là tốt nhất của các từ tiếng Việt 
 
khác. Giá trị này có để được sử dụng như trọng số của phương án dịch  . Gọi 
  
 ,  ,   là các phương án dịch của vi trong danh sách Li với các trọng số tương 
   
ứng là  ,  ,   . Khi đó, bản dịch tiếng Anh của câu truy vấn được xây dựng 
dưới dạng: 
  = (   )  
       (2.19)
      
   (      ) 
 Với máy tìm kiếm Solr, câu truy vấn ví dụ được tạo dựng trong thực nghiệm 
với giá trị sau: 
 ((control)^0.556445681271 OR (manage)^0.268952911452 OR 
(supervise)^0.174601407277) ((process)^0.60852654056 OR 
(method)^0.203213625283 OR (procedure)^0.188259834156) 
((production)^0.512249748308 OR (manufacture)^0.262275130029 OR 
(fabrication)^0.225475121664) 
 2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI 
 2.4.1. Môi trường thực nghiệm 
 Để thiết lập môi trường thực nghiệm việc áp dụng công thức SMI, một bộ dữ 
 - 62 - 
liệu đánh giá được xây dựng, chứa một danh sách các câu truy vấn và một tập hợp 
tài liệu phục vụ truy vấn theo phương pháp pooling. Các kho tài liệu tiếng Việt 
(5.000 tài liệu) và tiếng Anh (8.000) tài liệu được đánh chỉ mục, sử dụng các hệ 
thống tìm kiếm đơn ngữ áp dụng mô hình xếp hạng LSI được xây dựng bằng ngôn 
ngữ Python15, sử dụng thư viện Gensim16. 
 Các câu truy vấn tiếng Việt được dịch thủ công sang tiếng Anh bởi các 
chuyên gia ngôn ngữ. Tương ứng với mỗi câu truy vấn tiếng Anh, 100 kết quả tìm 
kiếm tương ứng mỗi mô hình xếp hạng được kết xuất và trộn thành một danh sách 
chung. Từng tài liệu được đánh giá lại một cách thủ công để kiểm tra có phù hợp 
hay không với câu truy vấn. 
 Một ứng dụng Web được xây dựng nhằm hỗ trợ người đánh giá. Với mỗi câu 
truy vấn, danh sách các kết quả tìm kiếm tốt nhất được hiển thị, kèm theo các thông 
tin về số hiệu, tiêu đề, trích yếu và nội dung, điểm số. Người đánh giá dùng chuột 
hoặc bấm phím tại để đánh dấu đối với các tài liệu được xác định là phù hợp với câu 
truy vấn. Với kích thước hạn chế của bộ dữ liệu thực nghiệm, môi trường đánh giá 
này chưa thực sự hoàn thiện và cần được cải thiện, tuy nhiên nó vẫn đảm bảo sự 
hữu ích trong thực nghiệm được tiến hành [82]. 
 Các cấu hình khác nhau được đánh giá được liệt kê trong Bảng 2.1. Trong 
bảng này, phương pháp nMI sử dụng kỹ thuật phân đoạn câu truy vấn thành các từ 
khóa cần dịch (sẽ được trình bày trong chương 3), sau đó áp dụng thuật toán greedy 
(2.3.4.1) để chọn bản dịch tốt nhất. 
 Bảng 2.1: Cấu hình thực nghiệm 
 STT Cấu hình Diễn giải 
 1 nMI Sử dụng thuật toán greedy 
 2 SMI Do tác giả đề xuất 
 15  (truy cập ngày 15/01/2016) 
 16 https://radimrehurek.com/gensim/ (truy cập ngày 15/01/2016) 
 - 63 - 
 3 Dịch Google Dùng máy dịch Googe 
 4 Dịch thủ công Chuyên gia dịch 
 Cấu hình SMI cũng áp dụng kỹ thuật phân đoạn câu truy vấn, sau đó áp dụng 
thuật toán SMI (2.3.4.2) để xác định bản dịch tốt nhất với mỗi từ khóa. Hai phương 
pháp cuối không áp dụng các kỹ thuật phân đoạn và khử nhập nhằng: Phương pháp 
thứ ba sử dụng máy dịch Google; phương pháp thứ tư sử dụng các bản dịch thủ 
công được tạo bởi các chuyên gia tiếng Anh nhằm làm cơ sở so sánh hiệu quả các 
cấu hình đề xuất. 
 2.4.2. Kết quả thực nghiệm 
 Để đánh giá chất lượng của phương pháp xếp hạng, các chỉ số thông dụng 
phục vụ việc đánh giá độ chính xác xếp hạng bao gồm độ chính xác mức k ký hiệu 
P@k, độ chính xác trung bình AP, độ chính xác trung bình bình quân MAP [4]. 
 Kết quả thực nghiệm tương ứng với các cấu hình khác nhau được trình bày 
tại Bảng 2.2. Các chỉ số độ chính xác mức k P@k, độ chính xác trung bình bình 
quân MAP được tính toán nhằm so sánh với phương pháp sử dụng dịch thủ công 
(tương đương với tình huống truy vấn đơn ngữ). 
 Bảng 2.2: Kết quả thực nghiệm 
STT Cấu hình P@1 P@5 P@10 MAP So sánh 
 1 nMI 0.497 0.482 0.429 0.436 74.79% 
 2 SMI 0.511 0.488 0.447 0.446 76.50% 
 3 Dịch Google 0.489 0.535 0.505 0.499 85.59% 
 4 Dịch thủ công 0.605 0.605 0.563 0.583 100% 
 Kết quả thực nghiệm cho thấy cấu hình SMI sử dụng phương pháp khử nhập 
nhằng đề xuất tỷ lệ lớn hơn 75% so với truy vấn đơn ngữ và tốt hơn cấu hình nMI. 
 - 64 - 
 2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU 
 TRÚC 
 2.5.1. Môi trường thực nghiệm 
 Bộ công cụ Solr phiên bản 4.3.1017 được sử dụng để xây dựng các máy tìm 
kiếm đơn ngữ cho tiếng Việt và tiếng Anh. Đây là một công cụ mã nguồn mở viết 
bằng ngôn ngữ Java, được sử dụng khá rộng rãi, với hàm xếp hạng được phát triển 
dựa trên mô hình TF-IDF. Điểm phù hợp của bộ công cụ đối với luận án là nó tiếp 
nhận và xử lý các câu truy vấn có cấu trúc. 
 Dữ liệu được đánh chỉ mục được thu thập từ 2 nguồn. Đối với tiếng Việt, 
200.000 tài liệu của website  được sử dụng. Đối với tiếng Anh, 
tiêu đề của một số bài báo tiếng Anh được sử dụng như câu truy vấn gửi tới máy 
tìm kiếm Google. Một chương trình được viết để nhận các địa chỉ trong danh sách 
kết quả và tải các trang web tương ứng. Kết quả, 24.000 trang web tiếng Anh được 
tải về. Nội dung của các trang web bao gồm tiêu đề và toàn văn được bóc tách sử 
dụng công cụ Boilerpipe18. Mỗi tài liệu web trong kho tài liệu được bóc tách các 
thành phần tiêu đề (tương ứng thẻ ) và nội dung (tương ứng thẻ ) 
của mỗi tài liệu. Các nội dung này được định dạng để cập nhật vào chỉ mục máy tìm 
kiếm. 
 2.5.2. Cấu hình thực nghiệm 
 Việc thực nghiệm hiệu quả của sự kết hợp thuật toán bóc tách từ khóa, khử 
nhập nhằng và xây dựng câu truy vấn có cấu trúc được triển khai thông qua thực 
nghiệm với 25 câu truy vấn tiếng Việt có độ dài trung bình 9,52 từ. Các cấu hình 
sau được kiểm tra và so sánh: 
 top_one_ch: dùng công thức MIir trình bày tại (2.6) và cohesion score 
như công thức (2.8) , chọn một bản dịch tốt nhất cho mỗi từ tiếng Việt. 
 17  (truy cập ngày 16/01/2016) 
 18 https://code.google.com/p/boilerpipe/downloads/list (truy cập ngày 16/01/2016) 
 - 65 - 
 top_three_ch: dùng công thức MIcooc trình bày tại (2.4) và cohesion score 
như công thức (2.8) xây dựng câu truy vấn có cấu trúc bằng cách kết hợp 3 bản 
dịch tốt nhất cho mỗi từ tiếng Việt. 
 top_one_sq: sử dụng công thức MIcooc, chọn một bản dịch tốt nhất bằng 
thuật toán SQ được trình bày tại 2.3.4.3. 
 top_three_sq: sử dụng công thức MIcooc, chọn một bản dịch tốt nhất bằng 
thuật toán SQ, sau đó chọn thêm 2 bản dịch gần giống bản dịch tốt nhất (đo bằng 
MIcooc). 
 top_three_all: Tương tự như top_three_sq, nhưng sử dụng một công thức 
MI đặc biệt: 
 (, ) =  × (, ) + (1 − ) × (, ) (2.20)
 α được gán giá trị 0.02 trong thực nghiệm. 
 Google: sử dụng công cụ Google Translate để dịch câu truy vấn. 
 Baseline: dịch thủ công câu truy vấn tiếng Việt. 
 2.5.3. Kết quả thực nghiệm 
 Bảng 2.3: So sánh P@k và MAP các cấu hình 
 Cấu hình P@1 P@5 P@10 MAP Tỷ lệ 
1 top_one_ch 0.64 0.48 0.444 0.275 71.24% 
2 top_one_sq 0.52 0.472 0.46 0.291 75.39% 
3 top_three_ch 0.68 0.528 0.524 0.316 81.87% 
4 top_three_sq 0.64 0.552 0.532 0.323 84.55% 
5 top_three_all 0.76 0.576 0.54 0.364 94.30% 
6 Google 0.64 0.568 0.536 0.349 90.41% 
7 Baseline 0.76 0.648 0.696 0.386 100% 
 Bảng 2.3 mô tả kết quả thực nghiệm trên cơ sở sử dụng các thước đo P@n và 
MAP [4]. Với mỗi phương pháp, các giá trị trung bình của P@k (với k = 1, 5, 10) và 
 - 66 - 
giá trị MAP được ghi nhận. Cột Tỷ lệ hiển thị tỷ lệ giá trị MAP của thuật toán được 
đề xuất với giá trị MAP của cấu hình cơ sở Baseline, sử dụng dịch thủ công. 
 Tất cả các cấu hình đề xuất đều đạt trên 70% khi so sánh với phương án dịch 
thủ công. Các câu truy vấn có cấu trúc được tạo bởi các phương pháp top_three_all, 
top_three_ch và top_three_sq có kết quả tốt hơn hẳn so với việc chỉ chọn một bản 
dịch tốt nhất ở 2 cấu hình top_one_ch and top_one_sq. 
 Trong một số câu truy vấn, các phương pháp dịch đề xuất chưa hoạt động 
chính xác. Ví dụ, câu truy vấn "kiểm soát hoạt động trên biển" cho bản dịch 
(supervise OR to oversee^0.5 OR monitor^0.5)^2 (action OR activity^0.5 OR 
operation^0.5)^4 afloat. Đây là bản dịch tốt, nhưng có hiệu quả tìm kiếm không tốt 
do từ afloat dịch từ "trên biển" không được sử dụng trong các tài liệu. Bản dịch thủ 
công của câu truy vấn là monitor activities on sea cho hiệu quả tốt hơn. 
 Cấu hình top_three_all cho điểm MAP 0.364, bằng 94.30% so với dịch thủ 
công. Kết quả này tốt hơn điểm MAP 0.349 trong cấu hình sử dụng công cụ máy 
dịch Google Translate. Cấu hình top_three_sq đạt kết quả tốt hơn ở 9 câu truy vấn 
khi so sánh với công cụ máy dịch Google Translate. 
 2.6. TIỂU KẾT CHƯƠNG 
 Nội dung chương 2 trình bày nghiên cứu của tác giả liên quan các kỹ thuật 
dịch tự động phục vụ truy vấn xuyên ngữ. 
 Phần đầu tiên của chương giới thiệu các phương pháp dịch khác nhau áp 
dụng trong CLIR bao gồm sử dụng máy dịch, sử dụng kho ngữ liệu song song, sử 
dụng từ điển, sử dụng ngôn ngữ trung gian, sử dụng không gian ngữ nghĩa. Bên 
cạnh đó, tác giả tìm hiểu một số kỹ thuật khử nhập nhằng trong phương pháp sử 
dụng từ điển. 
 Đề xuất của tác giả trình bày trong chương là các phương án dịch câu truy 
vấn bằng từ điển. Hướng tiếp cận của tác giả là sử dụng thông tin về sự liên quan 
giữa các cặp từ Mutual Information nhằm cung cấp thêm thông tin về ngữ cảnh sử 
dụng từ khóa, thông qua đó giúp xác định bản dịch phù hợp cho các từ khóa trong 
 - 67 - 
câu truy vấn. Tác giả đề xuất các phương pháp khử nhập nhằng nhằm chọn các bản 
dịch tốt nhất cho các từ trong câu truy vấn. 
 Phương pháp thứ nhất dựa trên việc định nghĩa hàm Summary Mutual 
Information nhằm chọn một phương án dịch tốt nhất cho mỗi từ khóa trong câu truy 
vấn [81]. Thuật toán có độ phức tạp là (3n), phù hợp với giá trị n nhỏ (n <= 7). 
 Phương pháp thứ hai dựa trên một thuật toán chọn bản dịch cho các từ 
khóa truy vấn một cách tuần tự [83], có độ phức tạp là O(n2). 
 Với phương pháp sử dụng từ điển, việc sử dụng công thức SMI - do tác giả 
đề xuất để xác định một bản dịch tốt nhất - cho kết quả tốt hơn phương pháp sử 
dụng thuật toán Greedy thường được sử dụng, tuy nhiên vẫn không cho kết quả tốt 
bằng máy dịch Google. Với việc sử dụng kết hợp nhiều phương án dịch cho mỗi từ 
khóa truy vấn để xây dựng câu truy vấn có cấu trúc, phương pháp trình bày trong 
chương sử dụng thuật toán SQ và công thức (2.20) cho kết quả vượt trội máy dịch 
Google. Kết quả này cho thấy ưu điểm của việc tạo lập câu truy vấn ở ngôn ngữ 
đích dưới dạng bản dịch có cấu trúc - kết hợp nhiều bản dịch cho mỗi từ khóa truy 
vấn ở ngôn ngữ nguồn - so với dạng bản dịch kết hợp chỉ một bản dịch cho mỗi từ 
khóa truy vấn. Điều kiện để triển khai thuật toán SQ là máy tìm kiếm phải hỗ trợ 
câu truy vấn có cấu trúc. 
 Sau khi câu truy vấn ở ngôn ngữ nguồn được tiền xử lý (sẽ được trình bày tại 
chương 3), câu truy vấn tiếng Việt qv được phân tích thành một tập hợp 
((v1,L1),(v2,L2), .,(vn,Ln)) chứa các từ khóa tiếng Việt v1,..vn và các danh sách bản 
   
dịch tương ứng L1,,Ln với  = { ,  ,   } chứa mi phương án dịch của từ 
tiếng Việt vi. Các phương pháp khử nhập nhằng được trình bày tại chương 2 cho 
phép tạo lập danh sách các phương án dịch tốt nhất của mỗi từ khóa trong câu truy 
vấn, phục vụ việc xây dựng câu truy vấn. Đây là bước thứ hai trong sơ đồ xử lý của 
giai đoạn truy vấn được trình bày tại Hình 1.4 trang 39. 
 Trong các thực nghiệm triển khai ở chương này, trọng số tương ứng các loại 
từ cũng như trọng số cho các bản dịch được xác định thủ công nhằm tạo ra một bản 
dịch có cấu trúc cho câu truy vấn. Các trọng số này sẽ được tiếp tục điều chỉnh bằng 
cách sử dụng các phương pháp sẽ được trình bày tại chương 3. 
 - 68 - 
 CHƯƠNG 3 
 HỖ TRỢ DỊCH CÂU TRUY VẤN 
 Chương 3 trình bày các nghiên cứu của tác giả liên quan các kỹ thuật xử lý 
câu truy vấn. Đầu tiên tác giả trình bày tổng quan về các kỹ thuật phân đoạn câu 
truy vấn, mở rộng câu truy vấn, thu hẹp câu truy vấn, xử lý thuật ngữ không có 
trong từ điển. Nội dung chính của chương trình bày hai đề xuất của tác giả, bao gồm 
kỹ thuật phân đoạn câu truy vấn ở ngôn ngữ nguồn và kỹ thuật cải tiến câu truy vấn 
ở ngôn ngữ đích dựa trên thông tin phản hồi ẩn giúp tăng độ chính xác và độ bao 
phủ cho hệ thống truy vấn. 
 3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN 
 Trong mô hình dịch câu truy vấn, nhiều kỹ thuật khác nhau có thể được áp 
dụng nhằm hỗ trợ chất lượng dịch thuật: phân đoạn câu truy vấn nhằm xác định các 
cụm từ cần dịch; mở rộng câu truy vấn để bổ sung các từ đồng nghĩa hay liên quan 
đến nội dung truy vấn; thu hẹp câu truy vấn nhằm loại bỏ các từ không cần thiết; xử 
lý tên riêng, các cụm danh từ, hay thuật ngữ không có trong từ điển. Một số hướng 
tiếp cận đề xuất tích hợp dịch thuật trong mô hình tìm kiếm, hoặc xác định trọng số 
cho các loại từ khóa khi thực hiện câu truy vấn. 
 3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn 
 Phân tích câu truy vấn nhằm tách và xác định các từ khóa cần dịch trong câu 
truy vấn là bước đầu tiên của công việc dịch câu truy vấn. Đối với các ngôn ngữ 
châu Âu (như tiếng Anh, tiếng Pháp), giải pháp thông dụng là sử dụng dấu cách 
giữa các từ. Đối với các ngôn ngữ châu Á như tiếng Việt, tiếng Hoa, vấn đề phức 
tạp hơn: các từ khóa có thể chứa một hoặc nhiều âm [109] và không có quy tắc xác 
định ranh giới giữa các từ [63]. Nhiều giải pháp khác nhau được đề xuất cho việc 
tách từ khóa cho tiếng Việt: tác giả Nguyen Han Doan [109] đề xuất thuật toán tách 
câu truy vấn thành các từ đơn hoặc kép. Đầu tiên, thông tin lưu trữ các câu truy vấn 
(query log) được khai thác để tính xác suất xuất hiện của các từ đơn và kép. Câu 
 - 69 - 
truy vấn được xem xét từ trái qua phải và sử dụng các giá trị xác suất đã tính nhằm 
quyết định tách một từ đơn hay một từ kép. Trong thuật toán này, các từ khóa được 
giả định độc lập với nhau. Hạn chế lớn nhất ở phương pháp này nằm ở việc các từ 
khóa truy vấn có thể không xuất hiện trong query log. Nhằm giảm độ phức tạp của 
việc dịch thuật các câu dài và phức tạp, Bui Thanh Hung và các đồng sự [18] đề 
xuất phương án dùng luật tách câu thành các phần nhỏ hơn và các cụm danh từ. Với 
công cụ vnTagger [89], không những có thể tách được các từ khóa, mà có thể xác 
định các loại từ (danh từ, tính từ, ). 
 Các giải pháp có thể được chia thành 3 nhóm: dựa trên từ điển, dựa trên số 
liệu thống kê hoặc là giải pháp lai, kết hợp nhiều phương pháp [117]. Tác giả Dinh 
Quang Thang và các đồng sự [37] giới thiệu và so sánh một số phương pháp tách từ 
khóa dựa trên biểu thức chính quy, kỹ thuật học máy hay dựa trên kinh nghiệm 
(heuristics). Kết quả nghiên cứu cho thấy các công cụ phân đoạn tiếng Việt hiện nay 
có độ chính xác khoảng 93-97% trên các tập dữ liệu thực nghiệm. 
 Các công cụ phân đoạn tiếng Việt hiện nay chú trọng nhiều vào việc xác định 
loại từ (tag) cho các từ khóa và chưa thực sự phù hợp trong việc dịch câu truy vấn 
do không xác định các từ kép kết hợp nhiều từ đơn. Ví dụ từ "tàu sân bayaircraft" 
được tách thành "tàutrain" và "sân bayairport"; từ "kinh tế biểnmarine economy" được tách 
thành "kinh tếeconomy" và "biểnsea", từ đó dẫn tới bản dịch chưa chính xác hoặc chưa 
tối ưu. 
 3.1.2. Mở rộng câu truy vấn 
 Mở rộng câu truy vấn là một kỹ thuật thường được sử dụng trong các mô 
hình truy vấn thông tin, thực hiện việc bổ sung các từ khóa vào câu truy vấn [100]. 
Giải pháp toàn cục dựa trên tài nguyên bên ngoài và khai thác các thông tin độc lập 
với câu truy vấn, ví dụ bổ sung các từ đồng nghĩa trong từ điển; trong khi giải pháp 
cục bộ khai thác các thông tin liên quan đến câu truy vấn thông qua phản hồi ẩn, 
hay phân tích ngữ cảnh cục bộ, bổ sung các từ khóa quan hệ tới câu truy vấn từ các 
tài liệu trong danh sách kết quả tìm kiếm khi dùng câu truy vấn gốc [161] (xem 
Hình 3.1) 
 - 70 - 
 Mở rộng câu truy vấn 
 Dựa trên tài nguyên Dựa trên query log Dựa trên 
 bên ngoài phản hồi 
 Wikipedia Wordnet Từ điển Phản hồi thực Phản hồi ẩn 
 đồng nghĩa 
 Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn 
 Nhìn chung, mở rộng câu quy vấn được nhìn nhận như một các tiếp cận hữu 
ích. Hạn chế lớn nhất của cách tiếp cận này này là nguy cơ làm lệch ý nghĩa của câu 
truy vấn. Khi bổ sung các từ khóa mới, câu truy vấn có thể có ý nghĩa không giống 
với ý đồ tìm kiếm ban đầu của người sử dụng [46]. Trong CLIR, việc mở rộng câu 
truy vấn có thể được thực hiện trước (với ngôn ngữ truy vấn) hay sau quá trình dịch 
thuật (với ngôn ngữ các tài liệu) [7]. 
 3.1.3. Thu hẹp câu truy vấn 
 Trong truy vấn đơn ngữ, bên cạnh các câu truy vấn ngắn chứa 1-2 từ khóa 
khá phổ biến, các câu truy vấn dài với độ dài trên 5 từ khóa (ví dụ tiêu đề tin tức, 
trích dẫn lời phát biểu,) chiếm một phần đáng kể (khoảng 10%) [10]. Các máy 
tìm kiếm thường xử lý các câu truy vấn dài kém hơn so với các câu truy vấn ngắn 
[10] và thu hẹp câu truy vấn (query reduction) là một trong các kỹ thuật thường 
được sử dụng để nâng cao hiệu quả xử lý của các câu truy vấn dài [5], [77]. Các tác 
giả Kumaran và Carvalho [77] coi việc thu hẹp câu truy vấn như bài toán xếp hạng: 
các tham số dự đoán chất lượng câu truy vấn như Mutual Information, Query 
Clarity, IDF-based features, Query Scope,.. được định nghĩa và sử dụng như các 
tham số thành phần của một hàm xếp hạng và sau đó áp dụng kỹ thuật học máy 
RankSVM để tìm kiếm câu truy vấn thành phần có chất lượng cao nhất (phương 
pháp pointwise). Balasubramanian và Drive [5] xem xét tập hợp các câu truy vấn 
thành phần (sub query) được tạo lập bằng cách loại bỏ đi một số từ trong câu truy 
 - 71 - 
vấn gốc và áp dụng kỹ thuật học máy để so sánh các cặp câu truy vấn trong tập hợp 
với mục tiêu giảm thiểu các lỗi xếp hạng (phương pháp pairwise). Zukerman và các 
đồng sự [173] tạo lập thông tin thống kê về phân bố (dựa trên số lần xuất hiện) của 
các từ khóa, phân đoạn câu truy vấn và đề xuất mô hình đồ thị phục vụ ra quyết 
định (Decision-graph analysis) nhằm loại bỏ các từ có số lần xuất hiện vượt quá các 
ngưỡng được xác định như tham số của mô hình. Đối với truy vấn xuyên ngữ, việc 
xác định và loại bỏ các từ không phù hợp trong câu truy vấn có thể được thực hiện 
trước hoặc sau khi dịch với mục tiêu tăng chất lượng kết quả tìm kiếm. Tại các 
nghiên cứu của Braschler và Gey [13], [51], câu truy vấn ở ngôn ngữ nguồn được 
chỉnh sửa, loại bỏ các từ xuất hiện quá phổ biến nhằm loại bỏ ảnh hưởng của các từ 
khóa không phù hợp, tuy nhiên quá trình này được thực hiện thủ công. 
 3.1.4. Xử lý thuật ngữ không có trong từ điển 
 Vấn đề các từ khóa không nhận biết do nằm ngoài từ điển (Out Of 
Vocabulary) tồn tại khá phổ biến trong các nghiên cứu CLIR. Các giải pháp ban đầu 
xử lý vấn đề này đề xuất việc xây dựng các từ điển chuyên ngành giới hạn chủ yếu 
cho việc xử lý các thuật ngữ kỹ thuật [119]. Một số nghiên cứu áp dụng kỹ thuật 
chuyển ngữ, phân tích sự tương tự trong cấu trúc tạo lập từ giữa hai ngôn ngữ để 
xây dựng các luật xác định một chuỗi kỹ tự ở ngôn ngữ này được áp dụng thế nào 
tại ngôn ngữ khác [28], [50]. Gần đây, các tác giả khai thác WWW để nhận dạng 
các mẫu chuyển ngữ dựa trên quan sát: khi các tên riêng, thuật ngữ mới xuất hiện 
trên các trang web, thường chúng sẽ đi kèm với văn bản gốc [170]. Các phân tích 
thống kê sau đó được áp dụng nhằm xác định bản dịch. Các liên kết ngôn ngữ 
Wikipedia cũng được sử dụng để tạo lập bản dịch cho các loại thuật ngữ loại này, 
tuy nhiên kết quả còn tương đối hạn chế. 
 Trong luận án, tác giả tập trung nghiên cứu, đề xuất các phương pháp phân 
đoạn câu truy vấn ở ngôn ngữ nguồn - ngôn ngữ câu truy vấn (giới 

File đính kèm:

  • pdfluan_an_mot_so_phuong_phap_phuc_vu_xep_hang_trang_web_trong.pdf
  • pdfEnglish - Lam Tung Giang - Nhung dong gop moi cua luan an.pdf
  • pdfEnglish - Lam Tung Giang - Trich Yeu Luan An.pdf
  • pdfEnglish - Tom Tat Lam Tung Giang - Thesis.pdf
  • pdfVietnamese - Lam Tung Giang - Nhung dong gop moi cua luan an.pdf
  • pdfVietnamese - Lam Tung Giang - Trich Yeu Luan An.pdf
  • pdfVietnamese - Tom Tat Lam Tung Giang - Thesis.pdf