Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt trang 1

Trang 1

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt trang 2

Trang 2

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt trang 3

Trang 3

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt trang 4

Trang 4

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt trang 5

Trang 5

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt trang 6

Trang 6

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt trang 7

Trang 7

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt trang 8

Trang 8

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt trang 9

Trang 9

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 150 trang nguyenduy 03/05/2024 150
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt

Luận án Đánh giá mức độ giống nhau của văn bản tiếng Việt
 - rb = [5 6 3 4 1 2] 
 Và với văn bản c: “Đà thành” thì hai văn bản a và c sẽ có hai vector thứ tự từ 
ra và rc tương ứng như sau: 
 - 58 - 
 - ra = [1 2 3 4 5 6] 
 - rc = [1 3 0 0 0 0] 
 Ta có công thức tính độ tương tự của thứ tự từ giữa hai vector [1, 65]: 
 m 2
  ria - r ib 
 rab - r
 Sim (ab , ) 1 1 i 1
 R m (2.11) 
 rab + r 2
  ria + r ib 
 i 1
 Trong đó: ra là vector thứ tự các từ trong văn bản a, rb là vector thứ tự các từ 
trong văn bản b, m là số từ chung trong hai văn bản, ria là thứ tự của từ i trong văn 
bản a, rib là thứ tự của từ i trong văn bản b. 
 Như vậy, độ tương tự nội dung văn bản đại diện cho sự giống nhau về mặt từ 
vựng, còn độ tương tự về thứ tự các từ sẽ cung cấp thông tin về mối quan hệ giữa các 
từ. Những từ xuất hiện trong câu hoặc đứng trước hoặc đứng sau các từ khác đều 
đóng vai trò truyền đạt ý nghĩa của câu. Vì thế, độ đo giống nhau của các văn bản là 
sự kết hợp giữa độ đo tương tự về mặt nội dung và thứ tự của từ trong văn bản. Ta có 
công thức tính như sau: 
 ab rab - r
 S(a , b )  Sim( a , b ) (1--  )Sim ( a , b )  + (1  )
 R ab (2.12) 
 rab + r
 Với 01  ,  là giá trị có thể tinh chỉnh trong quá trình huấn luyện để có 
được kết quả với độ chính xác tốt nhất. Tùy thuộc vào bộ dữ liệu, khi thực nghiệm ta 
có thể tinh chỉnh qua nhiều mức khác nhau để lựa chọn giá trị phù hợp trên bộ dữ 
liệu huấn luyện đó. Trong luận án việc thực nghiệm phương pháp trên bộ dữ liệu tiếng 
Việt nhỏ với mong muốn cho kết quả trong mức độ chấp nhận được nên luận án lựa 
chọn tham số = 0.5 để xem như lấy giá trị trung bình cộng của hai độ đo trên, đó là 
độ đo tương tự tính theo Cosine - S(a,b) và độ đo thứ tự của từ SimR (a,b). 
 Ví dụ 2.10: Tính toán độ tương tự có tính đến trật tự của các từ của hai văn 
bản sau: 
 - a: “Đà ẵN ng là thành phố đáng sống nhất Việt Nam” 
 - 59 - 
 - b: “Đà thành” 
 Ta có vector thứ tự các từ của hai văn bản là: 
 - ra = [1 2 3 4 5 6 7 8 9 10] 
 - rb = [1 4 0 0 0 0 0 0 0 0] 
 Tính trọng số TF của hai vector a và b: 
 Đà Nẵng là thành phố đáng sống nhất Việt Nam tôi yêu 
a 
 TF 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 
 Từ Đà thành 
b 
 TF 0.5 0.5 
 Tính trọng số IDF: 
 Đà Nẵng là thành phố đáng sống nhất Việt Nam tôi yêu 
IDF 1 1.693 1.693 1 1.693 1.693 1.693 1.693 1.693 1.693 1.693 1.693 
 Tính trọng số TF-IDF: 
 Đà Nẵng là thành phố đáng sống nhất Việt Nam tôi yêu 
a 0.1 0.17 0.17 0.1 0.17 0.17 0.17 0.17 0.17 0.17 0.17 0.17 
b 0.5 0 0 0.5 0 0 0 0 0 0 0 0 
 Tính độ tương tự giữa hai vector a và b: 
 0.5 0.1 0.5 0.1 0.1
 Sim(ab , ) = 1 
 0.52 0.5 2 0.1 2 0.1 2 0.1
 Tính độ tương tự thứ tự từ giữa hai vector a và b: 
 
 (1 1)2 (2 4) 2 (3 0) 2 ... (10 0) 2 19.60
 SimR (ab , ) = 1- 0.04 
 (1 1)2 (2 4) 2 (3 0) 2 ... (10 0) 2 20.49
 Với = 0.5, áp dụng công thức tính độ tương tự toàn văn bản ta có kết quả:
S(ab , ) 0.-... 5 1 (1 0 5) 0 04 0 52 
 Mở rộng với kho dữ liệu văn bản, khi xét đến vị trí hay thứ tự các từ trong tập 
từ chung đã được sắp xếp theo trật tự nhất định bằng cách đánh chỉ mục sắp xếp các 
văn bản theo thứ tự và các từ chung cũng được sắp xếp theo thứ tự của từ xuất hiện 
trong một văn bản và thứ tự của các văn bản để tạo thành tập từ chung T chứa các từ 
đơn riêng biệt theo một trật tự nhất định. Khi có văn bản cập nhật vào kho dữ liệu thì 
 - 60 - 
văn bản được đánh chỉ mục tiếp theo và các từ cũng được bổ sung vào sau của tập từ 
chung. Với cách sắp xếp này, ta tạo được vector tập từ chung chứa các từ đã có thứ 
tự. Với văn bản kiểm tra cũng xét từng từ đơn theo thứ tự xuất hiện từ đầu đến cuối 
văn bản để xác định vector thứ tự từ của văn bản đó. Như vậy, với cách sắp xếp này 
thì sẽ duy trì được trật tự từ một cách thống nhất, tức là các vector đặc trưng văn bản 
đã có thứ tự nhất định nên không làm ảnh hưởng đến kết quả tính khoảng cách của 
hai vector. 
 Như vậy, nhằm tăng độ chính xác trong quá trình huấn luyện thực nghiệm, 
luận án đã bổ sung giai đoạn tính độ tương tự theo trật tự các từ trong văn bản để đảm 
bảo độ chính xác cao hơn. Quy trình để so sánh độ tương tự giữa hai văn bản có xét 
đến trật tự các từ được thực hiện qua các bước sau: 
 - Bước 1: Xác định danh sách tập từ chung cho hai văn bản. Tập từ chung này 
bao gồm tất cả những từ/cụm từ phân biệt có trong hai văn bản. 
 - Bước 2: Tính trọng số từ chỉ mục của các vector bằng phương pháp TF-IDF 
nhằm tăng độ phủ của từ/cụm từ. Kỹ thuật tính tần suất đặc trưng dựa trên tần số từ 
khóa và tần số văn bản nghịch đảo TF-IDF cho phép nhấn mạnh vai trò của từ/cụm 
từ trong nội dung của văn bản. 
 - Bước 3: Tìm vị trí của từ/cụm từ có trong tập từ chung để đưa ra vector thứ tự 
từ trong mỗi văn bản. 
 - Bước 4: Áp dụng các công thức tính độ tương tự Cosine, độ tương tự trật tự 
từ và độ tương tự tổng hợp giữa hai văn bản. 
 Phần sau đây, luận án đề xuất các thuật toán tính toán độ tương tự văn bản dựa 
trên mô hình vector theo đơn vị từ và câu, có xét đến yếu tố trật tự của từ để có thể 
tăng độ chính xác khi tính độ tương tự văn bản. So sánh hai phương pháp này dựa 
trên kết quả thực nghiệm trên bộ dữ liệu tiếng Việt từ các luận văn tốt nghiệp và có 
những nhận xét để làm tiền đề cho các nghiên cứu và đề xuất tiếp theo. 
2.3.2.2. Tính độ tương tự có yếu tố trật tự các từ trong văn bản 
 Phương pháp đề xuất với mục đích là tính mức độ giống nhau của văn bản 
kiểm tra với tập văn bản mẫu cho trước, trong đó có xét đến yếu tố trật tự các từ trong 
văn bản. 
 - 61 - 
 Thuật toán 2.1. Tính độ tương tự có yếu tố trật tự các từ trong văn bản 
 Đầu vào: Tập văn bản cho trước và văn bản kiểm tra. 
 Đầu ra: Độ tương tự giữa văn bản kiểm tra với các văn bản cho trước. 
 Xử lý: Thực hiện qua các bước sau: 
1 Bước 1: Tiền xử lý (Tách từ đơn, loại bỏ từ dừng, tạo danh sách từ vựng...) 
2 Bước 2: Tính trọng số các từ chỉ mục wtd=TF-IDF (theo công thức 2.4), cụ thể 
 như sau: 
3 - Tính trọng số TF: // Từ chỉ mục t, văn bản d, Nt,d là số 
 N
 tf(t,d) = t,d
 lần xuất hiện của t trong d, Nd tổng số Ntừ trong văn bản d 
 d
 N
4 - Tính trọng số IDF: idf(t,D) = 1+ ln // D là tập văn bản, N: Số văn 
 N
 t
 bản trong tập D, Nt: Số văn bản có từ t xuất hiện. 
5 - Tính trọng số TF-IDF của từ chỉ mục t trong văn bản d theo công thức: 
 w =tf(t,d) idf t,D 
 td 
6 Bước 3: Xây dựng ma trận trọng số Từ/Văn bản biểu diễn tập văn bản D và 
 vector văn bản kiểm tra q 
7 Bước 4: Tính độ tương tự giữa vector văn bản kiểm tra q với văn bản k trong 
 tập D bằng độ đo Cosine (theo công thức 2.5) 
 n
 qkii
 i 1
 Sim(q , k ) = 
 nn
 22
 qkii
 ii 11
8 Bước 5: Tạo vector thứ tự giữa 2 văn bản là rq và rk. 
9 Bước 6: Tính độ tương tự thứ tự từ giữa 2 vector q và k (theo công thức 2.11) 
 m 2
 r - r
  iq ik 
 i 1
 SimR()q , k 1 
 m 2
  riq + r ik 
 i 1
10 Bước 7: Tính độ tương tự tổng hợp giữa 2 vector q và k (theo công thức 2.12) 
 S(q , k )  Sim( q , k ) (1- )Sim ( q , k )
 R 
11 Lặp lại từ bước 4 đến bước 7 để tính độ tương tự giữa vector văn bản kiểm tra q 
 với các văn bản còn lại trong tập văn bản D 
 - 62 - 
2.3.2.3. Tính độ tương tự dựa trên mô hình vector đơn vị câu 
 Phương pháp được dùng phổ biến để tính độ tương tự văn bản dựa trên mô 
hình vector với các trọng số đặc trưng cho từ/cụm từ (n-gram từ) sử dụng độ đo 
Cosine để tính độ tương tự. Như đã trình bày ở phần trước, phương pháp này đơn 
giản và cho kết quả khả quan. Tuy nhiên khi tính toán phương pháp này sẽ duyệt qua 
tất cả các từ chỉ mục ảnh hưởng đến việc xử lý. Để số lần duyệt qua tập văn bản ít 
hơn, luận án đề xuất thuật toán tính độ tương tự của hai văn bản dựa trên đơn vị là 
câu. Dưới đây là mô hình quá trình vector hóa theo đơn vị là câu. 
 Hình 2.4. Quá trình vector hóa theo đơn vị câu 
 Trọng số của một câu được tính bằng tổng độ tương tự của câu đó với tất cả 
các câu khác được biểu diễn trong mô hình không gian vector văn bản. Mỗi trọng số 
của câu được tính theo công thức sau: 
 n
 Sim(S ,S )  w w (2.13) 
 i j ik jk
 k 1
 - 63 - 
 m
 Score(S )  Sim(S ,S ) (2.14)
 i i j
 j 1 , j i 
 Trong đó: Sim(Si, Sj) là độ tương tự giữa hai câu i và j; wik là trọng số của từ 
thứ k trong câu thứ i; n là số từ chung của hai câu i và j; m là số câu trong văn bản bất 
kỳ. 
 Thuật toán so sánh văn bản dựa trên mô hình vector đơn vị là câu được đề xuất 
như sau: 
 Thuật toán 2.2. Tính độ tương tự dựa trên mô hình vector đơn vị câu 
 Đầu vào: Tập văn bản cho trước và văn bản kiểm tra. 
 Đầu ra: Độ tương tự giữa văn bản kiểm tra với các văn bản cho trước. 
 Xử lý: Thực hiện qua các bước sau: 
 1 Bước 1: Tiền xử lý (Tách câu, tách từ đơn, tạo danh sách từ vựng...) 
 2 Bước 2: Xây dựng ma trận trọng số Từ/Văn bản bằng cách tính trọng số TF-IDF 
 3 Bước 3: Tính trọng số của các câu trong vector văn bản q 
 4 - Tính độ tương tự giữa hai câu trong văn bản kiểm tra, với wik là trọng số của từ 
 thứ k trong câu thứ i theo công thức: 
 n
 Sim(S ,S )  w w 
 q j qk jk
 k 1
 5 - Tính trọng số của câu trong văn bản kiểm tra theo công thức: 
 m
 Score(S )  Sim(S ,S ) 
 q q j
 j 1 , j q
 6 Bước 4: Xây dựng vector trọng số câu cho văn bản kiểm tra q 
 7 Bước 5: Tính trọng số của câu trong tập văn bản D cho trước 
 8 - Tính độ tương tự giữa hai câu trong một văn bản, với wik là trọng số của từ thứ k 
 trong câu thứ i theo công thức: 
 n
 Sim(S ,S )  w w 
 i j ik jk
 k 1
 9 - Tính trọng số của câu trong văn bản bất kỳ theo công thức: 
 m
 Score(S )  Sim(S ,S ) 
 i i j
 j 1 , j i
 10 Bước 6: Xây dựng ma trận trọng số của Câu/Văn bản cho toàn bộ tập văn bản 
 11 Bước 7: Tính độ tương tự giữa 2 văn bản theo Cosine (công thức 2.10) 
 - 64 - 
2.3.2.4. Nhận xét 
 Qua nghiên cứu tính toán độ tương tự văn bản dựa trên các độ đo Cosine, 
Jaccard, Manhattan, Levenshtein, luận án đã thực nghiệm, cài đặt các độ đo đó để 
tính độ tương tự văn bản được biểu diễn theo mô hình vector. Trên cơ sở đó, luận án 
đã đề xuất phương pháp so sánh văn bản dựa trên mô hình vector với đơn vị là từ và 
câu với trọng số đặc trưng được tính theo TF-IDF và sử dụng độ đo Cosine để tính 
độ tương tự, trong đó có tính đến độ tương tự theo trật tự từ nhằm tăng độ chính xác. 
Bên cạnh đó, chúng tôi tạo ra bộ dữ liệu để thực nghiệm các thuật toán dựa trên độ 
đo Cosine, Jaccard, Manhattan, Levenshtein và bộ dữ liệu gồm các luận văn tốt 
nghiệp để đánh giá phương pháp đề xuất. Nội dung thực nghiệm và đánh giá được 
trình bày ở phần sau. 
 Đánh giá các phương pháp dựa trên mô hình vector 
 Tạo bộ dữ liệu để đánh giá các thuật toán 
2.4.1.1. Để đánh giá các phương pháp tính độ tương tự văn bản 
 Chúng tôi tạo bộ dữ liệu mẫu gồm các văn bản tiếng Việt bằng cách tạo hai tài 
liệu A và B với nội dung hoàn toàn khác nhau bằng cách tạo ra mỗi tài liệu có 1.000 
từ riêng biệt. Sau đó, chọn ngẫu nhiên trong tài liệu A có 200 từ (chiếm 20% tổng số 
từ của tài liệu) để thay thế cho 200 từ được chọn ngẫu nhiên trong tài liệu B. Như 
vậy, chúng ta có thể ước lượng chính xác tỷ lệ giống nhau giữa chúng là 20%. Tương 
tự, chúng tôi đã tạo ra các tài liệu có tỷ lệ giống nhau là 40%, 60%, 80% và 100%. 
 Để kiểm tra tính chính xác của các thuật toán, khi so sánh một tài liệu bất kỳ 
với tài liệu đầu tiên (Doc_1.docx) thì kết quả tính toán của các thuật toán được so 
sánh với giá trị ước lượng. Dưới đây là bảng mô tả các trường hợp thử nghiệm. 
 Bảng 2.1. Các tài liệu mẫu để so với giá trị ước lượng 
 Trường hợp thử nghiệm Tài liệu Ước lượng tỷ lệ giống nhau (%) 
 TH1 Doc_2.docx 0 
 TH2 Doc_3.docx 20 
 TH3 Doc_4.docx 40 
 TH4 Doc_5.docx 60 
 - 65 - 
 TH5 Doc_6.docx 80 
 TH6 Doc_7.docx 100 
2.4.1.2. Để thử nghiệm với phương pháp cải tiến sử dụng độ đo Cosine 
 Trong luận án đã tạo bộ dữ liệu thử nghiệm với 100 luận văn tốt nghiệp của 
sinh viên Khoa Công nghệ Thông tin, Trường Đại học Bách khoa, ĐHĐN. Những 
luận văn này sẽ được xử lý để giữ lại phần nội dung văn bản (text), những nội dung 
khác được loại bỏ (hình ảnh, bảng số liệu...). 
 Đánh giá các thuật toán dựa trên mô hình vector 
 Luận án đã xây dựng một ứng dụng với các chức năng như: Tiền xử lý văn 
bản, vector hóa, so khớp, hiển thị kết quả và vẽ biểu đồ. Kết quả thực nghiệm như 
sau: 
2.4.2.1. Đánh giá các phương pháp tính độ tương tự văn bản 
 Kết quả thực nghiệm đã xử lý được dữ liệu để phục vụ cho quá trình so sánh 
văn bản, tỷ lệ so khớp có sự chênh lệch giữa các phương pháp và so với các trường 
hợp ước lượng không lớn. 
 Các thuật toán đều cho kết quả so sánh có giá trị là 100% khi hai văn bản giống 
nhau hoàn toàn và kết quả là 0% khi hai văn bản khác nhau hoàn toàn. Trong các 
trường hợp còn lại, kết quả của thuật toán so với giá trị ước lượng có độ chênh lệch 
tương đối, cụ thể là: 
 - Dựa trên độ đo Cosine: Thuật toán sử dụng phương pháp tần số từ, vì dữ liệu 
thử nghiệm được lựa chọn theo chuẩn đặt ra với tập từ vựng riêng biệt đã cho độ 
chính xác tuyệt đối so với giá trị ước lượng nên phương pháp này cho kết quả chính 
xác. Vì vậy, phương pháp tính độ tương tự văn bản dựa trên độ đo Cosine đem lại 
hiệu quả trong phát hiện sự giống nhau của văn bản khi so sánh theo từ vựng. 
 - Dựa trên độ đo Jaccard và Manhattan: Mặc dù hai phương pháp này có công 
thức tính độ tương tự khác nhau nhưng khi sử dụng tách từ đơn (n-gram bằng 1) thì 
cho ra hai kết quả khá tương đồng. Nếu thực nghiệm với cụm từ sử dụng bigram hoặc 
trigram (hoặc n lớn hơn) sẽ cho hai kết quả khác nhau dù chênh lệch không nhiều. 
 - 66 - 
 - Dựa trên độ đo Levenshtein có ưu điểm dùng để đo khoảng cách giữa hai chuỗi 
dựa vào ký tự, vì vậy trong trường hợp hai văn bản khác nhau hoàn toàn về từ thì 
cũng có thể giống nhau về ký tự và khoảng trắng, nên độ đo tương tự của hai văn bản 
khác nhau hoàn toàn cũng có thể lớn hơn 0%. Hơn nữa việc tính toán dựa vào độ 
chính xác của các ký tự nên phương pháp này sử dụng đo độ tương tự của văn bản sẽ 
không hiệu quả, tốn chi phí. 
 Dưới đây là bảng tổng hợp kết quả ghi được của các phương pháp so với các 
trường hợp thử nghiệm và kết quả ước lượng. 
 Bảng 2.2. Tổng hợp kết quả của các phương pháp 
 Kết quả thử nghiệm tính theo độ đo (%) 
 Trường hợp Ước lượng (%) 
 Cosine Jaccard Manhattan Levenshtein 
 TH1 0 0 0 26.86 0 
 TH2 20 10.21 11.11 40.27 20 
 TH3 40 24.51 25 56.12 40 
 TH4 60 42.78 46.45 70.26 60 
 TH5 80 66.61 67.75 85.14 80 
 TH6 100 100 100 100 100 
 Hình 2.5. Biểu đồ so sánh kết quả thuật toán với tập tài liệu 
 - 67 - 
 Với kết quả trên, cho thấy luận án đã nghiên cứu cách biểu diễn văn bản theo 
mô hình vector, sử dụng các độ đo để tính độ tương tự của văn bản và xây dựng hệ 
thống thực nghiệm. Tuy nhiên, hệ thống so khớp mới thử nghiệm ở việc so sánh với 
bốn độ đo khác nhau trên các văn bản .doc hoặc .docx và kho dữ liệu nhỏ. 
 Thời gian và dung lượng tiêu tốn cho quá trình so khớp phụ thuộc vào độ dài 
của văn bản so khớp (tức số lượng từ vựng có trong văn bản). Với việc biểu diễn n 
văn bản và m từ chỉ mục sẽ tạo thành ma trận vector có số chiều nxm. Khi tính độ 
tương tự, duyệt qua tất cả các từ và các văn bản nên độ phức tạp về thời gian của 
thuật toán khi so sánh là O(nm). 
2.4.2.2. Đối với phương pháp cải tiến sử dụng độ đo Cosine 
 Kết quả thực nghiệm trên bộ dữ liệu với 100 luận văn tốt nghiệp và cho kết 
quả so sánh nội dung của văn bản dựa trên đơn vị từ và câu. Dưới đây là kết quả so 
sánh một văn bản cần kiểm tra với các văn bản khác trong kho dữ liệu chứa 100 luận 
văn tốt nghiệp. 
 Hình 2.6. Biểu đồ so sánh văn bản theo đơn vị từ và câu 
 Kết quả so sánh có giá trị là 100% khi hai văn bản giống nhau hoàn toàn. Qua 
thực nghiệm, chúng ta nhận thấy đường so sánh theo đơn vị từ và câu khá tương tự 
nhau và kết quả tỷ lệ so khớp có sự chênh lệch giữa vector hóa văn bản dựa trên từ 
và câu là do phụ thuộc vào phương pháp và các hàm tính trọng số. 
 - 68 - 
 Nhận xét 
 Mặc dù, phương pháp dựa trên vector và các độ đo tương tự phổ biến như đã 
đề cập ở trên đã đem lại hiệu quả và giải quyết được mục tiêu bài toán là đánh giá độ 
tương tự các văn bản. Tuy nhiên, với phương pháp đề xuất này thì độ chính xác cũng 
chưa cao. Bên cạnh đó, phương pháp biểu diễn theo vector vẫn còn hạn chế về số 
chiều biểu diễn cho tập văn bản sẽ rất lớn nên tốn không gian lưu trữ, độ phức tạp 
của thuật toán khi so sánh tăng và làm giảm tốc độ tính toán. 
 Với những nội dung nghiên cứu đạt được ở Chương này là cơ sở để chúng tôi 
tiếp tục ứng dụng mô hình biểu diễn vector một cách phù hợp nhất trong phạm vi 
nghiên cứu của luận án. Nội dung chi tiết có liên quan được đề cập trong các chương 
sau. 
 Kết luận Chương 2 
 Qua các nghiên cứu và khảo sát, mô hình vector và các biến thể của mô hình 
này là các phương pháp được dùng phổ biến nhất để xử lý văn bản. Hầu hết các nghiên 
cứu sử dụng mô hình vector để biểu diễn văn bản với thành phần là các đặc trưng về 
từ, cụm từ (n-gram),... Trong nội dung Chương 2 đã trình bày cách tính trọng số đặc 
trưng của văn bản, phương pháp biểu diễn văn bản theo mô hình vector và ứng dụng 
các độ đo để tính độ tương tự giữa các văn bản bằng cách đo góc hoặc khoảng cách 
giữa các vector. Xây dựng các bộ dữ liệu tiếng Việt và ứng dụng để thử nghiệm nhằm 
đánh giá các kết quả đạt được, định hướng cải tiến và đề xuất phương pháp mới để 
có thể giải quyết bài toán đề ra đem lại hiệu quả tốt hơn. Kết quả nghiên cứu trong 
Chương 2 có ở các công trình công bố trên tạp chí trong nước và nước ngoài6. 
 6 (1) Hung Vo Trung, Ngoc Anh Nguyen, Hieu Ho Phan, Thi Dung Dang, Comparison of the Documents 
Based On Vector Model: A Case Study of Vietnamese Documents. American Journal of Engineering Research 
(AJER), Vol 6(7), 2017, (251-256). 
 (2) Hồ Phan Hiếu, Võ Trung Hùng, Nguyễn Thị Ngọc Anh, Một số phương pháp tính độ tương tự văn 
bản dựa trên mô hình vector. Tạp chí Khoa học và Công nghệ ĐHĐN, Số 11(120), 2017, (112-117). 
 - 69 - 
 Trên cơ sở khảo sát, phân tích, thực nghiệm và đánh giá, chúng ta có thể khẳng 
định phương pháp biểu diễn văn bản theo mô hình vector là thông dụng nhất. Trong 
Chương này đã trình bày nội dung liên quan về mô hình vector và đề xuất phương 
pháp tính độ tương tự giữa hai văn bản hoặc một văn bản cần kiểm tra với kho dữ 
liệu dựa trên mô hình vector với phương pháp đánh trọng số TF-IDF và ứng dụng các 
độ đo Cosine, Jaccard, Manhattan, Levenshtein để tính độ tương tự giữa các vector. 
Trên cơ sở đó, chúng tôi đã chọn độ đo Cosine để tính độ tương tự dựa trên đơn vị từ 
và câu thực nghiệm trên tập dữ liệu thực tế để chứng minh phương pháp đề xuất có 
thể tính toán độ tương tự của văn bản tiếng Việt. 
 Trong nhiệm vụ nghiên cứu, luận án không tập trung về mặt ngữ nghĩa mà chủ 
yếu nghiên cứu và đề xuất, cải tiến những phương pháp phổ biến và tìm ra phương 
pháp mới nhằm đem lại độ chính xác cũng như độ phức tạp tính toán thấp hơn so với 
các phương pháp khác. Luận án tiếp tục nghiên cứu và đề ra giải pháp mới để giải 
quyết bài toán này tối ưu hơn, đó là chuyển từ văn bản sang số để tận dụng những ưu 
điểm về số trong xử lý dữ liệu lớn, tìm kiếm nhanh và độ chính xác cao. Bên cạnh 
đó, trong phương pháp đề xuất mới, luận án ứng dụng những nghiên cứu trong 
phương pháp biểu diễn vector cho các chuỗi số thực làm đầu vào của bộ lọc Haar để 
tạo thành các DNA, lưu trữ và đánh dấu dữ liệu nhằm hỗ trợ tìm kiếm và truy xuất 
các tài liệu nguồn. Nội dung trọng tâm của nghiên cứu này sẽ được trình bày chi tiết 
trong Chương 3. 
 - 70 - 
 PHÁT HIỆN SAO CHÉP VĂN BẢN DỰA TRÊN 
 BIẾN ĐỔI WAVELET RỜI RẠC 
 Chương này trình bày nội dung đề xuất theo hướng tiếp cận mới để giải quyết 
bài toán dựa trên phép biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) 
và sử dụng bộ lọc Haar. Nội dung chính sẽ trình bày vắn tắt về DWT, bộ lọc Haar và 
chuỗi số DNA; đề xuất ý tưởng ứng dụng bộ lọc Haar; đề xuất mô hình hệ thống phát 
hiện sao chép; đề xuất quy trình chuyển dữ liệu văn bản thô thành các chuỗi số thực 
(DNA); đề xuất cá

File đính kèm:

  • pdfluan_an_danh_gia_muc_do_giong_nhau_cua_van_ban_tieng_viet.pdf
  • pdf2-HoPhanHieu-Tomtat_tiengAnh.pdf
  • pdf3-HoPhanHieu-Tomtat_tiengViet.pdf
  • pdf4-HoPhanHieu-Dong_gop_moi_cua_LA.pdf
  • pdf5-HoPhanHieu-Trich_yeu_cua_LA.pdf