Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt trang 1

Trang 1

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt trang 2

Trang 2

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt trang 3

Trang 3

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt trang 4

Trang 4

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt trang 5

Trang 5

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt trang 6

Trang 6

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt trang 7

Trang 7

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt trang 8

Trang 8

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt trang 9

Trang 9

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 168 trang nguyenduy 11/05/2024 1400
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt

Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt
 cvtviet (phụ lục 2). Bảng tttdviet phục vụ 
cho việc cập nhật tự động làm giàu kho dữ liệu CVT tiếng Việt trên Internet hoặc từ 
các tập tin văn bản. Bảng gồm các trường: cvt (chữ viết tắt), Cau (câu hay cụm từ 
đầy đủ của CVT), Doan (đoạn văn bản chứa câu hay cụm từ viết tắt), NguonURL, 
GhiChu (nguồn gốc CVT, website hay tập tin...), Ngay (ngày thu thập được CVT), 
MaCN (mã cập nhật của người biên tập) - khoá ngoài liên kết với bảng nguoncncvt 
(phụ lục 2). 
 Để đảm bảo an toàn dữ liệu, tính chính xác của thuật ngữ viết tắt, dữ liệu lưu ở 
các bảng trung gian được biên tập lại sau đó mới đưa vào sử dụng chính thức trong 
bảng cvts. Kết quả xây dựng, cài đặt CSDL như hình 3.2. 
3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT 
3.2.1. Thu thập dữ liệu thủ công 
 Giải pháp cập nhật thủ công thường được sử dụng để cập nhật dữ liệu khi xây 
dựng bất kỳ một hệ thống CSDL nào. Nguồn dữ liệu được thu thập từ các nguồn khác 
nhau như sách, từ điển, báo, tạp chí, văn bản pháp quy, báo cáo khoa học, hay từ 
thực tiễn cuộc sốngCó chú ý lưu lại nguồn tham khảo CVT, người cập nhập, người 
biên tập dữ liệu. Phương pháp thực hiện: 
 Trước đây, sử dụng hệ soạn thảo văn bản Winword để tiến hành cập nhật và 
kiểm tra thủ công nội dung hệ thống CVT theo từng lĩnh vực sử dụng khác nhau. Các 
CSDL của CVT trong Winword được xây dựng trước khi cập nhật có cấu trúc dạng 
mẫu văn bản (document template) đã được phát triển ở Khoa CNTT, Đại học Đà 
Nẵng [44][45]. Từ các CSDL văn bản Winword, tiếp tục chuyển đổi qua dạng XML 
hoặc dạng CSDL khai thác sử dụng bằng MySQL. 
 61 
 Do số lượng CVT lớn, phân ra nhiều lĩnh vực khác nhau, để từng bước làm đầy 
kho ngữ liệu CVT, đối với những CVT phát sinh trong thực tiễn, hiện nay ta sử dụng 
cách cập nhật trực tuyến thủ công bởi hệ thống website hoàn chỉnh, thực hiện quản 
trị và biên tập cập nhật, tiến đến cung cấp cho NSD cập nhật trực tuyến. Cách thu 
thập thông tin trực tuyến là cách huy động nguồn lực và trí tuệ tập thể nhiều người để 
làm giàu kho dữ liệu. 
3.2.2. Thu thập dữ liệu tự động 
 Từ kết quả cập nhật thủ công, trực tuyến nêu trên, tiếp tục làm giàu CSDL của 
CVT một cách tự động từ môi trường Internet hoặc các tập tin dữ liệu đã có. Đây là 
giải pháp cập nhật tự động dữ liệu. Giải pháp cập nhật tự động giới hạn trong việc 
tìm kiếm những CVT mới tiếng Việt. 
 Nguồn dữ liệu được thu thập từ các website trên mạng Internet, các tập tin dữ 
liệu dạng *. HTM, tập tin dữ liệu văn bản phổ biến như *.DOC. Có lưu lại nguồn 
tham khảo, trích dẫn CVT, người cập nhập, người biên tập dữ liệu. 
 Phương pháp thực hiện: Dựa vào các dấu hiệu nhận biết CVT trong một văn 
bản, trích lọc ra các CVT mới để bổ sung vào CSDL. Hai phương pháp đề xuất: 
 1) Cập nhật CVT mới từ tập tin văn bản DOC 
 Dữ liệu văn bản hiện nay được soạn thảo và lưu giữ rất phổ biến bởi phần mềm 
Winword. Việc thu thập CVT mới từ các văn bản word là khả thi. Có thể thực hiện 
giải pháp thu thập các CVT mới từ trong các tập tin văn bản *.DOC. Thay vì phải tìm 
từng cụm từ viết tắt, phương pháp đề xuất là “bán tự động”, dựa vào Macro và lập 
trình VBA để thực nghiệm. Bằng cách mở tập tin Word, thực hiện một Marcro chọn 
lọc các cụm từ trong cặp dấu ngoặc đơn (...), đưa về một bảng, từ đó tiếp tục biên tập, 
chuyển đổi thành dữ liệu CVT chính thức. Macro này sẽ thực hiện các bước theo 
thuật toán đã chỉ định như mục 1, phần phụ lục 3). 
 2) Cập nhật CVT mới tự động từ Internet 
 Luận án nghiên cứu, phát triển máy tìm kiếm CVT dựa vào công cụ máy tìm 
kiếm đã được giới thiệu nguyên lý trong [11]. Ý tưởng hoạt động như sau: máy tìm 
kiếm CVT nhận một danh sách URL, gửi yêu cầu đến Web Server và nhận lại một 
 62 
trang HTML tương ứng với mỗi URL (tương tự chức năng View Source trong trình 
duyệt Internet Explorer). 
 Bước tiếp theo, chương trình sẽ phân tích nội dung tập tin dạng HTML. Vận 
dụng các hàm chức năng của các ngôn ngữ lập trình có hỗ trợ ứng dụng biểu thức 
chính quy (Regular Expressions) để loại bỏ các thẻ HTML và các thẻ khác, chuyển 
tập tin về dạng đơn giản hơn. Tiếp theo là xử lý tập tin theo kiểu xử lý chuỗi để bóc 
tách nội dung văn bản cần tìm, lọc ra CVT mới để lưu vào CSDL, so sánh với CVT 
trong CSDL để lưu giữ hoặc không, hoặc có những đánh giá cần thiết khác. Thuật 
toán mô tả hoạt động của máy tìm kiếm CVT trong môi trường Internet như sau: 
 Mô tả thuật toán tìm kiếm CVT mới: Thuật toán sẽ thực hiện 4 vòng lặp: 
 (1) Vòng lặp thứ nhất mở tập tin trong danh sách liên kết tìm thấy của URL. 
 (2) Với mỗi tập tin được mở, vòng lặp thứ 2 đọc từng đoạn văn bản. Nếu nhận 
 thấy đoạn văn bản nào có dấu hiệu CVT nằm trong cặp dấu (...) thì thực hiện 
 vòng lặp thứ 3 đọc từng câu trong đoạn. 
 (3) Với mỗi câu được đọc, nếu nhận thấy câu văn bản nào có dấu hiệu CVT 
 nằm trong cặp dấu (...) thì thực hiện vòng lặp thứ 4 xét chọn lấy các cụm từ 
 nằm trong (...). 
 (4) Với mỗi một cụm từ được chọn (...), dùng các dấu hiệu nhận biết CVT để 
 loại bỏ các cụm từ không là CVT để trích chọn ra CVT. Từ đó trích chọn ra 
 nghĩa của CVT là gì, trích chọn ra câu hay đoạn chứa CVT, so sánh CVT tìm 
 được với dữ liệu đã biên tập, chưa biên tập. Lưu vào CSDL và in ra màn hình 
 kết quả tìm kiếm CVT. 
 Sau đó biên tập và lưu chính thức vào kho ngữ liệu CVT. 
3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới 
 Ý tưởng thuật toán: Máy tìm kiếm CVT nhận một URL, gửi yêu cầu đến Web 
Server, nhận lại một trang HTML tương ứng với mỗi URL; xử lý tập tin theo kiểu xử 
lý chuỗi để bóc tách nội dung văn bản cần tìm, lọc ra CVT mới, so sánh với CVT 
trong CSDL để lưu hoặc không, hoặc có những đánh giá cần thiết khác, thuật toán 
đặt tên là SENVA - máy tìm kiếm chữ viết tắt tiếng Việt mới (Search Engines for 
New Vietnamese Abbreviations). 
 63 
Thuật toán: SENVA 
Input: Địa chỉ URL 
Output: Dữ liệu CVT nhận được bảng TTTDVIET 
Begin 
 Kết nối và mở các CSDL làm việc trung gian 
 Xác định URL làm việc 
 Xác định DanhSach các liên kết trên URL để tìm kiếm CVT 
 Khởi động bộ đếm CVT, các biến đánh giá CVT 
 Repeat 
 Open một tệp HTML/PHP trong DanhSach 
 Read nội dung tệpHTML và xử lý bóc tách: 
 Repeat 
 Read từng đoạn trong tệp gán vào biến Doan 
 If 
 Xoá bỏ khoảng trắng đầu cuối 
 Xoá bỏ các thẻ HTML, PHP 
 Bóc tách dữ liệu 
 Trích các câu trong Doan gán vào biến MotCau 
 Repeat 
 If 
 Trích CVT nằm trong (...) gán cho TuDuocChon 
 Repeat 
 If 
 - Trích ra được CVT, trích chọn nghĩa của CVT 
 - Trích chọn câu chứa CVT, So sánh với CSDL đã biên tập, 
 chưa biên tập 
 - Lưu vào CSDL trung gian, cập nhật bộ đếm 
 - In ra màn hình tham khảo 
 endif 
 Until 
 Endif 
 Until 
 Endif 
 Until 
 Until 
End 
 64 
 Đánh giá thuật toán SENVA 
 Thuật toán xử lý nội dung tập tin dưới dạng chuỗi, ký tự; sử dụng bốn vòng lặp 
lồng nhau có các điều kiện kết thúc lần lượt là: khi không còn một cụm từ được trích 
chọn trong một câu (danh sách câu là hữu hạn), khi không còn một câu trong một 
đoạn (danh sách đoạn là hữu hạn), khi không còn đoạn văn bản trong tệp và khi 
không còn tệp trong danh sách hữu hạn các tệp đảm bảo tính kết thúc giải thuật. 
 Đánh giá độ phức tạp thuật toán: Do sử dụng bốn vòng lặp lồng nhau, độ phức 
tạp của thuật toán là O(n4). Tuy nhiên, vòng lặp trong cùng (thứ 4) có chứa lệnh so 
sánh CVT tìm được với CSDL đã có, tương ứng như một vòng lặp duyệt các mẩu tin 
trong CSDL, sẽ làm tăng độ phức tạp giải thuật thành O(n5); cần cải tiến thuật giải 
theo hướng loại bỏ sự so sánh trực tiếp mỗi CVT tìm được với CSDL đã có. 
3.2.4. Thực nghiệm cài đặt thuật toán SENVA 
 Chương trình cài đặt bởi các mã lệnh PHP, các thẻ HTML trong trang web 
thuthapv5.php với mã nguồn chi tiết trên website [74]. Ở đây luận án chỉ trình bày 
những thủ tục chính trong phần phụ lục 3, và sử dụng chú thích bởi dấu // trước hoặc 
sau dòng lệnh. Chương trình cài đặt sử dụng các biểu thức chính quy và các hàm PHP 
để xử lý chuỗi. Ví dụ: $btcqdaungoac="/[^\(]+[\)$]/" là biểu thức chính 
quy chọn chuỗi nằm trong cặp dấu ngoặc. Hàm: 
 preg_match_all($btcqdaungoac,$xetcau,$Upwords) 
trích chuỗi trong dấu ngoặc từ câu hiện hành đang xét là lưu vào biến mảng hai chiều 
$Upwords. 
 Thực hiện chương trình 
 Upload chương trình lên máy chủ:  Đây là server ảo hóa trong 
mạng điều hành sản xuất kinh doanh của VNPT Đà Nẵng. Tệp mã nguồn chương 
trình chính lưu trữ trên C:\inetpub\wwwroot\thuthapCVT.php. Chương trình có thể 
thực hiện tìm CVT mới tự động trên một website bất kỳ bằng cách: Kết nối Internet, 
khởi động Internet Explorer (IE)/ Google Chrome. Sau đó: Gõ lệnh thực thi máy tìm 
kiếm trên thanh Address theo dạng thức: 
 http:///thuthapcvt.php?url= 
 65 
 Kết quả sẽ được nhận được là danh sách liên kết được duyệt trên trang chủ. Phần 
sau là các CVT tìm thấy được được đánh số thứ tự, mỗi CVT có trích chọn nghĩa 
CVT, đánh giá trùng lặp dữ liệu hay không và hiển thị câu, đoạn có chứa CVT - xem 
như ngữ cảnh sử dụng CVT, để phục vụ cho biên tập dữ liệu. 
3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT 
3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành 
 Phân tích nhu cầu thực tế: Hàng ngày, tại Đài Thông tin Kinh tế Xã hội VNPT 
Đà Nẵng37 (Đài 108), mỗi điện thoại viên (ĐTV) chuyên nghiệp làm việc trong ca trực 
thường xuyên nhận được khoảng vài trăm cuộc gọi đến từ khách hàng yêu cầu cung 
cấp thông tin. ĐTV trực máy, lắng nghe, xác định nội dung yêu cầu rồi thao tác trên 
máy tính để tìm thông tin, trả lời khách hàng. 
 Thực tế cho thấy, ĐTV dành hơn một nửa thời gian giao dịch để thao tác trên máy 
tính: nhận diện được nội dung văn bản, gõ phím (tiếng Việt), tìm kiếm, xem xét và 
thông báo ngay kết quả. Suốt tiến trình này, hoạt động thao tác xử lý văn bản, cập nhật 
giá trị (khóa) tìm kiếm thường lặp đi, lặp lại, thường hay xảy ra nhập nhằng, không rõ 
ràng về tên gọi, địa chỉ, về vị trí địa lý hay vùng miền 
 Với mục đích rút ngắn thời gian thao tác trên bàn phím, làm tăng hiệu năng hoạt 
động của hệ thống và trợ giúp ĐTV giúp tăng năng suất lao động, giải pháp đề xuất 
dựa trên ý tưởng vận dụng những kết quả nghiên cứu có tính hệ thống về CVT, kết 
hợp với hệ thống CSDL giao dịch thường sử dụng của ĐTV: xây dựng vừa đủ các 
quy tắc CVT để ứng dụng vào CSDL phục vụ hoạt động tìm kiếm chuyên nghiệp của 
các ĐTV. 
 Khảo sát thực tế 
 Hoạt động giao dịch qua điện thoại: ĐTV là những người có chuyên môn nhận, 
nghe điện thoại từ khách hàng yêu cầu, tìm kếm thông tin và trả lời ngay cho khách 
hàng càng nhanh càng tốt. Số liệu hoạt động khai thác dữ liệu cung cấp cho khách 
hàng [2] được thống kê trong bảng 3.1 dưới đây. 
37VietNam Posts and Telecommunications Group: Tập đoàn Bưu chính Viễn thông Việt Nam. 
 66 
 Bảng 3.1. Thống kê số liệu tác nghiệp 
 Stt Nội dung tác nghiệp của ĐTV Đơn vị Giá trị 
 1 Số ĐTV trong mỗi ca trực (8 giờ) ĐTV 14 
 2 Tổng số cuộc gọi đến Cuộc 59.046 
 3 Tổng số cuộc gọi DBĐT Cuộc 37.788 
 4 Tổng thời gian giao dịch tối đa trong ngày làm việc Phút 366 
 5 Thời gian xử lý cho một cuộc tìm kiếm trên DBĐT Giây 100 
 6 Thời gian truy tìm thông tin trong CSDL một cuộc gọi Giây 65 
 7 Số cuộc điện thoại phải xử lý trong ngày Cuộc 220 
 Từ bảng 3.1 có thể phân tích như sau: Trung bình mỗi ngày ĐTV nhận trên 160 
cuộc gọi, nhưng vẫn có thể xử lý được hơn 220 cuộc, nếu ĐTV có thao tác hợp lý. 
Trên 60% cuộc gọi yêu cầu truy cập DBĐT cung cấp địa chỉ, số điện thoại... (tỷ lệ tại 
thời điểm thống kê 37.788/59.046 cuộc). ĐTV dành trên 50% thời gian (183/366 phút 
làm việc theo ca) để truy tìm trong DBĐT. Mỗi cuộc gọi, ĐTV dành rất ít thời gian 
(~40 giây) để thực hiện nghiệp vụ giao tiếp với khách hàng. Cấu trúc CSDL phục vụ 
ĐTV tra cứu: Hình 16, phụ lục 5, minh họa hệ thống CSDL 108. 
 Kết quả thống kê có 24 nhóm danh mục CSDL được mô tả trong Bảng 3.2: 
 Bảng 3.2. Thống kê CSDL tác nghiệp 
 Stt Nhóm danh mục Số bản ghi Dung lượng (MB) 
 1 DBĐT 148.250 42 
 2 Tin nóng 5.914 36 
 3 Các nhóm khác 61.244 75 
 Tổng 215.408 153 
 Phân tích bảng 3.2 cụ thể hơn như sau: 
 Nhóm DBĐT gồm các CSDL địa phương (Đà Nẵng và 12 tỉnh/thành trong khu 
vực) có cùng cấu cấu trúc gồm các trường: SO_MAY, TEN_CQ, DIA_CHI; Nhóm 
 67 
CSDL theo lĩnh vực (du lịch, kinh tế, văn hoá...) có cấu trúc riêng. Ví dụ, CSDL du 
lịch có trường: MA_SO, TIEU_DE, NOI_DUNG. CSDL hàng tháng có khoảng 1.000 
bản ghi mới (chiếm 0,46%) được bổ sung, cập nhật. Nhóm DBĐT chiếm 28% lượng 
dữ liệu Đài 108. Hơn 60% yêu cầu ĐTV phải truy cập tìm kiếm. 
 Phân tích thực tiễn khai thác CSDL cho thấy: Khối lượng dữ liệu phục vụ ĐTV 
tìm kiếm rất lớn; Hoạt động truy tìm thông tin lặp đi, lặp lại, gây nhàm chán, tiêu tốn 
thời gian thao tác, gây tắc nghẽn cục bộ; ĐTV thường gặp lỗi tìm kiếm do trao đổi 
ngắn, nhanh qua điện thoại với khách hàng, do sự khác biệt giữa khóa tìm kiếm với 
nội dung dữ liệu trong CSDL 108 (lỗi chính tả, lỗi dùng từ địa phương...); ĐTV cần 
nhiều thông tin (dù là gần đúng) cho một yêu cầu của khách hàng, ĐTV có thể tư vấn, 
giải thích thêm với nhiều phương án trả lời, làm hài lòng khách hàng. 
 Giải pháp sử dụng CVT - chỉ mục tìm kiếm: Đối với các CSDL chuyên trách 
phục vụ cho các ĐTV tìm kiếm, tra cứu thông tin phục vụ nhu cầu của khách hàng, 
cần sử dụng CVT làm chỉ mục tìm kiếm để tăng hiệu năng khai thác theo các bước: 
 1. Lập trường chỉ mục CVT: Bổ sung vào CSDL các trường chứa nội dung các 
 CVT tương ứng. Ví dụ trường TEN_CQ, cần có TEN_CQ_CVT chứa nội 
 dung CVT đại diện tên cơ quan/ doanh nghiệp/ cá nhân... 
 2. Xây dựng các quy tắc chuyển đổi CVT: ĐTV phải thuộc các quy tắc. Lưu 
 ý: Số lượng quy tắc vừa đủ, không quá nhiều để dễ gợi nhớ. 
 3. Xây dựng các hàm hình thành CVT chuyển đổi CVT: Chuyển đổi nội dung 
 các bản ghi thành các CVT tương ứng. Đây là bước rút gọn dữ liệu. 
 4. Chỉ mục CSDL và cài đặt chương trình: Chỉ mục CSDL theo trường CVT, 
 cài đặt chương trình có chức năng tìm kiếm trên nó. Cần thiết kế các phím 
 nóng để kích hoạt nhanh chức năng tìm kiếm. 
 5. Khai thác CSDL dựa trên CVT: Khi tra cứu, tìm kiếm, ĐTV chi cần gõ nội 
 dung tìm kiếm theo CVT thay vì gõ cụm từ đầy đủ. 
 Triển khai ứng dụng 
 Xây dựng CSDL: Áp dụng giải pháp xây dựng lại CSDL 108 bằng cách bổ sung 
trường dữ liệu CVT mới làm trường chỉ mục tìm kiếm. Cách bổ sung như sau: gọi F 
là trường dữ liệu của CSDL, S là nội dung của F trong một bản ghi, khi đó trường F1 
được bổ sung sẽ có nội dung là ABBRFUNC(S), với ABBRFUNC là hàm hình thành 
 68 
CVT đã xây dựng ở trên. Các trường đã bổ sung: TBT (Thuê bao tắt) tương ứng với 
TEN_CQ (chứa tên cơ quan, doanh nghiệp, cá nhân...). DCT (Địa chỉ tắt) tương ứng 
với DỊA_CHI. Sau khi áp dụng các hàm ABBRFUNC, kết quả CVT có độ dài lớn 
nhất là 18 ký tự. Ví dụ CTTHHNHTMCPPTTPHCM tương ứng với “Công ty Tài 
chính Trách nhiệm hữu hạn Một thành viên Ngân hàng Thương mại Cổ phần Phát 
triển thành phố Hồ Chí Minh”. Xây dựng các hàm ứng chuyển đổi sang CVT lưu vào 
các trường CVT (ví dụ như hàm Function Chuviettat được nêu trong mục 2, phụ lục 
3). Kết quả CSDL đã xây dựng trong hình 17, phụ lục 5, minh họa hệ thống CSDL 
đã xây dựng. 
 Xây dựng ứng dụng: Nguyên tắc thiết kế ứng dụng chương trình tìm kiếm cho 
ĐTV chuyên nghiệp khai thác cần phải đảm bảo: 
 - Việc chọn lựa CSDL theo tỉnh/thành giúp tìm kiếm dễ dàng, nhanh chóng. 
 - Thiết kế cửa số tìm kiếm DBĐT nằm trọn vẹn trong màn hình giao tiếp. 
 - Sử dụng các phím nóng kích hoạt nhanh các chức năng tìm kiếm, hay thao 
 tác thường lặp đi lặp lại. Chằng hạn: Phím F1 tìm kiếm theo tên thuê bao, F2 
 tìm kiếm theo địa chỉ, phím F5 tìm kiếm theo tên thuê tắt... 
 - Tìm kiếm hỗn hợp khác để khi cần kết hợp tìm kiếm chuẩn xác (hình 3.3). 
 Hình 3.3. Các chức năng tìm kiếm 
 69 
 Một số chức năng khác như sau: Tìm danh bạ theo địa chỉ tắt: thực hiện “Tìm 
số điện thoại, hay tên cơ quan, tại K626/11 Trưng Nữ Vương”, ĐTV nhấn F6 kích 
hoạt chức năng tìm kiếm, gõ vào “626TNV”, hệ thống trả về danh sách các cơ quan/cá 
nhân cùng ở tại địa chỉ này. ĐTV lựa chọn một phương án trả lời. 
 Đánh giá kết quả đo đạt dựa trên kết quả thống kê số liệu tác nghiệp trước và 
sau khi sử dụng giải pháp CVT trong CSDL 108 được nêu trong mục 3.4.2. 
3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục 
 Lý thuyết phân tích và thiết kế CSDL đã chỉ ra các bước tiến hành phân tích và 
thiết kế CSDL bao gồm phân tích dữ liệu và thiết kế CSDL quan hệ [19]. 
 Đầu tiên là phân tích CSDL (a), là bước xác định các yêu cầu về dữ liệu, mô 
hình hoá dữ liệu (xây dựng mô hình thực thể liên kết biểu diễn các yêu cầu về dữ 
liệu). Tiếp theo là bước thiết kế CSDL quan hệ (b), thực hiện thiết kế logic CSDL 
(xác định các quan hệ, chuẩn hoá các quan hệ, thiết kế vật lý CSDL, cài đặt vật lý chi 
tiết trong hệ quản trị CSDL đã lựa chọn. 
 Thuộc tính định danh và CSDL danh mục: Thuộc tính định danh hay còn gọi 
là định danh thực thể, hoặc là thuộc tính khoá, có giá trị phân biệt các thực thể khác 
nhau. Việc xác định và định danh thực thể thoả mãn các tiêu chí: Tên gọi là danh từ, 
có nhiều thể hiện, có duy nhất một định danh, có ít nhất một thuộc tính mô tả, có quan 
hệ với ít nhất một thực thể khác. Thực chất đó là quá trình phân tích xác định CSDL 
danh mục cơ sở, từ đó xác định liên kết giữa các thực thể. 
 Nhận xét: Thiết kế CSDL danh mục có tầm quan trọng trong xây dựng chương 
trình, bảo trì và khai thác sử dụng. 
 Xây dựng CSDL danh mục trong Hệ thống ĐHSXKD chuyên ngành 
 Thực tế khi xây dựng hệ thống phần mềm điều hành SXKD chuyên ngành VT- 
CNTT của VNPT Đà Nẵng, đã có 55 bảng CSDL danh mục cơ sở, trong tổng số gần 
100 bảng CSDL. Khi bổ sung thêm dịch vụ, số bảng CSDL danh mục sẽ tăng lên tùy 
theo đặc trưng dịch vụ bổ sung. Phân tích chi tiết các bảng CSDL danh mục cơ sở, 
nhận thấy dữ liệu có số mẫu tin không lớn, các lập trình viên thường ít chú trọng đến 
 70 
giá trị các trường mã hóa của CSDL danh mục, thường dùng kiểu số/ký tự để khai 
báo, cấu trúc chung như bảng 3.4 dưới đây: 
 Bảng 3.3. CSDL danh mục chuyên ngành 
 STT Tên trường Kiểu dữ liệu Ý nghĩa 
 1 ID_XYZ C(2) ID là mã hóa 
 2 ND_XYZ C(100) Tên chi tiết XYZ 
 Trong đó, trường ID_XYZ thường được chọn lấy các giá trị gần như các giá trị 
số: 01, 02, ... các giá trị này gần như là số hóa, ít gợi nhớ, gây khó khăn trong lập 
trình, bảo trì, bảo dưỡng và khai thác. Trong lĩnh vực bưu chính, Bộ Thông tin Truyền 
thông đã ban hành Bộ mã quốc gia và công bố trên [78] (hình 8, phụ lục 5), chủ yếu 
là mã số hóa theo thông lệ quốc tế. Đối với ngành VT-CNTT hiện chưa có bộ mã 
danh mục nào thống nhất ban hành toàn quốc. 
 Đề xuất ứng dụng CVT quy định bộ mã chuyên ngành VT-CNTT 
 Giải pháp đề xuất này có tính chất hành chính, tuy nhiên nó đã góp phần chuẩn 
hóa dữ liệu cho CSDL danh mục, áp dụng cho toàn mạng lưới VT- CNTT, giúp cho 
công tác quản lý, lập trình, bảo trì, bảo dưỡng phần mềm, mạng lưới và sử dụng 
chương trình được thuận lợi. Trong đó, các dữ liệu mã hóa sử dụng CVT thường phải 
thỏa mãn các điều kiện: 
 (1) CVT mã hóa được một tổ chức ban hành, có phạm vi, giới hạn áp dụng. 
 (2) CVT mã hóa là duy nhất, không trùng lặp để tránh nhập nhằng. 
 (3) CVT mã hóa thường dùng thêm các ký tự theo một quy luật định sẵn. 
 Ví dụ 1: Quy định Chuẩn hóa danh mục hình thức thanh toán 
DM_HT_TTOAN áp dụng CVT trong cụm từ mô tả: 
 Bảng 3.4. CSDL danh mục hình thức thanh toán 
 Chữ viết tắt cho hình thức thanh toán Mô tả 
 TN Tại nhà 
 CK Chuyển khoản 
 71 
 TM Tiền mặt 
 UNC Ủy nhiệm chi qua ngân hàng 
 UNT Ủy nhiệm thu qua ngân hàng... 
 Ví dụ 2: Quy định mã thanh toán của khách hàng như bảng dưới đây: 
 Bảng 3.5. Bảng mã vùng thanh toán 
 + <09 
 Mã thanh toán DNG+xxxxxxxxx 
 chữ số> 
 Nhiều quy định mã hóa có sử dụng CVT đã được đề xuất ban hành và áp dụng 
(bảng 1, phụ lục 4): Quy định đánh mã trong phần mềm điều hành sản xuất kinh 
doanh cho các tỉnh/thành trong khu vực, quy định bộ mã mạng cáp đồng, 

File đính kèm:

  • pdfluan_an_nghien_cuu_ngu_nghia_va_hien_tuong_nhap_nhang_trong.pdf
  • pdf2. NGUYEN NHO TUY. Tom Tat LA_Viet.pdf
  • pdf3. NGUYEN NHO TUY. Tom Tat LA_Anh.pdf
  • pdf4. NGUYEN NHO TUY. Dong Gop Moi Cua LA.pdf
  • pdf5. NGUYEN NHO TUY. Trich Yeu LA.pdf