Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt
cvtviet (phụ lục 2). Bảng tttdviet phục vụ cho việc cập nhật tự động làm giàu kho dữ liệu CVT tiếng Việt trên Internet hoặc từ các tập tin văn bản. Bảng gồm các trường: cvt (chữ viết tắt), Cau (câu hay cụm từ đầy đủ của CVT), Doan (đoạn văn bản chứa câu hay cụm từ viết tắt), NguonURL, GhiChu (nguồn gốc CVT, website hay tập tin...), Ngay (ngày thu thập được CVT), MaCN (mã cập nhật của người biên tập) - khoá ngoài liên kết với bảng nguoncncvt (phụ lục 2). Để đảm bảo an toàn dữ liệu, tính chính xác của thuật ngữ viết tắt, dữ liệu lưu ở các bảng trung gian được biên tập lại sau đó mới đưa vào sử dụng chính thức trong bảng cvts. Kết quả xây dựng, cài đặt CSDL như hình 3.2. 3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT 3.2.1. Thu thập dữ liệu thủ công Giải pháp cập nhật thủ công thường được sử dụng để cập nhật dữ liệu khi xây dựng bất kỳ một hệ thống CSDL nào. Nguồn dữ liệu được thu thập từ các nguồn khác nhau như sách, từ điển, báo, tạp chí, văn bản pháp quy, báo cáo khoa học, hay từ thực tiễn cuộc sốngCó chú ý lưu lại nguồn tham khảo CVT, người cập nhập, người biên tập dữ liệu. Phương pháp thực hiện: Trước đây, sử dụng hệ soạn thảo văn bản Winword để tiến hành cập nhật và kiểm tra thủ công nội dung hệ thống CVT theo từng lĩnh vực sử dụng khác nhau. Các CSDL của CVT trong Winword được xây dựng trước khi cập nhật có cấu trúc dạng mẫu văn bản (document template) đã được phát triển ở Khoa CNTT, Đại học Đà Nẵng [44][45]. Từ các CSDL văn bản Winword, tiếp tục chuyển đổi qua dạng XML hoặc dạng CSDL khai thác sử dụng bằng MySQL. 61 Do số lượng CVT lớn, phân ra nhiều lĩnh vực khác nhau, để từng bước làm đầy kho ngữ liệu CVT, đối với những CVT phát sinh trong thực tiễn, hiện nay ta sử dụng cách cập nhật trực tuyến thủ công bởi hệ thống website hoàn chỉnh, thực hiện quản trị và biên tập cập nhật, tiến đến cung cấp cho NSD cập nhật trực tuyến. Cách thu thập thông tin trực tuyến là cách huy động nguồn lực và trí tuệ tập thể nhiều người để làm giàu kho dữ liệu. 3.2.2. Thu thập dữ liệu tự động Từ kết quả cập nhật thủ công, trực tuyến nêu trên, tiếp tục làm giàu CSDL của CVT một cách tự động từ môi trường Internet hoặc các tập tin dữ liệu đã có. Đây là giải pháp cập nhật tự động dữ liệu. Giải pháp cập nhật tự động giới hạn trong việc tìm kiếm những CVT mới tiếng Việt. Nguồn dữ liệu được thu thập từ các website trên mạng Internet, các tập tin dữ liệu dạng *. HTM, tập tin dữ liệu văn bản phổ biến như *.DOC. Có lưu lại nguồn tham khảo, trích dẫn CVT, người cập nhập, người biên tập dữ liệu. Phương pháp thực hiện: Dựa vào các dấu hiệu nhận biết CVT trong một văn bản, trích lọc ra các CVT mới để bổ sung vào CSDL. Hai phương pháp đề xuất: 1) Cập nhật CVT mới từ tập tin văn bản DOC Dữ liệu văn bản hiện nay được soạn thảo và lưu giữ rất phổ biến bởi phần mềm Winword. Việc thu thập CVT mới từ các văn bản word là khả thi. Có thể thực hiện giải pháp thu thập các CVT mới từ trong các tập tin văn bản *.DOC. Thay vì phải tìm từng cụm từ viết tắt, phương pháp đề xuất là “bán tự động”, dựa vào Macro và lập trình VBA để thực nghiệm. Bằng cách mở tập tin Word, thực hiện một Marcro chọn lọc các cụm từ trong cặp dấu ngoặc đơn (...), đưa về một bảng, từ đó tiếp tục biên tập, chuyển đổi thành dữ liệu CVT chính thức. Macro này sẽ thực hiện các bước theo thuật toán đã chỉ định như mục 1, phần phụ lục 3). 2) Cập nhật CVT mới tự động từ Internet Luận án nghiên cứu, phát triển máy tìm kiếm CVT dựa vào công cụ máy tìm kiếm đã được giới thiệu nguyên lý trong [11]. Ý tưởng hoạt động như sau: máy tìm kiếm CVT nhận một danh sách URL, gửi yêu cầu đến Web Server và nhận lại một 62 trang HTML tương ứng với mỗi URL (tương tự chức năng View Source trong trình duyệt Internet Explorer). Bước tiếp theo, chương trình sẽ phân tích nội dung tập tin dạng HTML. Vận dụng các hàm chức năng của các ngôn ngữ lập trình có hỗ trợ ứng dụng biểu thức chính quy (Regular Expressions) để loại bỏ các thẻ HTML và các thẻ khác, chuyển tập tin về dạng đơn giản hơn. Tiếp theo là xử lý tập tin theo kiểu xử lý chuỗi để bóc tách nội dung văn bản cần tìm, lọc ra CVT mới để lưu vào CSDL, so sánh với CVT trong CSDL để lưu giữ hoặc không, hoặc có những đánh giá cần thiết khác. Thuật toán mô tả hoạt động của máy tìm kiếm CVT trong môi trường Internet như sau: Mô tả thuật toán tìm kiếm CVT mới: Thuật toán sẽ thực hiện 4 vòng lặp: (1) Vòng lặp thứ nhất mở tập tin trong danh sách liên kết tìm thấy của URL. (2) Với mỗi tập tin được mở, vòng lặp thứ 2 đọc từng đoạn văn bản. Nếu nhận thấy đoạn văn bản nào có dấu hiệu CVT nằm trong cặp dấu (...) thì thực hiện vòng lặp thứ 3 đọc từng câu trong đoạn. (3) Với mỗi câu được đọc, nếu nhận thấy câu văn bản nào có dấu hiệu CVT nằm trong cặp dấu (...) thì thực hiện vòng lặp thứ 4 xét chọn lấy các cụm từ nằm trong (...). (4) Với mỗi một cụm từ được chọn (...), dùng các dấu hiệu nhận biết CVT để loại bỏ các cụm từ không là CVT để trích chọn ra CVT. Từ đó trích chọn ra nghĩa của CVT là gì, trích chọn ra câu hay đoạn chứa CVT, so sánh CVT tìm được với dữ liệu đã biên tập, chưa biên tập. Lưu vào CSDL và in ra màn hình kết quả tìm kiếm CVT. Sau đó biên tập và lưu chính thức vào kho ngữ liệu CVT. 3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới Ý tưởng thuật toán: Máy tìm kiếm CVT nhận một URL, gửi yêu cầu đến Web Server, nhận lại một trang HTML tương ứng với mỗi URL; xử lý tập tin theo kiểu xử lý chuỗi để bóc tách nội dung văn bản cần tìm, lọc ra CVT mới, so sánh với CVT trong CSDL để lưu hoặc không, hoặc có những đánh giá cần thiết khác, thuật toán đặt tên là SENVA - máy tìm kiếm chữ viết tắt tiếng Việt mới (Search Engines for New Vietnamese Abbreviations). 63 Thuật toán: SENVA Input: Địa chỉ URL Output: Dữ liệu CVT nhận được bảng TTTDVIET Begin Kết nối và mở các CSDL làm việc trung gian Xác định URL làm việc Xác định DanhSach các liên kết trên URL để tìm kiếm CVT Khởi động bộ đếm CVT, các biến đánh giá CVT Repeat Open một tệp HTML/PHP trong DanhSach Read nội dung tệpHTML và xử lý bóc tách: Repeat Read từng đoạn trong tệp gán vào biến Doan If Xoá bỏ khoảng trắng đầu cuối Xoá bỏ các thẻ HTML, PHP Bóc tách dữ liệu Trích các câu trong Doan gán vào biến MotCau Repeat If Trích CVT nằm trong (...) gán cho TuDuocChon Repeat If - Trích ra được CVT, trích chọn nghĩa của CVT - Trích chọn câu chứa CVT, So sánh với CSDL đã biên tập, chưa biên tập - Lưu vào CSDL trung gian, cập nhật bộ đếm - In ra màn hình tham khảo endif Until Endif Until Endif Until Until End 64 Đánh giá thuật toán SENVA Thuật toán xử lý nội dung tập tin dưới dạng chuỗi, ký tự; sử dụng bốn vòng lặp lồng nhau có các điều kiện kết thúc lần lượt là: khi không còn một cụm từ được trích chọn trong một câu (danh sách câu là hữu hạn), khi không còn một câu trong một đoạn (danh sách đoạn là hữu hạn), khi không còn đoạn văn bản trong tệp và khi không còn tệp trong danh sách hữu hạn các tệp đảm bảo tính kết thúc giải thuật. Đánh giá độ phức tạp thuật toán: Do sử dụng bốn vòng lặp lồng nhau, độ phức tạp của thuật toán là O(n4). Tuy nhiên, vòng lặp trong cùng (thứ 4) có chứa lệnh so sánh CVT tìm được với CSDL đã có, tương ứng như một vòng lặp duyệt các mẩu tin trong CSDL, sẽ làm tăng độ phức tạp giải thuật thành O(n5); cần cải tiến thuật giải theo hướng loại bỏ sự so sánh trực tiếp mỗi CVT tìm được với CSDL đã có. 3.2.4. Thực nghiệm cài đặt thuật toán SENVA Chương trình cài đặt bởi các mã lệnh PHP, các thẻ HTML trong trang web thuthapv5.php với mã nguồn chi tiết trên website [74]. Ở đây luận án chỉ trình bày những thủ tục chính trong phần phụ lục 3, và sử dụng chú thích bởi dấu // trước hoặc sau dòng lệnh. Chương trình cài đặt sử dụng các biểu thức chính quy và các hàm PHP để xử lý chuỗi. Ví dụ: $btcqdaungoac="/[^\(]+[\)$]/" là biểu thức chính quy chọn chuỗi nằm trong cặp dấu ngoặc. Hàm: preg_match_all($btcqdaungoac,$xetcau,$Upwords) trích chuỗi trong dấu ngoặc từ câu hiện hành đang xét là lưu vào biến mảng hai chiều $Upwords. Thực hiện chương trình Upload chương trình lên máy chủ: Đây là server ảo hóa trong mạng điều hành sản xuất kinh doanh của VNPT Đà Nẵng. Tệp mã nguồn chương trình chính lưu trữ trên C:\inetpub\wwwroot\thuthapCVT.php. Chương trình có thể thực hiện tìm CVT mới tự động trên một website bất kỳ bằng cách: Kết nối Internet, khởi động Internet Explorer (IE)/ Google Chrome. Sau đó: Gõ lệnh thực thi máy tìm kiếm trên thanh Address theo dạng thức: http:///thuthapcvt.php?url= 65 Kết quả sẽ được nhận được là danh sách liên kết được duyệt trên trang chủ. Phần sau là các CVT tìm thấy được được đánh số thứ tự, mỗi CVT có trích chọn nghĩa CVT, đánh giá trùng lặp dữ liệu hay không và hiển thị câu, đoạn có chứa CVT - xem như ngữ cảnh sử dụng CVT, để phục vụ cho biên tập dữ liệu. 3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT 3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành Phân tích nhu cầu thực tế: Hàng ngày, tại Đài Thông tin Kinh tế Xã hội VNPT Đà Nẵng37 (Đài 108), mỗi điện thoại viên (ĐTV) chuyên nghiệp làm việc trong ca trực thường xuyên nhận được khoảng vài trăm cuộc gọi đến từ khách hàng yêu cầu cung cấp thông tin. ĐTV trực máy, lắng nghe, xác định nội dung yêu cầu rồi thao tác trên máy tính để tìm thông tin, trả lời khách hàng. Thực tế cho thấy, ĐTV dành hơn một nửa thời gian giao dịch để thao tác trên máy tính: nhận diện được nội dung văn bản, gõ phím (tiếng Việt), tìm kiếm, xem xét và thông báo ngay kết quả. Suốt tiến trình này, hoạt động thao tác xử lý văn bản, cập nhật giá trị (khóa) tìm kiếm thường lặp đi, lặp lại, thường hay xảy ra nhập nhằng, không rõ ràng về tên gọi, địa chỉ, về vị trí địa lý hay vùng miền Với mục đích rút ngắn thời gian thao tác trên bàn phím, làm tăng hiệu năng hoạt động của hệ thống và trợ giúp ĐTV giúp tăng năng suất lao động, giải pháp đề xuất dựa trên ý tưởng vận dụng những kết quả nghiên cứu có tính hệ thống về CVT, kết hợp với hệ thống CSDL giao dịch thường sử dụng của ĐTV: xây dựng vừa đủ các quy tắc CVT để ứng dụng vào CSDL phục vụ hoạt động tìm kiếm chuyên nghiệp của các ĐTV. Khảo sát thực tế Hoạt động giao dịch qua điện thoại: ĐTV là những người có chuyên môn nhận, nghe điện thoại từ khách hàng yêu cầu, tìm kếm thông tin và trả lời ngay cho khách hàng càng nhanh càng tốt. Số liệu hoạt động khai thác dữ liệu cung cấp cho khách hàng [2] được thống kê trong bảng 3.1 dưới đây. 37VietNam Posts and Telecommunications Group: Tập đoàn Bưu chính Viễn thông Việt Nam. 66 Bảng 3.1. Thống kê số liệu tác nghiệp Stt Nội dung tác nghiệp của ĐTV Đơn vị Giá trị 1 Số ĐTV trong mỗi ca trực (8 giờ) ĐTV 14 2 Tổng số cuộc gọi đến Cuộc 59.046 3 Tổng số cuộc gọi DBĐT Cuộc 37.788 4 Tổng thời gian giao dịch tối đa trong ngày làm việc Phút 366 5 Thời gian xử lý cho một cuộc tìm kiếm trên DBĐT Giây 100 6 Thời gian truy tìm thông tin trong CSDL một cuộc gọi Giây 65 7 Số cuộc điện thoại phải xử lý trong ngày Cuộc 220 Từ bảng 3.1 có thể phân tích như sau: Trung bình mỗi ngày ĐTV nhận trên 160 cuộc gọi, nhưng vẫn có thể xử lý được hơn 220 cuộc, nếu ĐTV có thao tác hợp lý. Trên 60% cuộc gọi yêu cầu truy cập DBĐT cung cấp địa chỉ, số điện thoại... (tỷ lệ tại thời điểm thống kê 37.788/59.046 cuộc). ĐTV dành trên 50% thời gian (183/366 phút làm việc theo ca) để truy tìm trong DBĐT. Mỗi cuộc gọi, ĐTV dành rất ít thời gian (~40 giây) để thực hiện nghiệp vụ giao tiếp với khách hàng. Cấu trúc CSDL phục vụ ĐTV tra cứu: Hình 16, phụ lục 5, minh họa hệ thống CSDL 108. Kết quả thống kê có 24 nhóm danh mục CSDL được mô tả trong Bảng 3.2: Bảng 3.2. Thống kê CSDL tác nghiệp Stt Nhóm danh mục Số bản ghi Dung lượng (MB) 1 DBĐT 148.250 42 2 Tin nóng 5.914 36 3 Các nhóm khác 61.244 75 Tổng 215.408 153 Phân tích bảng 3.2 cụ thể hơn như sau: Nhóm DBĐT gồm các CSDL địa phương (Đà Nẵng và 12 tỉnh/thành trong khu vực) có cùng cấu cấu trúc gồm các trường: SO_MAY, TEN_CQ, DIA_CHI; Nhóm 67 CSDL theo lĩnh vực (du lịch, kinh tế, văn hoá...) có cấu trúc riêng. Ví dụ, CSDL du lịch có trường: MA_SO, TIEU_DE, NOI_DUNG. CSDL hàng tháng có khoảng 1.000 bản ghi mới (chiếm 0,46%) được bổ sung, cập nhật. Nhóm DBĐT chiếm 28% lượng dữ liệu Đài 108. Hơn 60% yêu cầu ĐTV phải truy cập tìm kiếm. Phân tích thực tiễn khai thác CSDL cho thấy: Khối lượng dữ liệu phục vụ ĐTV tìm kiếm rất lớn; Hoạt động truy tìm thông tin lặp đi, lặp lại, gây nhàm chán, tiêu tốn thời gian thao tác, gây tắc nghẽn cục bộ; ĐTV thường gặp lỗi tìm kiếm do trao đổi ngắn, nhanh qua điện thoại với khách hàng, do sự khác biệt giữa khóa tìm kiếm với nội dung dữ liệu trong CSDL 108 (lỗi chính tả, lỗi dùng từ địa phương...); ĐTV cần nhiều thông tin (dù là gần đúng) cho một yêu cầu của khách hàng, ĐTV có thể tư vấn, giải thích thêm với nhiều phương án trả lời, làm hài lòng khách hàng. Giải pháp sử dụng CVT - chỉ mục tìm kiếm: Đối với các CSDL chuyên trách phục vụ cho các ĐTV tìm kiếm, tra cứu thông tin phục vụ nhu cầu của khách hàng, cần sử dụng CVT làm chỉ mục tìm kiếm để tăng hiệu năng khai thác theo các bước: 1. Lập trường chỉ mục CVT: Bổ sung vào CSDL các trường chứa nội dung các CVT tương ứng. Ví dụ trường TEN_CQ, cần có TEN_CQ_CVT chứa nội dung CVT đại diện tên cơ quan/ doanh nghiệp/ cá nhân... 2. Xây dựng các quy tắc chuyển đổi CVT: ĐTV phải thuộc các quy tắc. Lưu ý: Số lượng quy tắc vừa đủ, không quá nhiều để dễ gợi nhớ. 3. Xây dựng các hàm hình thành CVT chuyển đổi CVT: Chuyển đổi nội dung các bản ghi thành các CVT tương ứng. Đây là bước rút gọn dữ liệu. 4. Chỉ mục CSDL và cài đặt chương trình: Chỉ mục CSDL theo trường CVT, cài đặt chương trình có chức năng tìm kiếm trên nó. Cần thiết kế các phím nóng để kích hoạt nhanh chức năng tìm kiếm. 5. Khai thác CSDL dựa trên CVT: Khi tra cứu, tìm kiếm, ĐTV chi cần gõ nội dung tìm kiếm theo CVT thay vì gõ cụm từ đầy đủ. Triển khai ứng dụng Xây dựng CSDL: Áp dụng giải pháp xây dựng lại CSDL 108 bằng cách bổ sung trường dữ liệu CVT mới làm trường chỉ mục tìm kiếm. Cách bổ sung như sau: gọi F là trường dữ liệu của CSDL, S là nội dung của F trong một bản ghi, khi đó trường F1 được bổ sung sẽ có nội dung là ABBRFUNC(S), với ABBRFUNC là hàm hình thành 68 CVT đã xây dựng ở trên. Các trường đã bổ sung: TBT (Thuê bao tắt) tương ứng với TEN_CQ (chứa tên cơ quan, doanh nghiệp, cá nhân...). DCT (Địa chỉ tắt) tương ứng với DỊA_CHI. Sau khi áp dụng các hàm ABBRFUNC, kết quả CVT có độ dài lớn nhất là 18 ký tự. Ví dụ CTTHHNHTMCPPTTPHCM tương ứng với “Công ty Tài chính Trách nhiệm hữu hạn Một thành viên Ngân hàng Thương mại Cổ phần Phát triển thành phố Hồ Chí Minh”. Xây dựng các hàm ứng chuyển đổi sang CVT lưu vào các trường CVT (ví dụ như hàm Function Chuviettat được nêu trong mục 2, phụ lục 3). Kết quả CSDL đã xây dựng trong hình 17, phụ lục 5, minh họa hệ thống CSDL đã xây dựng. Xây dựng ứng dụng: Nguyên tắc thiết kế ứng dụng chương trình tìm kiếm cho ĐTV chuyên nghiệp khai thác cần phải đảm bảo: - Việc chọn lựa CSDL theo tỉnh/thành giúp tìm kiếm dễ dàng, nhanh chóng. - Thiết kế cửa số tìm kiếm DBĐT nằm trọn vẹn trong màn hình giao tiếp. - Sử dụng các phím nóng kích hoạt nhanh các chức năng tìm kiếm, hay thao tác thường lặp đi lặp lại. Chằng hạn: Phím F1 tìm kiếm theo tên thuê bao, F2 tìm kiếm theo địa chỉ, phím F5 tìm kiếm theo tên thuê tắt... - Tìm kiếm hỗn hợp khác để khi cần kết hợp tìm kiếm chuẩn xác (hình 3.3). Hình 3.3. Các chức năng tìm kiếm 69 Một số chức năng khác như sau: Tìm danh bạ theo địa chỉ tắt: thực hiện “Tìm số điện thoại, hay tên cơ quan, tại K626/11 Trưng Nữ Vương”, ĐTV nhấn F6 kích hoạt chức năng tìm kiếm, gõ vào “626TNV”, hệ thống trả về danh sách các cơ quan/cá nhân cùng ở tại địa chỉ này. ĐTV lựa chọn một phương án trả lời. Đánh giá kết quả đo đạt dựa trên kết quả thống kê số liệu tác nghiệp trước và sau khi sử dụng giải pháp CVT trong CSDL 108 được nêu trong mục 3.4.2. 3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục Lý thuyết phân tích và thiết kế CSDL đã chỉ ra các bước tiến hành phân tích và thiết kế CSDL bao gồm phân tích dữ liệu và thiết kế CSDL quan hệ [19]. Đầu tiên là phân tích CSDL (a), là bước xác định các yêu cầu về dữ liệu, mô hình hoá dữ liệu (xây dựng mô hình thực thể liên kết biểu diễn các yêu cầu về dữ liệu). Tiếp theo là bước thiết kế CSDL quan hệ (b), thực hiện thiết kế logic CSDL (xác định các quan hệ, chuẩn hoá các quan hệ, thiết kế vật lý CSDL, cài đặt vật lý chi tiết trong hệ quản trị CSDL đã lựa chọn. Thuộc tính định danh và CSDL danh mục: Thuộc tính định danh hay còn gọi là định danh thực thể, hoặc là thuộc tính khoá, có giá trị phân biệt các thực thể khác nhau. Việc xác định và định danh thực thể thoả mãn các tiêu chí: Tên gọi là danh từ, có nhiều thể hiện, có duy nhất một định danh, có ít nhất một thuộc tính mô tả, có quan hệ với ít nhất một thực thể khác. Thực chất đó là quá trình phân tích xác định CSDL danh mục cơ sở, từ đó xác định liên kết giữa các thực thể. Nhận xét: Thiết kế CSDL danh mục có tầm quan trọng trong xây dựng chương trình, bảo trì và khai thác sử dụng. Xây dựng CSDL danh mục trong Hệ thống ĐHSXKD chuyên ngành Thực tế khi xây dựng hệ thống phần mềm điều hành SXKD chuyên ngành VT- CNTT của VNPT Đà Nẵng, đã có 55 bảng CSDL danh mục cơ sở, trong tổng số gần 100 bảng CSDL. Khi bổ sung thêm dịch vụ, số bảng CSDL danh mục sẽ tăng lên tùy theo đặc trưng dịch vụ bổ sung. Phân tích chi tiết các bảng CSDL danh mục cơ sở, nhận thấy dữ liệu có số mẫu tin không lớn, các lập trình viên thường ít chú trọng đến 70 giá trị các trường mã hóa của CSDL danh mục, thường dùng kiểu số/ký tự để khai báo, cấu trúc chung như bảng 3.4 dưới đây: Bảng 3.3. CSDL danh mục chuyên ngành STT Tên trường Kiểu dữ liệu Ý nghĩa 1 ID_XYZ C(2) ID là mã hóa 2 ND_XYZ C(100) Tên chi tiết XYZ Trong đó, trường ID_XYZ thường được chọn lấy các giá trị gần như các giá trị số: 01, 02, ... các giá trị này gần như là số hóa, ít gợi nhớ, gây khó khăn trong lập trình, bảo trì, bảo dưỡng và khai thác. Trong lĩnh vực bưu chính, Bộ Thông tin Truyền thông đã ban hành Bộ mã quốc gia và công bố trên [78] (hình 8, phụ lục 5), chủ yếu là mã số hóa theo thông lệ quốc tế. Đối với ngành VT-CNTT hiện chưa có bộ mã danh mục nào thống nhất ban hành toàn quốc. Đề xuất ứng dụng CVT quy định bộ mã chuyên ngành VT-CNTT Giải pháp đề xuất này có tính chất hành chính, tuy nhiên nó đã góp phần chuẩn hóa dữ liệu cho CSDL danh mục, áp dụng cho toàn mạng lưới VT- CNTT, giúp cho công tác quản lý, lập trình, bảo trì, bảo dưỡng phần mềm, mạng lưới và sử dụng chương trình được thuận lợi. Trong đó, các dữ liệu mã hóa sử dụng CVT thường phải thỏa mãn các điều kiện: (1) CVT mã hóa được một tổ chức ban hành, có phạm vi, giới hạn áp dụng. (2) CVT mã hóa là duy nhất, không trùng lặp để tránh nhập nhằng. (3) CVT mã hóa thường dùng thêm các ký tự theo một quy luật định sẵn. Ví dụ 1: Quy định Chuẩn hóa danh mục hình thức thanh toán DM_HT_TTOAN áp dụng CVT trong cụm từ mô tả: Bảng 3.4. CSDL danh mục hình thức thanh toán Chữ viết tắt cho hình thức thanh toán Mô tả TN Tại nhà CK Chuyển khoản 71 TM Tiền mặt UNC Ủy nhiệm chi qua ngân hàng UNT Ủy nhiệm thu qua ngân hàng... Ví dụ 2: Quy định mã thanh toán của khách hàng như bảng dưới đây: Bảng 3.5. Bảng mã vùng thanh toán + <09 Mã thanh toán DNG+xxxxxxxxx chữ số> Nhiều quy định mã hóa có sử dụng CVT đã được đề xuất ban hành và áp dụng (bảng 1, phụ lục 4): Quy định đánh mã trong phần mềm điều hành sản xuất kinh doanh cho các tỉnh/thành trong khu vực, quy định bộ mã mạng cáp đồng,
File đính kèm:
- luan_an_nghien_cuu_ngu_nghia_va_hien_tuong_nhap_nhang_trong.pdf
- 2. NGUYEN NHO TUY. Tom Tat LA_Viet.pdf
- 3. NGUYEN NHO TUY. Tom Tat LA_Anh.pdf
- 4. NGUYEN NHO TUY. Dong Gop Moi Cua LA.pdf
- 5. NGUYEN NHO TUY. Trich Yeu LA.pdf