Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo

xoài cho các vùng và quốc gia khác nhau là khác nhau vì chất lượng của xoài là khác nhau. Do đó SVM, LDA, KNN và RF được áp dụng để phân loại xoài trong nghiên cứu này. Những mô hình này sẽ được áp dụng và so sánh kết quả thí nghiệm. Đầu tiên, một cái nhìn tổng quan lý thuyết về mô hình để có được một cái nhìn tổng quan chung về những ưu điểm và nhược điểm của từng mô hình máy học. Hình 4.16. Quá trình huấn luyện RF 121 Thứ nhất, mô hình RF được coi là loại tách lớp xoài sử dụng dữ liệu thu thập được. Đây là một mô hình phân loại rất phổ biến và hiệu quả để giải quyết vấn đề về các giá trị phân loại không có tính tuyến tính với các biến độc lập. RF là một phương pháp học tập đồng bộ, sử dụng nhiều mô hình RF để có được kết quả dự đoán và giảm phương sai với độ lệch nhỏ. RF có xu hướng tìm hiểu các mẫu bất thường, do đó mô hình có độ lệch thấp, nhưng phương sai cao. Quá trình huấn luyện của RF được thể hiện trong Hình 4.16. Quá trình hoạt động RF diễn ra trong ba bước: Bước 1. Áp dụng tổng hợp bootstrap [108] để tạo k tập con từ tập huấn luyện Giả sử 𝐹 = {𝑓.: 0 < 𝑖 ≤ 𝑛} là tập hợp đặc điểm của n mẫu xoài đã được dán nhãn, mỗi mẫu 𝑓. = [ℎ𝑒. , 𝑤𝑖., 𝑑𝑒., 𝑤𝑒.]À trong đó he, wi, de, we lần lượt là chiều cao, chiều rộng, khuyết tật, trọng lượng của xoài. Cho 𝑇 = {𝑡.: 0 < 𝑖 ≤ 𝑛} là loại tập hợp theo n phần tử trong tập F, 𝑡. ∈{1,2,3} trong đó G1, G2, G3 lần lượt là các loại xoài. Một phương pháp mô hình RF tạo k tập hợp con bằng cách chọn một mẫu ngẫu nhiên có thay thế [F, T]. Do đó, tập k là tập con 𝐵 = {𝑏.: 0 < 𝑖 ≤ 𝑘}, trong đó bi là tập con thứ i. Tập hợp của bi bằng S hoặc có thể được ký hiệu |𝑏.| = 𝑆. Hơn nữa, bi có (1 - 1/e) các ví dụ duy nhất của S. Bước 2. Huấn luyện RF Các nút được gắn nhãn với các tính năng đầu vào được chọn và phân cấp dẫn đến nút quyết định cấp dưới. Có ba cách để thực hiện quy trình này: Gini hoặc entropy nhưng trong nghiên cứu này Gini được chọn, bởi vì Gini có thể giảm thiểu phân loại sai và Gini sẽ có xu hướng tìm lớp lớn nhất trong khi entropy có xu hướng tìm các nhóm lớp chiếm khoảng 50% dữ liệu. Nói cách khác, thời gian tính toán của Gini nhanh hơn Entropy, điều này sẽ giúp giảm thời gian huấn luyện dữ liệu. Công thức Gini được đưa ra bởi (4.46). t j=1 = 1 - 2jG(F) På (4.46) Công thức Gini là thước đo tần suất F được chọn ngẫu nhiên sẽ được dán nhãn không chính xác nếu được dán nhãn ngẫu nhiên theo phân phối nhãn trong bi. 122 Bước 3. Lựa chọn kết quả. Kết quả của phương pháp mô hình random forest (yFR) được chọn từ kết quả của cây trong rừng theo phương pháp bỏ phiếu đa số. Thứ hai, một phương pháp phân loại KNN cũng được sử dụng để phân loại xoài, sau khi vấn đề xây dựng và giải quyết các phương pháp sử dụng. KNN là một thuật toán trong đó đầu ra là một loại thành viên. KNN là một kiểu học tập dựa trên cá thể, trong đó xoài được gán cho loại xoài phổ biến nhất trong số xoài gần nhất. Quá trình thực hiện KNN được đưa ra trong Hình 4.17. Hình 4.17. Quá trình dự đoán của K_nearest neighbors. Xoài dự đoán là vectơ fx trong không gian đặc trưng F. Loại phản ứng txÎT được dự đoán bằng cách xem xét k mẫu gần nhất X. Thuật toán lân cận biên gần nhất (LMNN) [100] đo độ gần giữa k xoài và X. k xoài X gần nhất được chọn bằng cách sử dụng số liệu Mahalanobis là một ellipsoid. Xác suất của X có loại t Î{1, 2, 3} được tính theo (4.47). ( ) x 1 1 (f ) k i P X t I t k = = = =å (4.47) Trong đó I là hàm chỉ thị (1 là đúng, 0 sai). Lớp có xác suất cao nhất trở thành loại dự đoán yx. Thứ ba, phương pháp mô hình SVM sẽ được đề cập. Ngoài hai phương pháp mô hình RF và KNN, SVM là phương pháp mô hình được nhiều nhà nghiên cứu lựa chọn nhất vì tính linh hoạt của phương pháp này khi sử dụng hyperplanes để tách các lớp. Trong nghiên cứu này, một phương pháp áp dụng SVM được hiển thị trong Hình 4.18. 123 Các mẫu xoài fi trong không gian đặc trưng F và fi có kiểu tiÎ{1, 2, 3} trong không gian loại T. Vì vậy, vectơ 𝑣 = [𝑓. , 𝑡. ] là mẫu huấn luyện trong không gian huấn luyện F x T. Mô hình SVM tìm thấy các hyperplanes chia loại xoài trong F x T không gian để khoảng cách giữa chúng và điểm gần nhất fx từ một trong hai nhóm là cực đại. mỗi siêu phẳng được tạo phải đảm bảo các điều kiện được đưa ra trong (4.48). arg min( w ) subject to t (wf ) 1, {1,2,..,n}i i b i- ³ Î !! ! (4.48) Hệ số nhân Karush-Kuhn-Tucker (KKT) [101] và Lagrange được sử dụng để tối ưu hóa bởi (4.49). Hình 4.18. Quá trình dự đoán của SVM i i i 0 w λ t f n i= =å! (4.49) Trong khi tạo hyperplanes, mô hình SVM áp dụng chức năng Kernel để tăng kích thước của dữ liệu. Điều này làm cho việc phân nhóm dữ liệu dễ dàng hơn nhiều. Với 𝛽$, 𝛼., 𝐹 , 𝐾(𝑓. , 𝑓.¯) lần lượt là độ lệch, các tham số mô hình được học, không gian đặc trưng và hàm Kernel của vector (𝑓. , 𝑓.¯). Vì vậy, bộ phân loại vectơ hỗ trợ có thể được biểu diễn trong (4.50). 0 i i( ) (f ,f )i i F f x Kb a Î ¢= +å (4.50) 124 Sự kết hợp của tất cả các hyperplanes đã phân loại xoài riêng biệt. Bất kỳ xoài nào có tính năng fx và loại không xác định sẽ được sắp xếp và xem xét trong các cụm được chỉ định của mô hình và đưa ra các loại xoài đó txÎ{1, 2, 3}. Cuối cùng, phương pháp the Linear Discriminant Analysis (LDA) cũng đã được tiến hành và có hiệu quả cao trong nhiều nghiên cứu. Do đó, LDA sẽ được áp dụng cho bộ dữ liệu này một cách thích hợp. Phương pháp LDA sẽ cho ta một góc nhìn mới về phân loại dữ liệu bằng cách giảm kích thước của dữ liệu nhưng vẫn đảm bảo tính chính xác của dự đoán. LDA là phương pháp giảm dữ liệu để tìm ra các tính năng của dữ liệu với phương sai và sự khác biệt giữa các loại xoài càng lớn càng tốt. Quá trình thực hiện được làm rõ hơn trong Hình 4.19. Hình 4.19. Quá trình dự đoán của the Linear Discriminant Analysis Các mẫu xoài trong không gian đặc trưng F và có kiểu 𝑡. Î{1, 2, 3} trong không gian loại T. Vì vậy, vectơ đang huấn luyện mẫu trong không gian huấn luyện F x T. Một cách so với tất cả “One-vs.-all” [108] được sử dụng để phân biệt từng loại xoài với phần còn lại của dữ liệu. Với ti trong T. Gọi vectơ {𝑧Ñ , 𝑗 ∈ {1,2,3} là loại xoài sao cho nếu 𝑡. = j thì 𝑧Ñ = 1 và 𝑡. ≠ 𝑗 và 𝑧Ñ = 0. Do đó, mỗi vector 𝑧Ñ tạo ra 125 một nhóm riêng biệt của một loại xoài tương ứng. Đặt G = {G1, G2, G3} của từng nhóm riêng biệt. Sau khi các loại xoài được phân biệt thành các nhóm riêng biệt, các nhóm này được đưa vào mô hình LDA để tìm các đường thẳng phân biệt trong tập hợp H = ℎ?(Ô9), ℎ=(Ô;), ℎ(Ô<) các đường thẳng ℎ?(Ô9), ℎ=(Ô;), ℎ(Ô<) của các nhóm riêng biệt G1, G2, G3 tương ứng. Bên cạnh đó, 𝜃? = [𝜇? , 𝜎? ]À, 𝜃= = [𝜇= , 𝜎= ]À , 𝜃 = [𝜇 , 𝜎 ]À chứa các giá trị trung bình và phương sai cho từng loại xoài trong mỗi nhóm G1, G2, G3. Với 𝜃?¯ = [𝜇?¯, 𝜎?¯]À, 𝜃=¯ = [𝜇=¯, 𝜎=¯]À , 𝜃¯ = [𝜇¯, 𝜎¯]À các tướng trung bình và phương sai. Các loại xoài khác trong mỗi nhóm G1, G2, G3. ℎ?(Ô9), ℎ=(Ô;), ℎ(Ô<) được tối ưu hóa bằng cách tối đa hóa khoảng cách giữa các phương tiện trong mỗi nhóm trong khi giảm thiểu sự phân tán. Phương pháp được thể hiện trong (4.51). 3 1 {1,2,3} 3 2 i1 {1,2,3} argmax( (µ µ ) (µ µ )) argmin( ) T i i i iii ii H s = Î = Î ¢ ¢- - = å å (4.51) Một mẫu x không nhìn thấy được dự đoán bằng cách chiếu x lên ℎ?(Ô9), ℎ=(Ô;), ℎ(Ô<) tương ứng. Loại xoài của mẫu x là xác suất lớn nhất của x trong mỗi phân phối ℎ?(Ô9), ℎ=(Ô;), ℎ(Ô<) được cho trong (4.52). 2 2 {1,2,3} ( )1argmax exp 22 i LDA i ii xy µ ss pÎ æ öæ ö- = -ç ÷ç ÷ç ÷è øè ø (4.52) Kết luận, bốn phương pháp học có giám sát đã được khái quát về lý thuyết và cách áp dụng chúng vào tập dữ liệu trong nghiên cứu này. Mỗi phương pháp đều có những ưu nhược điểm khác nhau. Phần thực nghiệm tiếp theo sẽ làm sáng tỏ mức độ phù hợp của các mô hình này với tập dữ liệu hiện có. 4.7. Phân loại xoài sử dụng các phương pháp mô hình LDA, SVM, KNN và RF Từ các mùa xoài khác nhau, 4983 mẫu xoài được đo chính xác và cẩn thận (Mỗi trái từ 300-500 gram gồm 3 loại xoài theo quy định, mỗi tháng lấy mẫu đủ để thí nghiệm [8]. Thu hoạch, lấy mẫu và đo lường trong các tháng từ tháng 11 đến tháng 6 (lấy mẫu ngẫu nhiên và số lượng mẫu trong thí nghiệm cho phép). Bởi vì đây là thời điểm xoài 126 được thu hoạch với số lượng lớn. Chất lượng xoài thay đổi theo từng thời điểm vì vậy việc thu thập tất cả dữ liệu là cần thiết. Lượng dữ liệu thu được từ mỗi tháng được ghi trong Bảng 4.1. Dữ liệu xoài được thu thập dựa trên các phép đo thực tế trong đó chiều dài và chiều rộng (chiều cao, chiều rộng, kích thước của khuyết tật) được đo bằng các công cụ Mitutoyo với độ chính xác 0,05mm. Ngoài ra, trọng lượng của mỗi trái xoài được đo bằng cân điện tử dựa trên cảm biến băng tải với sai số 0,01g. Bảng 4.1. Số lượng mẫu xoài đo mỗi tháng Tháng 11 12 2 3 4 5 6 Mẫu 982 691 492 542 631 998 647 Ngoài ra, thể tích (V) của xoài được đo bằng phương pháp bình tràn với thiết bị là bình thủy tinh 1000ml và sai số 0,4ml mà các phương pháp đo được thực hiện nghiêm ngặt để đảm bảo độ chính xác. Mỗi đại lượng được đo 10 lần. Giá trị trung bình của các phép đo được tính toán. Với n là thời gian đo. Hình 4.20. Quy trình hệ thống phân loại sử dụng máy học cho 4 mô hình LDA, SVM, KNN và RF Trong nghiên cứu này, các mô hình của Máy học được giám sát được sử dụng để dự đoán các loại xoài. Có bốn thuật toán để áp dụng và triển khai là LDA, SVM, 127 KNN và RF được trang bị dữ liệu của xoài và độ chính xác của chúng sẽ được hiển thị trong Bảng 4.2. Tập dữ liệu được tạo ra bằng cách phân loại xoài thủ công dựa trên mật độ (D), thể tích (V) và khuyết tật (de). Việc phân loại thủ công này do các chuyên gia về xoài thực hiện. Các loại được dán nhãn bao gồm G1, G2 và G3 của xoài được đo bằng D, V và de từ bốn đặc điểm được trích xuất de, we, wi và le (Hình 4.20). Các mô hình ML được giám sát và các nền tảng thực hiện phù hợp để dự đoán các loại xoài được xác định bằng cách so sánh độ chính xác của dự đoán. Ngoài ra, các thông số được tối ưu hóa của mỗi mô hình để thay đổi dữ liệu của xoài cũng được thực hiện. Sau khi phân tích dữ liệu để xác định mối quan hệ của các biến, các mô hình được đưa vào các tham số của chúng để đạt được hiệu suất hoạt động tốt nhất. Khung của quá trình huấn luyện được thể hiện trong Hình 4.21, bao gồm sáu phần: Đầu vào, đầu ra, KNN, LDA, SVM và RF. Hình 4.21. Khung quy trình huấn luyện dựa trên 4 mô hình SVM, LDA, KNN và RF Tập dữ liệu được chia thành ba phần là dữ liệu huấn luyện, dữ liệu xác nhận và dữ liệu thử nghiệm. Ở lớp ngoài, 10% dữ liệu gốc được tách ra để làm dữ liệu thử 128 nghiệm nhằm xác định hiệu suất của các mô hình. Phần còn lại của dữ liệu được sử dụng để phát triển một mô hình. 90% dữ liệu gốc được sử dụng trong lớp bên trong để điều chỉnh các tham số. Dữ liệu đó được tách thành dữ liệu huấn luyện cho mô hình để cung cấp dự đoán hoặc đánh giá chất lượng, dữ liệu xác nhận là để đánh giá độ chính xác của mô hình và chọn các thông số tốt nhất của mô hình dựa trên kết quả đầu ra đã cho một cách khách quan. Dữ liệu huấn luyện được sử dụng để huấn luyện mô hình đưa ra dự đoán và dữ liệu xác nhận để kiểm tra độ chính xác của mô hình một cách khách quan dựa trên đầu ra đã cho. Ngoài ra, dữ liệu thử nghiệm được sử dụng để kiểm tra độ chính xác của mô hình dự đoán. Trong trường hợp dữ liệu quá ít để huấn luyện một mô hình chính xác, rất khó để phân chia dữ liệu thành dữ liệu huấn luyện và dữ liệu xác nhận. Luôn luôn giữ tập dữ liệu huấn luyện càng lớn càng tốt nhưng không quá ít tập dữ liệu kiểm tra. Khi dữ liệu xác nhận quá nhỏ, các trạng thái của khớp trên và dưới khớp xảy ra. Sau khi cẩn thận đo kích thước của 4983 mẫu xoài và tính toán sai số ngẫu nhiên của từng trái xoài. Sau đó, biểu đồ thống kê lỗi được tạo thành từ dữ liệu lỗi của các biến. Các lỗi về số lượng như chiều cao, chiều rộng, khối lượng, thể tích được thể hiện qua các biểu đồ Hình 4.22. Hình 4.22. Phân bố lỗi các đặc tính của xoài 129 Các biểu đồ ở trên có hình dạng rất giống với phân phối các tập dữ liệu tập trung vào một phạm vi các giá trị và ít hơn trên các phạm vi còn lại. Vì vậy, giá trị trung bình của lỗi là một tùy chọn cho giá trị lỗi gần đúng của biến. Bảng lỗi của các biến chiều cao (he), chiều rộng (wi), trọng lượng (we), thể tích V, khuyết tật (de) xuất phát từ bảng phân phối được hiển thị trong Bảng 4.2. Bảng 4.2. Bảng phân phối sai số tuyệt đối các biến của xoài Chiều cao (mm) Chiều rộng (mm) Trọng lượng (gram) Thể tích (ml) Khuyết tật (mm2) Sai số tuyệt đối 0.45 0.62 2.15 4.3 5.23 Sai số tương đối 0.39% 0.78% 0.63% 1.3% 2.32% Lỗi đo nhỏ hơn sai số cho phép, vì vậy dữ liệu này là đáng tin cậy. Do đó, dữ liệu này sẽ được coi là kích thước dữ liệu thử nghiệm của xoài. Vấn đề tiếp theo là xử lý hình ảnh của những trái xoài này với kích thước thật của chúng và đánh giá độ chính xác của chúng. Tất cả xoài được phân loại theo tiêu chuẩn chuyên gia được áp dụng bởi tất cả nông dân. Một trái xoài khi được phân loại phải đáp ứng các đặc điểm: trọng lượng, khuyết tật và tỷ trọng được mô tả trong Bảng 4.3. Bảng 4.3. Đặc điểm loại xoài tiêu chuẩn Phạm vi trọng lượng (gram) Phạm vi lỗi trọng lượng Chênh lệch trọng lượng cùng loại Khuyết tật (cm2) Tỷ trọng Loại 3 200 – 350 180 – 425 112.5 > 5 <1 Loại 2 351 – 550 251 – 650 150 3 – 5 1 – 1.3 Loại 1 551 – 800 426 – 925 187.5 0 – 3 >1.3 Do không thể xác định tỷ trọng xoài thông qua hình ảnh trực tiếp của xoài, nên tỷ trọng của xoài được ước tính gián tiếp thông qua các đặc điểm quan trọng đối với tỷ trọng của xoài. Tỷ trọng được tính theo trọng lượng riêng và khối lượng. Khối lượng là giá trị thu được từ băng tải. Đặc tính còn lại là khối lượng sẽ được ước tính thông qua Chiều cao và Chiều rộng của xoài. Những tính năng này có thể được ước tính từ hình ảnh của xoài. Sau khi tổng hợp, dữ liệu sẽ được xử lý và phân tích để có được dữ liệu tốt nhất. Đây còn được gọi là bước xử lý trước dữ liệu. Xoài trong nghiên cứu được sắp xếp và phân loại thành ba nhóm với chất lượng cao nhất là lớp một, và chất lượng thấp hơn từ lớp hai đến lớp 3. Các bước xử lý ảnh đã được thử nghiệm trong Hình 4.23. 130 Hình 4.23. Quy trình chiết xuất các kích thước và khuyết tật của xoài Chiều cao và chiều rộng được ước tính bằng số pixel hình ảnh nhị phân. Lỗi giữa kết quả thực tế và kết quả ước tính xảy ra bằng cách so sánh chúng cũng như tính toán tỷ lệ lỗi sẽ giúp đánh giá kết quả của tất cả các bước xử lý. Sau khi ước tính kích thước của xoài và so sánh với kích thước thực tế, kết quả là rất nhỏ. Các thí nghiệm cho thấy kết quả ước tính độ dài của pixel và khá tốt vì độ lệch không đáng kể. Quá trình phát hiện xoài và trích xuất chiều cao và chiều rộng của xoài được thực hiện trong Hình 4.24. Tất cả các khung xoài được chụp trong buồng xử lý ảnh đều được xử lý. Kết quả của quá trình là chiều dài và chiều rộng lớn nhất. Các thí nghiệm trong Bảng 4.4 cho thấy kết quả ước tính là rất nhỏ. Hình 4.24. Quá trình phát hiện xoài và chiết xuất chiều coo, chiều rang Khối lượng xoài được dự đoán từ chiều cao và chiều rộng từ hình ảnh được chụp. Dữ liệu được lấy từ dữ liệu thực để tạo mô hình dự đoán khối lượng. Trọng lượng được ước tính từ chiều cao và chiều rộng, do đó, mối quan hệ giữa chiều cao, chiều rộng và trọng lượng được tìm thấy trong Hình 4.25. Từ biểu đồ trên, các tính 131 năng: Chiều cao, Chiều rộng có mối quan hệ tuyến tính với V. Do đó, trọng lượng sẽ được dự đoán bởi một mô hình tuyến tính với các biến: chiều cao, chiều rộng. Bảng 4.4. Kích thước thực tế của các biến chiều cao, chiều rộng và khuyết tật Hình 4.25. Mối quan hệ tuyến tính giữa chiều cao, chiều rộng và khối lượng 132 Xây dựng các công thức ước tính của khối lượng. So sánh giữa khối lượng thực và ước tính được hiển thị trong Bảng 4.5. Trọng lượng được lấy từ băng tải và tính toán trọng lượng ước tính dựa trên bộ điều khiển chính của PLC được hiển thị trong Hình 4.26. Hình 4.26. Nguyên lý hoạt động của Cảm biến lực Bảng 4.5. So sánh giữa khối lượng thực tế và ước tính Trong quá trình xử lý, tín hiệu luôn bị nhiễu làm cho kết quả đo của băng tải không chính xác. Vì vậy, tất cả các tín hiệu từ băng tải được truyền qua bộ lọc nhiễu Kalman, ở đó các giá trị biến đổi quá lớn sẽ bị loại bỏ. Sau khi thu được tín hiệu khối lượng từ bộ lọc nhiễu, các tín hiệu này sẽ được giải mã và ước tính cho thấy kết quả 133 trọng lượng thực của xoài. Kết quả khối lượng này bị ảnh hưởng bởi vị trí của xoài trên khay. Do đó, vị trí của trái xoài trên khay sẽ được kiểm tra bằng camera. Các giá trị trọng lượng ước tính sẽ được nội suy với chiều cao, chiều rộng và khuyết tật cho kết quả trọng lượng thực của xoài. Trong phần này, tổng quan về toàn bộ tập dữ liệu được xem xét và thực hiện các bước xử lý dữ liệu phù hợp nhất trước khi áp dụng các thuật toán. Dữ liệu sẽ được kiểm tra và loại bỏ các giá trị lạ trong Hình 4.27 và Bảng 4.6. Bảng 4.6. Bảng phạm vi các biến của dữ liệu Loại 1 Loại 2 Loại 3 Tổng số Khác biệt Trọng lượng 400 – 520 330 – 380 170 – 300 170 – 520 350 Chiều cao 125 – 135 118 – 120 105 – 115 105 – 135 30 Chiều rộng 85 – 88 77 – 83 71 – 75 71 – 88 17 Khuyết tật 1 – 3 1.2 – 3.5 3.8 – 9 1 – 9 8 Hình 4.27. Phạm vi của các biến khi ứng dụng thuật toán 134 Trong bộ dữ liệu được trích xuất, việc phân phối dữ liệu giữa các biến rất khác nhau, do đó cần chuẩn hóa dữ liệu. Điểm Z của phương pháp đã được sử dụng, các giá trị được tiêu chuẩn hóa có ràng buộc [-3,3]. Đây là dữ liệu được chuẩn hóa trong Bảng 4.7. Dữ liệu xoài của 4983 xoài đã được sử dụng để huấn luyện các mô hình LDA, SVM, KNN và RF. Trước khi đến các mô hình đó, dữ liệu cần được kiểm tra mối quan hệ giữa các tính năng của xoài trong Hình 4.28. Bảng 4.7. Dữ liệu sau khi chuẩn hóa Hình 4.28. Mối quan hệ giữa các tính năng của xoài Với Hình 4.28, mối quan hệ tuyến tính chỉ xảy ra giữa trọng lượng và chiều cao, chiều rộng, các tính năng còn lại có mối quan hệ phi tuyến tính với loại khác. Do đó, sử 135 dụng mô hình tuyến tính để dự đoán loại xoài là một lựa chọn không tốt. Dữ liệu được chia thành 3 phần bao gồm dữ liệu huấn luyện, dữ liệu xác nhận, dữ liệu thử nghiệm được trình bày trong Bảng 4.8. Bảng 4.8. Số lượng bộ dữ liệu Tập dữ liệu Huấn luyện Đánh giá Kiểm tra Loại 1 1723 1073 300 350 Loại 2 1570 1036 215 319 Loại 3 1690 1068 256 366 Tập dữ liệu với 4983 mẫu dữ liệu được trích xuất và tổng hợp từ hình ảnh và băng tải. Bộ dữ liệu được chia thành ba phần với 3194 bằng cách sử dụng huấn luyện mô hình, 771 được sử dụng để xác thực và 1035 được sử dụng cho kiểm tra. Hình dung của tập dữ liệu huấn luyện được thể hiện trong Hình 4.29 và 4.30. Hình 4.29. Trực quan hóa dữ liệu huấn luyện Các loại xoài trong Hình 4.29 phân phối các điểm dữ liệu ở ngoại vi có vẻ dễ phân loại, nhưng khi tiếp cận trung tâm, việc phân chia xoài trở nên phức tạp và dường như không tuân theo một quy tắc dễ hiểu sẽ gây khó khăn cho việc phân loại thuật toán. Trong Hình 4.30, ở cả hai đầu của trục khuyết tật (khuyết tật (0,4), (6,12)), giới hạn giữa loại xoài khá rõ ràng nhưng trở nên phức tạp hơn với khuyết tật giữa = (4,6). Lý do cho kết quả này là khi khuyết tật xoài quá cao hoặc quá thấp, xoài dễ xác định loại nhưng ở khuyết tật thông thường, việc phân loại xoài trở nên khó khăn hơn nhiều khi phụ thuộc nhiều vào các yếu tố phân loại khác trước khi quyết định loại 136 xoài. Khi xem xét trọng lượng, dễ dàng nhận ra khối lượng càng cao, chất lượng xoài sẽ được đánh giá cao. Tuy nhiên, vẫn có một lượng xoài đáng kể được đánh giá ở chất lượng kém do một số biến nhất định là dưới tiêu chuẩn. Đối với trục của khối lượng, xoài được chi
File đính kèm:
luan_an_nghien_cuu_thiet_ke_he_thong_phan_loai_nong_san_hieu.pdf
qdnguyenducthong.pdf