Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo
xoài cho các vùng và quốc gia khác nhau là khác nhau vì
chất lượng của xoài là khác nhau. Do đó SVM, LDA, KNN và RF được áp dụng để phân
loại xoài trong nghiên cứu này. Những mô hình này sẽ được áp dụng và so sánh kết quả
thí nghiệm. Đầu tiên, một cái nhìn tổng quan lý thuyết về mô hình để có được một cái
nhìn tổng quan chung về những ưu điểm và nhược điểm của từng mô hình máy học.
Hình 4.16. Quá trình huấn luyện RF
121
Thứ nhất, mô hình RF được coi là loại tách lớp xoài sử dụng dữ liệu thu thập
được. Đây là một mô hình phân loại rất phổ biến và hiệu quả để giải quyết vấn đề về
các giá trị phân loại không có tính tuyến tính với các biến độc lập. RF là một phương
pháp học tập đồng bộ, sử dụng nhiều mô hình RF để có được kết quả dự đoán và giảm
phương sai với độ lệch nhỏ. RF có xu hướng tìm hiểu các mẫu bất thường, do đó mô
hình có độ lệch thấp, nhưng phương sai cao. Quá trình huấn luyện của RF được thể
hiện trong Hình 4.16.
Quá trình hoạt động RF diễn ra trong ba bước:
Bước 1. Áp dụng tổng hợp bootstrap [108] để tạo k tập con từ tập huấn luyện
Giả sử 𝐹 = {𝑓.: 0 < 𝑖 ≤ 𝑛} là tập hợp đặc điểm của n mẫu xoài đã được dán
nhãn, mỗi mẫu 𝑓. = [ℎ𝑒. , 𝑤𝑖., 𝑑𝑒., 𝑤𝑒.]À trong đó he, wi, de, we lần lượt là chiều cao,
chiều rộng, khuyết tật, trọng lượng của xoài.
Cho 𝑇 = {𝑡.: 0 < 𝑖 ≤ 𝑛} là loại tập hợp theo n phần tử trong tập F, 𝑡. ∈{1,2,3} trong đó G1, G2, G3 lần lượt là các loại xoài.
Một phương pháp mô hình RF tạo k tập hợp con bằng cách chọn một mẫu
ngẫu nhiên có thay thế [F, T]. Do đó, tập k là tập con 𝐵 = {𝑏.: 0 < 𝑖 ≤ 𝑘}, trong đó
bi là tập con thứ i. Tập hợp của bi bằng S hoặc có thể được ký hiệu |𝑏.| = 𝑆. Hơn
nữa, bi có (1 - 1/e) các ví dụ duy nhất của S.
Bước 2. Huấn luyện RF
Các nút được gắn nhãn với các tính năng đầu vào được chọn và phân cấp dẫn
đến nút quyết định cấp dưới. Có ba cách để thực hiện quy trình này: Gini hoặc entropy
nhưng trong nghiên cứu này Gini được chọn, bởi vì Gini có thể giảm thiểu phân loại
sai và Gini sẽ có xu hướng tìm lớp lớn nhất trong khi entropy có xu hướng tìm các
nhóm lớp chiếm khoảng 50% dữ liệu. Nói cách khác, thời gian tính toán của Gini
nhanh hơn Entropy, điều này sẽ giúp giảm thời gian huấn luyện dữ liệu. Công thức
Gini được đưa ra bởi (4.46).
t
j=1
= 1 - 2jG(F) På
(4.46)
Công thức Gini là thước đo tần suất F được chọn ngẫu nhiên sẽ được dán nhãn
không chính xác nếu được dán nhãn ngẫu nhiên theo phân phối nhãn trong bi.
122
Bước 3. Lựa chọn kết quả. Kết quả của phương pháp mô hình random forest
(yFR) được chọn từ kết quả của cây trong rừng theo phương pháp bỏ phiếu đa số.
Thứ hai, một phương pháp phân loại KNN cũng được sử dụng để phân loại
xoài, sau khi vấn đề xây dựng và giải quyết các phương pháp sử dụng. KNN là một
thuật toán trong đó đầu ra là một loại thành viên. KNN là một kiểu học tập dựa trên
cá thể, trong đó xoài được gán cho loại xoài phổ biến nhất trong số xoài gần nhất.
Quá trình thực hiện KNN được đưa ra trong Hình 4.17.
Hình 4.17. Quá trình dự đoán của K_nearest neighbors.
Xoài dự đoán là vectơ fx trong không gian đặc trưng F. Loại phản ứng txÎT được
dự đoán bằng cách xem xét k mẫu gần nhất X. Thuật toán lân cận biên gần nhất (LMNN)
[100] đo độ gần giữa k xoài và X. k xoài X gần nhất được chọn bằng cách sử dụng số liệu
Mahalanobis là một ellipsoid. Xác suất của X có loại t Î{1, 2, 3} được tính theo (4.47).
( ) x
1
1 (f )
k
i
P X t I t
k =
= = =å
(4.47)
Trong đó I là hàm chỉ thị (1 là đúng, 0 sai). Lớp có xác suất cao nhất trở thành loại dự đoán yx.
Thứ ba, phương pháp mô hình SVM sẽ được đề cập. Ngoài hai phương pháp mô
hình RF và KNN, SVM là phương pháp mô hình được nhiều nhà nghiên cứu lựa chọn
nhất vì tính linh hoạt của phương pháp này khi sử dụng hyperplanes để tách các lớp.
Trong nghiên cứu này, một phương pháp áp dụng SVM được hiển thị trong Hình 4.18.
123
Các mẫu xoài fi trong không gian đặc trưng F và fi có kiểu tiÎ{1, 2, 3} trong
không gian loại T. Vì vậy, vectơ 𝑣 = [𝑓. , 𝑡. ] là mẫu huấn luyện trong không gian
huấn luyện F x T. Mô hình SVM tìm thấy các hyperplanes chia loại xoài trong F x T không
gian để khoảng cách giữa chúng và điểm gần nhất fx từ một trong hai nhóm là cực đại. mỗi
siêu phẳng được tạo phải đảm bảo các điều kiện được đưa ra trong (4.48).
arg min( w ) subject to t (wf ) 1, {1,2,..,n}i i b i- ³ Î
!! !
(4.48)
Hệ số nhân Karush-Kuhn-Tucker (KKT) [101] và Lagrange được sử dụng để
tối ưu hóa bởi (4.49).
Hình 4.18. Quá trình dự đoán của SVM
i i i
0
w λ t f
n
i=
=å!
(4.49)
Trong khi tạo hyperplanes, mô hình SVM áp dụng chức năng Kernel để tăng
kích thước của dữ liệu. Điều này làm cho việc phân nhóm dữ liệu dễ dàng hơn nhiều.
Với 𝛽$, 𝛼., 𝐹 , 𝐾(𝑓. , 𝑓.¯) lần lượt là độ lệch, các tham số mô hình được học, không
gian đặc trưng và hàm Kernel của vector (𝑓. , 𝑓.¯). Vì vậy, bộ phân loại vectơ hỗ trợ
có thể được biểu diễn trong (4.50).
0 i i( ) (f ,f )i
i F
f x Kb a
Î
¢= +å
(4.50)
124
Sự kết hợp của tất cả các hyperplanes đã phân loại xoài riêng biệt. Bất kỳ xoài
nào có tính năng fx và loại không xác định sẽ được sắp xếp và xem xét trong các cụm
được chỉ định của mô hình và đưa ra các loại xoài đó txÎ{1, 2, 3}.
Cuối cùng, phương pháp the Linear Discriminant Analysis (LDA) cũng đã
được tiến hành và có hiệu quả cao trong nhiều nghiên cứu. Do đó, LDA sẽ được áp
dụng cho bộ dữ liệu này một cách thích hợp. Phương pháp LDA sẽ cho ta một góc
nhìn mới về phân loại dữ liệu bằng cách giảm kích thước của dữ liệu nhưng vẫn đảm
bảo tính chính xác của dự đoán. LDA là phương pháp giảm dữ liệu để tìm ra các tính
năng của dữ liệu với phương sai và sự khác biệt giữa các loại xoài càng lớn càng tốt.
Quá trình thực hiện được làm rõ hơn trong Hình 4.19.
Hình 4.19. Quá trình dự đoán của the Linear Discriminant Analysis
Các mẫu xoài trong không gian đặc trưng F và có kiểu 𝑡. Î{1, 2, 3} trong
không gian loại T. Vì vậy, vectơ đang huấn luyện mẫu trong không gian huấn luyện
F x T. Một cách so với tất cả “One-vs.-all” [108] được sử dụng để phân biệt từng loại
xoài với phần còn lại của dữ liệu. Với ti trong T. Gọi vectơ {𝑧Ñ , 𝑗 ∈ {1,2,3} là loại
xoài sao cho nếu 𝑡. = j thì 𝑧Ñ = 1 và 𝑡. ≠ 𝑗 và 𝑧Ñ = 0. Do đó, mỗi vector 𝑧Ñ tạo ra
125
một nhóm riêng biệt của một loại xoài tương ứng. Đặt G = {G1, G2, G3} của từng
nhóm riêng biệt.
Sau khi các loại xoài được phân biệt thành các nhóm riêng biệt, các nhóm này
được đưa vào mô hình LDA để tìm các đường thẳng phân biệt trong tập hợp H = ℎ?(Ô9), ℎ=(Ô;), ℎ(Ô<) các đường thẳng ℎ?(Ô9), ℎ=(Ô;), ℎ(Ô<) của các nhóm riêng biệt G1, G2,
G3 tương ứng. Bên cạnh đó, 𝜃? = [𝜇? , 𝜎? ]À, 𝜃= = [𝜇= , 𝜎= ]À , 𝜃 = [𝜇 , 𝜎 ]À chứa các
giá trị trung bình và phương sai cho từng loại xoài trong mỗi nhóm G1, G2, G3.
Với 𝜃?¯ = [𝜇?¯, 𝜎?¯]À, 𝜃=¯ = [𝜇=¯, 𝜎=¯]À , 𝜃¯ = [𝜇¯, 𝜎¯]À các tướng trung bình và
phương sai. Các loại xoài khác trong mỗi nhóm G1, G2, G3. ℎ?(Ô9), ℎ=(Ô;), ℎ(Ô<) được
tối ưu hóa bằng cách tối đa hóa khoảng cách giữa các phương tiện trong mỗi nhóm
trong khi giảm thiểu sự phân tán. Phương pháp được thể hiện trong (4.51).
3
1
{1,2,3}
3 2
i1
{1,2,3}
argmax( (µ µ ) (µ µ ))
argmin( )
T
i i i iii
ii
H
s
=
Î
=
Î
¢ ¢- -
=
å
å
(4.51)
Một mẫu x không nhìn thấy được dự đoán bằng cách chiếu x lên ℎ?(Ô9), ℎ=(Ô;), ℎ(Ô<) tương ứng. Loại xoài của mẫu x là xác suất lớn nhất của x trong mỗi
phân phối ℎ?(Ô9), ℎ=(Ô;), ℎ(Ô<) được cho trong (4.52).
2
2
{1,2,3}
( )1argmax exp
22
i
LDA
i ii
xy µ
ss pÎ
æ öæ ö-
= -ç ÷ç ÷ç ÷è øè ø (4.52)
Kết luận, bốn phương pháp học có giám sát đã được khái quát về lý thuyết và
cách áp dụng chúng vào tập dữ liệu trong nghiên cứu này. Mỗi phương pháp đều có
những ưu nhược điểm khác nhau. Phần thực nghiệm tiếp theo sẽ làm sáng tỏ mức độ
phù hợp của các mô hình này với tập dữ liệu hiện có.
4.7. Phân loại xoài sử dụng các phương pháp mô hình LDA, SVM, KNN và RF
Từ các mùa xoài khác nhau, 4983 mẫu xoài được đo chính xác và cẩn thận (Mỗi
trái từ 300-500 gram gồm 3 loại xoài theo quy định, mỗi tháng lấy mẫu đủ để thí nghiệm
[8]. Thu hoạch, lấy mẫu và đo lường trong các tháng từ tháng 11 đến tháng 6 (lấy mẫu
ngẫu nhiên và số lượng mẫu trong thí nghiệm cho phép). Bởi vì đây là thời điểm xoài
126
được thu hoạch với số lượng lớn. Chất lượng xoài thay đổi theo từng thời điểm vì vậy
việc thu thập tất cả dữ liệu là cần thiết. Lượng dữ liệu thu được từ mỗi tháng được ghi
trong Bảng 4.1. Dữ liệu xoài được thu thập dựa trên các phép đo thực tế trong đó chiều
dài và chiều rộng (chiều cao, chiều rộng, kích thước của khuyết tật) được đo bằng các
công cụ Mitutoyo với độ chính xác 0,05mm. Ngoài ra, trọng lượng của mỗi trái xoài
được đo bằng cân điện tử dựa trên cảm biến băng tải với sai số 0,01g.
Bảng 4.1. Số lượng mẫu xoài đo mỗi tháng
Tháng 11 12 2 3 4 5 6
Mẫu 982 691 492 542 631 998 647
Ngoài ra, thể tích (V) của xoài được đo bằng phương pháp bình tràn với thiết
bị là bình thủy tinh 1000ml và sai số 0,4ml mà các phương pháp đo được thực hiện
nghiêm ngặt để đảm bảo độ chính xác. Mỗi đại lượng được đo 10 lần. Giá trị trung
bình của các phép đo được tính toán. Với n là thời gian đo.
Hình 4.20. Quy trình hệ thống phân loại sử dụng máy học cho 4 mô hình LDA, SVM, KNN và RF
Trong nghiên cứu này, các mô hình của Máy học được giám sát được sử dụng
để dự đoán các loại xoài. Có bốn thuật toán để áp dụng và triển khai là LDA, SVM,
127
KNN và RF được trang bị dữ liệu của xoài và độ chính xác của chúng sẽ được hiển thị
trong Bảng 4.2.
Tập dữ liệu được tạo ra bằng cách phân loại xoài thủ công dựa trên mật độ (D),
thể tích (V) và khuyết tật (de). Việc phân loại thủ công này do các chuyên gia về xoài
thực hiện. Các loại được dán nhãn bao gồm G1, G2 và G3 của xoài được đo bằng D, V
và de từ bốn đặc điểm được trích xuất de, we, wi và le (Hình 4.20).
Các mô hình ML được giám sát và các nền tảng thực hiện phù hợp để dự đoán
các loại xoài được xác định bằng cách so sánh độ chính xác của dự đoán. Ngoài ra,
các thông số được tối ưu hóa của mỗi mô hình để thay đổi dữ liệu của xoài cũng được
thực hiện. Sau khi phân tích dữ liệu để xác định mối quan hệ của các biến, các mô
hình được đưa vào các tham số của chúng để đạt được hiệu suất hoạt động tốt nhất.
Khung của quá trình huấn luyện được thể hiện trong Hình 4.21, bao gồm sáu phần:
Đầu vào, đầu ra, KNN, LDA, SVM và RF.
Hình 4.21. Khung quy trình huấn luyện dựa trên 4 mô hình SVM, LDA, KNN và RF
Tập dữ liệu được chia thành ba phần là dữ liệu huấn luyện, dữ liệu xác nhận
và dữ liệu thử nghiệm. Ở lớp ngoài, 10% dữ liệu gốc được tách ra để làm dữ liệu thử
128
nghiệm nhằm xác định hiệu suất của các mô hình. Phần còn lại của dữ liệu được sử
dụng để phát triển một mô hình. 90% dữ liệu gốc được sử dụng trong lớp bên trong
để điều chỉnh các tham số. Dữ liệu đó được tách thành dữ liệu huấn luyện cho mô
hình để cung cấp dự đoán hoặc đánh giá chất lượng, dữ liệu xác nhận là để đánh giá
độ chính xác của mô hình và chọn các thông số tốt nhất của mô hình dựa trên kết quả
đầu ra đã cho một cách khách quan. Dữ liệu huấn luyện được sử dụng để huấn luyện
mô hình đưa ra dự đoán và dữ liệu xác nhận để kiểm tra độ chính xác của mô hình
một cách khách quan dựa trên đầu ra đã cho.
Ngoài ra, dữ liệu thử nghiệm được sử dụng để kiểm tra độ chính xác của mô hình
dự đoán. Trong trường hợp dữ liệu quá ít để huấn luyện một mô hình chính xác, rất khó
để phân chia dữ liệu thành dữ liệu huấn luyện và dữ liệu xác nhận. Luôn luôn giữ tập dữ
liệu huấn luyện càng lớn càng tốt nhưng không quá ít tập dữ liệu kiểm tra. Khi dữ liệu
xác nhận quá nhỏ, các trạng thái của khớp trên và dưới khớp xảy ra. Sau khi cẩn thận đo
kích thước của 4983 mẫu xoài và tính toán sai số ngẫu nhiên của từng trái xoài. Sau đó,
biểu đồ thống kê lỗi được tạo thành từ dữ liệu lỗi của các biến. Các lỗi về số lượng như
chiều cao, chiều rộng, khối lượng, thể tích được thể hiện qua các biểu đồ Hình 4.22.
Hình 4.22. Phân bố lỗi các đặc tính của xoài
129
Các biểu đồ ở trên có hình dạng rất giống với phân phối các tập dữ liệu tập
trung vào một phạm vi các giá trị và ít hơn trên các phạm vi còn lại. Vì vậy, giá trị
trung bình của lỗi là một tùy chọn cho giá trị lỗi gần đúng của biến. Bảng lỗi của các
biến chiều cao (he), chiều rộng (wi), trọng lượng (we), thể tích V, khuyết tật (de) xuất
phát từ bảng phân phối được hiển thị trong Bảng 4.2.
Bảng 4.2. Bảng phân phối sai số tuyệt đối các biến của xoài
Chiều cao
(mm)
Chiều rộng
(mm)
Trọng lượng
(gram)
Thể tích
(ml)
Khuyết
tật (mm2)
Sai số tuyệt đối 0.45 0.62 2.15 4.3 5.23
Sai số tương đối 0.39% 0.78% 0.63% 1.3% 2.32%
Lỗi đo nhỏ hơn sai số cho phép, vì vậy dữ liệu này là đáng tin cậy. Do đó, dữ
liệu này sẽ được coi là kích thước dữ liệu thử nghiệm của xoài. Vấn đề tiếp theo là
xử lý hình ảnh của những trái xoài này với kích thước thật của chúng và đánh giá độ
chính xác của chúng. Tất cả xoài được phân loại theo tiêu chuẩn chuyên gia được áp
dụng bởi tất cả nông dân. Một trái xoài khi được phân loại phải đáp ứng các đặc điểm:
trọng lượng, khuyết tật và tỷ trọng được mô tả trong Bảng 4.3.
Bảng 4.3. Đặc điểm loại xoài tiêu chuẩn
Phạm vi trọng
lượng (gram)
Phạm vi lỗi
trọng lượng
Chênh lệch trọng
lượng cùng loại
Khuyết
tật (cm2)
Tỷ
trọng
Loại 3 200 – 350 180 – 425 112.5 > 5 <1
Loại 2 351 – 550 251 – 650 150 3 – 5 1 – 1.3
Loại 1 551 – 800 426 – 925 187.5 0 – 3 >1.3
Do không thể xác định tỷ trọng xoài thông qua hình ảnh trực tiếp của xoài, nên
tỷ trọng của xoài được ước tính gián tiếp thông qua các đặc điểm quan trọng đối với
tỷ trọng của xoài. Tỷ trọng được tính theo trọng lượng riêng và khối lượng. Khối
lượng là giá trị thu được từ băng tải. Đặc tính còn lại là khối lượng sẽ được ước tính
thông qua Chiều cao và Chiều rộng của xoài. Những tính năng này có thể được ước
tính từ hình ảnh của xoài. Sau khi tổng hợp, dữ liệu sẽ được xử lý và phân tích để có
được dữ liệu tốt nhất. Đây còn được gọi là bước xử lý trước dữ liệu. Xoài trong nghiên
cứu được sắp xếp và phân loại thành ba nhóm với chất lượng cao nhất là lớp một, và
chất lượng thấp hơn từ lớp hai đến lớp 3. Các bước xử lý ảnh đã được thử nghiệm trong
Hình 4.23.
130
Hình 4.23. Quy trình chiết xuất các kích thước và khuyết tật của xoài
Chiều cao và chiều rộng được ước tính bằng số pixel hình ảnh nhị phân. Lỗi
giữa kết quả thực tế và kết quả ước tính xảy ra bằng cách so sánh chúng cũng như
tính toán tỷ lệ lỗi sẽ giúp đánh giá kết quả của tất cả các bước xử lý. Sau khi ước tính kích
thước của xoài và so sánh với kích thước thực tế, kết quả là rất nhỏ. Các thí nghiệm cho
thấy kết quả ước tính độ dài của pixel và khá tốt vì độ lệch không đáng kể. Quá trình phát
hiện xoài và trích xuất chiều cao và chiều rộng của xoài được thực hiện trong Hình 4.24.
Tất cả các khung xoài được chụp trong buồng xử lý ảnh đều được xử lý. Kết quả của
quá trình là chiều dài và chiều rộng lớn nhất. Các thí nghiệm trong Bảng 4.4 cho thấy
kết quả ước tính là rất nhỏ.
Hình 4.24. Quá trình phát hiện xoài và chiết xuất chiều coo, chiều rang
Khối lượng xoài được dự đoán từ chiều cao và chiều rộng từ hình ảnh được
chụp. Dữ liệu được lấy từ dữ liệu thực để tạo mô hình dự đoán khối lượng. Trọng
lượng được ước tính từ chiều cao và chiều rộng, do đó, mối quan hệ giữa chiều cao,
chiều rộng và trọng lượng được tìm thấy trong Hình 4.25. Từ biểu đồ trên, các tính
131
năng: Chiều cao, Chiều rộng có mối quan hệ tuyến tính với V. Do đó, trọng lượng sẽ
được dự đoán bởi một mô hình tuyến tính với các biến: chiều cao, chiều rộng.
Bảng 4.4. Kích thước thực tế của các biến chiều cao, chiều rộng và khuyết tật
Hình 4.25. Mối quan hệ tuyến tính giữa chiều cao, chiều rộng và khối lượng
132
Xây dựng các công thức ước tính của khối lượng. So sánh giữa khối lượng thực và
ước tính được hiển thị trong Bảng 4.5. Trọng lượng được lấy từ băng tải và tính toán trọng
lượng ước tính dựa trên bộ điều khiển chính của PLC được hiển thị trong Hình 4.26.
Hình 4.26. Nguyên lý hoạt động của Cảm biến lực
Bảng 4.5. So sánh giữa khối lượng thực tế và ước tính
Trong quá trình xử lý, tín hiệu luôn bị nhiễu làm cho kết quả đo của băng tải
không chính xác. Vì vậy, tất cả các tín hiệu từ băng tải được truyền qua bộ lọc nhiễu
Kalman, ở đó các giá trị biến đổi quá lớn sẽ bị loại bỏ. Sau khi thu được tín hiệu khối
lượng từ bộ lọc nhiễu, các tín hiệu này sẽ được giải mã và ước tính cho thấy kết quả
133
trọng lượng thực của xoài. Kết quả khối lượng này bị ảnh hưởng bởi vị trí của xoài
trên khay. Do đó, vị trí của trái xoài trên khay sẽ được kiểm tra bằng camera. Các giá
trị trọng lượng ước tính sẽ được nội suy với chiều cao, chiều rộng và khuyết tật cho
kết quả trọng lượng thực của xoài.
Trong phần này, tổng quan về toàn bộ tập dữ liệu được xem xét và thực hiện
các bước xử lý dữ liệu phù hợp nhất trước khi áp dụng các thuật toán. Dữ liệu sẽ được
kiểm tra và loại bỏ các giá trị lạ trong Hình 4.27 và Bảng 4.6.
Bảng 4.6. Bảng phạm vi các biến của dữ liệu
Loại 1 Loại 2 Loại 3 Tổng số Khác biệt
Trọng lượng 400 – 520 330 – 380 170 – 300 170 – 520 350
Chiều cao 125 – 135 118 – 120 105 – 115 105 – 135 30
Chiều rộng 85 – 88 77 – 83 71 – 75 71 – 88 17
Khuyết tật 1 – 3 1.2 – 3.5 3.8 – 9 1 – 9 8
Hình 4.27. Phạm vi của các biến khi ứng dụng thuật toán
134
Trong bộ dữ liệu được trích xuất, việc phân phối dữ liệu giữa các biến rất khác
nhau, do đó cần chuẩn hóa dữ liệu. Điểm Z của phương pháp đã được sử dụng, các
giá trị được tiêu chuẩn hóa có ràng buộc [-3,3]. Đây là dữ liệu được chuẩn hóa trong
Bảng 4.7. Dữ liệu xoài của 4983 xoài đã được sử dụng để huấn luyện các mô hình
LDA, SVM, KNN và RF. Trước khi đến các mô hình đó, dữ liệu cần được kiểm tra
mối quan hệ giữa các tính năng của xoài trong Hình 4.28.
Bảng 4.7. Dữ liệu sau khi chuẩn hóa
Hình 4.28. Mối quan hệ giữa các tính năng của xoài
Với Hình 4.28, mối quan hệ tuyến tính chỉ xảy ra giữa trọng lượng và chiều cao,
chiều rộng, các tính năng còn lại có mối quan hệ phi tuyến tính với loại khác. Do đó, sử
135
dụng mô hình tuyến tính để dự đoán loại xoài là một lựa chọn không tốt. Dữ liệu được
chia thành 3 phần bao gồm dữ liệu huấn luyện, dữ liệu xác nhận, dữ liệu thử nghiệm
được trình bày trong Bảng 4.8.
Bảng 4.8. Số lượng bộ dữ liệu
Tập dữ liệu Huấn luyện Đánh giá Kiểm tra
Loại 1 1723 1073 300 350
Loại 2 1570 1036 215 319
Loại 3 1690 1068 256 366
Tập dữ liệu với 4983 mẫu dữ liệu được trích xuất và tổng hợp từ hình ảnh và
băng tải. Bộ dữ liệu được chia thành ba phần với 3194 bằng cách sử dụng huấn luyện
mô hình, 771 được sử dụng để xác thực và 1035 được sử dụng cho kiểm tra. Hình
dung của tập dữ liệu huấn luyện được thể hiện trong Hình 4.29 và 4.30.
Hình 4.29. Trực quan hóa dữ liệu huấn luyện
Các loại xoài trong Hình 4.29 phân phối các điểm dữ liệu ở ngoại vi có vẻ dễ
phân loại, nhưng khi tiếp cận trung tâm, việc phân chia xoài trở nên phức tạp và dường
như không tuân theo một quy tắc dễ hiểu sẽ gây khó khăn cho việc phân loại thuật toán.
Trong Hình 4.30, ở cả hai đầu của trục khuyết tật (khuyết tật (0,4), (6,12)),
giới hạn giữa loại xoài khá rõ ràng nhưng trở nên phức tạp hơn với khuyết tật giữa =
(4,6). Lý do cho kết quả này là khi khuyết tật xoài quá cao hoặc quá thấp, xoài dễ xác
định loại nhưng ở khuyết tật thông thường, việc phân loại xoài trở nên khó khăn hơn
nhiều khi phụ thuộc nhiều vào các yếu tố phân loại khác trước khi quyết định loại
136
xoài. Khi xem xét trọng lượng, dễ dàng nhận ra khối lượng càng cao, chất lượng xoài
sẽ được đánh giá cao. Tuy nhiên, vẫn có một lượng xoài đáng kể được đánh giá ở
chất lượng kém do một số biến nhất định là dưới tiêu chuẩn. Đối với trục của khối
lượng, xoài được chiFile đính kèm:
luan_an_nghien_cuu_thiet_ke_he_thong_phan_loai_nong_san_hieu.pdf
qdnguyenducthong.pdf

