Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo trang 1

Trang 1

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo trang 2

Trang 2

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo trang 3

Trang 3

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo trang 4

Trang 4

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo trang 5

Trang 5

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo trang 6

Trang 6

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo trang 7

Trang 7

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo trang 8

Trang 8

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo trang 9

Trang 9

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 235 trang nguyenduy 13/10/2025 70
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo

Luận án Nghiên cứu thiết kế hệ thống phân loại nông sản hiệu suất cao sử dụng công nghệ xử lý ảnh kết hợp trí thông minh nhân tạo
 xoài cho các vùng và quốc gia khác nhau là khác nhau vì 
chất lượng của xoài là khác nhau. Do đó SVM, LDA, KNN và RF được áp dụng để phân 
loại xoài trong nghiên cứu này. Những mô hình này sẽ được áp dụng và so sánh kết quả 
thí nghiệm. Đầu tiên, một cái nhìn tổng quan lý thuyết về mô hình để có được một cái 
nhìn tổng quan chung về những ưu điểm và nhược điểm của từng mô hình máy học. 
Hình 4.16. Quá trình huấn luyện RF 
121 
Thứ nhất, mô hình RF được coi là loại tách lớp xoài sử dụng dữ liệu thu thập 
được. Đây là một mô hình phân loại rất phổ biến và hiệu quả để giải quyết vấn đề về 
các giá trị phân loại không có tính tuyến tính với các biến độc lập. RF là một phương 
pháp học tập đồng bộ, sử dụng nhiều mô hình RF để có được kết quả dự đoán và giảm 
phương sai với độ lệch nhỏ. RF có xu hướng tìm hiểu các mẫu bất thường, do đó mô 
hình có độ lệch thấp, nhưng phương sai cao. Quá trình huấn luyện của RF được thể 
hiện trong Hình 4.16. 
Quá trình hoạt động RF diễn ra trong ba bước: 
Bước 1. Áp dụng tổng hợp bootstrap [108] để tạo k tập con từ tập huấn luyện 
Giả sử 𝐹 = {𝑓.: 0 < 𝑖 ≤ 𝑛} là tập hợp đặc điểm của n mẫu xoài đã được dán 
nhãn, mỗi mẫu 𝑓. = [ℎ𝑒.	, 𝑤𝑖., 𝑑𝑒., 𝑤𝑒.]À trong đó he, wi, de, we lần lượt là chiều cao, 
chiều rộng, khuyết tật, trọng lượng của xoài. 
Cho 𝑇 = {𝑡.: 0 < 	𝑖	 ≤ 	𝑛} là loại tập hợp theo n phần tử trong tập F, 𝑡. ∈{1,2,3} trong đó G1, G2, G3 lần lượt là các loại xoài. 
Một phương pháp mô hình RF tạo k tập hợp con bằng cách chọn một mẫu 
ngẫu nhiên có thay thế [F, T]. Do đó, tập k là tập con 𝐵 = {𝑏.: 0 < 	𝑖	 ≤ 	𝑘}, trong đó 
bi là tập con thứ i. Tập hợp của bi bằng S hoặc có thể được ký hiệu |𝑏.| = 𝑆. Hơn 
nữa, bi có (1 - 1/e) các ví dụ duy nhất của S. 
Bước 2. Huấn luyện RF 
Các nút được gắn nhãn với các tính năng đầu vào được chọn và phân cấp dẫn 
đến nút quyết định cấp dưới. Có ba cách để thực hiện quy trình này: Gini hoặc entropy 
nhưng trong nghiên cứu này Gini được chọn, bởi vì Gini có thể giảm thiểu phân loại 
sai và Gini sẽ có xu hướng tìm lớp lớn nhất trong khi entropy có xu hướng tìm các 
nhóm lớp chiếm khoảng 50% dữ liệu. Nói cách khác, thời gian tính toán của Gini 
nhanh hơn Entropy, điều này sẽ giúp giảm thời gian huấn luyện dữ liệu. Công thức 
Gini được đưa ra bởi (4.46). 
t
j=1
 = 1 - 2jG(F) På
 (4.46) 
Công thức Gini là thước đo tần suất F được chọn ngẫu nhiên sẽ được dán nhãn 
không chính xác nếu được dán nhãn ngẫu nhiên theo phân phối nhãn trong bi. 
122 
Bước 3. Lựa chọn kết quả. Kết quả của phương pháp mô hình random forest 
(yFR) được chọn từ kết quả của cây trong rừng theo phương pháp bỏ phiếu đa số. 
Thứ hai, một phương pháp phân loại KNN cũng được sử dụng để phân loại 
xoài, sau khi vấn đề xây dựng và giải quyết các phương pháp sử dụng. KNN là một 
thuật toán trong đó đầu ra là một loại thành viên. KNN là một kiểu học tập dựa trên 
cá thể, trong đó xoài được gán cho loại xoài phổ biến nhất trong số xoài gần nhất. 
Quá trình thực hiện KNN được đưa ra trong Hình 4.17. 
Hình 4.17. Quá trình dự đoán của K_nearest neighbors. 
Xoài dự đoán là vectơ fx trong không gian đặc trưng F. Loại phản ứng txÎT được 
dự đoán bằng cách xem xét k mẫu gần nhất X. Thuật toán lân cận biên gần nhất (LMNN) 
[100] đo độ gần giữa k xoài và X. k xoài X gần nhất được chọn bằng cách sử dụng số liệu 
Mahalanobis là một ellipsoid. Xác suất của X có loại t Î{1, 2, 3} được tính theo (4.47). 
( ) x
1
1 (f )
k
i
P X t I t
k =
= = =å
 (4.47) 
Trong đó I là hàm chỉ thị (1 là đúng, 0 sai). Lớp có xác suất cao nhất trở thành loại dự đoán yx. 
Thứ ba, phương pháp mô hình SVM sẽ được đề cập. Ngoài hai phương pháp mô 
hình RF và KNN, SVM là phương pháp mô hình được nhiều nhà nghiên cứu lựa chọn 
nhất vì tính linh hoạt của phương pháp này khi sử dụng hyperplanes để tách các lớp. 
Trong nghiên cứu này, một phương pháp áp dụng SVM được hiển thị trong Hình 4.18. 
123 
Các mẫu xoài fi trong không gian đặc trưng F và fi có kiểu tiÎ{1, 2, 3} trong 
không gian loại T. Vì vậy, vectơ 𝑣 = [𝑓.	, 𝑡.	] là mẫu huấn luyện trong không gian 
huấn luyện F x T. Mô hình SVM tìm thấy các hyperplanes chia loại xoài trong F x T không 
gian để khoảng cách giữa chúng và điểm gần nhất fx từ một trong hai nhóm là cực đại. mỗi 
siêu phẳng được tạo phải đảm bảo các điều kiện được đưa ra trong (4.48). 
arg min( w ) subject to t (wf ) 1, {1,2,..,n}i i b i- ³ Î
!! !
 (4.48) 
Hệ số nhân Karush-Kuhn-Tucker (KKT) [101] và Lagrange được sử dụng để 
tối ưu hóa bởi (4.49). 
Hình 4.18. Quá trình dự đoán của SVM 
i i i
0
w λ t f
n
i=
=å!
 (4.49) 
Trong khi tạo hyperplanes, mô hình SVM áp dụng chức năng Kernel để tăng 
kích thước của dữ liệu. Điều này làm cho việc phân nhóm dữ liệu dễ dàng hơn nhiều. 
Với 𝛽$, 𝛼., 𝐹	, 𝐾(𝑓.	, 𝑓.¯) lần lượt là độ lệch, các tham số mô hình được học, không 
gian đặc trưng và hàm Kernel của vector (𝑓.	, 𝑓.¯). Vì vậy, bộ phân loại vectơ hỗ trợ 
có thể được biểu diễn trong (4.50). 
0 i i( ) (f ,f )i
i F
f x Kb a
Î
¢= +å
 (4.50) 
124 
Sự kết hợp của tất cả các hyperplanes đã phân loại xoài riêng biệt. Bất kỳ xoài 
nào có tính năng fx và loại không xác định sẽ được sắp xếp và xem xét trong các cụm 
được chỉ định của mô hình và đưa ra các loại xoài đó txÎ{1, 2, 3}. 
Cuối cùng, phương pháp the Linear Discriminant Analysis (LDA) cũng đã 
được tiến hành và có hiệu quả cao trong nhiều nghiên cứu. Do đó, LDA sẽ được áp 
dụng cho bộ dữ liệu này một cách thích hợp. Phương pháp LDA sẽ cho ta một góc 
nhìn mới về phân loại dữ liệu bằng cách giảm kích thước của dữ liệu nhưng vẫn đảm 
bảo tính chính xác của dự đoán. LDA là phương pháp giảm dữ liệu để tìm ra các tính 
năng của dữ liệu với phương sai và sự khác biệt giữa các loại xoài càng lớn càng tốt. 
Quá trình thực hiện được làm rõ hơn trong Hình 4.19. 
Hình 4.19. Quá trình dự đoán của the Linear Discriminant Analysis 
Các mẫu xoài trong không gian đặc trưng F và có kiểu 𝑡. Î{1, 2, 3} trong 
không gian loại T. Vì vậy, vectơ đang huấn luyện mẫu trong không gian huấn luyện 
F x T. Một cách so với tất cả “One-vs.-all” [108] được sử dụng để phân biệt từng loại 
xoài với phần còn lại của dữ liệu. Với ti trong T. Gọi vectơ {𝑧Ñ	, 𝑗 ∈ {1,2,3} là loại 
xoài sao cho nếu 𝑡. = j thì 𝑧Ñ = 1 và 𝑡. 	≠ 	𝑗 và 𝑧Ñ = 0. Do đó, mỗi vector 𝑧Ñ tạo ra 
125 
một nhóm riêng biệt của một loại xoài tương ứng. Đặt G = {G1, G2, G3} của từng 
nhóm riêng biệt. 
Sau khi các loại xoài được phân biệt thành các nhóm riêng biệt, các nhóm này 
được đưa vào mô hình LDA để tìm các đường thẳng phân biệt trong tập hợp H = ℎ?(Ô9), ℎ=(Ô;), ℎ•(Ô<) các đường thẳng ℎ?(Ô9), ℎ=(Ô;), ℎ•(Ô<) của các nhóm riêng biệt G1, G2, 
G3 tương ứng. Bên cạnh đó, 𝜃?	 = [𝜇?	 , 𝜎?	 ]À, 𝜃=	 = [𝜇=	 , 𝜎=	 ]À	, 𝜃•	 = [𝜇•	 , 𝜎•	 ]À chứa các 
giá trị trung bình và phương sai cho từng loại xoài trong mỗi nhóm G1, G2, G3. 
Với 𝜃?¯ = [𝜇?¯, 𝜎?¯]À, 𝜃=¯ = [𝜇=¯, 𝜎=¯]À	, 𝜃•¯ = [𝜇•¯, 𝜎•¯]À các tướng trung bình và 
phương sai. Các loại xoài khác trong mỗi nhóm G1, G2, G3. ℎ?(Ô9), ℎ=(Ô;), ℎ•(Ô<) được 
tối ưu hóa bằng cách tối đa hóa khoảng cách giữa các phương tiện trong mỗi nhóm 
trong khi giảm thiểu sự phân tán. Phương pháp được thể hiện trong (4.51). 
3
1
{1,2,3}
3 2
i1
{1,2,3}
argmax( (µ µ ) (µ µ ))
argmin( )
T
i i i iii
ii
H
s
=
Î
=
Î
¢ ¢- -
=
å
å
 (4.51) 
Một mẫu x không nhìn thấy được dự đoán bằng cách chiếu x lên ℎ?(Ô9), ℎ=(Ô;), ℎ•(Ô<) tương ứng. Loại xoài của mẫu x là xác suất lớn nhất của x trong mỗi 
phân phối ℎ?(Ô9), ℎ=(Ô;), ℎ•(Ô<) được cho trong (4.52). 
2
2
{1,2,3}
( )1argmax exp
22
i
LDA
i ii
xy µ
ss pÎ
æ öæ ö-
= -ç ÷ç ÷ç ÷è øè ø (4.52) 
Kết luận, bốn phương pháp học có giám sát đã được khái quát về lý thuyết và 
cách áp dụng chúng vào tập dữ liệu trong nghiên cứu này. Mỗi phương pháp đều có 
những ưu nhược điểm khác nhau. Phần thực nghiệm tiếp theo sẽ làm sáng tỏ mức độ 
phù hợp của các mô hình này với tập dữ liệu hiện có. 
4.7. Phân loại xoài sử dụng các phương pháp mô hình LDA, SVM, KNN và RF 
Từ các mùa xoài khác nhau, 4983 mẫu xoài được đo chính xác và cẩn thận (Mỗi 
trái từ 300-500 gram gồm 3 loại xoài theo quy định, mỗi tháng lấy mẫu đủ để thí nghiệm 
[8]. Thu hoạch, lấy mẫu và đo lường trong các tháng từ tháng 11 đến tháng 6 (lấy mẫu 
ngẫu nhiên và số lượng mẫu trong thí nghiệm cho phép). Bởi vì đây là thời điểm xoài 
126 
được thu hoạch với số lượng lớn. Chất lượng xoài thay đổi theo từng thời điểm vì vậy 
việc thu thập tất cả dữ liệu là cần thiết. Lượng dữ liệu thu được từ mỗi tháng được ghi 
trong Bảng 4.1. Dữ liệu xoài được thu thập dựa trên các phép đo thực tế trong đó chiều 
dài và chiều rộng (chiều cao, chiều rộng, kích thước của khuyết tật) được đo bằng các 
công cụ Mitutoyo với độ chính xác 0,05mm. Ngoài ra, trọng lượng của mỗi trái xoài 
được đo bằng cân điện tử dựa trên cảm biến băng tải với sai số 0,01g. 
Bảng 4.1. Số lượng mẫu xoài đo mỗi tháng 
Tháng 11 12 2 3 4 5 6 
Mẫu 982 691 492 542 631 998 647 
Ngoài ra, thể tích (V) của xoài được đo bằng phương pháp bình tràn với thiết 
bị là bình thủy tinh 1000ml và sai số 0,4ml mà các phương pháp đo được thực hiện 
nghiêm ngặt để đảm bảo độ chính xác. Mỗi đại lượng được đo 10 lần. Giá trị trung 
bình của các phép đo được tính toán. Với n là thời gian đo. 
Hình 4.20. Quy trình hệ thống phân loại sử dụng máy học cho 4 mô hình LDA, SVM, KNN và RF 
Trong nghiên cứu này, các mô hình của Máy học được giám sát được sử dụng 
để dự đoán các loại xoài. Có bốn thuật toán để áp dụng và triển khai là LDA, SVM, 
127 
KNN và RF được trang bị dữ liệu của xoài và độ chính xác của chúng sẽ được hiển thị 
trong Bảng 4.2. 
Tập dữ liệu được tạo ra bằng cách phân loại xoài thủ công dựa trên mật độ (D), 
thể tích (V) và khuyết tật (de). Việc phân loại thủ công này do các chuyên gia về xoài 
thực hiện. Các loại được dán nhãn bao gồm G1, G2 và G3 của xoài được đo bằng D, V 
và de từ bốn đặc điểm được trích xuất de, we, wi và le (Hình 4.20). 
Các mô hình ML được giám sát và các nền tảng thực hiện phù hợp để dự đoán 
các loại xoài được xác định bằng cách so sánh độ chính xác của dự đoán. Ngoài ra, 
các thông số được tối ưu hóa của mỗi mô hình để thay đổi dữ liệu của xoài cũng được 
thực hiện. Sau khi phân tích dữ liệu để xác định mối quan hệ của các biến, các mô 
hình được đưa vào các tham số của chúng để đạt được hiệu suất hoạt động tốt nhất. 
Khung của quá trình huấn luyện được thể hiện trong Hình 4.21, bao gồm sáu phần: 
Đầu vào, đầu ra, KNN, LDA, SVM và RF. 
Hình 4.21. Khung quy trình huấn luyện dựa trên 4 mô hình SVM, LDA, KNN và RF 
Tập dữ liệu được chia thành ba phần là dữ liệu huấn luyện, dữ liệu xác nhận 
và dữ liệu thử nghiệm. Ở lớp ngoài, 10% dữ liệu gốc được tách ra để làm dữ liệu thử 
128 
nghiệm nhằm xác định hiệu suất của các mô hình. Phần còn lại của dữ liệu được sử 
dụng để phát triển một mô hình. 90% dữ liệu gốc được sử dụng trong lớp bên trong 
để điều chỉnh các tham số. Dữ liệu đó được tách thành dữ liệu huấn luyện cho mô 
hình để cung cấp dự đoán hoặc đánh giá chất lượng, dữ liệu xác nhận là để đánh giá 
độ chính xác của mô hình và chọn các thông số tốt nhất của mô hình dựa trên kết quả 
đầu ra đã cho một cách khách quan. Dữ liệu huấn luyện được sử dụng để huấn luyện 
mô hình đưa ra dự đoán và dữ liệu xác nhận để kiểm tra độ chính xác của mô hình 
một cách khách quan dựa trên đầu ra đã cho. 
Ngoài ra, dữ liệu thử nghiệm được sử dụng để kiểm tra độ chính xác của mô hình 
dự đoán. Trong trường hợp dữ liệu quá ít để huấn luyện một mô hình chính xác, rất khó 
để phân chia dữ liệu thành dữ liệu huấn luyện và dữ liệu xác nhận. Luôn luôn giữ tập dữ 
liệu huấn luyện càng lớn càng tốt nhưng không quá ít tập dữ liệu kiểm tra. Khi dữ liệu 
xác nhận quá nhỏ, các trạng thái của khớp trên và dưới khớp xảy ra. Sau khi cẩn thận đo 
kích thước của 4983 mẫu xoài và tính toán sai số ngẫu nhiên của từng trái xoài. Sau đó, 
biểu đồ thống kê lỗi được tạo thành từ dữ liệu lỗi của các biến. Các lỗi về số lượng như 
chiều cao, chiều rộng, khối lượng, thể tích được thể hiện qua các biểu đồ Hình 4.22. 
Hình 4.22. Phân bố lỗi các đặc tính của xoài 
129 
Các biểu đồ ở trên có hình dạng rất giống với phân phối các tập dữ liệu tập 
trung vào một phạm vi các giá trị và ít hơn trên các phạm vi còn lại. Vì vậy, giá trị 
trung bình của lỗi là một tùy chọn cho giá trị lỗi gần đúng của biến. Bảng lỗi của các 
biến chiều cao (he), chiều rộng (wi), trọng lượng (we), thể tích V, khuyết tật (de) xuất 
phát từ bảng phân phối được hiển thị trong Bảng 4.2. 
Bảng 4.2. Bảng phân phối sai số tuyệt đối các biến của xoài 
 Chiều cao 
(mm) 
Chiều rộng 
(mm) 
Trọng lượng 
(gram) 
Thể tích 
(ml) 
Khuyết 
tật (mm2) 
Sai số tuyệt đối 0.45 0.62 2.15 4.3 5.23 
Sai số tương đối 0.39% 0.78% 0.63% 1.3% 2.32% 
Lỗi đo nhỏ hơn sai số cho phép, vì vậy dữ liệu này là đáng tin cậy. Do đó, dữ 
liệu này sẽ được coi là kích thước dữ liệu thử nghiệm của xoài. Vấn đề tiếp theo là 
xử lý hình ảnh của những trái xoài này với kích thước thật của chúng và đánh giá độ 
chính xác của chúng. Tất cả xoài được phân loại theo tiêu chuẩn chuyên gia được áp 
dụng bởi tất cả nông dân. Một trái xoài khi được phân loại phải đáp ứng các đặc điểm: 
trọng lượng, khuyết tật và tỷ trọng được mô tả trong Bảng 4.3. 
Bảng 4.3. Đặc điểm loại xoài tiêu chuẩn 
 Phạm vi trọng 
lượng (gram) 
Phạm vi lỗi 
trọng lượng 
Chênh lệch trọng 
lượng cùng loại 
Khuyết 
tật (cm2) 
Tỷ 
trọng 
Loại 3 200 – 350 180 – 425 112.5 > 5 <1 
Loại 2 351 – 550 251 – 650 150 3 – 5 1 – 1.3 
Loại 1 551 – 800 426 – 925 187.5 0 – 3 >1.3 
Do không thể xác định tỷ trọng xoài thông qua hình ảnh trực tiếp của xoài, nên 
tỷ trọng của xoài được ước tính gián tiếp thông qua các đặc điểm quan trọng đối với 
tỷ trọng của xoài. Tỷ trọng được tính theo trọng lượng riêng và khối lượng. Khối 
lượng là giá trị thu được từ băng tải. Đặc tính còn lại là khối lượng sẽ được ước tính 
thông qua Chiều cao và Chiều rộng của xoài. Những tính năng này có thể được ước 
tính từ hình ảnh của xoài. Sau khi tổng hợp, dữ liệu sẽ được xử lý và phân tích để có 
được dữ liệu tốt nhất. Đây còn được gọi là bước xử lý trước dữ liệu. Xoài trong nghiên 
cứu được sắp xếp và phân loại thành ba nhóm với chất lượng cao nhất là lớp một, và 
chất lượng thấp hơn từ lớp hai đến lớp 3. Các bước xử lý ảnh đã được thử nghiệm trong 
Hình 4.23. 
130 
Hình 4.23. Quy trình chiết xuất các kích thước và khuyết tật của xoài 
Chiều cao và chiều rộng được ước tính bằng số pixel hình ảnh nhị phân. Lỗi 
giữa kết quả thực tế và kết quả ước tính xảy ra bằng cách so sánh chúng cũng như 
tính toán tỷ lệ lỗi sẽ giúp đánh giá kết quả của tất cả các bước xử lý. Sau khi ước tính kích 
thước của xoài và so sánh với kích thước thực tế, kết quả là rất nhỏ. Các thí nghiệm cho 
thấy kết quả ước tính độ dài của pixel và khá tốt vì độ lệch không đáng kể. Quá trình phát 
hiện xoài và trích xuất chiều cao và chiều rộng của xoài được thực hiện trong Hình 4.24. 
Tất cả các khung xoài được chụp trong buồng xử lý ảnh đều được xử lý. Kết quả của 
quá trình là chiều dài và chiều rộng lớn nhất. Các thí nghiệm trong Bảng 4.4 cho thấy 
kết quả ước tính là rất nhỏ. 
Hình 4.24. Quá trình phát hiện xoài và chiết xuất chiều coo, chiều rang 
Khối lượng xoài được dự đoán từ chiều cao và chiều rộng từ hình ảnh được 
chụp. Dữ liệu được lấy từ dữ liệu thực để tạo mô hình dự đoán khối lượng. Trọng 
lượng được ước tính từ chiều cao và chiều rộng, do đó, mối quan hệ giữa chiều cao, 
chiều rộng và trọng lượng được tìm thấy trong Hình 4.25. Từ biểu đồ trên, các tính 
131 
năng: Chiều cao, Chiều rộng có mối quan hệ tuyến tính với V. Do đó, trọng lượng sẽ 
được dự đoán bởi một mô hình tuyến tính với các biến: chiều cao, chiều rộng. 
Bảng 4.4. Kích thước thực tế của các biến chiều cao, chiều rộng và khuyết tật 
Hình 4.25. Mối quan hệ tuyến tính giữa chiều cao, chiều rộng và khối lượng 
132 
Xây dựng các công thức ước tính của khối lượng. So sánh giữa khối lượng thực và 
ước tính được hiển thị trong Bảng 4.5. Trọng lượng được lấy từ băng tải và tính toán trọng 
lượng ước tính dựa trên bộ điều khiển chính của PLC được hiển thị trong Hình 4.26. 
Hình 4.26. Nguyên lý hoạt động của Cảm biến lực 
Bảng 4.5. So sánh giữa khối lượng thực tế và ước tính 
Trong quá trình xử lý, tín hiệu luôn bị nhiễu làm cho kết quả đo của băng tải 
không chính xác. Vì vậy, tất cả các tín hiệu từ băng tải được truyền qua bộ lọc nhiễu 
Kalman, ở đó các giá trị biến đổi quá lớn sẽ bị loại bỏ. Sau khi thu được tín hiệu khối 
lượng từ bộ lọc nhiễu, các tín hiệu này sẽ được giải mã và ước tính cho thấy kết quả 
133 
trọng lượng thực của xoài. Kết quả khối lượng này bị ảnh hưởng bởi vị trí của xoài 
trên khay. Do đó, vị trí của trái xoài trên khay sẽ được kiểm tra bằng camera. Các giá 
trị trọng lượng ước tính sẽ được nội suy với chiều cao, chiều rộng và khuyết tật cho 
kết quả trọng lượng thực của xoài. 
Trong phần này, tổng quan về toàn bộ tập dữ liệu được xem xét và thực hiện 
các bước xử lý dữ liệu phù hợp nhất trước khi áp dụng các thuật toán. Dữ liệu sẽ được 
kiểm tra và loại bỏ các giá trị lạ trong Hình 4.27 và Bảng 4.6. 
Bảng 4.6. Bảng phạm vi các biến của dữ liệu 
 Loại 1 Loại 2 Loại 3 Tổng số Khác biệt 
Trọng lượng 400 – 520 330 – 380 170 – 300 170 – 520 350 
Chiều cao 125 – 135 118 – 120 105 – 115 105 – 135 30 
Chiều rộng 85 – 88 77 – 83 71 – 75 71 – 88 17 
Khuyết tật 1 – 3 1.2 – 3.5 3.8 – 9 1 – 9 8 
Hình 4.27. Phạm vi của các biến khi ứng dụng thuật toán 
134 
Trong bộ dữ liệu được trích xuất, việc phân phối dữ liệu giữa các biến rất khác 
nhau, do đó cần chuẩn hóa dữ liệu. Điểm Z của phương pháp đã được sử dụng, các 
giá trị được tiêu chuẩn hóa có ràng buộc [-3,3]. Đây là dữ liệu được chuẩn hóa trong 
Bảng 4.7. Dữ liệu xoài của 4983 xoài đã được sử dụng để huấn luyện các mô hình 
LDA, SVM, KNN và RF. Trước khi đến các mô hình đó, dữ liệu cần được kiểm tra 
mối quan hệ giữa các tính năng của xoài trong Hình 4.28. 
Bảng 4.7. Dữ liệu sau khi chuẩn hóa 
Hình 4.28. Mối quan hệ giữa các tính năng của xoài 
Với Hình 4.28, mối quan hệ tuyến tính chỉ xảy ra giữa trọng lượng và chiều cao, 
chiều rộng, các tính năng còn lại có mối quan hệ phi tuyến tính với loại khác. Do đó, sử 
135 
dụng mô hình tuyến tính để dự đoán loại xoài là một lựa chọn không tốt. Dữ liệu được 
chia thành 3 phần bao gồm dữ liệu huấn luyện, dữ liệu xác nhận, dữ liệu thử nghiệm 
được trình bày trong Bảng 4.8. 
Bảng 4.8. Số lượng bộ dữ liệu 
 Tập dữ liệu Huấn luyện Đánh giá Kiểm tra 
Loại 1 1723 1073 300 350 
Loại 2 1570 1036 215 319 
Loại 3 1690 1068 256 366 
Tập dữ liệu với 4983 mẫu dữ liệu được trích xuất và tổng hợp từ hình ảnh và 
băng tải. Bộ dữ liệu được chia thành ba phần với 3194 bằng cách sử dụng huấn luyện 
mô hình, 771 được sử dụng để xác thực và 1035 được sử dụng cho kiểm tra. Hình 
dung của tập dữ liệu huấn luyện được thể hiện trong Hình 4.29 và 4.30. 
Hình 4.29. Trực quan hóa dữ liệu huấn luyện 
Các loại xoài trong Hình 4.29 phân phối các điểm dữ liệu ở ngoại vi có vẻ dễ 
phân loại, nhưng khi tiếp cận trung tâm, việc phân chia xoài trở nên phức tạp và dường 
như không tuân theo một quy tắc dễ hiểu sẽ gây khó khăn cho việc phân loại thuật toán. 
Trong Hình 4.30, ở cả hai đầu của trục khuyết tật (khuyết tật (0,4), (6,12)), 
giới hạn giữa loại xoài khá rõ ràng nhưng trở nên phức tạp hơn với khuyết tật giữa = 
(4,6). Lý do cho kết quả này là khi khuyết tật xoài quá cao hoặc quá thấp, xoài dễ xác 
định loại nhưng ở khuyết tật thông thường, việc phân loại xoài trở nên khó khăn hơn 
nhiều khi phụ thuộc nhiều vào các yếu tố phân loại khác trước khi quyết định loại 
136 
xoài. Khi xem xét trọng lượng, dễ dàng nhận ra khối lượng càng cao, chất lượng xoài 
sẽ được đánh giá cao. Tuy nhiên, vẫn có một lượng xoài đáng kể được đánh giá ở 
chất lượng kém do một số biến nhất định là dưới tiêu chuẩn. Đối với trục của khối 
lượng, xoài được chi

File đính kèm:

  • pdfluan_an_nghien_cuu_thiet_ke_he_thong_phan_loai_nong_san_hieu.pdf
  • pdfqdnguyenducthong.pdf