Application du modèle interprétable XGBoost optimisé par l'algorithme de milan noir amélioré dans la distinction spectrale terahertz de l'huile de graines de coton génétiquement modifiée
Pour réaliser une classification précise et une identification de l'huile de graines de coton génétiquement modifiée et non modifiée, cette étude propose un modèle de classification interprétable basé sur un modèle XGBoost optimisé par un algorithme de milan noir amélioré. Tout d'abord, le système de spectroscopie temporelle en domaine terahertz (THz-TDS) a été utilisé pour collecter le spectre d'absorption terahertz des échantillons d'huile de graines de coton génétiquement modifiée et non modifiée dans la bande de fréquence de 0,3 à 1,8 THz. Ensuite, l'algorithme traditionnel du milan noir (BKA) a été amélioré par l'introduction d'une stratégie d'optimisation à double objectif de la fonction d'aptitude, une stratégie d'initialisation de population par apprentissage inversé et une stratégie de vol Lévy contrôlée par la fonction de distribution de Rayleigh. L'algorithme amélioré (DLBKA) a été utilisé pour effectuer une optimisation multi-objectifs des hyperparamètres de profondeur d'arbre, taux d'apprentissage et nombre maximal d'itérations du modèle XGBoost, permettant la construction du modèle de classification DLBKA-XGBoost. Enfin, ce modèle a été appliqué à l'identification de l'huile de graines de coton génétiquement modifiée, et une analyse interprétable des résultats a été réalisée à l'aide de la méthode SHAP. Les résultats montrent que le modèle de classification interprétable XGBoost optimisé par l'algorithme de milan noir amélioré a non seulement amélioré la précision d'identification de l'huile de graines de coton génétiquement modifiée et non modifiée (précision de 97,78 % sur le jeu de test, soit une amélioration de 4,45 % par rapport au modèle optimisé par l'algorithme de milan noir traditionnel et de 14,45 % par rapport au modèle optimisé par l'algorithme traditionnel de l'optimisation par essaim de baleines (WOA)), mais a également fourni une explication du modèle, clarifiant le mécanisme d'influence positive des fréquences caractéristiques clés sur les résultats d'identification, améliorant ainsi la transparence et la confiance du modèle. Par conséquent, cette étude offre une méthode d'analyse rapide et précise pour l'identification de l'huile de graines de coton génétiquement modifiée et constitue une référence précieuse pour l'identification d'autres substances génétiquement modifiées.
关键词
Spectroscopie terahertz; Huile de graines de coton génétiquement modifiée; Gradient boosting extrême; Algorithme de milan noir amélioré; Analyse interprétable