Aplicación del modelo interpretable XGBoost optimizado mediante un algoritmo de milano de alas negras mejorado en la diferenciación espectral terahertz del aceite de semilla de algodón genéticamente modificado

CHEN Tao ,  

ZHAO Li ,  

摘要

Para lograr una clasificación y diferenciación precisas del aceite de semilla de algodón genéticamente modificado y no modificado, este estudio propone un modelo de clasificación interpretable basado en un modelo XGBoost optimizado mediante un algoritmo de milano de alas negras mejorado. Primero, se utilizó un sistema de espectroscopía temporal terahertz (THz-TDS) para recopilar el espectro de absorción terahertz de muestras de aceite de semilla de algodón genéticamente modificado y no modificado en la banda de frecuencia de 0.3 a 1.8 THz. Luego, el algoritmo tradicional de milano de alas negras (BKA) se mejoró mediante la introducción de una estrategia de optimización de función de aptitud de doble objetivo, una estrategia de inicialización de población de aprendizaje inverso y una estrategia de vuelo Lévy controlada mediante la función de distribución de Rayleigh. Se utilizó el algoritmo mejorado (DLBKA) para realizar una optimización multiobjetivo de los hiperparámetros de profundidad de árbol, tasa de aprendizaje y número máximo de iteraciones del modelo XGBoost, construyendo el modelo de clasificación DLBKA-XGBoost. Finalmente, se aplicó el modelo para diferenciar el aceite de semilla de algodón genéticamente modificado y se realizó un análisis interpretable de los resultados de la diferenciación utilizando el método SHAP. Los resultados mostraron que el modelo de clasificación interpretable XGBoost optimizado con el algoritmo de milano de alas negras mejorado no solo mejoró la precisión de la diferenciación del aceite de semilla de algodón genéticamente modificado y no modificado (alcanzando una precisión del 97,78 % en el conjunto de prueba, mejorando en un 4,45 % en comparación con el modelo optimizado mediante el algoritmo tradicional de milano de alas negras y en un 14,45 % respecto al modelo optimizado mediante el algoritmo tradicional de la ballena (WOA)), sino que también proporcionó una explicación del modelo, aclarando el mecanismo de influencia positiva de las frecuencias clave de características en los resultados de la diferenciación, mejorando la transparencia y la confianza del modelo. Por lo tanto, este estudio ofrece un método de análisis rápido y preciso para la diferenciación del aceite de semilla de algodón genéticamente modificado, así como una referencia valiosa para la diferenciación de otras sustancias genéticamente modificadas.

关键词

Espectroscopía terahertz; Aceite de semilla de algodón genéticamente modificado; Gradient boosting extremo; Algoritmo de milano de alas negras mejorado; Análisis interpretable

阅读全文