Anwendung des verbesserten Schwarzen-Kite-Algorithmus-optimierten XGBoost-Erklärmodells bei der Terahertz-Spektraldifferenzierung von genetisch verändertem Baumwollsamenöl

CHEN Tao ,  

ZHAO Li ,  

摘要

Um eine genaue Klassifizierung und Identifizierung von genetisch verändertem und nicht verändertem Baumwollsamenöl zu erreichen, schlägt diese Studie ein interpretierbares Klassifikationsmodell vor, das auf einem verbesserten Schwarzen-Kite-Algorithmus basiert, der das Extreme Gradient Boosting (XGBoost)-Modell optimiert. Zunächst wurde mit dem Terahertz-Zeitbereichs-Spektroskopiesystem (THz-TDS) das Terahertz-Absorptionsspektrum von genetisch verändertem und nicht verändertem Baumwollsamenöl im Frequenzbereich von 0,3 bis 1,8 THz aufgenommen. Anschließend wurde der traditionelle Schwarze-Kite-Algorithmus (BKA) durch Einführung einer zweizieligen Fitness-Funktionsoptimierungsstrategie, einer Rücklern-Initialisierung der Population und einer Lévy-Flugkontrollstrategie mittels der Rayleigh-Verteilungsfunktion verbessert. Mithilfe des verbesserten Schwarzen-Kite-Algorithmus (DLBKA) wurde eine zweizielige Hyperparameter-Optimierung der Baumtiefe, Lernrate und maximalen Iterationsanzahl des XGBoost-Modells durchgeführt, wodurch das DLBKA-XGBoost-Klassifikationsmodell aufgebaut wurde. Schließlich wurde das Modell zur Identifizierung von genetisch verändertem Baumwollsamenöl angewendet, und die Erklärbarkeit der Modellidentifikation wurde mittels der SHAP-Methode analysiert. Die Ergebnisse zeigen, dass das verbesserte Schwarze-Kite-Algorithmus-optimierte XGBoost-interpretierbare Klassifikationsmodell nicht nur die Genauigkeit der Identifikation von genetisch verändertem und nicht verändertem Baumwollsamenöl verbessert hat (Testgenauigkeit von 97,78 %, eine Verbesserung von 4,45 % im Vergleich zum herkömmlich mit dem Schwarzen-Kite-Algorithmus optimierten Modell und eine Verbesserung von 14,45 % gegenüber dem mit dem herkömmlichen Wale-Optimierungsalgorithmus (WOA) optimierten Modell), sondern auch das Modell erklärte, den positiven Einflussmechanismus der Schlüsselmerkmalfrequenzen auf das Identifikationsergebnis klar darlegte und die Transparenz und Vertrauenswürdigkeit des Modells erhöhte. Somit bietet diese Studie eine schnelle und genaue Analysemethode zur Identifikation von genetisch verändertem Baumwollsamenöl und dient auch als wertvolle Referenz für die Identifikation anderer genetisch veränderter Stoffe.

关键词

Terahertz-Spektroskopie; Genetisch verändertes Baumwollsamenöl; Extremes Gradient Boosting; Verbesserter Schwarzer-Kite-Algorithmus; Erklärbare Analyse

阅读全文