Um das Problem des Mangels an annotierten Daten bei der Segmentierung von Zellbildern und die Einschränkungen traditioneller Augmentierungsmethoden zu lösen, wird in dieser Studie zunächst eine auf Diffusionsmodellen basierende Methode zur gemeinsamen Generierung von Zellbildern und Masken zur Datenaugmentation vorgeschlagen. Diese Methode baut einen gemeinsamen Generierungsrahmen auf, bestehend aus einem rauschvorhersagenden U-Net und einem Rauschsampler, wobei Zellbilder und Masken kanalweise zu einem vierkanaligen gemeinsamen Bild gestapelt werden, um eine einstufige gemeinsame Generierung hochwertiger synthetischer Daten zu ermöglichen und Fehler zu vermeiden, die durch mehrstufige Generierung entstehen. Das Modell integriert Zeiteinbettungen und einen mehrköpfigen Selbstaufmerksamkeitsmechanismus, um die Modellierung der Zellstrukturmerkmale und der Maskenzuordnung zu verbessern, und verwendet eine mittlere quadratische Fehlerverlustfunktion sowie eine kosinusähnliche Lernratenplanung zur Optimierung des Trainings. Umfassende Experimente auf den Benchmark-Datensätzen CryoNuSeg und ISBI2012 zeigen, dass die vorgeschlagene Methode die Leistung nachfolgender Segmentierungsmodelle signifikant verbessert. Unter der Sampling-Einstellung DPM++ 2M Karras erreichen die IoU- und Dice-Werte für CryoNuSeg jeweils 62,50 % bzw. 75,78 % und übertreffen traditionelle Augmentierungsmethoden wie Spiegelung und Rotation. Die Ergebnisse bestätigen die Überlegenheit der gemeinsamen Generierung für die Erweiterung der Datenvielfalt und die Verbesserung der Segmentierungsgenauigkeit und bieten eine effiziente und praktikable Lösung für die Datenaugmentation bei knappen Annotationen in der Zellbildsegmentierung.