Warum führt meine YOLOv8 + Swin Transformer-Integration zu einem geringeren mAP im Vergleich zum Standard-YOLOv8n? [gesc

Anonymous · Post by **Anonymous** » 28 Nov 2025, 18:22

Ich integriere Swin Transformer-Blöcke in das YOLOv8-Backbone (Ultralytics) und injiziere vorab trainierte Swin-Gewichte mit timm.

Das Modell trainiert und läuft ohne Laufzeitfehler, aber die Leistung (mAP) ist erheblich schlechter als Standard-YOLOv8n im gleichen Datensatz.
Was ich bin tun
Ich habe eine benutzerdefinierte YOLOv8 YAML-Datei erstellt, die SwinTransformer-Blöcke hinzugefügt hat:

Code: Select all

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 6  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'
# [depth, width, max_channels]
n: [0.33, 0.25, 1024]  # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPs
s: [0.33, 0.50, 1024]  # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPs
m: [0.67, 0.75, 768]   # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPs
l: [1.00, 1.00, 512]   # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPs
x: [1.00, 1.25, 512]   # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs

# YOLOv8.0n backbone
backbone:
# [from, repeats, module, args]
- [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2
- [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4
- [-1, 3, C2f, [128, True]]
- [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8
- [-1, 6, SwinTransformer, [256, True]]
- [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16
- [-1, 6, SwinTransformer, [512, True]]
- [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32
- [-1, 3, SwinTransformer, [1024, True]]
- [-1, 1, SPPF, [1024, 5]]  # 9

# YOLOv8.0n head
head:
- [-1, 1, nn.Upsample, [None, 2, 'nearest']]
- [[-1, 6], 1, Concat, [1]]  # cat backbone P4
- [-1, 3, C2f, [512]]  # 12

- [-1, 1, nn.Upsample, [None, 2, 'nearest']]
- [[-1, 4], 1, Concat, [1]]  # cat backbone P3
- [-1, 3, C2f, [256]]  # 15 (P3/8-small)

- [-1, 1, Conv, [256, 3, 2]]
- [[-1, 12], 1, Concat, [1]]  # cat head P4
- [-1, 3, C2f, [512]]  # 18 (P4/16-medium)

- [-1, 1, Conv, [512, 3, 2]]
- [[-1, 9], 1, Concat, [1]]  # cat head P5
- [-1, 3, C2f, [1024]]  # 21 (P5/32-large)

- [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)

Ich habe diesen Code für chatgpt geschrieben, um eine vorab trainierte Swin-Transformations-PTH-Datei zu laden:

Code: Select all

import torch
from ultralytics import YOLO
import timm

# --- YOL VE KONFİGÜRASYON AYARLARI ---
# Swin Transformer eklediğiniz YAML dosyasının yolu
YOLO_CONFIG_PATH = '../yolov8_three_swinTrans.yaml'

# Standart YOLOv8n ağırlıklarının yolu (Diğer katmanlar için)
YOLOV8_WEIGHTS_PATH = '../yolov8n.pt'

# RTTS Veri Kümesi YAML Yolu
DATASET_YAML_PATH = "../RTTS/data.yaml"

# timm kütüphanesinden kullanılacak önceden eğitilmiş Swin-T modeli
SWIN_MODEL_NAME = 'swinv2_large_window12_192_22k'

# YAML'daki SwinTransformer katmanlarının indeksleri:
# 4:  - [-1, 6, SwinTransformer, [256, True]]
# 6:  - [-1, 6, SwinTransformer, [512, True]]
# 8:  - [-1, 3, SwinTransformer, [1024, True]]
SWIN_LAYER_INDICES = [4, 6, 8]

# --- MANUEL YÜKLEME FONKSİYONU ---

def inject_swin_weights_multi(yolo_model, swin_name, layer_indices):
"""Önceden eğitilmiş Swin-Transformer ağırlıklarını birden fazla YOLOv8 katmanına enjekte eder."""
print(f"🔄 {swin_name} ağırlıkları indiriliyor ve birden fazla katmana enjekte ediliyor...")

try:
# 1.  Swin-Transformer modelini timm'den (önceden eğitilmiş) yükle
swin_timm_model = timm.create_model(swin_name, pretrained=True)
swin_timm_state_dict = swin_timm_model.state_dict()

yolo_state_dict = yolo_model.state_dict()
new_swin_weights = {}

for index in layer_indices:
yolo_swin_prefix = f'model.{index}'
print(f"   -> Ağırlıklar {yolo_swin_prefix} için eşleştiriliyor...")

# Eşleştirme işlemi (Önceki örnekte olduğu gibi)
for k_timm, v_timm in swin_timm_state_dict.items():
k_yolo = None

# En Olası Eşleştirmeler
if k_timm.startswith('patch_embed'):
k_yolo = f"{yolo_swin_prefix}.{k_timm}"
elif k_timm.startswith('layers'):
k_yolo = f"{yolo_swin_prefix}.{k_timm}"
elif k_timm.startswith('norm'):
k_yolo = f"{yolo_swin_prefix}.{k_timm}"

if k_yolo and k_yolo in yolo_state_dict:
if yolo_state_dict[k_yolo].shape == v_timm.shape:
new_swin_weights[k_yolo] = v_timm
else:
print(f"   ⚠️ Hata: Boyut uyuşmuyor: {k_yolo} ({yolo_state_dict[k_yolo].shape}) vs {v_timm.shape}")

# 2. Yeni ağırlıkları mevcut YOLO ağırlıklarıyla birleştirme
yolo_state_dict.update(new_swin_weights)

# 3. Modeli yükle (strict=False ile)
yolo_model.load_state_dict(yolo_state_dict, strict=False)
print("✅ Swin-Transformer ağırlıkları başarıyla enjekte edildi.")

except Exception as e:
print(f"❌ Swin Ağırlık Enjeksiyonunda Hata Oluştu: {e}")
print("Model, SwinTransformer katmanlarını sıfırdan eğitecektir.")

# --- ANA EĞİTİM KODU ---

if __name__ == '__main__':
# 1. Modeli Swin-T konfigürasyonu ile oluştur
model = YOLO(YOLO_CONFIG_PATH)

# 2. Standart YOLO ağırlıklarını yükle (Diğer katmanlar için)
model.load(YOLOV8_WEIGHTS_PATH)
print("📢 Standart YOLOv8n ağırlıkları yüklendi.")

# 3. Swin-T Ağırlıklarını Enjekte Et
inject_swin_weights_multi(model, SWIN_MODEL_NAME, SWIN_LAYER_INDICES)

# --- İYİLEŞTİRİLMİŞ EĞİTİM STRATEJİSİ ---

# Swin Katmanlarını Dondurma: Modeli ilk 10 epoch dondurarak önceden eğitilmiş bilgiyi koruyun.

# 4. Eğitimi Başlat (Düşük Öğrenme Oranı ile İnce Ayar)
model.train(
data=DATASET_YAML_PATH,
epochs=100,          # Yüksek epoch sayısı (daha iyi ince ayar için)
imgsz=640,
lr0=1e-4,            # Başlangıç öğrenme oranını çok düşük tutun
warmup_epochs=5,
name='yolov8_three_swin_fine_tuned'
)

Das Training läuft normal und ich erhalte Protokolle wie diese:

Code: Select all

Transferred 225/419 items from pretrained weights
Standard YOLOv8n weights loaded.
swinv2_large_window12_192_22k weights downloaded...
-> matching weights for model.4 ...
-> matching weights for model.6 ...
-> matching weights for model.8 ...
Swin weights successfully injected.

Das Problem
Mit Standard-YOLOv8n erhalte ich:
mAP ~ 0,74 (RTTS-Datensatz)
Mit meinem YOLOv8 + Swin Transformer-Hybrid erhalte ich:
mAP ~ 0,69 - 0,72
Das Hinzufügen von Swin verringert also tatsächlich die Genauigkeit, anstatt sie zu verbessern.
Die Frage
Warum führt das Hinzufügen von Swin-Transformerblöcken zu YOLOv8 zu einem niedrigeren mAP, selbst wenn vorab trainierte Swin-Gewichte injiziert werden?
Mögliche Dinge, bei denen ich mir nicht sicher bin:

Sind timm Swin-Gewichte inkompatibel mit der Ultralytics Swin-Implementierung?
Stimmen Fenstergrößen/Patchgrößen nicht überein (192 vs. 640)?
Ist meine Präfixzuordnungslogik falsch?
Erwartet YOLOv8 andere Normalisierungsschichten als timm verwendet?
Sollten die Swin-Blöcke anders im Backbone platziert werden?

Was ich wissen möchte

Wie lädt man vorab trainierte Swin-Gewichte richtig in ein benutzerdefiniertes YOLOv8-Modell?
Mischt man YOLOv8 und Swin Transformer konzeptionell inkompatibel, ohne mehr von der Architektur neu zu schreiben?
Warum sollte das Hybridmodell selbst mit vorab trainierten Gewichten schlechter abschneiden?
Wie sollten Swin-Blöcke konfiguriert werden (Abmessungen, Stufen, Fenstergröße), damit sie gut mit YOLOv8 funktionieren?

Ich habe Codes hinzugefügt conv.py und task.py
Ich habe diese Github-Dokumentation befolgt und verwendet: https://github.com/Marfbin/NEU-DET-with-yolov8
Aber ich habe gelernt, dass ich kein vortrainiertes Swin-Transformationsgewicht (.pth-Datei) verwendet habe, sodass der mAP-Wert niedriger als jetzt ist, zum Beispiel 0,55. Dann habe ich versucht, diese .pth-Datei zu implementieren, aber ich schätze, es ist fehlgeschlagen. Ich habe tagelang versucht, den mAP-Wert meines Datensatzes zu erhöhen, aber ich konnte es nicht herausfinden. Ich habe alles im Internet durchsucht (github, stackoverflow, chatgpt oder so), aber es ist mir nicht gelungen.

Warum führt meine YOLOv8 + Swin Transformer-Integration zu einem geringeren mAP im Vergleich zum Standard-YOLOv8n? [gesc

Warum führt meine YOLOv8 + Swin Transformer-Integration zu einem geringeren mAP im Vergleich zum Standard-YOLOv8n? [gesc ⇐ Python

Quick Reply