Status i Roadmapa¶
Aktualny status projektu¶
Najuczciwszy opis obecnego etapu:
Easy-RT-DETR jest juz dzialajacym research prototype / strong MVP, a nie tylko szkicem architektury.
Projekt ma:
- dzialajacy model w PyTorch,
- dzialajacy trening lokalny,
- dzialajacy trening zdalny na GPU,
- rzeczywiste eksperymenty na wielu datasetach,
- narzedzia do wizualizacji i ewaluacji.
Co jest juz mocne¶
- pipeline end-to-end od treningu do wizualizacji,
- wspolny config system i nowe CLI,
- wspolny solver z EMA, warmupem i schedulerami,
- parity kilku waznych elementow RT-DETRv3:
- denoising,
o2o/o2m,- query selection,
- auxiliary head w stylu PP-YOLOE,
- dobre wyniki na Penn-Fudan,
- sensowna detekcja samochodow na VOC i zdjeciach customowych,
- formalne metryki
AP50/AP75/mAP, - integracja z Kaggle GPU przez Jupyter i MinIO.
Co jest srednio dojrzale¶
- ocena modelu nadal opiera sie glownie o proxy metryki zamiast pelnego
mAP, - eksperymenty sa jeszcze stosunkowo krotkie na wiekszych datasetach,
- nowy
HybridEncodernie zostal jeszcze uczciwie sprawdzony w dluzszym treningu, - repo nie ma jeszcze pelnej polityki wersjonowania checkpointow po zmianach architektury.
Co nadal jest otwarte technicznie¶
- dluzsze treningi VOC i BDD po wiekszej liczbie epok,
- trening wieloklasowy zamiast tylko
car, - szersze benchmarkowanie
mAP, - stabilniejszy eksperymentalny protokol porownawczy,
- dalsze zblizanie necka i auxiliary path do referencji PaddleDet,
- opcjonalnie export i inferencja bardziej produktowa.
Najwazniejszy stan modelu dzisiaj¶
Jesli patrzec pragmatycznie:
- najlepsza jakosc lokalizacji i czystosci boxow byla osiagnieta na Penn-Fudan,
- VOC
carpokazal sensowna generalizacje, - BDD100K vehicle-3 jest juz gotowy jako bardziej realistyczny kierunek danych drogowych,
- nowy
HybridEncoderjest obiecujacy architektonicznie, ale wymaga dluzszego treningu, zanim bedzie mozna powiedziec, ze jest lepszy od poprzedniego prostszego necka.
Rekomendowane kolejne kroki¶
Najbardziej sensowna kolejnosc na nastepne iteracje:
- Ustabilizowac benchmark VOC
cari BDD vehicle-3. - Przetrenowac nowy
HybridEncoderdluzej na GPU. - Rozszerzyc trening na wiecej klas i bardziej realistyczne dane drogowe.
- Dopiac bardziej produktowe eksporty i inferencje.
- Dopiero potem dalej komplikowac architekture.
Uwagi praktyczne¶
- stare checkpointy od prostszego necka nie sa kompatybilne z aktualnym kodem po zmianie
HybridEncoder, - to jest swiadoma cena szybkiego rozwoju architektury,
- w praktyce trzeba traktowac checkpointy jako powiazane z konkretna wersja kodu.