RoLID-11K：首个基于行车记录仪的大规模路边垃圾检测数据集

本研究成果已发表于 WACV 2026 Workshop。

路边垃圾不仅破坏环境，还带来安全隐患和高昂的清理成本。然而，目前的垃圾监测主要依赖耗时费力的人工巡查和公众举报，覆盖范围极其有限。为了解决这一痛点，我们推出了 RoLID-11K —— 首个专门针对行车记录仪视角下路边小目标垃圾检测的大规模数据集。

现有的垃圾检测视觉数据集主要集中在街道静态图片、无人机航拍或水下环境。它们无法反映行车记录仪（Dashcam）画面的独特性：在车辆行驶过程中捕捉到的垃圾往往极其微小、分布稀疏，并且隐蔽在杂乱的路边背景中。

相比之下，行车记录仪成本低廉且普及率极高。如果能利用这些已经在不断记录的视频数据，实现被动的路边垃圾监测，将是一种极具潜力的低成本、可扩展方案。

Mobile Data Acquisition Platform 图 1：RoLID-11K 数据集概览。车辆配备行车记录仪作为移动数据采集平台，在多样的真实路况下捕捉路边垃圾。

RoLID-11K 包含了在英国各种驾驶环境（乡村道路、郊区街道、双车道和城市环境）以及不同天气、光照条件下拍摄的 11,000 多张标注图像。它为目标检测模型带来了极大的挑战，主要体现在：

为了评估现有检测器在这个具有挑战性的数据集上的表现，我们对一系列现代目标检测模型进行了基准测试，涵盖了从注重精度的 Transformer 架构到注重速度的实时 YOLO 系列。

模型	主干网络	$AP_{50}$	$AP_{50:95}$	$AP_{50:95}^{small}$	$AP_{50:95}^{medium}$	$AP_{50:95}^{large}$
CO-DETR	ResNet-50	79.2	32.1	31.2	37.5	40.0
DINO	ResNet-50	78.5	31.5	30.9	36.1	11.2
DEIMv2	ViT-Tiny	74.3	27.8	27.4	30.3	21.7
RT-DETR	ResNet-50	73.9	28.9	28.3	32.1	18.5
DiffusionDet	ResNet-50	67.0	24.5	24.3	26.7	9.6

CO-DETR 在整体 $AP_{50:95}$ 上表现最佳，证明了其密集的 Transformer 分配机制能为极小和稀疏的垃圾实例提供最可靠的定位。DINO 表现同样出色。而 DiffusionDet 在该数据集上表现不佳，这表明其粗糙的去噪过程可能难以应对嵌入在杂乱背景中的微小目标。

模型	$AP_{50}$	$AP_{50:95}$	$AP_{50:95}^{small}$	$AP_{50:95}^{medium}$	$AP_{50:95}^{large}$
YOLOv8	50.1	17.5	16.6	22.9	6.0
YOLOv9	50.8	17.1	16.0	23.5	4.0
YOLOv10	49.7	17.4	16.3	23.2	5.1
YOLOv11	52.1	18.3	17.2	24.6	5.7
YOLOv12	51.6	17.7	16.9	23.3	15.1

YOLO 模型虽然能够实现亚毫秒级的推理速度，但在 $AP_{50:95}$ 上落后于 Transformer 架构，特别是在中等目标（ $AP_{50:95}^{medium}$ ）的定位上差距明显。这证实了轻量级的检测头和较低的输入分辨率，限制了它们对极小目标的精确定位能力。

实验结果表明，虽然 Transformer 架构的检测器提供了最强的定位性能，但它们高昂的计算成本限制了在低功耗平台上的实时部署。相反，YOLO 模型虽然推理极快，却难以捕捉检测小尺寸垃圾所需的精细空间细节。

RoLID-11K 清晰地揭示了这些局限性，它为开发能够应对真实动态驾驶环境中极端小目标的检测系统设定了具有挑战性的基准。

📄 想要了解完整的实验数据与具体细节？ 点击此处下载 WACVW 2026 完整版论文 PDF