yolov5检测(前向)输入视频输出(不在图上画标签形式的原)图片的方法,及设置每隔几帧保存的方式(不每帧保存减少重复)

这些天我忽然有个需求,要更新迭代一个场景的检测模型,甲方爸爸提供的新数据集是监控视频形式的(因为拍视频确实更加的方便),而我训练模型确实要标注好的图片形式。
根据这些条件的话,思路应该是要这样的:首先使用现有的最新一个模型输入视频进行检测,检测结果以每帧图片的形式进行保存,以及每帧图片对应的label。将图片和label用标注工具打开如labelme等进行可视化调整模型标注好的数据(这样比每张图片直接从0开始标注要快),再将这些标注好的数据加入之前的数据中进行训练。

保存图片形式

这个流程可能会有几处有些障碍,一个是模型检测生成的label的yolo格式数据转化成labelme格式的数据以及调整好之后labelme格式的数据再转回yolo训练格式的数据,这个问题的解决及对应的代码写在我之前的文章中;另一个就是yolov5输入的是视频时输出的也同样是个视频,且是带有检测结果的视频(带有实时检测框的视频),如图:
在这里插入图片描述
在这里插入图片描述

而我们想要的是原图进行训练,保存的是原图及对应的label。解决方法如下:
在detect.py代码里的Process predictions中添加如下两行的代码:

e_save = os.path.splitext(save_path)[0] + f'_{frame}' + '.jpg'
cv2.imwrite(e_save, im0)

在这里插入图片描述
运行结果如图:
在这里插入图片描述
在这里插入图片描述
图片命名格式输入视频的名称后面加上帧数。

设置帧率

看了一下保存的图片,会发现一个问题,基本上每张图片会重复几十次。所以如果不是高速移动的目标的话每帧都保存会有大量几乎重复的图片,每张都拿来训练是没必要的且浪费修改label的时间,所以下面设置每隔几帧保存一次。

在这里插入图片描述
detect.py中前向推理部分的代码结构大概是这样的:

for path, img, im0s, vid_cap in dataset:
    # ... 一些前期的代码 ...

    # 运行检测
    img = torch.from_numpy(img).to(device)
    img = img.float()  # uint8 to fp16/32
    img /= 255.0  # 0 - 255 to 0.0 - 1.0
    if img.ndimension() == 3:
        img = img.unsqueeze(0)

    # ... 一些中间的代码,可能有模型推理的部分 ...

    # 后处理
    # ...

    # 在这里添加代码,确保只在每25帧执行检测
    if vid_path:
        current_frame += 1
        if current_frame % 25 == 0:
            # 执行你的检测代码
            # ...

# ... 一些后期的代码 ...

在这里插入图片描述
运行结果如图:
在这里插入图片描述
这样就减少了很多重复图片。

写在最后:
我觉得csdn是一个能学到技术的地方,那是因为很多大佬的无私奉献。我的每一条博文都是粉丝才可见,若是你们看了觉得我不值得你们关注,取关无可厚非。但是为什么就是有很多人收藏了我的博文然而又取消关注呢,我觉得让我很不舒服,我希望各位看管都是高素质人群,尊重一下创作者辣!不然越来越多这样的行为会打击分享技术的积极性,谢谢!


http://www.niftyadmin.cn/n/5220913.html

相关文章

CSR证书开发详解

文章目录 一、CSR证书基本概念二、CSR证书和服务器证书区别三、CSR证书解析源码 一、CSR证书基本概念 CSR(Certificate Signing Request)证书签名请求是一种包含公钥及其相关信息的文件,用于向证书颁发机构(CA)请求数…

【PUSDN】WebStorm中报错Switch language version to React JSX

简述 WebStorm中报错Switch language version to React JSX 可能本页面的写法是其他语法。所以可以不用管。 测试项目:ant design vue pro 前情提示 系统: 一说 同步更新最新版、完整版请移步PUSDN Powered By PUSDN - 平行宇宙软件开发者网www.pusdn…

京东运营数据分析(京东数据采集):2023年10月京东护肤行业品牌销售排行榜

鲸参谋监测的京东平台10月份护肤市场销售数据已出炉! 鲸参谋数据显示,2023年10月份,京东平台上护肤市场的销量为2000万,环比增长约28%,同比降低约26%;销售额为25亿,环比增长约24%,同…

深度学习之图像分类(十五)DINAT: Dilated Neighborhood Attention Transformer详解(一)

Dilated Neighborhood Attention Transformer Abstract Transformers 迅速成为跨模态、领域和任务中应用最广泛的深度学习架构之一。在视觉领域,除了对普通Transformer的持续努力外,分层Transformer也因其性能和易于集成到现有框架中而受到重视。这些模…

C#工程中Form_xx.cs不能在设计器中查看

环境:VS2022 直接上图: 原因: 写了个类在Form_xx.cs中从For继承的部分类之前,移动到之后,保证窗体类是代码中的首个类即可,如图:

触控板窗口管理软件Swish mac中文版

Swish mac是一款触控板窗口管理工具,它允许用户通过简单的手势来控制窗口。Swish利用MacBook的触控板,使得用户可以更加便捷地管理窗口。它支持多种手势,例如捏合、拖动、放大和缩小等,使得用户可以轻松地实现窗口的切换、最小化、…

flutter布局详解及代码示例(上)

布局 基本布局 Row(水平布局):在水平(X轴)方向上排列子widget的列表。Column(垂直布局):在垂直(Y轴)方向上排列子widget的列表。Stack(可重叠布…

(附源码)SSM+成都大学体育场馆预约系统 计算机毕设37087

摘 要 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化的管理,使信息存…