根据效果图可以看出,该模型能很好地检测出图中人物,但是确定人物的边界框时较为粗糙。实际上,该模型确定出的人物边界框过大,所以当图片中有多个人物时,边界框可能会重叠。针对这一点,通过调整overlap_threshold值和Non-Maximum Suppression函数可以改善。 当然,与第一部分中只对训练集中人物图片分类的convnet网络相比,该模型的正确率有一定的降低。 使用笔记本电脑CPU进行预测,速度非常慢,每张图片耗时8秒;使用型号为Tesla K80 的GPU进行预测,每张图片耗时0.98秒。 我们可以简单地和结合滑动窗口的简单卷积网络比较,如第一部分使用的CNN网络,结果看起来很有趣。对于一张640x460大小的图片,滑动窗口设置为64x128(水平步幅为8像素,垂直步幅为4像素),仍需要处理6000张子图片。即使某网络的预测速度很快,每张子图片耗时只有0.01s,此时处理每张图片仍需要60秒。另外,如果结合了滑动窗口方法,就只能得到固定长宽比的多张子图片。 改进方向 接下来,我将继续标注相关图片来扩大训练集,如果有新方法会继续进行更新。 相关链接 1.用keras实现的Faster RCNN: https://github.com/yhenon/keras-frcnn 2.完整项目代码: https://github.com/alexattia/SimpsonRecognition 【完】 一则通知 量子位读者4群开放申请,对人工智能感兴趣的朋友,可以添加量子位小助手的微信:qbitbot,申请入群,一起研讨人工智能。 另外,量子位大咖云集的自动驾驶技术群,仅接纳研究自动驾驶相关领域的在校学生或一线工程师。申请方式:添加qbitbot为好友,备注“自动驾驶”申请加入~ 招聘 量子位正在招募编辑记者、运营、产品等岗位,工作地点在北京中关村。相关细节,请在公众号对话界面,回复:“招聘”。 追踪人工智能领域最劲内容 (责任编辑:本港台直播) |