啄木鸟

首页 » 常识 » 问答 » AI专用领域之一声音相机陷阱用于野生动
TUhjnbcbe - 2024/2/25 10:13:00
北京治疗白癜风哪家医院效果最好 https://disease.39.net/yldt/bjzkbdfyy/
                            

原创Synced机器之心

机器之心分析师网络

作者:Jiying

编辑:Joni

在这篇文章中以两篇文章为基础,分别讨论了声音、相机陷阱(cameratraps)是如何实现野生动物监测的。此外,最后一篇文章还讨论了如何利用人工智能技术辅助解决野生动物偷猎(wildlifepoaching)的问题,即对偷猎者轨迹的预测问题。

0引言

近年来,生物多样性危机,即世界范围内的物种损失和生态系统的破坏问题,正在全球范围内持续加速,生物多样性正在迅速减少。例如,许多物种如老虎和犀牛,由于非法采伐(即偷猎)而面临灭绝的危险。研究动物的分布、运动和行为对解决环境挑战至关重要,如疾病的传播、入侵物种、气候和土地使用的变化等等。因此,迫切需要部署可扩展和具有成本效益的监测技术,以更好地模拟和了解野生动物及其居住的环境。

随着人工智能的快速发展,人工智能技术也被引入到野生动物研究和保护中。哈佛大学、谷歌、英特尔、DeepMind,以及国内的快手、阿里等等众多研究机构、企业,甚至包括一些政府机构,都已经投入到了这项工作中,且研发和部署了相应的产品。我们在这篇文章中以两篇文章为基础,分别讨论了声音、相机陷阱(cameratraps)是如何实现野生动物监测的。此外,最后一篇文章还讨论了如何利用人工智能技术辅助解决野生动物偷猎(wildlifepoaching)的问题,即对偷猎者轨迹的预测问题。

1利用深度信息进行野生动物监测[8]

相机陷阱(Cameratraps)是生物学特别是生物多样性研究中的一个成熟工具。不过,尽管相机陷阱能够提供关于场景的丰富的信息,同时促进了传统人工生态学方法的自动化,但是包含深度估计信息(Depthestimation)的相机陷阱并没有得到广泛的部署和应用。本文提出了一种基于深度相机陷阱的自动方法,利用深度估计来探测和识别动物。为了检测和识别单个动物,作者提出了一种新的方法D-MaskR-CNN用于实例分割。D-MaskR-CNN是一种基于深度学习的技术,用于检测和划分图像或视频片段中出现的每个不同的兴趣对象。

1.1关于Cameratraps的背景知识

相机陷阱是一项连续监测动物的技术。具体指使用动作传感器、红外探测器或其他光束作为触发机关的遥控相机。它常被用来拍摄摄影师不容易直接拍得的画面。相机陷阱能够提供可用于探测动物的线索信息(参见图1(顶部)),以实现在动物群中区分单个动物(参见图1(底部)),在观察环境中定位动物以及促进生态学研究的自动化发展,如估计种群密度等。不过Cameratraps并没有在野外广泛部署[1]。

在计算机视觉中,距离测量由图像或视频片段中的深度通道来表示。给定一个灰度图像作为相机陷阱的视觉输出,例如,在夜间或黄昏使用红外摄像机监测野生动物(参见图1(左上)),深度通道捕获距离信息(参见图1(右上))。深度通道通常以热图的形式呈现,其中蓝色表征的距离最高,红色表征的距离最低。带有深度通道的彩色图像被称为RGB-D图像,其中图像的颜色成分由红、绿、蓝三条通道编码,而第四条通道显示深度信息(参见图1(底部))。

图1.深度信息支持对动物进行更可靠的检测,也支持区分成群结队的单个动物。深度信息使用热图进行编码,其中表征距离最高的是蓝色,最低的是红色

立体视觉是获取深度信息的主要方法之一。给定两台相机,在水平方向上相互移动,观察到的场景的两个不同的视角被用来生成观察到的场景物体的深度,其方式类似于人类的立体视觉。本文提出了一种基于深度相机陷阱的自动动物探测方法,利用深度估计来探测和识别动物。为了检测和识别单个动物,作者提出了一种新的方法即所谓的实例分割,这是一种基于深度学习的技术,用于检测和划分图像或视频片段中出现的兴趣对象。

1.2方法介绍

从人工智能的角度分析,本文是使用的方法是一个基于MaskR-CNN的架构[2],将实例分割应用于RGB-D图像,作者称之为深度掩码R-CNN(DepthMaskR-CNN)或简称D-MaskR-CNN,它利用额外的深度信息来改进边界框和分割掩码的预测,以检测和定位物体实例以及识别它们。D-MaskR-CNN的具体架构见图2。

图2.D-MaskR-CNN的具体架构

深度骨干网(Depthbackbone)。本文所使用的完整的架构是建立在detectron2框架中的MaskR-CNN实现之上的[3]。除了传统的彩色图像骨干网(colorimagebackbone),即在ImageNet[4]上预训练的ResNet-50模型[5]之外,作者还采用了几乎相同的backbone来处理深度通道,即一个深度骨干网。

初始化深度骨干网(Initializationofdepthbackbone)。深度骨干网的初始化参数与彩色骨干网相同,即网络权重,但第一层除外。在这一层中,权重预计是三通道的RGB彩色图像,而深度通道只是一维的。作者在图像骨干网的第一个权重维度上取平均值,以获得深度骨干网第一层的初始权重。在训练过程中,深度骨干网的权重一定会出现与彩色骨干网的权重相背离的现象,也就是说,在两个骨干网之间不采用权重共享的处理方式。另外,也可以随机地初始化深度骨干网的权重。

彩色和深度特征融合(Fusionofcoloranddepthfeatures)。当输入通过两个骨干网传播时,在不同的尺度上提取深度为的中间特征图,与在标准MaskR-CNN的单一骨干网的情况下一样。然后,将两个骨干网的特征图在每个层次(深度)上串联起来,并通过一个内核大小为33的单一卷积层(每层有一个专门的卷积层),将串联的特征图的深度从降到。作者称这种操作为特征融合(featurefusion),因为它融合了所有三个彩色通道和深度通道的特征信息。虽然本文使用的D-MaskR-CNN架构与[6]中的方法类似,都是采用两个独立的骨干来处理彩色和深度通道,但作者在选择从两个骨干网获得特征的处理过程并没有对网络架构施加事先的限制。

综合彩色和深度特征的处理(Processingofconsolidatedcoloranddepthfeatures)。将上一步融合处理后得到的特征图输入区域建议网络(regionproposalnetwork,RPN),以得到可能的实例边界。然后,通过兴趣区域(ROI)对齐,将特征图与每个边界对齐。然后将这些对齐的特征图交给掩码头和分类器,分别计算出实例掩码和类别预测。

1.3所使用的数据情况

正如在前文中提到的,由于Cameratraps并没有广泛部署,作者使用一个合成数据库评估了本文提出的D-MaskR-CNN。该数据库包括了通过渲染合成野生动物场景产生的RGB-D视频片段。为了提供一个概念验证的应用,作者在一个动物园里安装了一个RGB-DCameratraps,并在捕获的RGB-D视频片段上评估了D-MaskR-CNN。

1.3.1合成数据

在实验数据生成过程中,每只动物都有一个相关的运行动画,使用该运行动画并在时间上随机化,以从所有可能的运动状态中取样。作者还对摄像机和照明的角度、高度和视野进行随机化处理,同时保持两者大致指向同一方向和同一地点。然后使用Blender软件包[7]渲染灰度、深度、类和实例图像。作者渲染灰度图像而不是彩色图像,以模拟夜间或黎明时分红外传感器产生灰度图像的Cameratraps结果。作者最终生成了描述四个动物类别的RGB-D视频片段:鹿、野猪、野兔和狐狸。图3给出了合成数据库的视频片段中的两帧。表1给出了合成数据库的概况。

图3.合成数据库的视频片段的两帧。左:强度,右:深度

表1.合成数据库的统计数据

1.3.2Cameratraps数据库

作者采用低成本、现成的组件设计并建造了一个RGB-DCameratraps,特别强调了在不同照明条件下的多功能性,具体使用了IntelRealSense?D。作为一个主动红外立体相机(即两台相机与一个额外的照明源配对),它比纯结构光相机能在更广泛的照明条件下发挥作用,因为纯结构光相机在明亮的场景中往往无法找到对应的数据。图4给出了RGB-DCameratraps的示例。作者对RGB-DCameratraps的组件进行了详细介绍,我们在这里不再赘述。

图4.构建RGB-DCameratraps。(A):IntelRealSense?D,(B):NVIDIAJetsonNano?DeveloperKit,(C):被动红外传感器(PIR,在此图片中不直接可见),(D):用于控制的LN,(E):红外线灯用于夜间照明,(F):tp-linkArcherT4U无线网络适配器

1.4实验分析

作者使用合成数据库评估了D-MaskR-CNN,该数据库包括了通过渲染合成野生动物场景产生的RGB-D视频片段。作者采用COCO评价指标的一个子集作为评估指标:10IoU(intersectionoverunion)水平的平均精度(AveragePrecision,AP),IoU阈值为50%时的AP(AP_50%),IoU阈值为75%时的AP(AP_75%)以及观察到的四个不同动物类别的AP得分。作者将D-MaskR-CNN的结果得分与文献[2]中的经典MaskR-CNN方法(即表4中使用和不使用深度信息的MaskR-CNN)进行比较。D-MaskR-CNN在所有指标上明显优于经典的MaskR-CNN。

表2.D-MaskR-CNN在合成数据库上对boundingbox预测和segmentationmask预测的动物检测任务的AP分数

为了提供一个概念验证的应用,作者还将D-MaskR-CNN应用于安装在LindenthalZoo的RGB-Dcameratrap所拍摄的RGB-D视频片段上,并对其进行了评估,评估只考虑到了观察到的鹿。图5给出了两个示范性结果。

图5.RGB-Dcameratrap数据库的两帧视频片段与边界框预测和D-MaskR-CNN的分割掩码预测相叠加。左:强度,右:深度

2利用声学监测和深度学习建立动物生物多样性模型[9]

2.1背景知识

在监测野生动物和栖息地健康时,声音讯号也被认为是一种重要的途径。声学传感器为野生动物保护主义者和研究人员提供了不受干扰地接触大自然的机会。这些传感器提供了重要的生态学数据,使生态系统内的丰富度、分布和动物行为信息能够被用于建立保护战略模型。典型的分析类型包括占用或分布模型、密度估计和数量趋势分析。我们在文章中提到的cameratraps一直是此类分析的首选技术,不过,近年来声音监测已被用于扩展生物多样性研究。音频提供了一个与图像不同的感官维度,它还有一个额外的好处,那就是可以穿越更大的地理边界,并且在许多难以到达的环境中较少受到视野和植被限制的影响。

声学传感器的地理覆盖范围很大,对人口稠密环境的影响较小,因此,在生态学和保护中越来越多应用声学监测,现在已经认为它是了解动物对环境变化反应的一个关键组成部分。cameratraps对检测大型动物非常有用,当它们与被动声学监测相结合时,可以识别更广泛的动物物种,包括不容易被cameratraps发现的非常小的动物。当单独使用声学传感器时,它们可以被长期部署(通常是几个月)以模拟一个特定的生态系统。

声学传感器产生连续的时间序列数据,通常包括与不同信号发生器有关的频率组合。不同的动物物种使用不同的声学特征和频率产生声音。因此,为了获得所需的信息,有必要将信号与噪音分开。最常见的提取频率特征的方法是快速傅里叶变换(FFT)。本文在声学监测管道中实施FFT以生成频谱图,这些频谱图以前被用来对动物叫声进行视觉分类和标记。探测包括在录音中定位感兴趣的特定声音,同时将每个声音归入一个特定的类别,如物种类型。这种形式的分析是劳动密集型的,而且往往会因保护者的经验而产生偏差。图6给出了本文所使用的数据库中的一个频谱图实例(家雀)。

图6.一只家雀的频谱图

本文提出了一个自动声音分类方法,适用于大规模的声学调查和被动监测项目。在本文给出的分析和实验中,该方法能够对不同的鸟类声音进行分类,同时,作者提出在生成特定物种的声学分类模型后,也可以将其应用到其他类型的动物分类中。作者选择鸟类是因为鸟类被认为是评估栖息地健康和建立生物多样性模型时的重要物种。

2.2数据分析和方法介绍

2.2.1数据分析

本文使用的音频数据集包含了在英国发现的五种不同的鸟类(小斑啄木鸟、欧亚斑鸠、大山雀、家雀和普通木鸽),可以通过Xeno-Canto网站访问(

1
查看完整版本: AI专用领域之一声音相机陷阱用于野生动