[Vol.11 No.3] 딥러닝 기반의 음향 이벤트 검지 기술 소개

  • 작성자

    관리자
  • 작성일자

    2021-09-10 00:00
  • 조회수

    379

딥러닝 기반의 음향 이벤트 검지 기술 소개


한국자동차연구원 선임연구원
김남균 박사

 

소리는 일상생활에서의 활동을 설명하고 이해하는데 필요한 청각인지의 수단이며 동시다발적으로 발생하는 수많은 음향 이벤트 (sound event) 들은 인간의 선택적인 음향 장면 (sound event) 인지를 통해 상황을 파악하고, 즉각적으로 대응할 수 있게 도움을 준다. 예를 들어, 번화한 시가지에서의 음향 장면에서는 지나가는 자동차, 자동차 경적, 엠뷸런스 소리, 사람 발자국 소리 등이 포함될 수 있고, 인간은 자동차 경적 또는 엠뷸런스 소리들을 통해 경고 또는 위험 상황들을 인지할 수 있다. 이러한 음향 장면 인지 분야는 최근들어 각강받고 있는 인공지능 기반의 알고리즘들로 활발히 연구되고 있으며, 관련 기술로서 음향 이벤트 검지 (sound event detection) 기술이 주목 받고 있다. 음향 이벤트 검지 기술은 음향 수집 센서를 활용한 분야에 광범위하게 활용될 수 있다. 유사한 기술로서 영상 이벤트 검지 (visual event detection) 기술은 날씨, 조도, 사각지대 등 영상 장애물 (visual obstacle) 환경에서 검지 성능이 저하되는 단점이 있는 반면 음향 이벤트 검지 기술은 날씨와 사각지대에 구애받지 않고 상황인지가 가능한 장점이 있어 영상 이벤트 검지 기술과 상호보완이 가능하다. 이외에도 유리 파손음, 총소리, 타이어 마찰음 또는 자동차 충돌음과 같은 물리적 음향 이벤트를 검지할 수 있고, 소셜 미디어 콘텐츠를 더 자세히 이해할 수 있는 자동 오디오 자막생성(audio captioning), 의료 낙상 검지 등과 같은 헬스케어 어플리케션 등으로 다양하게 활용될 수 있다.
 

 

 

음향 이벤트 검지 기술은 2013년도 IEEE AASP 챌린지에서부터 2021년도 DCASE (Detection and Classification of Acoustic Scenes and Events) 챌린지까지, 현재 까지도 꾸준히 학계에서 활발히 논의되고 있는 기술이다. 특히 DCASE 2018 챌린지부터 논의 되었던 가정환경에서 알고리즘이 이벤트검지하는 과제를 다루고 있다. 주로 이러한 음향 이벤트 검지 모델은 입력으로 들어오는 오디오 신호에 대해 시작 및 끝 시점이 표기된 강력하게 레이블링된 데이터(strongly labeled data)를 활용하여 학습된다. 지난 10년 동안 멜-주파수 켑스트럼 계수 기반의 음향 특징을 활용한 SVM (Support Vector Machine) GMM (Gaussian Mixed Model)-HMM (Hidden Markov Model)과 같은 기계학습 기반 모델들과 완전 연결 신경망(fully connected neural network), 합성곱 신경망(Convolutional Neural Network), 순환 신경망(Recurrent Neural Network) 및 합성곱 순환 신경망 (Convolutional Recurrent Neural Network)과 같은 다양한 신경망 구조들이 음향 사건 검지 기술에 적용되어왔으며, 합성순환곱신경망 구조는 DCASE 2019 챌린지 Task 4, DCASE 2020 챌린지 Task 4에서 상위권에 랭크된 모델들에 활용되었다.

음향 이벤트 검지 모델 학습은 강력하게 레이블링된 데이터(strongly labeled data)를 많이 필요로 하지만, 이러한 데이터는 직접 청취하고 듣고 레이블링을 해야하므로 매우 비싸고, 수집이 어렵다. 따라서 이에 대한 대안으로 오디오 샘플에 대해 시작 시점과 끝 시점 정보 없이 음향 이벤트 종류만 표기된 약하게 레이블링된 데이터(weakly labeled data)를 활용하여 음향 이벤트 검지 모델 학습 방법인 평균 교사 모델이 연구되고 있다.
 

 

 

 

이러한 평균 교사 모델은 이미지 분류에서 비표기 데이터 (unlabeled data)를 모델에 학습시키기 위해 제안된 모델이다. 음향 이벤트 검지에서의 평균 교사 모델은 학생 및 교사 두개의 모델이 있으며, 여기서 학생 모델은 교사 모델에 의해 예측되는 레이블과 일관성을 향상하는 방향으로 학습되며 각 epoch에 대한 학생 모델의 가중치 갱신에 따라 교사 모델도 업데이트된 후, 최종적으로 훈련된 학생 모델을 활용하여 음향 이벤트 검지를 수행한다. 이 평균 교사 학습 기반 모델은 DCASE 2019 챌린지 Task 4baseline 모델로 제안되었으며, DCASE 2019 DCASE 2020 챌린지 Task 4에서 상위 순위를 달성한 모델에서 평균 교사 모델을 활용하여 학습한 모델이 제안되었다.
 

 

 

 

정리하자면, 음향 이벤트 검지 모델은 주로 합성곱순환 신경망을 기반으로 한 평균 교사 모델을 활용한 학습 방법이 주로 활용되고 있다. 하지만, 같은 음향 이벤트라 할지라도 강아지 울음소리와 같이 종에 따라 다른 음향 특성을 가질 수 있으므로 이러한 특성을 학습하기 위하여 많은 합성곱 신경망 층을 활용하여야 한다. 따라서 합성곱 신경망을 깊이 있게 구성해야 하는데, 이때 기울기 소실 문제가 발생할 수 있다. 필자는 이를 해결할 수 있는 방법으로 잔차 학습을 활용하고, 주의 모듈을 활용하는 방법을 연구하여 DCASE 2021 챌린지 Task 4에서 2nd 순위를 달성하였다. 이는 합성곱 신경망의 해석 지표인 GRAD-CAM을 활용하여 시각화 했을 때, 목표하는 이벤트에서 효과적으로 특징맵이 활성화됨을 확인할 수 있었다.