* 본 원고는 2021년 5~12월 한국과학기술원의 지원을 받은 'Post-AI 시대에 음악하기'의 연구 과정에서 작성되었습니다.
Post-AI 시대의 사운드 아트 : 사운드스케이프를 중심으로
작성: 배준형
사운드아트는 소리를 주된 매체로 공간과 소리에 부여된 의미체계에 개입하고 재인식을 추동하는 예술 장르이다.[1] 하나 이상의 매체(medium)을 가지고 작업하고 다양한 장르와 중복되며, 특정 아티스트 그룹이나 지역에 연계되어 전개되지 않는 특성이 있다. 소리 매체, 공간과 관객이 서로 상호작용하는 관계를 가지며, 이 세 요소가 함께 공존한다. 컨템퍼러리 사운드 아티스트들은 자신의 작업 형태에 맞추어 음향 기술 매체를 개발하고 작업의 매체로 사용함으로써 입체적 청취를 가능하게 만들었다.[2] 빅데이터의 폭발적인 증가와 하드웨어 기술의 발전으로 딥러닝이 전성기를 맞은 이래 머신러닝은 사운드아트의 새로운 재료가 되었다. 이로 인해 최근 머신러닝을 활용해 사운드아트를 재창안한 사례들이 등장했다.
본 글에서는 머신러닝을 작업도구로 사용한 사운드 스케이프(사운드아트의 한 장르)가 기존 사운드 스케이프의 저변을 어떻게 확장시키고 있는지 알아보고, Post-AI시대엔 어떤 사운드 스케이프가 등장할지에 대해 상상해본다.
사운드 스케이프는 바람이나 파도 등 환경에 의해 연주된다. 사운드 스케이프는 해당 지역에 알맞게 설계되고 다른 세부 장르에 비해 거대한 건축적 규모를 가지고 있다. 환경 그 자체의 배경이자 재료로 환경과 서로 융화되어 지역의 새로운 표식음을 창조하는 특징이 있다. 건축적이고 거대한 외관과 환경에 조화되는 소리로 인해 시각적 부분과 청각적인 부분 모두 랜드 마크의 역할을 하기도 한다.[3]
Sea Organ (Morske orgulje)>, 2005 니콜라 바싯트 (Nikola Bašić)
총 70m, 파이프 오르간 35개, 콘크리트 구조물
사운드 스케이프의 대표작으로는 니콜라 바싯트(Nikola Bašić)의 ‘Sea Organ’를 들 수 있다. 자다르, 크로아티아에 위치하고 있는 ‘Sea Organ(2005)’(위 사진)은 2차 세계대전으로 파괴된 해안가의 무미건조했던 콘크리트 벽을 재설계 하는 프로젝트의 일환으로 설계-설치되었다. 이 작업은 대형 대리석 계단 아래에 튜브를 통해 바다의 파도의 세기에 따라 무작위이지만 하모니를 이루는 소리가 연주된다.[4] 연주되는 소리는 65 Hz에서 250 Hz에서 사이의 주파수의 음색이 파이프 별로 옥타브를 구성하여 자연스러운 하모니를 구성하도록 설계되었다. 홀수부분에는 D, G, D, G, H 의 음색이, 짝수 부분에는 C, G, C, E, A 와 같은 화음 음색으로 맞춰져 있다. 이 음색들은 고대 그리스의 온음계적 메이저 스케일에 해당하는 크로아티아의 음악적 전통을 반영된 것이며, 4명의 남성들이 내는 자연스러운 화음을 모티브로 이루어진 것이다. 각각의 물에 잠겨 있는 오르간 파이프가 바람에 의해 불리고 파도에 의해 제자리로 돌아오는 ‘Sea Organ’은 35개의 오르간 파이프가 5개씩 짝을 지어 70m 길이의 계단 모양의 구조로 설치되었다. 이 계단구조는 7단으로 이루어져있으며 각 계단의 높이는 사람들이 편히 앉아 쉬거나 물에 발을 담글 수 있고, 산책을 할 수 있는 구조로 설계되었다. ‘Sea Organ’이 주는 아름다운 하모니는 지역 주민과 관광객 모두의 귀에 아름다운 음을 제공한다. ‘Sea Organ’은 침체되었던 지역에 관광객을 끊임없이 유치시키며 지역 주민들의 77.9%가 긍정적인 반응을 보였다고한다.[5] ‘Sea Organ’은 파도와 바람에 의해 연주가 이루어져 자연적 악기(natural musical instrument)로 표기되기도 한다. 지역의 해안가의 특성과 주변의 주거지를 고려하여 설계된 점과,지역의 새로운 사운드 스케이프를 제공하며, 새로운 국제적 랜드마크로 자리 잡은 작업으로, 사운드 스케이프 아트의 속성을 대표하는 작업이라고 할 수 있다.[3]
Imaginary Soundscape, 2018 Qosmo,Inc
Imaginary Soundscape - How It Works
사운드 스케이프을 AI를 활용해 발전시킨 작업으로 일본 연구자들에 의해 제작된 ‘Imaginary Soundscape’를 들 수 있다.[6] 인간은 사진을 보고 소리를 상상할 수 있다. 예를 들어 해변의 풍경은 부서지는 파도 소리를 떠올리게 할 수 있다. ’Imaginary Soundscape’는 이러한 무의식적인 행동에 초점을 맞춘 웹 기반 사운드 설치로, 관객이 Google 스트리트 뷰를 자유롭게 걸으며 딥 러닝 모델로 생성된 가상의 사운드스케이프에 몰입할 수 있다. 이 작업은 NIPS 2017 워크숍에서 최초로 공개되었다.[7] 작업은 딥러닝을 사용한 이미지-오디오 교차 모드 정보 검색 기술을 기반으로 했다.(Qosmo 팀은 MIT 연구원들이 2016년에 발표한 SoundNet을 기반으로 작업하였다) 비디오 입력이 주어지면 시스템은 두 가지 모델로 훈련된다. 하나는 사전 훈련된 이미지 인식 모델로 프레임을 처리하는 반면 다른 신경망은 오디오를 스펙트로그램 이미지로 읽고 훈련된다. 훈련한 2개의 네트워크를 통해 방대한 환경 사운드 데이터 세트에서 장면에 가장 잘 일치하는 사운드 파일을 검색할 수 있다.
AI에 의해 생성된 사운드스케이프는 때때로 인간의 기대에 부응하여 놀라운 결과를 만들어내지만 때로는 문화적, 지리적 맥락(예: 그린란드의 얼음 들판에서 파도 소리)을 무시한다. 이러한 기계가 만들어내는 사운드스케이프는 상상력이 어떻게 작동하고 우리를 둘러싼 소리 환경이 얼마나 비옥한지 고찰하게 한다. 또한 공감각적 사고를 외부화함으로써 인간이 공유하는 상상력의 힘을 조명한다.[8] 이 작업은 AI를 활용하여 환경 이미지와 소리를 새롭게 매개하여 사운드스케이프를 재창안한다. 다시말해, Imaginary Soundscape는 실제 공간이 아니라 가상의 이미지로 매개된 환경에 대한 사운드 스케이프를 창출한다. 즉, 이 작업은 관객으로 하여금 포털 지도 검색 시스템으로 재매개된 새로운 장소성에 대한 인식을 환기한다.
Imaginary Soundscape는 멀티모달 음악검색 기술을 기반으로 제작되었다. 현재 멀티모달 음악검색의 경우, 대량의 오디오 데이터에 대한 콘텐츠 기반 검색 및 분류 연구가 진행되었다[9,10,11,12]. 또한, 최근 딥러닝 분야에서 오디오-비주얼 교차양식학습한 모델을 통해 비디오나 이미지를 입력하여 사운드를 검색하거나 분류하는 다양한 시도가 있었다. 여기서 오디오-비주얼 교차양식학습이란 이벤트에 수반되는 시청각 정보의 상관 관계를 학습하는 방법에 대한 연구이다[13,14,15,16,17,18,19]. 교차양식학습한 모델을 통해 한쪽의 모달리티로 다른 한쪽의 모달리티를 검색할 수 있다[20,21,22,23,24,25,26]. 예를 들어, 사용자가 이미지를 검색어로, 그 이미지와 가장 관련 깊은 오디오를 찾을 수 있는 것이다. 최근 연구에서는 각 모달리티를 다른 방식으로 통합한 피처를 모델 학습에 사용하는 데에 초점을 맞추고 있다[15,17,27,28,29]. 그 뿐 아니라, 구조-보존을(Structure Preserving) 통해 모달리티 각각의 특성을 존중하여 학습시키는 방법도 제안되었다[20].
Imaginary Soundscape는 사용자가 구글 스트리트뷰에서 만나는 이미지와 관련 깊은 오디오를 조합하여 사운드스케이프를 제작한다. 이 작품의 사운드스케이프는 기존 사운드스케이프에서 탐구되던 장소특정성을 구조화시키지는 못한다. 근미래 오디오와 비쥬얼의 맥락까지 고려하여 검색할 수 있는 딥러닝 모델이 등장한다면, 새로운 장소성의 문제 뿐 아니라, 장소특정성까지 구조화시킬 수 있게 될 것이다.
Play a Kandinsky 제작에 참여한 사운드 아티스트 Antoine Bertine은 이 작품의 초기 아이디어가 기계학습을 고고학적 도구로 사용하는 것이라고 말했다. 그는 “기계가 스스로를 표현하도록 초대함으로써 일종의 음악이 저절로 등장했고, 아티스트로서 우리 스스로 이론의 해석자라기보다는 칸딘스키 시대부터 오늘날에 이르는 중개자에 가깝다고 느꼈다” 라고 말했다. Post-AI 시대의 사운드 아트는 사운드-이미지-텍스트 특징들의 의미관계가 연결된 상태로, 세계의 사운드를 탐구하는 공감각적인 도구로 발전해나갈 것이다. 또한 관객은 사운드 아트를 통해 예술가의 관점만을 관람할 뿐 아니라, 관객참여를 통해 만들어진 집단지성을 목격할 수 있게 될 것이다. 또한 Antoine Bertine의 감상에서 알 수 있듯이 강력한 타자인 AI를 인식하게 됨에 따라 예술가는 AI와 인간을 중개하는 역할로 새롭게 자리매김하는 현상이 발생할 수 있다. 또한, 전에 없던 컴퓨팅 기술을 통해 그간 형식화하는 것이 불가능하다고 여겨졌던 암묵지적인 음악적 행위를 포착하고, 이를 경험할 수 있는 문화적 인터페이스가 등장할 수 있게 될 것이라고 기대한다.
<참고자료>
[1] 이가은, 「사운드 아트의 미학: 공간과 소리의 연구」, 홍익대학교 예술학과 석사학위논문, 2015.
[2] 이소정, 동시대 미술의 사운드 아트 연구 : 장-뤽 낭시(Jean-Luc Nancy)의 '공명(Résonance)' 개념을 중심으로, 홍익대학교 예술학과, 2021
[3] 심상미, 사운드 아트의 세부장르 분석연구. 2012, 연세대학교 커뮤니케이션대학원: 서울.
[4] Sta-mac, I: Acoustical and Musical Solution to Wave-driven Sea Organ in Zadar, Proceedings of the 2nd Congress of Alps-Adria Acoustics Association and 1st Congress of Acoustical Society of Croatia, pages 203-206, 2005.
[5] Nikola Bašić, author of the Zadar Sea Organ. [Online]. Available: http://www.croatia.org/crown/articles/9359/1/Nikola-Baiae-author-of-the-Zadar-Sea-Organ.html. [Accessed: 03-Dec-2021].
[6] Imaginary Soundscape 2. [Online]. Available: http://imaginarysoundscape2.qosmo.jp/. [Accessed: 03-Dec-2021].
[7] Y. Kajihara, S. Ozono & N. Tokui. (2017). Imaginary Soundscape : Cross-Modal Approach to Generate Pseudo Sound Environments. NIPS Workshop.
[8] Imaginary Soundscape — Take a walk in soundscapes “imagined” by AI. [Online]. Available: https://medium.com/qosmo-lab/imaginary-soundscape-take-a-walk-in-soundscapes-imagined-by-ai-f8b99f82eefb. [Accessed: 03-Dec-2021].
[9] Dong-Chul Park. 2010. Content-based retrieval of audio data using a Centroid Neural Network. In The 10th IEEE International Symposium on Signal Processing and Information Technology. 394–398. DOI:http://dx.doi.org/10.1109/ISSPIT.2010.5711733
[10] Qiuqiang Kong, Yin Cao, Turab Iqbal, Yuxuan Wang, Wenwu Wang, and Mark D. Plumbley. 2020. PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition. (2020).
[11] Zhicun Xu and others. 2018. Audio Event Classification Using Deep Learning Methods. (2018).
[12] Jonathan Huang, Hong Lu, Paulo Lopez Meyer, Hector Cordourier, and Juan Del Hoyo Ontiveros. 2019. Acoustic scene classification using deep learning-based ensemble averaging. (2019).
[13] Bruno Korbar, Du Tran, and Lorenzo Torresani. 2018. Cooperative learning of audio and video models from self-supervised synchronization. arXiv preprint arXiv:1807.00230 (2018).
[14] Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, and In So Kweon. 2018. Learning to localize sound source in visual scenes. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4358–4366.
[15] Relja Arandjelovic and Andrew Zisserman. 2018. Objects that sound. In Proceedings of the European conference on computer vision (ECCV). 435–451.
[16] Yapeng Tian, Chenxiao Guan, Justin Goodman, Marc Moore, and Chenliang Xu. 2019. Audio-visual interpretable and controllable video captioning. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition workshops
[17] Andrew Owens and Alexei A Efros. 2018. Audio-visual scene analysis with self-supervised multisen-sory features. In Proceedings of the European Conference on Computer Vision (ECCV).. 631–648.
[18] Andrew Rouditchenko, Hang Zhao, Chuang Gan, Josh McDermott, and Antonio Torralba. 2019. Self-supervised audio-visual co-segmentation. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2357–2361.24
[19] Di Hu, Feiping Nie, and Xuelong Li. 2019. Deep multimodal clustering for unsupervised audiovisual learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 9248–9257.
[20] Sungeun Hong, Woobin Im, and Hyun S. Yang. 2017. Content-Based Video-Music Retrieval Using Soft Intra-Modal Structure Constraint. (2017).
[21] Valentina Sanguineti, Pietro Morerio, Niccol`o Pozzetti, Danilo Greco, Marco Cristani, and Vitto-rio Murino. 2020. Leveraging Acoustic Images for Effective Self-supervised Audio Representation Learning. 119–135. DOI:http://dx.doi.org/10.1007/978-3-030-58542-6_8
[22] Didac Sur ́ıs, Amanda Duarte, Amaia Salvador, Jordi Torres, and Xavier Gir ́o-i Nieto. 2018. Cross-modal embeddings for video and audio retrieval. In Proceedings of the European Conference on Computer Vision (ECCV) Workshops. 0–0.
[23] Naoki Takashima, Fr ́ed ́eric Li, Marcin Grzegorzek, and Kimiaki Shirahama. 2021. Cross-modal music-emotion retrieval using DeepCCA. In Information Technology in Biomedicine.. Springer, 133–145.
[24] Donghuo Zeng, Yi Yu, and Keizo Oyama. 2020. Deep triplet neural networks with cluster-cca for audio-visual cross-modal retrieval. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM) 16, 3 (2020), 1–23.
[25] Arsha Nagrani, Samuel Albanie, and Andrew Zisserman. 2018. Learnable pins: Cross-modal embeddings for person identity. In Proceedings of the European Conference on Computer Vision (ECCV). 71–88.