MBC 제3노조 공지

MBC 뉴스 자막생성시스템도 ‘식별불가’ 판정

만나면좋은친구 엠비씨 2022. 10. 3. 15:32

MBC는 지난 2018년 뉴스영상서버 시스템인 마이다스(MIDAS)를 구축하면서 서버에 등재된 뉴스용 촬영 영상의 음성을 자동으로 문자로 생성해주는 자막생성기능을 도입하여 기자들의 기사작성을 도와주고 있다.

이를 STT 즉 ‘Sound To Text’ 기능이라 하는데, 마이다스 시스템은 지난 9월 22일 뉴욕 글로벌 재정 펀드 행사를 촬영한 ‘58분 송출본’에 이 기능을 작동시켰던 것으로 확인됐다.

문제의 대통령 발언이 녹화되었던 ‘00시 20분 27초’~‘00시 20분 32초’까지 약 5초간의 음성에 대해 STT 기능을 작동시켰더니 “어떠한 정보도 없다”는 결과가 나왔다.

반면 글로벌 재정펀드 회의의 윤 대통령 공식연설이 담긴 동영상 부분에는 대통령의 연설 내용이 77%에서 98%의 정확도로 자막이 정확하게 생성되어 서비스되었다.

이 STT 기능의 정확성은 상당히 높은 수준이라, 당시 이 동영상을 촬영했던 카메라 기자가 동영상을 송출하는 과정에서 혼잣말로 발언했던 “저 매트릭스 조명이 어떤 여자 치마를 다 찢어버리고.. (00시 20분 56초~00시 21분 01초)”라는 음성은 73%의 정확도로 결과가 표시되어 있다.

이 내용을 다시 들어보았더니 “저 매트릭스 조명이 어떤 여자 치마를 다 찢어버릴 뻔했어”로 들렸다.

MBC가 구축한 자막 자동생성 프로그램조차 당시 윤석열 대통령 발언 녹음에 대해 인간의 언어로서 유의미한 음성이 아니라고 판단한 것이다.

이러한 결과는 이상규 전 국립국어원장이 윤 대통령의 ‘비속어 논란’을 보도한 언론사들을 비판하면서 MBC의 자막처리가 잘못됐다고 주장한 사실과 일맥상통한다.

이상규 전 원장은 “음성인식은 기계적 인식, 사람의 청취 인식, ‘네이버 클로바노트’와 같은 기계가 자동 인식하는 세 가지 방식이 있다”면서 “노이즈가 많은 음성에 대한 인식은 사람마다 달라질 수 있다”고 지적한 바 있다.

이 전 원장은 “(소리가) 아주 분명하지 않았을 때 자막을 달아 (인식을 수월하게) 하는데 제가 MBC에서 초대 우리말위원회 위원장을 지내며 당시 자막처리 기술을 향상하기 위한 연구 노력을 많이 했다”고 밝히고, “‘XX끼’라는 단어는 경음 ‘ㄲ’이 들어가 청취음성의 변별성이 매우 높을 뿐만 아니라 음성 파형 분석에서도 식별력이 매우 높다”면서 “서울대학교 성원용 명예교수는 음성파형 분석 권위자로 그 낱말이 들어 있지 않다고 분명히 밝혔고, 본인은 ‘방언 청취 전문가’로 트랜스크라이브로 음성 파형을 확대해서 구간 반복으로 청취해 봐도 성원용 교수의 의견과 동일하다“고 설명한 바 있다.

과학적으로 분별성이 없는 음성을 자막보도에 의해 오염된 선입견을 따라 언론사들이 앞다퉈 보도한 것이 이번 사태의 원인이라는 주장이 설득력을 얻고 있는 것이다.

 
2022.10.2.

MBC노동조합 (제3노조)

 

 

MBC 제3노조 "MBC자체 자막 생성 시스템, 尹대통령의 비속어 식별 못해"

출처:펜앤드마이크

http://www.pennmike.com/news/articleView.html?idxno=57495