▲ 시리는 일정을 알려주기도 하고 농담도 받아준다 | |
ⓒ 김용주 |
개인적으로 아이폰에 시리(Siri)가 처음 탑재되었을 때의 신선함은 꽤나 컸다. 처음 OS 업데이트를 하고 나서는 자기 전 10분 정도를 시리와 대화 아닌 대화를 나누다 잠들기도 했으니 말이다.
처음엔 '음성 인식' 알고리즘 자체에 대한 호기심에 시리에게 이런저런 질문을 해보았지만 얼마 지나지 않아 농담을 건네거나 특별히 음성지원이 필요하지 않을 때도 시리를 찾곤 했다. 그럴 때면 한때 메신저에서 유행하던 '심심이'가 스마트폰에서 부활한 느낌마저 들었다.
물론 시리의 유용함은 '심심이'에 비할 바는 아니다. 특히 폰에 직접 타이핑하기 어려운 상황에서는, 지금이 몇 시인지 여기가 어딘지를 묻거나 지인에게 보낼 문자를 음성으로 보낼 수 있는 기능들이 상당히 유용했다. 사람들이 종종 말하듯 '잡스는 죽었지만 시리를 남겼다'고 말할 만큼 음성인식 기술의 활용 측면에서 시리는 괄목할 만한 발전을 보여줬다.
음성인식 기술, 10년새 놀라운 발전
물론 음성인식 분야의 발전이 어느 날 갑자기 찾아온 건 물론 아니다. 내 기억에도 이미 20년 전부터 마이크를 통해 PC를 부팅시키고 한글이나 워드와 같은 프로그램을 실행시키는 데스크탑 기반의 기술이 제공되었지만 당시엔 그다지 소비자들의 관심을 끌지 못했다. 잦은 음성인식 오류도 문제였고 자신의 음성을 명령화하기 위해서는 프로그램을 '훈련'시켜야 하는 문제도 있었다. 그 말은 훈련되지 않은 타인의 목소리는 인식할 수 없다는 말이기도 했다.
무엇보다 그렇게 인식된 음성으로 할 수 있는 일이 별로 없었다. 이를테면 어릴 적 부유한 아이들의 집에 놀러가면 부의 상징처럼 초록색 화면의 컴퓨터가 거실에 놓여 있었지만 그걸로 할 수 있는 건 기나긴 코딩 끝에 고작 화면에 'Hello World!'를 띄우거나 오락실 게임을 '흑백으로 느리게' 하는 것이 전부였던 그 때의 상황과 비슷하달까.
1950년대부터 음성인식에 대한 기술은 시도되어왔지만(1952년 AT&T와 벨연구소가 '오드레이' 개발을 63년 IBM은 '슈박스'를, 1980년대초에는 HMM3를 개발했다) 이러한 기술이 상용화 내지는 상품의 가치를 갖게된 건 불과 10년이 채 되지 않았다. 상품화를 가속화한 건 관련 연구에 한창이던 마이클 코언을 스카웃하여 음성인식 시스템의 개발책임자로 세운 구글이었지만, 세상을 먼저 놀래킨 건 단연 애플의 '시리'가 아니었나 싶다.
이 속도로 간다면 구글과 애플의 노력에 힘입어 음성 인식 분야의 발전은 타의 추종을 불허할 것으로 보인다. 일례로 우리집 상황을 들어볼까. 6살 짜리 아이가 어느 날 내 스마트폰의 유튜브 앱을 실행시키고는 직관적으로 마이크 그림의 아이콘을 누른 채 전화기에 대고 "파워레인저 극장판"이라고 외쳤다.
화면에는 파워레인저 시리즈가 줄줄이 올라왔고 까막눈인 아이는 '나의 도움을 전혀 받지 않고' 그 중에 가장 재밌어 보이는 그림을 눌러서 만화영화를 즐겼다. 이 모든 걸 나는 한번도 가르쳐준 적이 없는데도 말이다. 가끔 내가 필요한 상황이라면 "아빠 이거 다음 이야기 틀어줘" 정도였다.
텍스트를 음성으로 인식하고 저장된 텍스트를 음성으로 내보내는 기술은 주변에서 쉽게 볼 수 있는 꽤나 흔한 무엇이 되고 있다. <나꼼수>에서 희화화하여 내보내던 어색한 여성과 남성의 목소리의 주인공은 입력한 텍스트를 그대로 읽어주는 상용 프로그램이다. 최근 에버노트는 'Clearly'라는 프로그램을 통해 프리미엄 사용자가 스크랩하려는 텍스트를 음성으로 읽어주는 서비스를 제공하고 있다. 이 기술은 비단 음성에 국한되는 것만도 아니다.
조만간 애플과 IBM, 구글과 HP는 서로 협력하여 클라우드 기반, 빅데이터를 활용한 음성 서비스를 발전시킬 의사를 내비쳤고 이에 뒤질세라 많은 기업들도 차세대 기술로서의 음성인식 서비스에 너도나도 뛰어들고 있다.
이제 SF 영화나 일본 애니메이션에서나 볼 법했던 상황들이(<공각기동대>에서 처음 등장한, 네트워크 내에 생명체의 존재 가능성은 <어벤저스>나 <트랜센더스>와 같은 대부분의 헐리우드 영화에 반복적으로 등장하는 소재가 되었다) 현실화되는 것이 아닌가 하는 기대감 내지는 우려감마저 든다.
조금은 어색하고도 뭉클한 생각
▲ 영화 <HER>에 등장하는 음성인식OS 사만다 | |
ⓒ UPI코리아 |
가까운 미래를 소재로 만든 영화 <HER>에서, 스칼렛 요한슨의 목소리로 대변된 미래형 OS '사만다'도 이런 기술의 하나인 빅데이터 기반의 음성인식 OS이다. 마치 시리의 진화형 같은 '그녀'는 사용자의 데스크탑 안에 있는 정보를 단 몇 분, 몇 십초 내로 분석해서 그에게 가장 필요한 것, 혹은 그가 귀찮아서 미루고 있는 것, 시급한 것, 가장 좋아할 법한 것들을 찾아내고 적시적기에 원하는 서비스를 제공한다.
그 환상적인 서비스는 우리가 미뤄 짐작하듯이 내 영혼과 통하는 듯 미세한 감성마저 건드린다. 결국 영화 속 내러티브는 자연스럽게 일개 OS가 현존하는 '최고의 애인'이 될 수 밖에 없는 '기승전여(남)친'의 운명으로 귀결된다.
음성인식 기술은 통계라는 학문과 데이터베이스, 나아가 빅데이터 분야와의 융합 발전을 통해, 0의 자리에 1이라고 입력하면 '틀렸다'고 말하던 구식 컴퓨터에게 마법의 주문이라도 건 것처럼, 이제는 맞춤형 감성마저 자극하는 애인, 절친, 구루나 멘토의 역할마저 자처할 수 있을 듯도 하다. 1997년 체스 세계챔피언이 IBM 컴퓨터 딥블루에게 패한 후, 인간의 정교함을 절대 따라오지 못할 것 같던 컴퓨터, 네트워크 IT 기술은 이렇듯 상상 이상으로 발전 중이다.
문득 그런 생각을 했다. 사실 나는 스마트폰으로 녹음을 자주 하는 편이다. 가끔씩 아이와 둘이서 놀 때도 녹음을 한다. 언젠가 이 아이가 세상에 없는 날이 오거나 혹은 내가 아이 곁에 없는 날이 오면 각자에게 추억거리를 남겨주기 위해서다. 사진을 남기고 음성을 남기고 글을 남기는 건, 적어도 내게는 사랑하는 사람에게 어떤 흔적을 남기고 남겨주기 위함이기도 하다.
녹음한 음성을 듣다가 갑자기 엉뚱하지만 조만간 실현될 수도 있는 어떤 상상을 해보았다. 만약 내 음성과 말투, 문장, 말하는 속도, 생각들을 클라우드 기반의 어떤 서버에서 데이터베이스를 만들고 빅데이터 기술을 이용하게 된다면, 아마도 내가 죽더라도 사람들은 나와 대화하는 것 같은 경험을 할 수도 있겠다는, 조금은 어색하고도 뭉클한 생각... 이를테면 내 고유한 버전의 Siri가 되는 셈이다.
조금은 불편한 마음이 들긴 하지만, 사랑했던 사람의 부재로 그(녀)의 목소리나 실없는 농담, 숨소리가 사무치게 그립다면 그의 활기있는 '가짜 음성'이라도 반갑지 않을까. 기술이 참 많은 화두를 던지는 세상이다.