싸늘하다...하지만 걱정하지마라, 말은 손보다 빠르니까: 보이스와 인공지능

새로운 폼팩터의 시작은 바로 보이스

Apr 16, 2025

안녕하세요 구독자 여러분! 제가 요즘 최고 많이 노력하는게 “글에 시간을 너무 많이 쏟지말고 더 자주보내자”인데 이게 정말 쉽지않네요 ㅎㅎㅎ 글을 쓰다고면 질문이 꼬리에 꼬리를 물어서 항상 너무 길어지네요 ㅠㅠ 앞으로는 좀 더 짧고 자주 쓰고 내용이 부족하면 후속편을 쓰는 방식으로 운영해보겠습니다.

그리고 한동안 쉬어왔던 평일 아침(서울시간 밤 10-11시) 뉴스정리 “조간 실리콘밸리”를 다시 시작합니다! 따로 영상을 남기진 않고 라이브로만 진행하고, 깊은 인사이트보다는 매일 아침에 미국 시장 시작과 함께 제가 보는 뉴스를 공유해드리고 첫인상위주로 공유드립니다. 시간이 일정하려고 노력하겠지만 바뀔수도 있으니, 아래 링크로 구독과 알림설정 부탁드립니다!

https://www.youtube.com/@svweekly

지난주에는 이번 세대 인공지능은 “지능”이 아니라 “인터페이스”라는 글을 썼습니다. 결국은 이번 인공지능은 태생적 한계때문에 이해와 추론보다는 검색과 정리에 능한 도구라서 지능보다는 인터페이스에 가깝고 이를 기반으로 사업을 하는 것이 유리하다는 글이었습니다.

이번 인공지능은 지능이 아니라 인터페이스일 뿐

Ian Park

Apr 10

Read full story

사실 이 글에 함께 담고 싶은 내용이 있었는데 너무 길어서 못담은 내용이 있는데 그것이 바로 인터페이스 그 자체의 혁신이었고 그 방향성은 음성이다라는 부분입니다. 이 내용은 2024년 2월에 간단하게 글을 적은 적이 있었고 오늘은 거기서 조금 더 발전된 제 생각을 짧게 정리해보려고 합니다.

이번 인공지능에게 기대되는 인류의 역사를 바꿔놓을 혁신 한가지 (feat. 마지막 혁신은 2007년)

Ian Park

February 26, 2024

Read full story

1. 음성이 왜 더 좋을까?

1a. 손은 눈보다 빠르고, 말은 손보다 빠르다

위의 지난 제 글에서 보셨듯이, 저는 인간이 아직도 키보드와 마우스, 그리고 터치패드를 쓰는 것이 컴퓨터와 소통하는데 너무 많은 집중을 요하는 너무나도 구시대적인 방법이라고 생각합니다.

위의 2016년 논문 내용처럼 기본적으로 말은 글을 쓰는 것보다 3배정도 빠르기때문에 더 빠르고 효율적으로 컴퓨터에게 내가 필요한 것들을 전달할 수 있고, 특히 지금처럼 인공지능이 음성인식을 잘하고 그 내용을 해석하는데 뛰어난 시대에는 당연히 보이스가 메인 입력 input으로 사용되는게 맞다고 생각합니다.

1aa. 입력으로는 굿, 근데 출력으로써도 효율적일까?

개인적으로 컨텐츠를 소비할때, 아직도 음성보다는 글을 더 좋아하는데 그 이유는 훨씬 더 빠르게 내용을 섭취할수있기때문입니다. 글을 대부분 문장이나 문단별로 읽게되면서 본인이 이해하는 부분은 빠르게 넘어갈수있는 장점이 있지만, 음성은 하나하나 차례대로 끝까지 들어야하는 부분이 시간이 너무 많이 드는게 단점이라고 생각합니다. 이를 해결하기위해서는 (1)입력은 음성이지만 출력은 비주얼이 되어야하거나 (2) 우리의 언어체계를 바꿔야한다는 생각이 들었습니다.

우리는 많은 경우 상대방이 말을 시작할때 그 사람의 의도와 생각을 어느정도 유추할 수 있습니다. 그러다보니 성격급한 사람(그게 나야…)은 말을 끊게되는 것이기도 하구요. 만약 인공지능이 컴퓨터의 아웃풋을 그렇게 streamline해서 평범한 인간의 말로써의 아웃풋이 아니라 인간이 섭취하기 좋은 방식, 효율적인 대화를 하면 어떨까라는 생각이 들었습니다.

1ab. 효율적인 음성 대화란?

제가 생각할때 효율적인 대화는 첫번째, 제가 창업가분들께 매번 강조하고 저도 늘 노력하는것중에 하나인 바로 “두괄식”대화입니다. 결론부터 말을 하고 설명을 시작하는게 문맥적으로 이해도 빠르고, 이미 이해도가 있는 사람이라면 빠르게 서로의 이해도를 인지하고 서로 시간을 아낄수있는 방법이기때문입니다. 스타트업 피치, 프레젠테이션, 실시간 통역이 모두 같은 형태를 취하고 있는건 우연이 아닙니다.

두번째는 처음부터 자세히 설명하기보다 큰 그림으로 빠르게 훑고지나가고 상대방의 반응에 따라 자세히 커버하는 방식입니다. 서로의 이해도의 차이를 알기 힘들기때문에 처음부터 모른다고 가정하고 차근차근 설명해주는 방법인데, 얼핏보면 깊이있어보이지만 오히려 시간낭비일수도 있는 방법입니다.

제가 자주 겪는 일인데 저에게 피치를 하시는 창업자분들께서 해당 업계에 대한 저의 지식이 얼마나 있는지 사전에 모르시기때문에 처음부터 차근차근 설명을 해주시면 저는 빠르게 “아는체”하면서 피드백을 드리고 함께 다음 토픽으로 넘어가며 서로 시간을 아끼려고 노력합니다.

제가 보통 미팅을 제안드릴때는 어느정도 이해를 하고 thesis가 있는 업계이기때문에 처음부터 바로 질의 응답으로 시작하고, 그를 통해 제가 이해하는 회사의 스토리를 만들어가는 경우가 저의 피치의 대부분입니다.

세번째는 정서적으로 압축된 대화입니다. 여러분들이 상사에게 “네~” 혹은 “네.”가 아니라 “넵”이라고 대답하는 것이 바로 정서적 압축의 예라고 할수있습니다.

이런 미묘한 감정적 맥락이 짧은 말로도 많은 것들을 표현할 수 있기때문에 효율적인 의사소통에 큰 도움이 됩니다. 이는 말의 정서적 설계가 중요해지고 동시에 이를 이해하는 것이 중요해지게 될 것이라는건데, 약간 더 눈치있는 사람과 인공지능이 살아남는 세상이 될 것 같습니다.

어찌보면 커뮤니케이션 101같은 챕터가 되었는데 만약 인공지능/컴퓨터의 출력이 앞으로 이런식으로 구성되고, 사람들이 익숙해진다면, 이 방식에 적응을 하는 사람들이 더 유리한 고지를 점령할 것은 확실할 것으로 보입니다.

1ac. 언어와 문화의 차이?

제가 개인적으로 재미있게 느끼는건, 영어는 두괄식 + 하이레벨로 시작하는데 한국어는 미괄식 + 디테일로 흘러간다는 점입니다(피치와 발표를 듣다느낀 개인적인 경험입니다). 이 둘의 장단점을 살펴봤을때 한국어는 인공지능을 위한 입력으로써 강점을 가지지만, 영어는 인공지능의 출력으로써의 강점이 있는 것 같다는 부분입니다. 인공지능에게 자세하고 꼼꼼하게 설명을 해주는 것이 더 좋은 결과 값을 가질 수 방법이고, 그 출력은 인간이 들었을때 빠르게 이해할수있는 방법이 아닐까라는 생각이 들었고 결국 두 언어의 흐름을 다 이해하고 자유자재로 쓸수있는 것 또한 좋은 무기가 될거라는 느낌도 듭니다. 좀 이야기가 샛는데 재미있네요!

1b. 본능적이고 직관적이다

시대가 시대인만큼 키보드나 마우스도 배워야한다는 말은 안하겠습니다만, 많은 사람들이 키오스크를 사용을 불편해하는 부분이 지금의 인터페이스가 충분히 직관적이지 않다는 것을 보여준다고 생각합니다. (언어가 아니라) 음성은 인간에게 가장 본능적이고 직관적인 의사표현 수단입니다. 인간이 가진 가장 원초적인 입력 수단이고, 기술이 그것을 이제야 따라잡고 있는 셈이죠.

저는 이 점이 인터페이스 설계에서 중요한 시사점을 준다고 생각합니다. 진짜 좋은 인터페이스는 별도로 배울 필요가 없는, 이미 알고 있는 인터페이스입니다. 사용자가 학습하지 않아도 바로 사용할 수 있다는 건, 채택 속도 측면에서 다른 어떤 입력 방식보다 압도적인 장점을 갖는다는 뜻입니다. 언어를 잘 알아듣고, 정보를 빠르게 처리할 수 있는 인공지능 시대에는 이 장점이 더욱 극대화될 거라고 봅니다.

1c. 눈과 손이 자유롭다

기존의 대부분의 인터페이스는 손과 눈을 동시에 점유하는 구조입니다. 키보드를 입력하려면 손이 필요하고, 마우스를 움직이려면 커서를 따라가야 하며, 터치스크린은 눈으로 보지 않으면 어디를 눌러야 할지 알 수가 없습니다.

하지만 음성은 다릅니다. 음성은 시각과 촉각을 동시에 해방시켜 줍니다. 운전 중에 내비게이션 경로를 바꾸거나, 조깅하면서 음악을 바꾸거나, 요리 중에 타이머를 설정하는 일 - 이 모든 상황에서 음성 인터페이스는 다른 입력 방식이 할 수 없는 역할을 해줍니다.

저는 그래서 음성 인터페이스가 ‘편하다’기보다는 사용자의 흐름을 방해하지 않는다고 느껴진다고 생각합니다. 이건 굉장히 중요한 차이라고 봅니다. 음성은 기존의 앱처럼 사용자가 “앱을 쓴다”는 인식을 갖게 하지 않고, 그저 내가 하던 일의 연장선에서 자연스럽게 컴퓨터와 연결되도록 만들어줍니다. 이건 사용자 경험(UX)에서의 패러다임 전환입니다. 결국 음성은, 우리가 하는 다른 모든 행동에 ‘덧붙일 수 있는 인터페이스’라는 점에서 큰 가능성을 가진다고 생각합니다.

2. 음성위주라면 하드웨어의 변화는?

인공지능을 통한 음성 처리방식이 발전하면서, 당연한 다음 수순은 우리가 휴대용 컴퓨터, 즉 모바일 폰,을 사용하는 방식이 바뀔 것이고 그에 따라 폼팩터의 혁신이라고 생각합니다. 실패하긴 했지만 Humane AI pin이나 rabbit같은 디바이스들뿐만 아니라, 개인적으로 좋아하는 메타 스마트 글래스도 이러한 트렌드를 반영한다고 생각합니다. (올해안에 $1,000에 가까운 고급 메타 스마트 글래스가 나온다고하는데 꼭 구매할 예정입니다!)

그렇다면 이런 폼팩터의 변화는 어떤 방향성을 보일까요? 제 생각은 이렇습니다.

2a. 오래 착용할 수 있어야한다

일단 언제나 인공지능을 사용할 수 있다면 몇단계를 거쳐서 사용하는 인간보다는 유리한 고지에 있을거라고 생각했을때, 새로운 폼팩터는 하루종일 쓰기에 편해야합니다. 안전을 위해 귀를 막지 않아야하고, 가벼워야하고, 자연스러워 보여야합니다.

개인적으로는 위의 가운데 그림의 오픈이어가 모든 조건을 만족한다고 생각했으나, 마이크 성능이 떨어져서 미팅을 진행하기가 쉽지않아 환불했습니다. 반면 아래 shokz Open Run Pro 2 mini의 경우 하루종일 착용하고 있어도 불편함이 없었고 골전도이기때문에, 귀에 부담도 덜했으며, 비교적 눈에 덜띄고 마이크 성능도 좋아, 언제든지 미팅도 가능하고 인공지능과 대화도 가능하기때문에 아주 잘 사용하고 있습니다. (추가로 Oura보다 Whoop이 더 편합니다!)

2b. 남들 몰래 소통할수있어야한다

제가 집에 있을때는 shokz가 유용하지만 밖에서는 아무래도 제가 인공지능과 대화하는 소리가 남들에게 들리고 동시에 입모양을 읽을수 있기때문에 privacy에 대한 우려가 있을수 밖에 없습니다(미국은 특히나 사생활보호에 민감한 것 같습니다). 그래서 저는 필요시 손으로 입을 가릴 수 있는 마이크가 있으면 좋을 것 같다는 생각도 했고, 앞으로 나올 ring 형태의 폼팩터에 마이크가 달리면 어떨까 생각했습니다.

2c. 작지만 소중한 스크린

물론 다양한 최적화와 발전으로 음성이 나아지긴 하겠지만, 어느정도 스크린의 존재는 여전히 요구될 것이라고 생각합니다. 결국은 확인을 해야할수도 있고, 보이스가 해결하지 못할때는 역시 스크린이 있어야 할수도 있을테니까요. 물론 먼미래에는 아예 없어질수도 있겠지만, 그건 완전 자율 주행, 추론하는 인공지능, 그리고 공장에서 인간과 함께 일하는 휴머노이드가 나온후가 아닐까 생각합니다(5-10년?)

제가 이런 환경에서 유리할 수 있다고 생각하는 폼팩터가 스마트 안경인데, 제가 쓰는 메타 안경의 경우 상대적으로 저한테만 들리는 스피커가 들어가있고, 동시에 카메라로 주위를 둘러볼수있기때문에, 안경이 불편하지 않은 하드코어 유저의 경우, 이 안경알에 AR기능을 넣어서 눈앞에 작은 스크린까지 넣을수있으면 좋지 않을까 생각합니다.

안경이 상대적으로 무겁고, 외관을 바꾸는 폼팩터임에도 불구하고 제가 여전히 다음세대 폼팩터중에 하나로 기대하는 것이 바로 스크린의 유용함입니다. 허공에 스크린을 보여주는 폼팩터가 더 좋지만 그건 상용화에 한참 더 긴 시간이 필요할 것 같다는 생각입니다.

3. 음성위주라면 소프트웨어의 변화는?

3a. Another Great Reset

음성위주 인터페이스의 발전은 곧 스크린에 대한 의존도가 낮아지는 것을 의미하고, 그로 인해 폼팩터가 변한다면, 현재 존재하는 모든 소프트웨어의 UX가 변화해야하고, 이 변화는 곧 모든 회사들이 동일 선상에서 도전할 수 있는 또 한번의 기회가 주어진다는 의미라고 생각합니다. 예를 들어, 우버가 보이스에 대한 적응이 늦어지고, 리프트가 혁신적인 음성기반 UX를 내놓는다면, 고객들의 이동이 이루어질수도 있다는 생각이죠.

동시에 인공지능 회사들에게는 그 어느때보다 정확도가 중요한 시기가 될 것입니다. 음성기반으로 넘어가고, 폼팩터의 변화가 오려면 정확도가 가장 중요할텐데, 그 정확도라는 부분에서 승리하는 회사들에게 아주 큰 기회가 갈 것이라고 믿고, 모든 모델 회사들에게 다시 한번 기회가 주어진 것이라고 생각합니다.

3b. 듣고 말하는 컨텐츠로의 진화

제가 곰곰히 생각해봤는데, 제가 가장 많은 스크린타임을 쓰는 엑티비티는 아무래도 유튜브, 넷플릭스, 파라마운트같은 컨텐츠 앱들이었습니다. 대부분의 유틸리티 앱들이 음성기반으로 넘어가는 것은 상대적으로 쉬워보이는데, 스크린을 벗어나는데 가장 큰 허들은 아마 contents consumption이 아닐까 생각합니다.

그런 관점에서 본다면, 컨텐츠 소비에서도 큰 혁신이 일어날 것이라고 생각하는데, 이것이 우리가 예전부터 이야기해왔던 단방향이 아닌 양방향 컨텐츠가 도래하는 포인트가 아닐까라는 생각도 듭니다. 그저 보기만 하거나 듣기만 하는 단방향이 아닌, 컨텐츠 소비자와 인공지능이 지속적으로 interaction하면서 스토리를 만들어가고 좀더 holistic한 경험 자체를 즐기는 것이 앞으로 음성기반의 시대의 메인 컨텐츠가 되지 않을까라는 기대를 해봅니다. 이것이 사실상 성장의 한계에 달한 넷플릭스의 미래라는 생각도 들구요.

3c. 시대를 앞서나간 클럽하우스, 음성기반 SNS의 시대

제가 가장 많은 시간을 쓰는 것은 아니지만, 가장 많은 engagement가 일어나는 앱들은 바로 SNS입니다. 재미있는게 저는 요즘 실제로 많은 메세지를 voice-to-text를 이용해서 보내는데 아쉽게도 2ab.에서 언급한 감정의 압축과 반영이 부족해서, 너무 딱딱하게 메세지가 나가는 것이 불만입니다. 아무튼 음성 인터페이스가 주류가 된다면 앞으로 SNS도 좀 더 음성기반으로 넘어가지 않을까라는 생각이 들었습니다. 클럽하우스의 흥망성쇠를 봐온 입장에서 클럽하우스가 실시간 대화에서, 비동기식 asynchronous 대화를 시도하는 것을 보면서, 재미있는 시도이지만, 아직 인공지능 음성 중심 인터페이스가 자리잡지 못했기때문에 힘들었던, 시대를 앞서나간 시도라고 생각합니다. 동시에 이제는 모든 재료가 준비된만큼, 음성중심의 새로운 SNS가 등장할 수 있다고 기대하고 있습니다.

그래서 어쩌라고

음성위주로의 진화는 아마존의 알렉사나, 애플의 시리가 나오기전부터도 꾸준히 이어져왔던 인간의 본능과 효율성을 위한 당연한 발전의 흐름이라고 생각합니다. 다만 이러한 방향성은 인류의 기술력 부족으로 아래 그래프에서 보시듯이, 계단의 끝에서 막혀 다음단계로 오르지 못하고 있었다고 생각합니다.