본 커뮤니티의 모든 내용은 대중에게 공개된 정보를 기반으로한 개인적인 의견이며 투자에 대한 조언이 아닌 전반적인 미국의 시장, VC, 스타트업, 기술 트렌드와 그에 대한 개인적인 의견들입니다. 유튜브, 링드인, 인스타그램, 스레드, 줌/커피챗신청 등 다른 다양한 채널들을 보고 싶으시다면 위의 링크를 이용하시거나 컴퓨터에서 오른쪽에 “Social” 을 찾아봐주세요!
한동안 출장때문에 못했던 일주일에 한번씩(일요일 오후) 미국내의 주요 토픽을 다뤄보는 세션을 다시 진행할까합니다! 아래 유튜브 채널 구독 부탁드립니다! 오늘 뉴스레터에 대해서도 이야기해볼게요!
2200명이 함께하는 주실밸 오픈채팅 방도 많은 참여 부탁드립니다!
안녕하세요 이안입니다. 사실 1인 유니콘에 대한 재미있는 글을 하나 쓰고 있었는데, OpenAI가 GPT-5를 런칭하는 바람에 우선 이 토픽부터 다뤄보려고 합니다.
이번주 뉴스레터는 아주 깁니다. 이메일에는 모든 내용이 다 담기지 않으니 아래 링크로 홈페이지에서 보시길 추천드립니다.
개인적으로 2022년에 ChatGPT 발표직후, 한국에서는 아직 그 존재를 잘모를때, 당시 마소와 같은 밸류인 $29B기준으로 실리콘밸리 현지에서 제가 직접 딜소싱에 성공했고, 그 검토를 리드했었기때문에, 이번 $500B 밸류로 거래된다는 소문을 들으면서 한편으로는 흐뭇하기도 하지만, 동시에 이번 GPT-5의 발표를 보면서 작년 11월에 썼던 OpenAI 위기설에 대한 글이 점점 더 현실화되어간다는 생각도 들었습니다.
그리고 이번 발표를 통해 또 인공지능의 한계가 명확하게 보여진 사태라고 생각하고 올해 4월에 쓴 이 글 또한 꽤 잘 익었다고 생각합니다.
그래서 오늘은 인류역사에 한 획을 그은 위대한 회사인 OpenAI가 과연 살아남아서 그 레거시를 완성시킬수있을, 그리고 앞으로의 인공지능 시장은 어떤 방향으로 나아갈지에 대해 GPT-5 에 대한 분석을 통해 생각해봤습니다.
GPT-5는 정말 좋아졌을까?
1차원적으로 OpenAI의 발표를 보았을땐 아주 대단한 발전을 이뤄낸 것처럼 보이고 소비자들의 불평이 칭얼거림으로 느껴질수 있습니다. 샘알트만과 같은 “권위있는 전문가”들이 그렇다는데 니가 왜 난리냐?라고 생각하시는 분들도 많으실거라고 생각합니다. 하지만 중요한건 이 “권위있는 전문가”들은 인공지능에 대해 사람들이 감탄하고 겁을 낼수록 더 많은 부와 영향력을 차지할 수 있는 위치에 있기때문에, 본인에게 유리한 방향으로 현실을 포장할 인센티브가 있고 동시에 본인 스스로마저도 속여버리는 환각과 망각증상까지도 가능하다고 저는 생각합니다. 그렇기때문에 우리는 그들의 인센티브를 파악하고, 한발짝 떨어져서 냉정하게 현실을 명확하게 인지해야 그들에게 휘둘리지않고 트렌드를 읽고 앞으로의 전략을 짤수있다고 생각하고 바로 그것이 제가 GPT-5에 대해 공부하고 또 이 글을 쓰는 이유입니다.
그런 의미에서 우선 간단하게 대중들의 반응에 대해서 재미삼아 알아보려고 합니다. 당연히 Reddit에는 GPT-5에 대한 실망으로 도배되었고, 좀 더 직관적으로 보기좋은 예측 시장 플랫폼(사실상 도박)인 Polymarket 데이터를 가져왔습니다. 아래 그래프를 보시면 “8월말까지 어떤 인공지능 모델이 최고의 모델일까”라는 베팅인데, 구글과 OpenAI가 계속 경쟁하는 가운데 7월말부터 GPT-5 발표직전까지는 OpenAI가 우위를 지키는 모습이었습니다. 하지만 GPT-5 발표직후, 73%의 사람들이 “구글이 8월말까지 GPT-5보다 좋은 최고의 모델을 내어 놓을 것”이라는 것에 베팅하였고, 그 반대인 OpenAI에는 21%만이 베팅하였습니다.
재미있는건 올해 연말까지 가장 좋은 모델을 내놓을 회사로는 1등이 52%로 구글, 2등이 21%로 xAI, 3등이 17%로 OpenAI라는 점입니다. 이 베팅에서는 5월부터 구글이 꾸준히 1등을 지켜왔고 GPT-5 출시후 xAI와 OpenAI의 순위가 뒤바뀌었네요 ㅎㅎㅎGrok에 대한 기대가 꽤 큰 것도 볼수있네요 (아무래도 polymarket의 주 유저층이 크립토기반, 소셜미디어 기반 플랫폼이다보니 더 그런 것 같습니다)
위 그래프들이 모든 대중의 반응을 대표한다고 할수는 없지만, 온라인이나 현지에서 느끼는 반응과 비슷한 부분도 있고 비주얼적으로 보기편하게 되어있어서 재미삼아 공유드립니다.
하나만 재미로 추가하자면 아래는 출시당일 OpenAI sub-reddit의 가장 핫했던 글입니다.
ChatGPT 5를 철저히 평가한 후, 내가 내린 결론
Claude는 정말 끝내준다.
ASI/Singularity/AGI 2027같은 종말 시나리오에 대해서 훨씬 덜 걱정하게 됐다.
GPT-5의 핵심은 최첨단 기술을 발전시키는게 아니라 그냥 OpenAI의 비용 절감이다.
샘의 ‘데스 스타’ 사전 hype 이미지는 GPT-5의 성능과는 아무 관련이 없었고, 그저 그의 자아 크기를 보여준 것뿐이다.
자자 재미로 놀리기는 여기까지만 하고 이제 본격적으로 들어가보자면 아래는 OpenAI가 공식홈페이지에서 제시한 GPT-5 개선점 다섯가지를 나열하였고, 제 나름대로 contrarian적인 관점에서 각각을 분석해보았습니다. (https://openai.com/index/introducing-gpt-5)
(1) One unified system
주장: GPT-5는 실시간으로 질문에 가장 적합한 모델을 이용하여 답변한다
분석: 가장 적합한 모델을 고르는 것은 쉽지않고 아직은 실패; 하지만 중요한 방향성 제시
저도 기존의 여러모델들중 본인에게 필요한 하나를 선택해야하는 것 자체가 소비자들을 힘들게 만든다는 주장에 대해서는 아주 공감을 합니다. 편하고 쓰기쉬운 사용자 경험만큼 중요한게 없다고 생각하니까요. 다만 문제는 기술력이 충분하지 않은 상태에서 급하게 배포한 느낌이 든다는 부분입니다.
GPT-5가 발표되자마자 많은 유저들이 성능 저하에 대한 불만을 표시했고, 동시에 올해만 $8 billion의 손실 입을 것으로 보이는 OpenAI가 비용을 아끼기위해 고급모델 수요를 줄이기위해 이런 방식을 택했다는 비난도 섞여 나왔습니다. 이에 샘알트만은 결국 사과하며 GPT-4o를 되살리고 유저들에게 다시 모델을 선택할 수 있는 기능을 제공하였습니다.
UIUC의 Jiaxuan You 교수의 Fortune 인터뷰에 따르면 질문을 쪼개서 각각 다른 모델들에게 맡기는 것으로 보이는데 이는 정말 쉽지않은 작업이라고 하고 아주 많은 자원과 인재가 필요한 작업이라고 설명했습니다. 그럼에도 불구하고 이 방향성은 맞다고 설명했는데, 그 이유는 지금의 인공지능은 (1) 하나의 모델로는 성능 향상의 한계에 달한 것으로 보이고, (2) 저렴한 모델로 정답을 맞출수있다면 굳이 비싼 모델을 쓸 이유가 없기때문이라고 합니다 (이 분도 OpenAI의 “더 크기만 하면 다 할수있어”를 부정하는 이단이시군요ㅎㅎㅎ)
결국 OpenAI의 이러한 시도 자체는 좋았지만 그 기술력은 한계가 어느정도 보였다고 생각하고 오히려 구글, xAI, 메타에서는 이를 어떻게 구현할지 기대되는 부분입니다.
(2) A smarter, more widely useful model
주장: 더 좋은 글쓰기, 코딩, 그리고 의료/건강기능 = 일부 진실
문제점: 글쓰기/코딩이 최고인가는 선호도에 따라 다름, 의료/건강관련은 위험한 도박
코딩
코딩관련해서는 몇군데서 독립적으로 테스트를 했는데, 그 결과는 대부분 비슷하게 (1) Anthropic의 Opus 4의 성능이 더 뛰어나다, (2) 하지만 GPT-5가 더 싸고 빠르다로 모아졌습니다. 아래 그래프에서 보시다시피 GPT-5의 경우 성능은 Anthropic의 Opus 4보다는 떨어지는 Sonnet과 같은 급으로 보여지고 GPT-5 mini은 경우 이보다 약 5%정도 성능이 떨어지는 것으로 보여집니다.
여기서 한가지 포인트는 Anthropic의 최신 모델인 Opus 4.1는 아직 swe-bench에 등록되지 않았고 당연하지만 Opus 4보다 확실히 좋은 성능이라는 시장의 평가를 받고 있습니다. 결국 OpenAI가 코딩에 있어서는 아직도 최고의 모델을 만들지는 못한다는 결론이죠.
하지만 GPT-5는 비용면에서 빛이 났습니다. 아래 그래프에서 보시면 오렌지색 선이 Sonnet의 비용곡선이고 파란색이 GPT-5의 비용곡선인데 GPT-5가 비슷한 성능임에도 불구하고 상대적으로 싼 것이 보입니다.
여기서 한번 자세히 보시면 사실 이 그래프 진짜 승자는 GPT-5 mini입니다. 초록색 선의 GPT-5 mini의 비용입니다. 성능은 5%만 희생하는데 비해 비용은 압도적으로 낮으니까요. 물론 성능면에서 5%가 객관적이거나 확실한 비교지표가 아니기때문에 유저들의 만족도는 크게 차이가 날수도 있겠지만, 훨씬 더 저렴한 가격에 조금 떨어지는 모델을 제공한다는것 자체가 저는 그 자체로써 큰 가치가 있다고 생각합니다.
따라서 프로토타입이나 중요하지 않은 작업은 GPT-5 mini로, 중요하고 높은 퀄리티의 작업은 Opus 4.1으로 하라는게 많은 테스터들의 조언이었습니다.
글쓰기
글쓰기의 경우 EQ bench라는 곳에서 Creative writing과 Longform writing에 대한 벤치마크를 제공합니다. 아래 그래프를 분석해보면 일단 Longform writing은 Anthropic의 Opus 4.1, Sonnet 4, Sonnet 3.7이 1,2,4위를 차지하고 있고 Gemini 2.5 pro가 3위를 그리고나서야 GPT-5가 5위를 차지하고 있습니다.
Creative writing의 경우가 재미있는데요, 현재 1위는 GPT-o3가 차지하고 있고 그 뒤에 Opus 4가 2위, 그리고 GPT-5가 3위를 차지하고 있습니다.
따라서 여기서도 결론은 코딩이나 글쓰기는 GPT-5보다 Anthropic의 모델들이 더 좋다정도로 보시면 될 것 같고, 한가지 더 흥미로운 점은 Anthropic도 Opus 5와 같은 다음세대 모델을 몇주안에 공개할 것이라고 지난주 발표한만큼 이 성능의 차이가 더 벌어질수도 있다는 생각도 듭니다. (“We plan to release substantially larger improvements to our models in the coming weeks.”)
의료/건강기능
OpenAI가 GPT‑5를 “건강 파트너”로 내세우는 건 언뜻 대단한 발전으로 들립니다. 하지만 제가 가장 먼저 했던 생각은 HIPAA 적용도 안 되는 환경에서 환자의 민감한 데이터가 제대로 보호될 지 의문이고, AI의 환각리스크는 여전합니다. 실제로, 미국 의학저널에 발표된 사례에 따르면, 60세 남성이 ChatGPT의 조언을 그대로 따라 소금을 Sodium bromide로 대체했다가 bromide 중독에 걸려 정신병 및 망상증으로 입원했다고 합니다. 이처럼 ChatGPT로 인해 환자가 피해를 본 사례는 이미 실제 존재하는 문제라고 생각합니다.
여기에 더해, 의료 AI의 환각 문제는 학술적으로도 경고되고 있습니다. 예를 들어, 다국적 연구진이 발표한 논문 ‘Medical Hallucinations in Foundation Models and Their Impact on Healthcare’에서는 의료 상황에서 LLM이 만들어내는 허위 정보(환각)의 특징과 임상적 위험을 체계적으로 분석하고, 여전히 상당 수준의 오류가 남아 있음을 강조합니다. 이는 규제·윤리적 기준 마련의 필요성을 분명히 보여줍니다.
물론, 개인정보가 보호되는 환경에서 의사가 보조 도구로 활용할 경우에는 분명히 가치가 있다고 생각합니다. 하지만 OpenAI가 이번에 발표했듯이, 환자가 의사없이 직접 쓰는 건 너무나도 명확한, 네이버 지식인 이상의 시한폭탄입니다. 맥락, 책임, 추적 가능성이 필수 의료 판단에서 현재 AI 모델은 이 세 가지 모두에서 구조적 한계를 드러내고 있고 아직까지 해결되지 않은 환각증상은 이 한계를 크게 증폭시키고 있습니다.
더 충격적인 부분은 불과 2주전에 샘알트만 스스로 “ChatGPT에게 상담하는건 개인정보 유출에 치명적인 위험이 있다”라고 경고했던 걸 생각하면, 더 이해가 안되는 행보로 보여집니다. 그리고 설사 그 환경을 만든다고 하더라도, OpenAI가 걸려있는 뉴욕타임즈를 비롯한 여러 소송들로인해 법원의 명령으로 개인의 모든 대화내용을 지울수 없는 상황(겉보기에 지워진 것 같아보여도 서버에는 모두 저장)이고, 데이터를 어떻게 사용하고 처리할지 모르는 인공지능에게 본인의 과도한 개인정보를 주는 것은 구글 크롬에서 브라우징 정보를 주는 것과는 다른 차원의 보안 문제일 수도 있다고 생각합니다 (이 부분에 대해서 따로 뉴스레터를 준비하고 있습니다).
따라서 야심차게 발표한 health기능을 이러한 문제점들에도 불구하고 환자 직접 사용 전략을 밀어붙이는 건, 기술적 진보의 자신감이라기보단, LLM의 성능 한계에 부딪힌 OpenAI가 이번 발표에 만들어 내지 못한 “혁신”이나 “새로움”으로 시장을 무리하게 뚫어보려는, 말하자면 ‘막다른 골목식 전략’ 같은 인상을 줍니다.
(3) Evaluations
주장: GPT-5는 주요 벤치마크에서 최고 성능을 기록하며 전반적으로 더 똑똑해졌다
분석: 수치적으로 사실이나, 그 폭이 미미하고, 소비자 경험에 유의미한 변화인가는 불분명
OpenAI는 GPT-5가 전 영역에서 뚜렷한 성능 향상을 이뤘다고 강조합니다. 수학, 코딩, 멀티모달 이해, 헬스 등 모든 분야에서 새로운 기준을 세웠다는 겁니다. 그러나 출시 시점까지의 긴 공백을 고려하면, 이번 개선폭이 과연 ‘압도적 도약’인지에 대해서는 의문이 남습니다. 대표적으로 툴 없이 수행한 수학 성능 향상폭은 고작 2% 수준에 불과합니다. 그리고 동시에 시장에서 여전히 1위 모델인지도 사실 애매합니다.
아래는 OpenAI가 자랑스럽게 공개한 AIME 벤치마크 지표입니다. 이를 출시일을 x축에 놓고 스코어를 y축에 놓고 생각하면 아무래도 대각선 위에 있는 곳들이 좋은 모델이고 앞으로 더 기대되는 회사라는 판단이 가능합니다. 그리고 그 결과는 보시다시피 GPT-5(high, $200 구독료)는 겨우 대각선위에 놓여있습니다. 그만큼 최신모델인 것에 비해 성능 향상이 아쉽다는 것이죠. 반면에 Grok과 Gemini같은 경우는 대각선으로부터 한참 위에 위치하고 있습니다. 글의 시작에서 보셨던 polymarket이 Gemini와 Grok이 GPT보다 연말전에 더 좋은 모델이 될 것이라고 베팅하는 이유를 여기서도 찾아볼 수 있습니다.
GPT-5를 출시하면서 샘알트만이 한말중에 하나가 “원할 때마다 불러쓸 수 있는 정식 박사급 전문가”라는 말이었죠? 아래는 Ph.D-level science 문제들에 대한 벤치마크 입니다. 이 경우에는 대각선 위에도 존재하지 못하고 한참 아래에 위치한 모습을 보여줍니다. Grok, Gemini, Claude, 심지어 Llama까지도 대각선 위에 있는데 말이죠.
인류의 마지막 시험도 그 상황은 크게 다르지 않습니다. 다만 Claude와 Llama보다는 더 좋은 위치에 존재해 있네요. 뭔가 polymarket에 신뢰도를 높여주는 그래프들입니다 ㅎㅎㅎ
OpenAI측에서는 보여주지 않았지만 ARC-AGI라는 벤치마크에서는 비용대비 성능을 보여주는데 여기서는 Grok 4가 모두를 이기는 압도적인 모습을 보여줍니다.
Simplebench에서도 GPT-5(high, $200)은 여전히 고전하고 있습니다.
물론 당연한 이야기지만 GPT-5가 더 좋은 벤치마크를 보여주는 곳들도 많습니다 LLM chatbot으로써의 리더보드에서는 GPT-5 high($200…)가 Gemini와 Claude를 앞서는 모습을 보여주고 웹개발에서도 선두를 차지하는 모습을 보여줍니다.
Artificial analysis의 종합점수에서도 미미하지만 다른 모델들은 앞서는 모습을 보여줬구요.
FrontierMath의 경우 OpenAI가 압도적으로 잘하고 있지만, 여기는 OpenAI로부터 펀딩을 받는 곳인데 밝히지 않아서 논란이 되었던 곳이라 앞으로 레퍼런스로써의 가치를 잃었다고 생각합니다 (This project is supported by OpenAI.)
자 그럼 벤치마크야 엎치락뒷치락한다면, 이러한 정량적인 미미한 성과가 정성적으로 어떤 의미를 가지고 있는가에 대해서도 생각해봐야 한다고 생각합니다.
물론 아직 판단하기에는 이르다고 생각하지만, 우선 여태까지는 소비자들의 반응이 우호적이지 않았기 때문이죠. 대부분의 사용자는 모델이 AIME에서 몇 문제를 더 맞췄는지보다, 메일 한 통을 더 빠르고 정확하게 써주는지, 코드 디버깅이 얼마나 덜 답답한지, 정보 검색이 얼마나 맥락에 맞게 이루어지는지를 체감합니다. 그리고 이 체감의 곡선은 벤치마크 곡선처럼 깔끔하게 올라가지 않습니다. 수치적 향상이 곧바로 경험적 혁신으로 이어지지 않는 건, 모델 성능이 이미 일정 수준 이상에 도달했기 때문이라고 생각합니다. 그 이후부터는 ‘더 잘’보다는 ‘더 다르게’가 필요한데, 이번 GPT-5는 아직 그 변곡점을 넘지 못한 느낌입니다.
또한 릴리즈 간격이 길어진 상황에서 기대치도 높아졌는데, 실제 결과물은 그 기대를 충족하기엔 부족한 인상을 줍니다. 결국 이번 발표는 실질적인 기술 점프라기보다, 업계 1위라는 이미지를 유지하고 ‘최신 모델’이라는 타이틀을 갱신하기 위한 성격이 강해 보입니다. 화려한 성능 지표보다 중요한 건, 그 변화가 우리의 일상과 의사결정 방식을 얼마나 근본적으로 바꿔주는가인데, 그 질문에는 여전히 물음표가 남습니다.
결국 이번 업그레이드는 “더 똑똑해졌다”는 객관적 데이터와, “정말 더 좋아졌는가?”라는 주관적 평가 사이에 간극을 남깁니다. 그 간극이 좁혀지지 않는 한, 수치는 올라가도 사용자들은 혁신이 아니라 “허세와 높은 ego가 섞인” 미세 조정의 몸부림정도로 받아들일 가능성이 큽니다.
(4) Faster, more efficient thinking
주장: 더 빠르고 효율적인 thinking을 보여준다.
분석: 사실. (참잘했어요! 짝짝짝!)
저는 이 부분이 이번 GPT-5에서 가장 마음에 드는 부분입니다. 그런데 과연 이 방향성은 어떤 의미를 가지고 있을까요? 제가 거의 1년전 2024년 11월에 썼던 글에는 이런 문단이 있습니다; “성장이 아닌 최적화의 시대 - 성능은 수렴하기때문에”. 주실밸 구독자 여러분들께서는 당연히 이미 알고계셨던 이야기니 이 정도로 넘어가겠습니다.
(5) Building a more robust, reliable, and helpful model
주장: 이전 모델보다 환각을 크게 줄였고, 더 안전한 모델이 되었다
분석: 여전한 환각, 그리고 모델자체보단 웹서치덕분에 개선, 여전히 안전하지 않은 모델
환각 환각 환각
OpenAI는 GPT-5가 이전 모델보다 환각 발생 가능성이 크게 줄었다고 강조합니다. 웹 검색이상태에서, 실제 트래픽을 대표하는 익명화된 프롬프트로 테스트했을 때 GPT-4o 대비 약 45% 오류 감소, 그리고 ‘생각하기(Thinking)’ 모드에서는 o3 대비 약 80% 오류 감소를 보였다고 합니다. 아래 OpenAI의 GPT-5 system card에서 보시듯이 거짓말을 하는 경우가 GPT-5 thinking의 경우 4.5%까지 낮아졌습니다.
다만 인터넷이 연결되지 않았을때는 그 이야기가 달랐습니다. 아래도 system에 들어있는 테이블인데, GPT-5 main의 경우 o3보다 오히려 높은 환각률을 보이는 모습이었습니다. 그리고 심지어 PersonQA의 환각 벤치마크는 o3출시 당시 o1보다 높은 환각률을 보였었기때문인지 이번 system card에서는 제외되어 있어서 오히려 더 안좋은 성과를 보인게 아니라는 음모론이 설치고 있습니다.
(o3출시당시 system card내 환각률 테이블)
이 두가지 자료를 종합했을때 냉정히 보면, 이번 개선의 상당 부분은 모델 자체의 구조적 도약이라기보다 인터넷 연결이라는 제품적 개선에 가깝습니다. 연결된 정보에 기반해 오류가 줄어든 것이지, 모델이 본질적으로 ‘더 정확해진’ 건 아니라는 이야기입니다. 이는 곧 이 기능이 OpenAI만의 해자가 아니라, 다른 경쟁자들도 구현할 수 있는 영역이라는 뜻이기도 합니다.
그리고 OpenAI에서 좀더 정직한 답변을 한다고 주장했는데, 이에 대해 OpenAI내부뿐만 아니라 외부 모델과 비교를 하는 거짓말을 할 확률과 대답을 안할 확률에 대한 벤치마크가 만들어져서 확인해봤습니다. 아래의 데이터에 따르면 GPT-5의 경우 거짓말은 10.9%, 무응답은 9.8%를 기록했으나 Gemini와 Grok의 경우 둘 다 거짓말을 4.0%, 무응답을 20%정도 기록하였습니다. 개인적으로 거짓말을 하는 것 보다 응답을 하지 않는게 더 좋은 성능이라고 생각하는만큼, OpenAI에게는 불리한 지표로 보여집니다.
여기서부터는 인터넷에 올라온 재미있는 환각현상들을 쭉 나열해봤습니다. 대부분 제가 직접 구현해보았는데, 몇가지는 OpenAI측에서 이미 조치를 취한 듯한 느낌도 들었습니다 ㅎㅎㅎ
“2025년 미국 대통령은 조바이든입니다”
“이 손은 손가락은 여섯개를 가지고 있습니다.”
???:“두번 다시 strawberry에 r의 개수를 틀리지않겠다!!!”
“아니 치사하게 strawberry가 아니라 blueberry라니…”(GPT-5 일반은 정답률 6%)
“Blueberry에는 b가 3개라고!!! B, Blue, Berry!!!”
구독자분들을 무시하는건 아니지만, 정답은 0.79입니다.
GPT-5 출시 데모에서 라이브로 차트 대소동! (52.8>69.1, 47.4>50)
솔직히 이 중요한 발표덱 QA도 안되는거보면 좋은 직원들은 메타에 다 뺏긴건가 싶네요.
더 안전한 모델?
발표에 따르면 GPT-5는 기존의 ‘거부’ 중심 안전 훈련 대신, 가능한 범위 내에서 최대한 도움을 주는 ‘안전한 완성’ 방식을 도입했다고 합니다. 이를 통해 모호한 의도나 애매한 질문에서도 세밀하게 대응하고 불필요한 과도 거부를 줄였다고 주장합니다.
하지만 역시나 안타깝게도 현실은 다릅니다. 출시 24시간도 안 돼 해커들이 안전 장치를 우회하는 방법을 찾아냈고, 4o와의 안전성 비교에서는 GPT-4o보다 안전성 점수가 한참 뒤떨어졌습니다. 심지어 폭발물이나 위험 물건 제작 같은 금지 주제에 대해서도 여전히 구체적인 설명을 내놓는 사례가 확인됐습니다. 결과적으로, 기업들이 쓸만큼의 안전성을 확보했다고 보기어렵고, OpenAI의 주장과 현실사이에는 여기서도 또 큰 간극이 남아 있는것으로 보입니다.
GPT-5에 대한 샘알트만의 환각과 망상
물론 OpenAI fanboy들이 넘쳐나는만큼, 무조건적인 찬양을 견제하고자 제가 좀 더 비판적인 자료를 많이 찾았기때문에 더 그렇게 보일수도 있고, 동시에 웹상에는 GPT-5가 좋다는 글도 정말 많이있지만 전반적으로 봤을때 샘알트만이 공개적으로 사과하고 롤백한 부분이나 미디어의 반응들을 봤을때 “이번 GPT-5의 출시 발표는 최악이었다”라는 평이 적합할 것 같습니다.
그런데 제 개인적인 생각은 모델 성능이 최악이었다라는 평을 내리고 싶지는 않습니다. 미미하고 상대적으로 약간 부족할지 모르지만 성능을 향상시켰고, 무엇보다 가격대비 성능과 속도면에서 아주 좋은 개선을 이루어내었다고 봅니다. 그렇다면 왜 우리는 이렇게 GPT-5에 대해 부정적일까요?
그건 바로 샘알트만의 과도한 마케팅과 망상때문이었다고 생각합니다. 사실 샘알트만이 아래 예시로 든 데스스타, 핵폭탄, 무력감, 인류 멸종, AGI와 같은 말도안되는 마케팅만 아니었다면 일이 이렇게까지 커지지는 않았을거라고 생각합니다.
데스스타 드립
GPT-5 발표 직전, 샘 알트만은 자신의 소셜미디어에 스타워즈의 데스스타 이미지를 올렸습니다 (솔직히 막말로 전 이 사진보자마자 “하 또 까불고있네”라는 생각이 들었습니다ㅋㅋㅋ). 데스스타는 스타워즈의 은하 제국이 만든 행성 파괴 무기로, 압도적인 힘과 함께 공포/파괴를 상징합니다. 물론 공개 전 기대감을 극대화하려는 의도였겠지만, 결과적으로는 실제 GPT-5의 성능이 혁명적 도약이라 보기 어렵다는게 들통나자 허세 massive ego로 비춰졌고, 동시에 AI 안전성을 강조하는 회사 대표가 ‘행성 파괴 무기’를 자사 모델의 비유로 쓰는 건 메시지와 정면으로 충돌했다는 평을 받았습니다. 인공지능이 무섭다고, 인류를 멸망시킬거라고 떠들면서 과도한 미디어 플레이로 불필요한 오해와 우려만 키운 셈이라고 보여집니다.
핵폭탄 드립
핵폭탄급 환각증상
GPT-5가 지난 목요일 공개되기 전, OpenAI CEO 샘 알트만은 “이 인공지능에 비하면 내가 무능하게 느껴진다”고 말했다. 그는 또, 이 모델을 개발하는 일이 “원자폭탄을 만든 개발자들이 느꼈을 법한 무게”를 지니고 있다고 덧붙였다.
박사급 인공지능 드립
환각잘하는 환각 박사의 등장
OpenAI는 GPT-5가 이전 모델보다 더 똑똑하고, 빠르고, 유용하며, 정확하고, 환각 발생률도 낮다고 주장한다. 알트만은 GPT-4에서 GPT-5로의 도약을 아이폰이 픽셀 화면에서 레티나 디스플레이로 바뀐 것에 비유했다. 그는 “GPT-5는 처음으로, 마치 박사급 전문가와 어떤 주제든 대화하는 것 같은 느낌을 주는 모델”이라고 말했다.
인류 멸망 드립
r이 세개인 블루베리가 우릴 다 죽이고야 말거야!!!
샘 알트만은 자사 대표 제품을 뒷받침하는 기술이 인류 문명의 종말을 가져올 수도 있다고 생각한다. 지난 2023년 5월, OpenAI CEO 샘 알트만은 워싱턴 D.C.의 상원 소위원회 청문회장에 들어서며 의원들에게 긴급히 호소했다. 인공지능의 막강한 잠재력을 수용하면서도, 그것이 인류를 압도하는 위험을 완화할 수 있는 신중한 규제를 마련해 달라는 것이었다.
AGI 2025 드립
이제 겨우 스트로베리 해결했는데 올해 AGI가 온다고…?
이외에도 샘알트만에 대해 제기되는 문제와 의문들을 더 알고싶은 분들은 아래 글의 3번 문단을 보시면 일곱가지의 예시를 자세히 보실수 있습니다.
그래서 도대체 어쩌라고?
오늘은 심지어 이 섹션도 깁니다…
OpenAI는 더 이상 기술의 리더가 아니다
GPT-5를 보면서 제가 느낀 점은 OpenAI는 더 이상 기술적으로 압도적인 선두주자가 아니라는 부분입니다. 이것은 두가지 의미를 가질수있는데 (1) OpenAI는 인재유출과 자금부족등의 이유로내부 리서치 역량이 한계에 다달했거나 혹은 (2) 인류전체를 기준으로 이번 세대 인공지능 성능 향상의 한계에 다달았다라는 결론이 날수있습니다. 어느쪽이든 OpenAI가 약속했던, 보여주겠다던 세상과는 동떨어져있죠.
동시에 시장의 평가대로 GPT-5는 “기술의 발전이 아니라 단순한 프로덕트 업데이트에 불과하다”가 사실이라면 그또한 문제입니다. OpenAI는 인공지능 시대 초반의 뛰어난 기술력과 “채팅”이라는 인터페이스를 소개하면서 압도적인 시장점유율을 자랑했는데, Anthopic이 코딩시장을 가져가고, 메타는 넘치는 현금으로 직원들을 모셔가고, 구글이 호환성과 데이터우위를 이용해 시장을 가져가고 있는 상황입니다.
여기서 기술력으로 앞서나가지 않는다는 것을 전제로 생각해보면 OpenAI의 유저경험, 인터페이스가 과연 Perplexity, Gemini, Grok에 비해서 압도적인가?라는 질문에는 저는 “아니다”가 정답이라고 생각합니다. 더 익숙하고, 더 알려져있기때문에 손이 먼저가는 부분은 있지만, 그보다도 “더 좋기때문에”가 OpenAI를 쓰는 이유였던 유저들은 이번을 기회로 다른 툴로 넘어갈 가능성도 높습니다. Consumer app으로써의 전환을 선언했던 OpenAI에게 이번 소비자들의 반발을 뼈아플수밖에 없고 그래서 샘알트만도 소비자들의 반발에 빠르게 항복을 선언할수밖에 없었던 거구요. 앞으로도 OpenAI가 위대한 회사로 남으려면 컨슈머회사로써 유저경험과 사용성에 대해 좀 더 고민해보면 좋겠다고 생각합니다.
Super intelligence? AGI도 한참 멀었다.
전문가분들께서 너무 hype을 크게 키워두셔서, 제 주변에도 그렇고 위의 트윗처럼 많은 분들이 AGI가 곧 올거라고 생각하시는거 같습니다.
개인적으로 AGI는 인공지능이 인간을 대체할수있는 순간 완성이라고 생각하고 (=인간없이 인간의 일을 인공지능이 처음부터 끝까지 환각없이 해낼수있음) ASI는 인공지능이 인간보다 더 뛰어나게 되는 순간 완성이라고 생각합니다 (=인간없이 인간의 일을 인공지능이 처음부터 끝까지 인간보다 더 뛰어나게 해낼수있음). 그런 관점에서 봤을때 지금의 인공지능은 샘알트만이 약속한 2025년이나 일론머스크가 약속한 2026년까지 AGI에는 도달하기 힘들 것 같다고 생각합니다.
더군다나 최근에 발표된 논문에 따르면 요즘 최고의 성능을 자랑하는 thinking 모델들 (CoT Reasoning of LLM)의 문제점을 지적하고 있습니다. 사이즈를 키운다고, 생각을 한다고 AGI에 도달하기에는 LLM은 그저 생각하지않고 확률분포를 따르는 기계에 불과하다는 거죠.
연구팀은 DataAlchemy라는 통제 환경에서 모델을 처음부터 학습시킨 뒤 과제, 길이, 형식 측면에서 분포를 바꿔 실험했다. 결과는 명확했다. 훈련 분포를 조금만 벗어나도 CoT는 쉽게 무너졌고, 그 ‘추론 능력’은 신기루처럼 사라졌다. 이는 CoT가 진정한 범용 추론이 아니라, 데이터에 최적화된 패턴 재현임을 보여주며, 범용적이고 견고한 AI 추론의 길이 여전히 멀다는 사실을 드러낸다.
사족이지만 요즘 이 “전문가”들이 인터뷰하는거보면 이제 AGI는 대충 되었고 ASI가 중요하다며 AGI의 정의가 부정확해서 의미가 없다며 흐지부지 넘어가는데, 원래부터 AGI는 “인공지능이 인간을 대신해 General하게 일반적인 일들을 수행”할수있는게 정의였다고 생각했는데 어느정도는 하지만 환각때문에 제대로 못하니까 ASI로 hype을 돌리는거 같다는 느낌을 받습니다. 골포스트 옮기지말고, 더 반짝이는걸로 관심끌지말고, 차근차근 해나가면 좋겠습니다.
관련해서 AGI가 어려운 이유에 대해서 제가 지난 4월달에 자세히 정리한 글도 추천드립니다!
우리는 지금 어플리케이션 스타트업을 만들기에 역사상 가장 좋은 순간에 살고있다. 나도 하고 싶다.
제가 상대적으로 부정적으로 말하긴 했지만 GPT-5 mini정도 되는 모델이 이 가격에 나왔다는건 스타트업들이 더 빠르고 저렴하게 iteration할수있다는 이야기라고 생각합니다. OpenAI덕분에 다른 회사들도 비슷한 가격에 가격경쟁을 할수밖에 없을테니 대표님들께서는 이런 대기업들의 경쟁속에서 싸지는 인프라를 통해 소비자들이 사랑하는 어플리케이션을 만드셨으면 좋겠습니다.
GPT-5가 싸졌다고 당신의 마진이 좋아질 것이라고 생각하지마라. 가격 경쟁의 시작일뿐.
GPT-5가 싸져서 우리 회사 마진이 높아지겠네?라고 생각하시는 분들이 많으실텐데 문제는 여러분들께만 싸진게 아니라 전세계 모든 똑똑한 사람들에게 싸졌습니다. 따라서 모두가 마진이 높아지면 누군가는 가격을 낮출것이고 그럼 가격경쟁이 시작될수밖에 없습니다. 잊지마세요 “your margin is my opportunity”.
아 하지만 더 많은 iteration을 빠르게 할수있는 것, 그리고 소비자들에게 SaaS시절처럼 fixed price로 프로덕트를 제공하기에 부담이 덜해지는 부분은 확실히 긍정적이라고 생각합니다. 아직은 seat + usage로 mixed pricing이 대세일수밖에 없지만, 말씀드린대로 최적화의 시대가 계속되면 언젠가는 seat based pricing 시대로 다시 돌아갈수도 있을 것 같습니다.
기술보다 소비자가 압도적으로 사랑하는 프로덕트를
위의 뉴스레터는 o1시절에 쓴 뉴스레터인데 GPT-5에서도 맥락이 비슷하네요. 보시다시피 기술은 결국 수렴합니다. 지금 benchmark에서 1등하는 회사들도 그 격차가 점점 줄어들고 있고 다음번에 Gemini나 Grok이 나와서 GPT를 넘어선다고해도 큰 격차는 안날것이라고 생각합니다. 결국 사용자 경험인거죠.
Wiz가 기술적으로 압도적이어서 사이버보안 역사상 가장 비싼 가격에 구글에 팔린게 아닙니다. 비슷한 기술의 경쟁자들에 비해 압도적인 소비자 경험을 제공했기때문입니다. 물론 최초의 압도적인 기술력과 특허로 시장을 점유할수도 있지만, 그 조차도 소비자 경험이 함께하지 않으면 도달하기 쉽지않습니다. 정말 쉽지않겠지만 기술보다도 소비자가 압도적으로 사랑하는 프로덕트를 만들면 좋겠습니다.
구글의 발전 속도를 보면 결국 데이터와 돈이라는 생각이 드는데, 과연 OAI가 구글과 애플을 이길수 있을까?
다들 구글 바드 인공지능 처음 발표할때 환각이 나서 주가 떨어진거 기억하시죠? 그랬던 구글의 Gemini를 통해 여기까지 왔습니다. 누구보다도 늦게 시작한 Grok도 어마어마하게 따라잡았구요.
특히 구글의 비디오모델이나 월드모델은 본인들이 가지고 있는 데이터를 통해 OAI의 소라는 비교도 안되게 발전했고 더 무서운건 아직 쓰지도 않은 개인 데이터가 넘쳐난다는 부분입니다. 원하는 고객들의 google drive나 gmail을 연동한다면 gemini를 이길 인공지능 회사는 없지 않을까요? google cloud도 있겠다, 광고 매출도 좋겠다, 서치를 통한 광고가 아니라 인공지능을 통한 광고매출도 결국 구글이 다 먹지 않을까요?
솔직히 저는 VC로서 창조적인 파괴를 통해 next google이 필요하고 열심히 찾고있는데 current google이 이렇게 잘해버리는게 생태계에 얼마나 좋은건지 잘 모르겠습니다.
AI agent? 뜬구름 잡는 소리 제발 좀 그만…
이건 뉴스레터로 하나 정리해서 쓰겠습니다.
죄송합니다. 너무 길었습니다.
이 글을 GPT-5가 출시된 날부터 쓰기시작했는데 오늘에야 끝냈습니다. 이 긴 글을 끝까지 읽어주신 구독자분들께 다시한번 감사드립니다. 사실 팬이 많은 사람이나 회사들에게 부정적일때는 그만큼 조곤조곤 논리가 탄탄하고 증거가 많아야해서 OpenAI나 Sam Altman글은 언제나 여지없이 길어지네요.
편하게 댓글남겨주시고 더 이야기하고 싶으신 분들은 아래 카톡방으로 입장해주세요! 현재 2,200명의 구독자분들께서 함께하고 계십니다!
그리고 이 뉴스레터는 이번주 일요일 유튜브 라이브에서 또 한번 다뤄보겠습니다.
정독했습니다. 정말 공감하는 내용입니다. 샘 알트먼은 데스스타 드립에서 이미 바닥이 드러났다고 생각합니다. GPT-5가 이렇게 나와버리니 상대적으로 Gemini 다음 버전에 대한 기대감이 올라가네요. 이래나 저래나 'current google'로 수렴하는 것 같네요. 결국은 data is king.