Granola의 CEO, Chris Pedregal의 How to Build a Truly Useful AI Product진짜 유용한 AI 제품을 만드는 법 을 번역했다. 이 글을 처음 보았을 때 희열을 아직 잊을 수 없다.
TL;DR: AI 제품 스타트업과 기존 스타트업의 성공 방식은 다르다. (1) 사용자가 원하더라도 GPT-X가 나오면 해결될 문제는 해결하지 않아야 한다. (2) 대기업은 사용자 수가 많아 최고의 AI 경험을 제공할 수 없다. 사용자 수가 적을 때 최고의 AI 경험을 제공하자. (3) 컨텍스트가 정말 중요하다. AI가 아무리 좋아진다고 해도, 컨텍스트를 제공하는 것은 항상 중요하다. (4) 좁게, 그리고 깊게 문제를 해결하라.
진짜 유용한 AI 제품을 만드는 법
스타트업을 창업하는 것이 어려운 비디오 게임을 하는 것과 같다면, 생성 AI 분야에서 스타트업을 창업하는 것은 그 게임을 두 배속으로 플레이하는 것과 비슷하다.
애플리케이션 레이어(응용 프로그램 계층), 즉 OpenAI나 Anthropic 같은 회사들이 제공하는 AI 모델을 활용해 서비스를 만드는 스타트업들은 전례 없이 빠르고 예측하기 어려운 기술 발전 위에 서 있다. 매년 적어도 두 번씩 주요 모델이 새로 나오기 때문이다. 잘못하면 몇 주 동안 고생하며 만든 기능이 다음 버전의 AI 모델이 나오면서 자동화되어 의미가 없어질 수도 있다. 또 누구나 강력한 API와 최신의 AI 모델에 접근할 수 있다 보니, 기가 막힌 아이디어라도 남들이 쉽게 따라할 수 있다.
많은 기회가 열리고 있다. LLM이 코드 생성, 연구 보조 등 이전에는 불가능했던 제품 기능이 가능해졌지만, AI 발전 물결에 휩쓸리기만 하며 위험하다.
그래서 우리에게는 새로운 플레이북이 필요하다.
지난 2년 동안 회의 내용을 받아 적고 AI로 요약 정리해주는 Granola를 만들면서, 나는 생성형 AI 분야가 굉장히 독특하다는 것을 깨달았다. 기존 스타트업의 ‘상식’ 같은 법칙들 — 예를 들어 가장 고통스러운 부분을 먼저 해결하라는 원칙이나, 유저가 많아질수록 비용이 줄어든다는 통념이 완벽히 적용되지 않는다. 따라서 기존 스타트업에서 성공 법칙을 AI 업계에 맞게 다시 학습할 필요가 있다. 나는 애플리케이션 개발자가 모두 알아야 한다고 생각하는 AI 원칙 네 가지를 세우게 되었다.
1. 곧 사라질 문제는 해결하지 않는다
LLM의 발전 속도는 역사상 가장 빠르다. 2년 전만 해도 챗GPT는 이미지를 처리하거나, 복잡한 수학 문제를 해결하거나 수준 높은 코드를 생성할 수 없었다. 지금은 이런 작업들이 너무 쉬워졌다. 앞으로 2년 후에는 완전히 다른 세상이 펼쳐질 것이다.
만약 애플리케이션 레이어에서 제품을 만드는 사람이라면 쉽게 잘못된 문제에 매달리게 된다. 다음 버전의 GPT 모델이 나오면 해결될 문제에 시간을 낭비하는 것이다. 간단한 원칙 같지만 실제로 실천하기 어렵다.
미래를 예측하는 것이 업무의 일부가 되었다. 어떤 문제가 지속될지 알기 위해서는 GPT-X 모델이 어떤 기능을 제공할지 알아야 하는데, 이건 마치 수정 구슬을 들여다 보는 것처럼 느껴진다. 그리고 예측이 끝나면 이를 기반으로 제품 로드맵과 전략을 수립해야 한다.
예를 들어, 처음 Granola를 만들었을 때는 30분 이상 회의의 메모를 해결할 수 없었다. 당시 최고의 AI 모델이었던 OpenAI의 DaVinci 모델은 처리 가능한 글자 수(컨텍스트 창)가 4000 토큰이었기 때문에 회의 시간이 제한되었다.
일반적으로는 긴 회의를 처리하도록 하는게 우선순위였을 것이다. 짧은 회의에만 회의 내용을 받아 적는 노트 앱이 의미가 있을까? 하지만 우리는 LLM이 훨씬 더 좋아질 것이라는 가설을 세웠다. 더 똑똑하고, 더 빠르고, 더 저렴하고, 더 긴 컨텍스트 창을 제공할 것이라 예상했다. 대신, 노트 품질을 높이는 데 모든 역량을 집중했다.
초기에는 유저의 불만을 무시해야 하는 상황도 있었다. 그러나 우리의 가설을 적중했다. 몇 개월 만에 모델은 더 긴 회의도 문제없이 처리할 수 있게 되었다. 만약 컨텍스트 창을 늘리는데 우리가 시간을 썼다면, 그 노력은 전부 헛수고였을 것이다. 반면 메모 품질을 높인 부분은 지금 Granola를 사랑받게 만든 중요한 요소가 되었다.
2. 높은 한계비용이 오히려 기회다
기존 소프트웨어는 유저 수가 많아져도 추가 비용(이를 한계비용, margin cost라 한다)이 거의 들지 않았다. 1만 명의 유저가 사용하는 제품을 100만 명의 사용자가 사용해도 괜찮은 정도의 추가 비용이 나왔다.
그러나 AI에서는 상황이 다르다. 유저가 많아질 때마다 비용이 일정하게 증가하며, 최신 AI 모델의 비용은 매우 비싸다. 예를 들어 30분짜리 회의 오디오를 OpenAI의 주력 AI 모델(글 쓸 당시에는 GPT-4o)로 처리하는 데 약 4달러가 든다. 매일 수천 명의 유저가 새롭게 유입되고 있다고 상상해보면 추가 비용이 상당하다. 또한, 스타트업이 새로운 유저를 추가(onboard)할 수 있는 유저 수에도 한계가 있다. 세상의 모든 돈을 가지고 있다고 해도, OpenAI와 Anthropic(클로드를 만든 회사)는 수백만 명의 유저를 위해 최첨단 AI 모델을 제공할 만큼의 컴퓨터 능력을 가지고 있지 않다.
처음으로, 수백만 명이 사용하는 제품보다 수백 명이 사용하는 제품에서 더 뛰어난 제품 경험을 제공할 수 있게 되었다. 이건 장애물이 아니라, 스타트업에게 큰 기회다. 수백만 명의 사용자가 있는 대기업은 물리적으로 당신과 경쟁할 수 없다. 세상에 존재하는 컴퓨팅 자원이 제한적이어서, 대규모로 최고의 AI 경험을 제공하는 것은 불가능하기 때문이다.
스타트업은 각 사용자에게 페라리급의 제품 경험을 제공할 수 있다. 가장 비싸고 최신의 모델을 활용해라. 비용 최적화에 관해 신경쓰지 말자. 제품 경험을 더 좋게 하기 위해 API 호출(당신이 선택한 LLM 제공자에 대한 서버 요청)을 다섯 번 더 해야 한다면 그렇게 해라. 사용자당 요금이 비싸질 수 있지만, 초기에는 사용자가 많지 않을 것이다. 기억해라: 구글과 같은 회사는 기껏해야 혼다 수준의 제품 경험을 제공할 수 있다.
사용자가 페라리급 제품 경험으로 몰려들면 어떨 일이 일어날지 궁금할 수 있다. 결국 오늘날의 대기업처럼, 사용자들에게 고품질의 최첨단 서비스를 제공하지 못하게 되지 않을까?
다행스러운 점은 사용자 수가 기하급수적으로 증가하더라도, AI 추론 비용은 기하급수적으로 감소하고 있다는 사실이다. 오늘날의 최신 모델은 1~2년 후에는 합리적인 가격의 상품이 될 것이다. 오늘날의 페라리는 내일의 혼다가 될 것이다. 페라리가 될 수 있을 때 페라리가 되자.
3. 컨텍스트가 왕이다
Granola에서 회의 노트 생성을 위한 프롬프트를 처음 작성할 때, 단계별(step-by-step) 지침을 제공하는 방식이 실제로는 잘 작동하지 않는다는 것을 빠르게 깨달았다. 현실 세계는 복잡하며, LLM이 마주할 수 있는 모든 상황을 예상하고 규칙을 작성하는 것은 거의 불가능하기 때문이다. 설령 모든 시나리오를 다룰 수 있다고 해도, 충돌하는 지침들이 생겨날 수 밖에 없다.
우리는 깨달았다: AI 모델을 단순히 지시를 따르는 존재로 취급하기 보다, 첫 출근한 인턴처럼 대해야 한다. 인턴은 똑똑하지만 무엇을 해야 하고 어떻게 해야하는지에 대한 컨텍스트(맥락)이 부족하다. 인턴의 성공 비결은 당신처럼 생각할 수 있도록 컨텍스트를 제공하는 것이다.
Granola에서는 이제 컨텍스트를 제공하는 방식으로 프롬프팅에 접근한다. 모델의 사고를 큐레이팅하기 위해 선별된 컨텍스트를 제공한다. 그라놀라의 경우, 회의에서 훌륭한 노트를 작성하는 것이 필요하다. 컨텍스트는 누가 회의에 참석했고 왜 이 주제가 논의되는지 이해하는 것이다. 우리의 역할은 웹과 다른 출처에서 그 정보를 찾아내고, 모델이 당신처럼 생각하도록 만드는 것이다.(이 회의에서 무엇을 얻으려고 하는가? 당신의 장기적인 목표는 무엇이며, 이 회의가 그 목표에 어떻게 도움이 되는가?) 그리고 노트에는 관련된 정보만 담는다. 관건은 어떤 컨텍스트를 제공하고 어떻게 구성할지 선택하는 데 있다—모델이 아무리 좋아진다고 해도, 당신이 제공하는 컨텍스트는 항상 중요할 것이다.
나는 “컨텍스트 창 선택(content window selection)”이 시대를 정의하는 개념이 될 것이며, 이는 AI를 넘어 광범위한 영향을 미칠 것이라 믿는다. 산업혁명 시대에는 뇌를 기계적 장치로 묘사했다—예를 들어, 스팀을 내뿜는 것 처럼 말이다. 컴퓨터가 등장하면서, 우리는 “대역폭”이나 “저장 용량” 같은 용어를 사용하기 시작했다. 우리는 뇌의 작동 방식을 “컨텍스트 창 선택”이라는 관점에서 설명하기 시작할 것이다. 이 개념은 기술을 넘어 다양한 분야로 확산될 것이다.
4. 좁게 가되, 깊게 파고들어라
오늘날 AI 제품을 만들 때 직면하는 흥미로운 도전 중 하나는 챗GPT나 클로드와 같은 범용 AI 어시스턴트와 경쟁해야 한다는 점이다. 챗GPT나 클로드는 대부분의 작업에서 꽤나 좋다. 어떻게 하면 사용자가 이런 만능 도구(Swiss Army knives)대신 당신의 제품을 선택할 만큼 좋은 제품을 만들 수 있을까?
유일한 답은 좁은 영역에 집중하는 것이다—정말로 좁아야 한다. 매우 구체적인 사례를 선택하고 탁월해져라. 스타트업의 기본 원칙—사람들이 원하는 것을 만드는 것—은 AI에서도 여전히 유효하지만, 기준이 높아졌다.
하지만 여기에 반전이 있다. 좁은 사용 사례에서 탁월한 경험을 제공하는 것은 종종 AI과 거의 관련이 없다. Granola에서는 노트 품질 향상에 끝없는 시간을 투자하지만, 원활한 회의 알림이나 뛰어난 에코 제거 기능(헤드폰 사용 여부와 관계없이 도구가 작동하도록)과 같은 기능에도 똑같이 많은 시간을 투자한다. AI를 둘러싼 “포장(wrapper)”는 종종 즐거운 경험과 실제 사용할 때 실망하는 멋진 데모와의 차이를 만든다.
좁은 영역에 집중하면 제품의 AI 기능을 개선하기도 쉬워진다. AI가 정확한 응답을 할 때면 마법 같지만, 오답을 내놓을 때 이상하고 당혹스러운 방식으로 틀리는 경우가 많다. 당신이 인간이 아닌 알고리즘과 대화하고 있다는 사실이 명백해진다. 불쾌한 골짜기에 빠지는 제품 경험은 사용자를 제품이 좋다고 느끼는 것과 멀어지게 만든다. 좁은 영역에 집중할 때, 가장 흔한 AI 실패 사례를 더 쉽게 파악하고, 이를 완화하거나 더 자연스럽게 실패하도록 만드는 것이 가능해진다.
기본 원칙은 동일하다
생성형 AI 분야에서 일하는 것은 전통적인 기술이 걷는 속도로 움직이는 동안 트레드밀에서 달리는 것과 같다. 이러한 속도는 당신이 다루는 기술 문제부터 규모에 도달하기 위한 일정까지 모든 것에 영향을 미친다. 이러한 가속화가 당신의 전략을 바꾸어야 하지만, 좋은 제품을 만드는 기본 원칙은 바뀌지 않는다. 사람들이 원하는 것을 만들어야 한다. 지름길은 없다. 여전히 세부 사항에 신경써야 하고, 가장 명확하게 만들어주는 질문은 여전히 놀라울 정도로 단순하다: 이 제품을 사용할 때 어떤 느낌인가?
공감이 많이 되는 글이네요. 잘읽었습니다!