생성은 빨라졌는데 검토는 더 길어졌다. AI를 도입한 뒤 팀마다 겪고 있는 리뷰 병목의 역설, 그리고 그 비대칭이 "품질"이라는 말에 대해 알려주는 것.
AI가 들어오고 나서,
초안은 몇 배 빠르게 만들어진다.
그런데 리뷰 시간은 — 줄지 않았다.
기획서 초안을 만드는 데 하루 걸리던 일이 두 시간으로 줄었다. 코드 뼈대를 잡는 데 반나절 걸리던 일이 한 시간이 됐다. 이 정도면 팀 전체의 속도가 눈에 띄게 빨라져야 한다.
그런데 실제로 일이 끝나는 시간은 어떤가. 많은 팀이 비슷한 느낌을 받았다고 한다. 초안은 금방 나왔는데, 마무리까지 걸리는 시간은 이전과 크게 다르지 않다. 어떤 팀에서는 오히려 더 길어졌다고도 했다.
이것이 이번 호의 출발점이다. AI 초안 생성의 속도와 리뷰 완료까지의 속도 사이에는 눈에 띄는 비대칭이 생겼다. 그 비대칭은 왜 생겼을까. 그리고 그 비대칭이 "품질을 지킨다"는 말의 의미에 대해 무엇을 알려주는가.
초안을 빠르게 만드는 것과 — 그 초안이 "맞다"고 확인하는 것은 다른 종류의 일이다. AI는 전자를 빠르게 해줬지만, 후자를 빠르게 해주지는 않았다.
생성과 검토는 대칭적인 작업처럼 보이지만, 실제로는 전혀 다른 인지 작업이다. 생성은 가능성의 공간에서 하나를 뽑아내는 것이고, 검토는 그 결과물이 제약 조건(맥락, 정합성, 팀 기준, 사용자 입장)을 만족하는지 전체를 훑는 것이다. AI는 전자를 빠르게 해줬다. 후자는 여전히 사람이 한다.
기획 문서 초안, 코드 뼈대, 테스트 케이스 목록, UI 카피까지 — AI가 들어온 뒤 초안을 만드는 시간은 눈에 띄게 줄었다. 같은 시간에 더 많은 산출물이 나온다.
리뷰어가 확인해야 할 범위는 줄지 않았다. 오히려 초안이 많아질수록 검토 대기열도 길어진다. 리뷰어 한 명이 처리할 수 있는 양에는 한계가 있다.
AI 도입 이전에는 초안 하나를 만드는 데 시간이 걸렸다. 그 시간이 자연스럽게 리뷰 속도와 균형을 맞춰줬다. 이제 초안은 하루에 여러 개씩 나온다. 리뷰어는 늘지 않았다.
결과적으로 리뷰 대기열이 쌓인다. 기다리는 시간이 길어지고, 리뷰어는 빠르게 처리하려다 놓치는 부분이 생기고, 다시 검토하는 루프가 반복된다. 병목은 생성 단계가 아니라 검토 단계로 옮겨갔을 뿐이다.
AI가 생성한 문서는 형식이 잘 갖춰져 있고, 문장이 자연스럽고, 논리 구조도 있다. 겉으로 보면 완성도가 높다. 그래서 리뷰어는 더 꼼꼼하게 봐야 한다.
사람이 쓴 초안은 어색한 부분이 눈에 띄어서 "이 부분이 약하다"는 판단이 빠르다. AI가 쓴 초안은 표면이 매끄러워서 실제 내용의 빈 곳을 찾으려면 더 깊이 읽어야 한다. 전에는 눈에 들어오던 신호들이 줄었다. 리뷰어의 집중 시간이 더 필요해졌다.
AI 이전에 리뷰어는 작성자가 뭔가를 잘못 이해했거나 빠뜨린 부분을 찾는 것이 주된 일이었다. 이제는 AI가 자신 있게 제시한 방향이 실제 맥락과 맞는지를 판단하는 것이 주된 일이 됐다.
이건 다른 종류의 집중력이다. 틀린 곳을 찾는 것과, 맞는 것처럼 보이지만 실제로 맞지 않는 곳을 찾는 것은 다르다. 그런데 리뷰 방식, 리뷰 체크리스트, 리뷰에 주어지는 시간은 크게 바뀌지 않은 경우가 많다. 도구는 달라졌는데 기준은 그대로다.
AI 도입 전 품질 기준은 주로 이런 것이었다. 사실이 맞는가, 기준 양식을 따랐는가, 논리에 구멍이 없는가. 리뷰어가 확인해야 할 체크리스트가 비교적 명확했다.
지금은 체크리스트에 없는 것들이 중요해졌다. AI가 생성한 내용이 팀의 실제 방향성과 맞는가, 지금 맥락에서 적절한 수준의 깊이인가, 우리 팀이 실제로 이 방식을 취하는가. 이것들은 문서를 읽는 것만으로는 판단하기 어렵다. 맥락을 많이 아는 사람이 확인해야 한다. 그 사람은 대개 한 명이고, 그 한 명에게 부하가 집중된다.
이 역설이 우리 팀에도 일어나고 있는지, 일어나고 있다면 어디에서 오는지를 이야기해보자. 아래 질문들은 답을 찾기 위한 것이 아니라, 우리 팀의 리뷰 방식을 함께 들여다보기 위한 출발점이다.
리뷰 요청 후 첫 피드백까지의 시간, 피드백 반영 후 최종 승인까지의 시간 — 어디에서 대기가 생기는가? 그 이유는 리뷰어의 여유, 기준의 불명확함, 산출물의 양 중 무엇에 가까운가?
사람이 쓴 초안과 AI가 쓴 초안을 같은 방식으로 리뷰하고 있는가? 만약 달라야 한다면, 무엇이 어떻게 달라야 하는가?
"좋은 리뷰"란 무엇인지, 리뷰어마다 다르게 이해하고 있지는 않은가? 체크리스트가 있다면 지금도 유효한가? 없다면, 지금 가장 필요한 기준은 무엇인가?
지금 리뷰 병목이 특정 사람에게 집중되고 있는가? 리뷰 역할을 나누거나, 리뷰의 범위를 명확히 하거나, 리뷰 단계 자체를 줄이는 방법이 있는가?
초안을 덜 만들고, 리뷰할 수 있는 양만 만드는 것이 실제로 더 빠른 결과로 이어지는가? 아니면 그게 말이 되는 팀이 따로 있는가? 우리 팀에서 이 선택이 가능한 조건은 무엇인가?
리뷰가 길어진 것은
팀이 느려진 게 아니다.
검토해야 할 것이 달라진 것이다.
속도의 병목이 생성 단계에서 검토 단계로 옮겨간 것은, 검토가 더 중요해졌다는 신호이기도 하다. 어떤 팀은 그 신호를 읽고 리뷰 방식을 바꿨고, 어떤 팀은 아직 이전 방식 그대로다.