리뷰는 왜 이렇게 길어졌는가

The Paradox · 역설

AI가 들어오고 나서,
초안은 몇 배 빠르게 만들어진다.
그런데 리뷰 시간은 — 줄지 않았다.

기획서 초안을 만드는 데 하루 걸리던 일이 두 시간으로 줄었다. 코드 뼈대를 잡는 데 반나절 걸리던 일이 한 시간이 됐다. 이 정도면 팀 전체의 속도가 눈에 띄게 빨라져야 한다.

그런데 실제로 일이 끝나는 시간은 어떤가. 많은 팀이 비슷한 느낌을 받았다고 한다. 초안은 금방 나왔는데, 마무리까지 걸리는 시간은 이전과 크게 다르지 않다. 어떤 팀에서는 오히려 더 길어졌다고도 했다.

이것이 이번 호의 출발점이다. AI 초안 생성의 속도와 리뷰 완료까지의 속도 사이에는 눈에 띄는 비대칭이 생겼다. 그 비대칭은 왜 생겼을까. 그리고 그 비대칭이 "품질을 지킨다"는 말의 의미에 대해 무엇을 알려주는가.

초안을 빠르게 만드는 것과 — 그 초안이 "맞다"고 확인하는 것은 다른 종류의 일이다. AI는 전자를 빠르게 해줬지만, 후자를 빠르게 해주지는 않았다.

생성과 검토는 대칭적인 작업처럼 보이지만, 실제로는 전혀 다른 인지 작업이다. 생성은 가능성의 공간에서 하나를 뽑아내는 것이고, 검토는 그 결과물이 제약 조건(맥락, 정합성, 팀 기준, 사용자 입장)을 만족하는지 전체를 훑는 것이다. AI는 전자를 빠르게 해줬다. 후자는 여전히 사람이 한다.

The Gap · 속도 비대칭

생성 속도는 뛰었다.
검토 속도는 걷는다.

Before → After · 생성

↑

초안 생성 속도 — 크게 빨라짐

기획 문서 초안, 코드 뼈대, 테스트 케이스 목록, UI 카피까지 — AI가 들어온 뒤 초안을 만드는 시간은 눈에 띄게 줄었다. 같은 시간에 더 많은 산출물이 나온다.

≠

Before → After · 검토

→

리뷰 완료 속도 — 거의 변화 없거나 오히려 늘어남

리뷰어가 확인해야 할 범위는 줄지 않았다. 오히려 초안이 많아질수록 검토 대기열도 길어진다. 리뷰어 한 명이 처리할 수 있는 양에는 한계가 있다.

Breakdown · 왜 이렇게 됐는가

리뷰가 길어진
네 가지 이유.

초안이 많아지면 — 리뷰 대기열도 늘어난다

AI 도입 이전에는 초안 하나를 만드는 데 시간이 걸렸다. 그 시간이 자연스럽게 리뷰 속도와 균형을 맞춰줬다. 이제 초안은 하루에 여러 개씩 나온다. 리뷰어는 늘지 않았다.

결과적으로 리뷰 대기열이 쌓인다. 기다리는 시간이 길어지고, 리뷰어는 빠르게 처리하려다 놓치는 부분이 생기고, 다시 검토하는 루프가 반복된다. 병목은 생성 단계가 아니라 검토 단계로 옮겨갔을 뿐이다.

파이프라인의 속도는 가장 느린 단계의 속도로 결정된다. 생성 단계만 빨라지면, 병목은 검토 단계로 이동한다.

"그럴듯하다"와 "맞다"의 간격이 좁아 보인다

AI가 생성한 문서는 형식이 잘 갖춰져 있고, 문장이 자연스럽고, 논리 구조도 있다. 겉으로 보면 완성도가 높다. 그래서 리뷰어는 더 꼼꼼하게 봐야 한다.

사람이 쓴 초안은 어색한 부분이 눈에 띄어서 "이 부분이 약하다"는 판단이 빠르다. AI가 쓴 초안은 표면이 매끄러워서 실제 내용의 빈 곳을 찾으려면 더 깊이 읽어야 한다. 전에는 눈에 들어오던 신호들이 줄었다. 리뷰어의 집중 시간이 더 필요해졌다.

"잘 써진 초안"은 리뷰하기 쉬운 초안이 아니다. 오히려 더 꼼꼼하게 읽어야 하는 초안일 수 있다.

리뷰어의 역할이 달라졌는데 — 방식은 그대로다

AI 이전에 리뷰어는 작성자가 뭔가를 잘못 이해했거나 빠뜨린 부분을 찾는 것이 주된 일이었다. 이제는 AI가 자신 있게 제시한 방향이 실제 맥락과 맞는지를 판단하는 것이 주된 일이 됐다.

이건 다른 종류의 집중력이다. 틀린 곳을 찾는 것과, 맞는 것처럼 보이지만 실제로 맞지 않는 곳을 찾는 것은 다르다. 그런데 리뷰 방식, 리뷰 체크리스트, 리뷰에 주어지는 시간은 크게 바뀌지 않은 경우가 많다. 도구는 달라졌는데 기준은 그대로다.

AI가 바꾼 것은 초안의 형태만이 아니다. 리뷰어에게 필요한 판단의 종류도 바꿨다.

"품질"이라는 기준이 더 어려워졌다

AI 도입 전 품질 기준은 주로 이런 것이었다. 사실이 맞는가, 기준 양식을 따랐는가, 논리에 구멍이 없는가. 리뷰어가 확인해야 할 체크리스트가 비교적 명확했다.

지금은 체크리스트에 없는 것들이 중요해졌다. AI가 생성한 내용이 팀의 실제 방향성과 맞는가, 지금 맥락에서 적절한 수준의 깊이인가, 우리 팀이 실제로 이 방식을 취하는가. 이것들은 문서를 읽는 것만으로는 판단하기 어렵다. 맥락을 많이 아는 사람이 확인해야 한다. 그 사람은 대개 한 명이고, 그 한 명에게 부하가 집중된다.

AI 시대의 품질은 "틀리지 않음"이 아니라 "맥락에 맞음"으로 이동하고 있다. 그 판단은 자동화가 어렵다.

함께 이야기해볼 것

그래서 — "우리 팀은"?

이 역설이 우리 팀에도 일어나고 있는지, 일어나고 있다면 어디에서 오는지를 이야기해보자. 아래 질문들은 답을 찾기 위한 것이 아니라, 우리 팀의 리뷰 방식을 함께 들여다보기 위한 출발점이다.

우리 팀에서 리뷰가 가장 오래 걸리는 단계는 어디인가?

리뷰 요청 후 첫 피드백까지의 시간, 피드백 반영 후 최종 승인까지의 시간 — 어디에서 대기가 생기는가? 그 이유는 리뷰어의 여유, 기준의 불명확함, 산출물의 양 중 무엇에 가까운가?

AI가 만든 초안을 리뷰하는 방식이 이전과 달라졌는가?

사람이 쓴 초안과 AI가 쓴 초안을 같은 방식으로 리뷰하고 있는가? 만약 달라야 한다면, 무엇이 어떻게 달라야 하는가?

우리 팀의 품질 기준은 명시적으로 정해져 있는가?

"좋은 리뷰"란 무엇인지, 리뷰어마다 다르게 이해하고 있지는 않은가? 체크리스트가 있다면 지금도 유효한가? 없다면, 지금 가장 필요한 기준은 무엇인가?

리뷰어의 부하를 분산하는 방법이 있는가?

지금 리뷰 병목이 특정 사람에게 집중되고 있는가? 리뷰 역할을 나누거나, 리뷰의 범위를 명확히 하거나, 리뷰 단계 자체를 줄이는 방법이 있는가?

생성 속도를 늦추는 것이 — 팀 전체 속도를 높이는 방법일 수 있는가?

초안을 덜 만들고, 리뷰할 수 있는 양만 만드는 것이 실제로 더 빠른 결과로 이어지는가? 아니면 그게 말이 되는 팀이 따로 있는가? 우리 팀에서 이 선택이 가능한 조건은 무엇인가?

생성 속도는 뛰었다.검토 속도는 걷는다.

초안 생성 속도 — 크게 빨라짐

리뷰 완료 속도 — 거의 변화 없거나 오히려 늘어남

리뷰가 길어진네 가지 이유.

초안이 많아지면 — 리뷰 대기열도 늘어난다

"그럴듯하다"와 "맞다"의 간격이 좁아 보인다

리뷰어의 역할이 달라졌는데 — 방식은 그대로다

"품질"이라는 기준이 더 어려워졌다

그래서 — "우리 팀은"?

우리 팀에서 리뷰가 가장 오래 걸리는 단계는 어디인가?

AI가 만든 초안을 리뷰하는 방식이 이전과 달라졌는가?

우리 팀의 품질 기준은 명시적으로 정해져 있는가?

리뷰어의 부하를 분산하는 방법이 있는가?

생성 속도를 늦추는 것이 — 팀 전체 속도를 높이는 방법일 수 있는가?

리뷰는 왜
이렇게 길어졌는가

생성 속도는 뛰었다.
검토 속도는 걷는다.

리뷰가 길어진
네 가지 이유.