카테고리 없음

#029 대기업 임부장의 AI 이야기

shonelim 2026. 3. 31. 02:41
대기업 임부장의 AI 이야기 #029

AI로 유튜브 역사 채널을 만들어보았다

'임단장의 5분 유럽사' EP.01 제작기 — 하루 만에 벌어진 일들

AI로 완성한 50대 문과 아재의 역사 채널 도전기

서양사를 전공하고, 대기업에서 30년 가까이 일하면서, 언젠가 역사 이야기를 콘텐츠로 만들어보고 싶다는 생각을 했습니다. 유튜브에 역사 채널은 이미 넘쳐나지만, "대기업 임원이 AI를 활용해서 만든 유럽사"라면 좀 다르지 않을까?

그래서 시작했습니다. AI 도구만으로 유튜브 영상 하나를 처음부터 끝까지 만들어보기로.

결론부터 말하면, 해냈습니다. 하지만 쉽지 않았습니다.

임단장의 5분 유럽사 EP.01 — "유럽 문명은 어디서 시작됐을까?"

50대 문과 임원의 현실적 딜레마

50대 문과 임원의 현실적 딜레마 - 자산과 부채

저에게는 가진 것과 없는 것이 극명하게 갈렸습니다.

가진 것이라곤 대학에서 배운 서양사 지식, 30년 넘는 직장 생활에서 쌓은 스토리텔링 구성력, 그리고 묵혀두었던 지식을 콘텐츠로 만들고 싶다는 열정뿐이었습니다.

반면 없는 것은 너무나 많았습니다. 코딩 실력 0, 디자인 실력 0, 영상 편집 경험 0. 그리고 가장 부족한 것 — 절대적인 시간. 대기업 현업 단장의 일상은, 퇴근하면 이미 전투가 끝난 병사 같거든요.

켄타우로스 전략: 완벽한 동료를 만나다

켄타우로스 전략 - Domain Knowledge와 AI Execution의 결합

혼자서는 불가능한 작업이었습니다. 하지만 AI와 역할을 분담하면 이야기가 달라집니다.

저는 방향과 결정을 맡았습니다. 서양사 도메인 지식을 제공하고, "유쾌한 교육용 영상"이라는 비전을 제시하고, 캐릭터 목소리를 선택하고, 미묘한 톤을 결정하고, "완벽보다 완성"을 위한 최종 컷오프 의사결정을 내렸습니다.

AI는 생성과 실행을 맡았습니다. 아이디어를 방송용 시나리오 구조로 변환하고, 텍스트를 시각적 이미지로 구현하고, 음성을 합성하고, 스크립트를 통해 물리적 영상 파일을 자동 렌더링하고, 문제가 생기면 우회로를 제안했습니다.

이것이 제가 말하는 켄타우로스형 협업입니다. 인간의 도메인 지식과 AI의 실행력이 만났을 때, 혼자서는 절대 할 수 없던 일이 가능해집니다.

방구석 크리에이터를 위한 코딩 제로 파이프라인

6단계 코딩 제로 파이프라인

EP.01 영상을 완성하기까지 거친 6단계 파이프라인입니다. 이 과정에서 제가 직접 작성한 코드는 정확히 0줄입니다.

Step 1. 기획 & 대본 — Claude

Claude에게 시리즈 구조를 잡아달라고 했습니다. 고대 그리스부터 중세까지 22편, 에피소드당 7~10분, 주 1회 업로드. 참고 채널로 OverSimplified, Historia Civilis 같은 해외 역사 채널의 톤을 벤치마킹했습니다.

EP.01 "유럽 문명은 어디서 시작됐을까?"의 시나리오도 Claude가 써줬습니다. 미노아 문명에서 시작해서 미케네, 청동기 붕괴, 폴리스, 민주주의까지. 7~8분 분량의 내레이션과 함께 이미지 13장의 프롬프트까지 출력됐습니다.

"브래드 피트가 창을 들고 뛰어다니던 그 영화 기억나시죠?" — EP.01 오프닝 훅

여기까지는 좋았습니다. 정말 좋았습니다.

Step 2. 시각화 — NotebookLM + Nanobanana

NotebookLM에 시나리오를 업로드하고, "크래프트지 배경, 세피아 톤, 손글씨 노트 느낌"으로 맞춤설정 프롬프트를 넣었더니 꽤 괜찮은 메인 슬라이드 16장이 나왔습니다. 하지만 16장으로는 7~8분 영상에 부족했습니다. 슬라이드 하나당 30초씩이면 시청자가 도망갑니다.

추가 25장은 Nanobanana로 만들기로 했는데... 여기서 문제가 시작됐습니다.

Step 3. 오디오 — TypeCast

AI 음성 합성 서비스 TypeCast로 '미스타 변사' 캐릭터의 내레이션을 생성했습니다. 감정과 속도를 파트별로 세밀하게 튜닝했습니다.

Step 4. 자동 합성 — Claude + ffmpeg

이미지 41장과 음성 MP3를 Claude Cowork에게 넘기면, ffmpeg 스크립트를 자동으로 작성하고 실행해서 1920x1080 30fps 영상을 렌더링합니다. 디졸브 전환, Ken Burns 줌 효과까지 자동 적용.

Step 5. 후반 작업 — CapCut

BGM, 자막, 효과음 등 인간의 감각이 필요한 영역만 터치.

Step 6. 발행 — YouTube

그리고 떨리는 마음으로 업로드 버튼을 눌렀습니다.

첫 번째 시련: 이미지 생성의 함정과 우회로

이미지 생성의 함정 - 레퍼런스 과몰입과 미성년자 필터

문제 1. 레퍼런스의 과몰입

NotebookLM 슬라이드와 톤앤매너를 맞추기 위해, 기존 슬라이드 중 slide-03(슐리만 발굴 장면)을 레퍼런스 이미지로 업로드하고 프롬프트를 넣었습니다. 이게 실수였습니다.

레퍼런스를 너무 강하게 걸어버린 탓에, 추가 25장이 전부 slide-03과 비슷한 느낌으로 나와버렸습니다. 지도를 만들어달라고 해도 슐리만 발굴 장면 같은 지도가 나오고, 유머 이미지를 만들어달라고 해도 슐리만 발굴 장면 같은 유머가 나왔습니다.

25장을 다시 만들 수도 있었습니다. 하지만 그랬으면 영상은 영원히 완성되지 않았을 것입니다.

문제 2. 미성년자 보호 필터의 벽

스파르타 교육(아고게) 장면을 만들려고 "Young Spartan boys training" 프롬프트를 넣었더니, 미성년자 관련 콘텐츠로 분류되어 생성이 거부됐습니다. 고대 역사 교육 콘텐츠인데!

결국 사람을 직접 묘사하는 대신 아이콘(책과 두루마리 vs 칼과 방패)을 활용하여 은유적으로 표현했습니다. 오히려 원래 아이디어보다 시각적으로 더 명확해졌습니다.

Insight: 완벽한 0%보다 괜찮은 80%가 낫다. 막히면 돌아가라.

"쳐지는 느낌"을 잡아라: 오디오 최적화의 비밀

오디오 최적화 - 속도 게이지 1.15x가 최적

캐릭터 선정의 여정

TypeCast에서 음성 캐릭터를 고르는 것도 쉽지 않았습니다. 차분한 다큐 톤의 공철, 에너지 넘치는 진우, 감미로운 DJ 스타일의 이도, 유쾌한 변사 톤의 미스타 변사, 코믹 전문 봉규... 처음에는 진우로 결정했다가, "변사가 들려주는 유럽사"라는 콘셉트가 너무 마음에 들어서 미스타 변사로 최종 변경했습니다.

감정 조절을 위해 프로 플랜(월 ~3만 원)으로 업그레이드했습니다. 어차피 시리즈를 지속할 거라면 투자라고 생각했습니다.

속도가 모든 것을 바꿨다

프로 플랜의 감정 옵션(A/B/C/D) 차이는 솔직히 미묘했습니다. 설정을 바꿔도 체감 차이가 크지 않았습니다. 진짜 차이를 만드는 건 '속도와 피치(Pitch)'의 조절이었습니다.

기본 속도 1.0x는 오디오북에는 맞지만, 유튜브에서는 지루하고 느립니다. 1.15x를 기본 텐션으로 잡았더니 시청자 이탈을 막는 핵심 속도가 됐습니다. 미스터리 파트(문명의 붕괴, 암흑기)만 1.05x로 내려 긴장감을 조성하고, 오프닝과 유머 포인트는 1.2x로 에너지를 부여했습니다.

TTS 속도 팁: 유튜브용 TTS는 기본 1.0x가 아닌 1.15x부터 시작하세요. 이건 직접 들어봐야 아는 것입니다.

최대의 위기: 수작업 편집의 늪

수작업 편집의 늪 - CapCut으로 41장을 하나하나 설정하는 현실

이미지 41장과 음성 MP3가 준비됐습니다. 이제 합치기만 하면 됩니다. 간단해 보였습니다.

처음 계획은 CapCut을 열고 이미지 41장과 TypeCast 음성을 하나하나 마우스로 드래그해서 맞추는 것이었습니다. Claude가 만들어준 CapCut 가이드는 정말 상세했습니다. 41장 각각의 예상 시작 시간, 줌 방향, 전환 효과까지 다 지정되어 있었습니다.

하지만 부딪힌 현실은 냉혹했습니다. 이미지 전환 타이밍을 0.1초 단위로 맞추는 건 상상 이상의 중노동이었고, 디졸브 효과와 Ken Burns 줌을 41장에 일일이 적용하다 보니 체력과 의지가 고갈됐습니다.

결론: 이 방식으로는 절대 총 22편의 시즌 1을 완주할 수 없다. "노가다를 배제할 방법을 찾아야 한다."

코딩 0줄로 이뤄낸 자동화의 기적

코딩 0줄로 이뤄낸 자동화 - Claude가 ffmpeg 스크립트를 자동 작성

방향을 완전히 바꿨습니다. Claude에게 지시하여 이미지와 음성을 자동 병합하는 ffmpeg 스크립트를 작성하게 했습니다.

41장의 이미지와 1개의 오디오 트랙을 넣으면, Claude가 ffmpeg 스크립트를 자동으로 생성하고 실행해서 EP01_FINAL.mp4가 나옵니다. 1920x1080, 30fps, H.264+AAC. 0.5초 크로스 디졸브 전환과 Ken Burns 줌인/줌아웃까지 자동 적용.

인간이 한 일: 프롬프트 입력. 직접 짠 코드: 0줄.

수시간의 노가다가 클릭 한 번, 단 몇 분의 렌더링으로 압축됐습니다. 인간은 최종 BGM과 자막만 얹으면 끝입니다.

프로젝트 회고: 켄타우로스 작업 지분도

켄타우로스 작업 지분도 - 인간의 영역과 AI의 영역

돌아보면, 이 프로젝트에서 인간과 AI의 역할 분담이 명확했습니다.

인간(임단장)의 영역 — 방향과 결정. 서양사 도메인 지식 및 스토리 뼈대 제공. "유쾌한 교육용 영상"이라는 비전 제시. 캐릭터 목소리 선택 및 미묘한 톤 결정. "완벽보다 완성"을 위한 최종 컷오프 의사결정.

AI(Claude, TypeCast 등)의 영역 — 생성과 실행. 아이디어를 방송용 시나리오 구조로 변환. 텍스트를 시각적 이미지로 구현(16+25장). 텍스트를 자연스러운 음성으로 합성. 스크립트(ffmpeg)를 통한 물리적 영상 파일 자동 렌더링 및 문제 해결(우회로 제안).

시행착오가 남긴 3가지 황금 레슨

시행착오가 남긴 3가지 황금 레슨

1. 완벽한 0%보다 괜찮은 80%가 낫다

이미지 25장 재생성의 늪에 빠지지 마세요. 레퍼런스는 양날의 검입니다. 약간의 결함이 있어도 일단 전진하세요.

2. 노가다 대신 자동화를 고민하라

단순 반복 작업(수작업 편집)에 부딪혔다면, 당신이 틀린 것입니다. AI에게 스크립트(ffmpeg) 작성을 요구해 돌파구를 찾으세요.

3. AI는 도구가 아니라 '동료'다

필터를 우회하는 방법, 복잡한 가이드라인 작성, 에러 디버깅까지. Claude는 단순한 검색기가 아니라 문제 해결을 함께 고민하는 코워커(Co-worker)입니다.

사용한 AI 도구 총정리

도구 역할 비용
Claude 기획, 시나리오, 프롬프트, 가이드, 문제 해결 구독 중
NotebookLM 메인 슬라이드 16장 생성 무료
Nanobanana 추가 이미지 25장 생성 무료
TypeCast TTS 음성 (미스타 변사) 프로 월 ~3만 원
Claude Cowork + ffmpeg 이미지+음성 → MP4 자동 합성 구독 중
CapCut BGM, 자막, 효과음 마무리 무료
총 투자: TypeCast 프로 플랜 월 3만 원 + 하루의 시간과 에너지

앞으로의 항해: 시즌 1 로드맵

시즌 1 로드맵 - 고대 그리스부터 중세까지 22편

EP.01은 시작일 뿐입니다. 시즌 1은 고대 그리스부터 중세까지, 총 22편의 장대한 서사 제작을 목표로 합니다.

매 편마다 프롬프트 정교화를 통한 이미지/음성 완성도를 향상시킬 것입니다. 최종 목표는 TTS 음성을 넘어서, AI 보이스 클로닝을 통한 본인 목소리(부산 사투리) 적용까지 검토하고 있습니다. 그리고 유튜브 영상과 연계된 AI 활용법 블로그도 동시 연재합니다.

Next Episode
EP.02 "아테네 vs 스파르타 — 완전히 다른 두 도시는 왜 싸웠을까?"

토론의 도시 아테네와 훈련의 도시 스파르타. 그리고 페르시아라는 거대한 적이 다가옵니다.

결론: 일단 시작하십시오

"첫 작품은 부끄러워도 됩니다.
중요한 건 기술적 장벽을 넘어 시작했다는 것,
그리고 다음 편이 우리를 기다리고 있다는 것입니다."


당신의 서랍 속에 잠들어 있는 아이디어는 무엇입니까?
지금 당장 AI 동료를 깨워 당신만의 이야기를 렌더링하십시오.

#임단장의5분유럽사 #AI유튜브 #유튜브첫영상 #AI영상제작 #문과출신AI #50대유튜버 #서양사 #그리스역사 #미노아문명 #트로이전쟁 #클로드 #Claude #NotebookLM #TypeCast #Nanobanana #CapCut #ffmpeg #AI실전활용 #프롬프트엔지니어링 #켄타우로스 #코딩제로 #대기업임부장의AI이야기