AI 음성·음악 콘텐츠 만들기 — ElevenLabs·Suno 실전 가이드
유튜브 채널을 운영하고 싶은데 목소리 녹음이 부담스럽다고 느껴본 적 있으신가요? 팟캐스트를 시작하고 싶지만 전문 장비도, 스튜디오도 없다고 망설이셨나요? AI 음성·음악 도구가 이 모든 장벽을 허물고 있습니다. 스마트폰 하나와 무료 계정만으로도 전문가 수준의 나레이션과 배경음악을 만들 수 있는 시대가 됐습니다.
이 글에서는 한국 소상공인과 1인 콘텐츠 크리에이터가 실제로 바로 써먹을 수 있는 AI 음성·음악 제작 워크플로우를 단계별로 안내합니다.
왜 AI 음성·음악인가: 한국 크리에이터에게 실질적인 이유
한국 콘텐츠 시장은 그 어느 때보다 빠르게 성장하고 있습니다. 유튜브 쇼츠, 인스타그램 릴스, 네이버 블로그 영상 클립까지 — 텍스트만으로는 더 이상 경쟁이 어렵습니다. 문제는 음성과 음악입니다.
전문 성우를 고용하면 1분 나레이션에 5만 원에서 20만 원이 듭니다. 배경음악 라이선스는 연간 수십만 원. 하지만 AI 도구를 쓰면 이 비용이 월 몇 천 원 혹은 무료로 줄어듭니다. 더 중요한 건 속도입니다. 오늘 기획한 콘텐츠를 오늘 올릴 수 있습니다.
특히 소상공인 입장에서는 브랜드 목소리(Brand Voice)를 일관되게 유지하는 것도 중요한데, AI 음성은 매번 같은 톤과 속도로 콘텐츠를 만들어줍니다. 피곤한 날도, 감기 걸린 날도 상관없습니다.
ElevenLabs로 한국어 나레이션 만들기
ElevenLabs는 현재 AI 음성 합성 분야에서 가장 자연스러운 결과물을 내는 서비스입니다. 한국어 지원도 상당히 안정적으로 개선됐습니다.
무료 플랜 한계
- 월 10,000 크레딧 (약 10분 분량의 음성)
- 3개 커스텀 보이스 생성 가능
- 상업적 사용 불가 (무료 플랜)
- 워터마크 없음
유튜브 쇼츠(60초 이내)나 짧은 소셜 미디어 클립은 무료 플랜으로 충분히 커버됩니다.
단계별 사용법
1단계 — 회원가입 및 보이스 선택
elevenlabs.io에 접속해 구글 계정으로 가입합니다. 대시보드에서 Voice Library를 클릭하면 수백 개의 사전 제작 목소리를 찾을 수 있습니다. 한국어로 필터링하려면 검색창에 "Korean"을 입력하세요. Aria, Rachel 등의 영어 보이스도 한국어 텍스트를 입력하면 나름대로 읽어주지만, 한국어 특화 보이스를 쓰는 것이 훨씬 자연스럽습니다.
2단계 — 텍스트 입력
Speech Synthesis 메뉴로 이동해 텍스트를 입력합니다. 이때 몇 가지 팁이 있습니다.
- 숫자는 한글로 풀어 쓰세요: "3개" 대신 "세 개"
- 영어 단어는 한글 발음으로 써주면 더 자연스럽습니다: "AI" 대신 "에이아이"
- 문장 끝에 마침표를 꼭 넣으세요 — 억양이 달라집니다
예시 프롬프트 (유튜브 쇼츠 인트로):
안녕하세요, 오늘은 소상공인 여러분이 바로 써먹을 수 있는
에이아이 마케팅 꿀팁 세 가지를 알려드릴게요.
딱 일 분만 집중해 주세요!
3단계 — 스타일 조정
Stability(안정성)와 Similarity(유사도) 슬라이더를 조정합니다. 나레이션 목적이라면 Stability를 0.7 이상으로 높여야 일관된 발음이 나옵니다. 감정 표현이 필요한 콘텐츠라면 Stability를 낮추고 Exaggeration을 올리세요.
4단계 — 생성 및 다운로드
Generate 버튼을 누르면 수 초 내에 MP3 파일이 생성됩니다. 다운로드해서 영상 편집 툴에 바로 넣으면 됩니다.
내 목소리로 Voice Cloning 하기
유료 플랜(월 약 6달러)을 사용하면 자신의 목소리를 복제할 수 있습니다. 조용한 환경에서 1~2분 분량의 음성 샘플을 녹음해 업로드하면, 이후 텍스트를 입력할 때 내 목소리로 읽어줍니다. 목소리는 있지만 매번 녹음하기 귀찮은 분들에게 딱 맞는 기능입니다.
Suno AI로 배경음악 만들기
Suno는 텍스트 프롬프트만으로 완성된 음악을 생성하는 서비스입니다. 작곡 지식 없이도, 악기 하나 다룰 줄 몰라도 됩니다.
무료 플랜
- 하루 50 크레딧 (약 10곡 생성)
- 상업적 사용 불가
- 생성된 곡에 Suno 워터마크 없음 (오디오 파일 자체에는)
Suno에서 BGM 만드는 방법
suno.com에 접속해 가입 후, Create 버튼을 클릭합니다.
Custom Mode를 켜면 더 세밀한 제어가 가능합니다.
유튜브 Vlog용 BGM 프롬프트 예시:
Style: upbeat lo-fi hip hop, warm acoustic guitar, light drums
Mood: positive, motivational, Korean cafe vibes
Tempo: 90-100 BPM
Duration: 2 minutes
No vocals
팟캐스트 인트로/아웃트로용 프롬프트 예시:
Style: modern podcast intro, cinematic, clean piano
Mood: professional, trustworthy, calm
Duration: 15 seconds
Fade in and fade out
No lyrics
생성된 음악은 MP3로 다운로드할 수 있으며, 편집 없이 바로 사용 가능한 완성형 트랙입니다. 마음에 들지 않으면 같은 프롬프트로 다시 생성하면 됩니다 — 매번 다른 결과가 나옵니다.
주의할 점: 무료 플랜 생성 음악은 상업적 목적(광고, 판매 목적 콘텐츠)에 사용하면 안 됩니다. 수익화 채널이라면 월 약 10달러의 Pro 플랜을 권장합니다.
CapCut AI로 자막과 음성 효과 완성하기
ElevenLabs로 나레이션을 만들고 Suno로 BGM을 얻었다면, 이제 영상에 합치고 자막을 붙여야 합니다. CapCut의 AI 기능이 이 과정을 대폭 단축시킵니다.
핵심 AI 기능 3가지
자동 자막 (Auto Captions) 영상을 업로드하면 AI가 자동으로 음성을 인식해 자막을 생성합니다. 한국어 인식률이 매우 높으며, ElevenLabs로 생성한 명확한 발음의 나레이션은 거의 오류 없이 인식합니다. 생성된 자막은 폰트, 색상, 애니메이션을 바꿀 수 있습니다.
AI 보이스 (Text to Speech) CapCut 자체 TTS 기능도 있습니다. ElevenLabs만큼 자연스럽지는 않지만, 빠르게 테스트하거나 임시로 쓰기에는 충분합니다. 특히 쇼츠용 짧은 클립이라면 CapCut TTS만으로도 괜찮습니다.
소음 제거 (Noise Reduction) 직접 녹음한 음성이 있다면 AI 소음 제거 기능으로 배경 잡음을 제거하세요. 카페나 사무실에서 녹음한 음성도 스튜디오 수준으로 깔끔하게 정리됩니다.
실전 워크플로우: 유튜브 쇼츠 30분 완성
지금까지 배운 도구를 합쳐서, 실제로 유튜브 쇼츠 영상 하나를 30분 안에 만드는 워크플로우를 정리합니다.
준비물: 스마트폰 또는 PC, ElevenLabs·Suno·CapCut 무료 계정
1단계 (5분) — 스크립트 작성
ChatGPT나 Claude에게 60초 분량 쇼츠 스크립트를 부탁합니다.
프롬프트:
유튜브 쇼츠용 60초 스크립트를 써줘.
주제: 소상공인이 인스타그램 팔로워를 빠르게 늘리는 방법 3가지
톤: 친근하고 활기차게, 20-30대 타겟
각 팁은 한 문장으로 명확하게
마지막에 구독 유도 멘트 포함
2단계 (5분) — ElevenLabs 나레이션 생성
스크립트를 ElevenLabs에 붙여넣고 적합한 한국어 보이스를 선택합니다. Stability 0.7, Clarity 0.8로 설정하고 생성합니다. MP3로 다운로드.
3단계 (5분) — Suno BGM 생성
쇼츠 분위기에 맞는 BGM을 프롬프트로 요청합니다.
upbeat K-style pop background music, no vocals,
energetic and youthful, 60 seconds, suitable for social media
생성된 트랙 중 가장 잘 맞는 것을 MP3로 다운로드.
4단계 (10분) — CapCut에서 조립
- CapCut 앱 실행, 새 프로젝트 생성
- 이미지 또는 영상 클립 삽입 (Canva로 만든 슬라이드 이미지도 좋음)
- ElevenLabs 나레이션 MP3를 오디오 트랙에 추가
- Suno BGM을 두 번째 오디오 트랙에 추가, 볼륨을 나레이션의 20~30% 수준으로 낮춤
- Auto Captions 기능 실행 — 자동 자막 생성
- 자막 스타일 조정 (두꺼운 폰트, 노란색 또는 흰색 권장)
5단계 (5분) — 검토 및 내보내기
전체 영상을 한 번 재생하며 자막 오류를 수정합니다. 내보내기는 1080×1920(쇼츠 비율), 60fps로 설정합니다.
완성입니다. 처음에는 30분이 걸리지만, 익숙해지면 15분 안에 가능합니다.
비용 비교: 무료 vs 유료
| 구분 | 무료 플랜 | 유료 플랜 |
|---|---|---|
| ElevenLabs | 월 10,000 크레딧 (~10분) / 상업 사용 불가 | 월 $5~$22 / 상업 사용 가능 / Voice Cloning |
| Suno | 하루 50 크레딧 (~10곡) / 비상업용 | 월 $10~$30 / 상업 사용 가능 / 무제한 생성 |
| CapCut | 대부분 기능 무료 / 워터마크 옵션 | 월 약 $8 / 고급 AI 기능 / 4K 내보내기 |
| 월 총비용 | 0원 (비상업용) | 약 2~5만 원 (상업용 풀세트) |
수익화 채널이라면 ElevenLabs Starter($5)와 Suno Pro($10), 총 약 2만 원으로 시작하는 것을 권장합니다. CapCut은 무료로도 충분합니다.
마치며
AI 음성과 음악 도구는 더 이상 얼리어답터만의 전유물이 아닙니다. 유튜브 쇼츠 하나를 만드는 데 성우도, 작곡가도, 전문 장비도 필요 없어졌습니다. ElevenLabs로 나레이션을 만들고, Suno로 배경음악을 뽑고, CapCut으로 자막까지 붙이면 — 오늘 기획한 콘텐츠를 오늘 올릴 수 있습니다.
처음에는 어색하게 느껴질 수 있습니다. 하지만 두세 번만 해보면 감이 생깁니다. 완벽한 콘텐츠를 기다리기보다 지금 당장 시작하는 것이 훨씬 중요합니다. 여러분의 첫 AI 음성 콘텐츠, 오늘 만들어 보세요.