ガイドMP3ショート動画字幕音声動画化縦型動画

MP3・音声ファイルから字幕付き縦型ショート動画を作る方法

MP3・WAV・M4Aの音声ファイルをアップロードするだけで、AIが文字起こし・見どころ抽出・ビジュアル生成・字幕付与・縦型書き出しの5ステップを自動実行します。映像素材ゼロでもTikTok・YouTube Shortsに投稿できる9:16縦型動画の作り方を詳しく解説します。

2026-06-30Faceless.fm Team

音声ファイル（MP3・WAV・M4A）をアップロードするだけで、AIが文字起こし→見どころ抽出→ビジュアル生成→字幕付与→縦型書き出しの5ステップを自動化し、映像素材ゼロで9:16のショート動画が完成します。

要点（TL;DR）

映像素材不要。音声だけからAI生成ビジュアル＋字幕付き縦型動画を作れる
全5ステップ：アップロード→分析→ビジュアル生成→字幕設定→書き出し
10分音声なら合計5〜10分で完了
字幕はTop/Bottom配置を選べ、SNSのUIとの重複を避けられる
無料プランで月50クレジット（約5エピソード分）から試せる

なぜ映像なしでも動画ができるのか

faceless.fmは音声をテキストに変換したあと、そのテキスト内容をAIが解析してビジュアル画像を自動生成します。カメラも照明も不要で、「顔出しなし（ファセレス）」のまま縦型動画が完成する仕組みです。ビジュアルはスケッチノート・シネマティック・フラットグラフィックの3スタイルから選択でき、デザインスキルや映像編集の知識がなくても見映えのある動画を作れます。

ファセレス動画とは何かを詳しく知りたい方はこちら

対応フォーマットと事前準備

フォーマット	特徴	典型的な用途
MP3	最も汎用的	配信済みポッドキャスト音声
WAV	無圧縮・高音質	収録直後のマスター音源
M4A	Apple製品との親和性が高い	GarageBand / Apple Podcasts書き出し

ファイルサイズ上限：50MB（128kbps MP3 換算で約50〜55分相当）。それを超える場合はDAWや音声編集ソフトで対象箇所だけを書き出してください。

音質チェックリスト（アップロード前）：

背景ノイズが著しく大きくないか（文字起こし精度に影響）
音量が適切か（極端に小さいと認識精度が下がる）
ステレオ・モノラルは問わない

ステップ1：プロジェクトを作成して音声をアップロードする

faceless.fmにログイン後、ダッシュボードから「新しいプロジェクト」を作成します（例：番組名）。プロジェクト内で「エピソードを追加」をクリックし、音声ファイルをドラッグ＆ドロップまたはファイル選択でアップロードします。

アップロード完了後、自動的に文字起こし（STT）処理が始まります。

所要時間の目安： ファイルのアップロード自体は数秒〜1分。文字起こしは音声10分あたり約1〜2分。

よくある失敗：プロジェクトを作成せずにエピソードを登録しようとするケース。エピソードは必ずプロジェクトの下に紐付く形で登録します。プロジェクトが先に必要です。

ステップ2：AIに見どころを分析させる

文字起こしが完了したら「分析する」を実行します。AIがトランスクリプト全体を読み取り、SNS映えしやすい見どころ候補を最大5件提案します。各候補には次の情報が付きます。

開始・終了の時刻
選定理由（「驚きのデータが含まれている」「強いフックで始まる」など）
推奨するビジュアルスタイル

候補の中から1件を選択するか、自分でトランスクリプトを見ながら時刻を指定することも可能です。

所要時間の目安： 分析完了まで約1〜2分。

どの箇所を選ぶかで再生数が大きく変わります。選定のコツについてはポッドキャストの「切り抜き箇所」の選び方を参照してください。

ステップ3：ビジュアルスタイルを選んでAI画像を生成する

見どころ区間を確定したら「ビジュアル生成」を実行します。以下の3スタイルから内容に合うものを選びましょう。

スタイル	向いているコンテンツ	雰囲気
スケッチノート	教育・解説・まとめ	手書きイラスト風
シネマティック	ストーリー・旅・体験談	映画スチール風
フラットグラフィック	ビジネス・テック・データ	シンプル＆モダン

生成時間： 1枚あたり30〜60秒（レート制限回避のため画像間に5秒の間隔を設けています）。複数枚生成される場合は合計で数分かかります。

気に入らない画像は個別に再生成できます。また、過去に生成した別エピソードの画像を流用することも可能です。

よくある失敗：スタイルを選ばずに生成するとデフォルトのスタイルが適用され、内容と雰囲気が合わないことがあります。コンテンツのトーンに合わせてスタイルを選んでから生成してください。

ステップ4：字幕の位置とスタイルを設定する

ビジュアルが揃ったら動画生成ページへ進みます。字幕は音声の文字起こし結果から自動生成されるため、追加入力は不要です。設定できる主な項目：

字幕位置：Top（上部） / Bottom（下部）

投稿先	推奨位置	理由
TikTok	Top	下部に「いいね・コメント・シェア」UIが集中する
YouTube Shorts	Bottom	右側UIが主で下部は比較的余白がある
Instagram Reels	Top	下部に説明文・ハートボタンが表示される

字幕の詳細な調整（フォントサイズ・色・表示タイミング）については字幕自動生成の完全ガイドを参照してください。

ステップ5：動画を書き出してダウンロードする

「動画生成」をクリックするとFFmpegが音声・画像・字幕（ASS形式）を合成し、9:16・1080×1920のMP4ファイルが完成します。生成完了後にダウンロードリンクが表示されるので、端末に保存し各SNSからアップロードします。

書き出し所要時間： 30秒クリップで30〜60秒が目安。

投稿前チェックリスト

縦型（9:16）になっているかプレビューで確認
字幕がSNSのUIと重なっていないか縦型プレビューで確認
SNSキャプション（faceless.fmがAI生成したX/note/LinkedIn用テキスト）をコピー
タイトルとハッシュタグを設定して投稿

よくある失敗と対処法

問題	原因	対処法
字幕が途中で消える	クリップが短すぎる	最低20秒以上の区間を選ぶ
ビジュアルが内容と合わない	スタイル選択のミス	再生成を使うか別スタイルを試す
文字起こしに誤字が多い	音声品質が低い	事前にノイズ除去処理を行う
ファイルアップロードが失敗	50MB超過	音声を分割してから再アップロード

この手順が向かないケース

リアルタイム配信のクリップ化 — バッチ処理のため、生成に数分かかります

著作権音楽が含まれる音声 — BGMが含まれる場合、SNS投稿時に著作権フラグが立つ可能性があります

非常に専門的な固有名詞が多いコンテンツ — 文字起こしの誤認識が増えることがあります（トランスクリプト編集で修正可能）

ポッドキャストからショート動画を作る完全ガイドでは、RSSフィードからの一括取り込みや、複数エピソードを連続で処理するワークフローも解説しています。番組全体のコンテンツを効率よく短尺動画へ変換したい方はあわせてご覧ください。

faceless.fmなら音声ファイルを用意するだけで、ビジュアル生成・字幕付け・縦型書き出しまで一気通貫で完了します。無料プランで月50クレジット（約5エピソード分）から始められます。今すぐ無料で試す

よくある質問

動画素材（映像）がなくても縦型ショート動画を作れますか？

はい。faceless.fmはポッドキャスト内容をAIが読み取り、内容に合ったビジュアル画像を自動生成するため、映像素材は一切不要です。音声ファイルだけで字幕付き9:16縦型動画が完成します。

対応している音声ファイル形式は何ですか？

MP3・WAV・M4Aの3形式に対応しています（1ファイル最大50MB）。ポッドキャスト配信後の音声をそのまま使えます。

字幕の位置は変更できますか？

はい。字幕をTop（上部）またはBottom（下部）に配置できます。TikTokはUIが下部に集中するためTopが推奨、YouTube ShortsはBottomでも視認しやすいです。

作業完了まで何分かかりますか？

音声の長さによりますが、10分程度のポッドキャストなら文字起こしから動画書き出しまで合計5〜10分が目安です。

無料で試せますか？

無料プランで月50クレジットが付与されます。切り抜き分析1回=5クレジット、ビジュアル生成1回=5クレジットなので、月に約5エピソード分を無料で試せます。