ブログ一覧に戻る
ガイドMP3ショート動画字幕音声動画化縦型動画

MP3・音声ファイルから字幕付き縦型ショート動画を作る方法

MP3・WAV・M4Aの音声ファイルをアップロードするだけで、AIが文字起こし・見どころ抽出・ビジュアル生成・字幕付与・縦型書き出しの5ステップを自動実行します。映像素材ゼロでもTikTok・YouTube Shortsに投稿できる9:16縦型動画の作り方を詳しく解説します。

2026-06-30Faceless.fm Team

音声ファイル(MP3・WAV・M4A)をアップロードするだけで、AIが文字起こし→見どころ抽出→ビジュアル生成→字幕付与→縦型書き出しの5ステップを自動化し、映像素材ゼロで9:16のショート動画が完成します。

要点(TL;DR)

  • 映像素材不要。音声だけからAI生成ビジュアル+字幕付き縦型動画を作れる
  • 全5ステップ:アップロード→分析→ビジュアル生成→字幕設定→書き出し
  • 10分音声なら合計5〜10分で完了
  • 字幕はTop/Bottom配置を選べ、SNSのUIとの重複を避けられる
  • 無料プランで月50クレジット(約5エピソード分)から試せる

なぜ映像なしでも動画ができるのか

faceless.fmは音声をテキストに変換したあと、そのテキスト内容をAIが解析してビジュアル画像を自動生成します。カメラも照明も不要で、「顔出しなし(ファセレス)」のまま縦型動画が完成する仕組みです。ビジュアルはスケッチノート・シネマティック・フラットグラフィックの3スタイルから選択でき、デザインスキルや映像編集の知識がなくても見映えのある動画を作れます。

ファセレス動画とは何かを詳しく知りたい方はこちら

対応フォーマットと事前準備

フォーマット特徴典型的な用途
MP3最も汎用的配信済みポッドキャスト音声
WAV無圧縮・高音質収録直後のマスター音源
M4AApple製品との親和性が高いGarageBand / Apple Podcasts書き出し
ファイルサイズ上限:50MB(128kbps MP3 換算で約50〜55分相当)。それを超える場合はDAWや音声編集ソフトで対象箇所だけを書き出してください。

音質チェックリスト(アップロード前):

  • 背景ノイズが著しく大きくないか(文字起こし精度に影響)
  • 音量が適切か(極端に小さいと認識精度が下がる)
  • ステレオ・モノラルは問わない

ステップ1:プロジェクトを作成して音声をアップロードする

faceless.fmにログイン後、ダッシュボードから「新しいプロジェクト」を作成します(例:番組名)。プロジェクト内で「エピソードを追加」をクリックし、音声ファイルをドラッグ&ドロップまたはファイル選択でアップロードします。

アップロード完了後、自動的に文字起こし(STT)処理が始まります。

所要時間の目安: ファイルのアップロード自体は数秒〜1分。文字起こしは音声10分あたり約1〜2分。

よくある失敗:プロジェクトを作成せずにエピソードを登録しようとするケース。エピソードは必ずプロジェクトの下に紐付く形で登録します。プロジェクトが先に必要です。

ステップ2:AIに見どころを分析させる

文字起こしが完了したら「分析する」を実行します。AIがトランスクリプト全体を読み取り、SNS映えしやすい見どころ候補を最大5件提案します。各候補には次の情報が付きます。

  • 開始・終了の時刻
  • 選定理由(「驚きのデータが含まれている」「強いフックで始まる」など)
  • 推奨するビジュアルスタイル
候補の中から1件を選択するか、自分でトランスクリプトを見ながら時刻を指定することも可能です。

所要時間の目安: 分析完了まで約1〜2分。

どの箇所を選ぶかで再生数が大きく変わります。選定のコツについてはポッドキャストの「切り抜き箇所」の選び方を参照してください。

ステップ3:ビジュアルスタイルを選んでAI画像を生成する

見どころ区間を確定したら「ビジュアル生成」を実行します。以下の3スタイルから内容に合うものを選びましょう。

スタイル向いているコンテンツ雰囲気
スケッチノート教育・解説・まとめ手書きイラスト風
シネマティックストーリー・旅・体験談映画スチール風
フラットグラフィックビジネス・テック・データシンプル&モダン
生成時間: 1枚あたり30〜60秒(レート制限回避のため画像間に5秒の間隔を設けています)。複数枚生成される場合は合計で数分かかります。

気に入らない画像は個別に再生成できます。また、過去に生成した別エピソードの画像を流用することも可能です。

よくある失敗:スタイルを選ばずに生成するとデフォルトのスタイルが適用され、内容と雰囲気が合わないことがあります。コンテンツのトーンに合わせてスタイルを選んでから生成してください。

ステップ4:字幕の位置とスタイルを設定する

ビジュアルが揃ったら動画生成ページへ進みます。字幕は音声の文字起こし結果から自動生成されるため、追加入力は不要です。設定できる主な項目:

字幕位置:Top(上部) / Bottom(下部)

投稿先推奨位置理由
TikTokTop下部に「いいね・コメント・シェア」UIが集中する
YouTube ShortsBottom右側UIが主で下部は比較的余白がある
Instagram ReelsTop下部に説明文・ハートボタンが表示される
字幕の詳細な調整(フォントサイズ・色・表示タイミング)については字幕自動生成の完全ガイドを参照してください。

ステップ5:動画を書き出してダウンロードする

「動画生成」をクリックするとFFmpegが音声・画像・字幕(ASS形式)を合成し、9:16・1080×1920のMP4ファイルが完成します。生成完了後にダウンロードリンクが表示されるので、端末に保存し各SNSからアップロードします。

書き出し所要時間: 30秒クリップで30〜60秒が目安。

投稿前チェックリスト

  1. 縦型(9:16)になっているかプレビューで確認
  2. 字幕がSNSのUIと重なっていないか縦型プレビューで確認
  3. SNSキャプション(faceless.fmがAI生成したX/note/LinkedIn用テキスト)をコピー
  4. タイトルとハッシュタグを設定して投稿

よくある失敗と対処法

問題原因対処法
字幕が途中で消えるクリップが短すぎる最低20秒以上の区間を選ぶ
ビジュアルが内容と合わないスタイル選択のミス再生成を使うか別スタイルを試す
文字起こしに誤字が多い音声品質が低い事前にノイズ除去処理を行う
ファイルアップロードが失敗50MB超過音声を分割してから再アップロード

この手順が向かないケース

  • リアルタイム配信のクリップ化 — バッチ処理のため、生成に数分かかります
  • 著作権音楽が含まれる音声 — BGMが含まれる場合、SNS投稿時に著作権フラグが立つ可能性があります
  • 非常に専門的な固有名詞が多いコンテンツ — 文字起こしの誤認識が増えることがあります(トランスクリプト編集で修正可能)

  • ポッドキャストからショート動画を作る完全ガイドでは、RSSフィードからの一括取り込みや、複数エピソードを連続で処理するワークフローも解説しています。番組全体のコンテンツを効率よく短尺動画へ変換したい方はあわせてご覧ください。

    faceless.fmなら音声ファイルを用意するだけで、ビジュアル生成・字幕付け・縦型書き出しまで一気通貫で完了します。無料プランで月50クレジット(約5エピソード分)から始められます。今すぐ無料で試す

    よくある質問

    動画素材(映像)がなくても縦型ショート動画を作れますか?

    はい。faceless.fmはポッドキャスト内容をAIが読み取り、内容に合ったビジュアル画像を自動生成するため、映像素材は一切不要です。音声ファイルだけで字幕付き9:16縦型動画が完成します。

    対応している音声ファイル形式は何ですか?

    MP3・WAV・M4Aの3形式に対応しています(1ファイル最大50MB)。ポッドキャスト配信後の音声をそのまま使えます。

    字幕の位置は変更できますか?

    はい。字幕をTop(上部)またはBottom(下部)に配置できます。TikTokはUIが下部に集中するためTopが推奨、YouTube ShortsはBottomでも視認しやすいです。

    作業完了まで何分かかりますか?

    音声の長さによりますが、10分程度のポッドキャストなら文字起こしから動画書き出しまで合計5〜10分が目安です。

    無料で試せますか?

    無料プランで月50クレジットが付与されます。切り抜き分析1回=5クレジット、ビジュアル生成1回=5クレジットなので、月に約5エピソード分を無料で試せます。

    よくある質問

    動画素材(映像)がなくても縦型ショート動画を作れますか?

    はい。faceless.fmはポッドキャスト内容をAIが読み取り、内容に合ったビジュアル画像を自動生成するため、映像素材は一切不要です。音声ファイルだけで字幕付き9:16縦型動画が完成します。

    対応している音声ファイル形式は何ですか?

    MP3・WAV・M4Aの3形式に対応しています(1ファイル最大50MB)。ポッドキャスト配信後の音声をそのまま使えます。

    字幕の位置は変更できますか?

    はい。字幕をTop(上部)またはBottom(下部)に配置できます。TikTokはUIが下部に集中するためTopが推奨、YouTube ShortsはBottomでも視認しやすいです。

    作業完了まで何分かかりますか?

    音声の長さによりますが、10分程度のポッドキャストなら文字起こしから動画書き出しまで合計5〜10分が目安です。

    無料で試せますか?

    無料プランで月50クレジットが付与されます。切り抜き分析1回=5クレジット、ビジュアル生成1回=5クレジットなので、月に約5エピソード分を無料で試せます。

    Faceless.fmを試してみませんか?

    音声コンテンツをアップロードするだけで、AIがショート動画を自動生成します。

    無料で始める