止められる字幕の作り方—ショート動画の字幕デザインと可読性
ショート動画の字幕はデザインと同期精度でエンゲージメントが変わります。フォント・位置・色・1行文字数・音声同期の5要素と、AIで自動生成する方法を解説。
ショート動画の字幕は「読みやすさ」と「タイミング」の2軸で視聴維持率が変わります。SNS動画の60〜85%は音声オフで視聴されており、字幕がなければ内容が伝わらないまま離脱されます。フォント・位置・色・文字数・同期の5要素を整えるだけで、最後まで見てもらえる確率が高まります。
要点(TL;DR)
- SNS動画の60〜85%が音声オフ視聴のため、字幕は「あると便利」ではなく必須
- 日本語字幕は1行12〜18字以内・画面に対してテキスト高さ5〜8%が可読性の基準
- SNS UIとの干渉を避けるため、字幕の縦位置は上寄りが安全
- 視認性は「文字色と背景の高コントラスト」と「縁取りまたは半透明背景」で確保
- 手動同期は非効率。ワードレベルのAI自動字幕で精度とスピードを両立できる
なぜ字幕がショート動画のエンゲージメントを左右するのか
字幕つき動画は視聴完了率が高い傾向にあります。理由は2つです。
また、字幕の質(読みやすさ・ズレのなさ)が低いと「雑に作った動画」という印象を与えます。字幕デザインはコンテンツの信頼性にも影響する要素です。
字幕デザインの5要素
要素1: フォント—太さと視認性を優先する
ショート動画に適したフォントの条件:
フォントサイズは1080×1920pxの動画サイズで、テキスト高さが画面高の5〜8%(54〜96px相当)が実用的な目安です。小さすぎると離れて見たときに読めず、大きすぎると映像を圧迫します。
要素2: 位置—SNSのUIと干渉させない
プラットフォーム別に「UIが重なる領域」が異なります:
| プラットフォーム | 危険ゾーン | 推奨字幕位置 |
|---|---|---|
| TikTok | 右下(いいね/コメント)・下中央(キャプション) | 中央やや上 |
| Instagram Reels | 右下・下部全体 | 中央〜上寄り |
| YouTube Shorts | 下部(チャンネル名/タイトル) | 中央付近 |
要素3: 色・コントラスト—どんな背景でも読める工夫
字幕の視認性を確保するための3つのアプローチ:
配色は白文字+黒縁取りが最も汎用性が高く、どんな映像背景でも読めます。テーマカラーに合わせて変える場合も、コントラスト比4.5:1以上を目安にしてください。
要素4: 1行あたりの文字数—読み飛ばされる前に読める量
ショート動画は視聴者が「スワイプしようか」を決める時間が1〜2秒しかありません。1行が長すぎると読み終わる前にスワイプされます。
推奨文字数:
- 日本語:1行12〜18字以内
- 英語:30〜40字以内(約5〜8単語)
要素5: 同期—音声と字幕のズレが離脱を生む
字幕が音声より0.5秒以上ズレていると、脳内での「映像・音声・テキスト」の同期が乱れます。これは視聴者にとって不快で、離脱率に直結します。
手動同期(タイムコード入力)は精度が出しにくく、時間もかかります。ワードレベルのタイムスタンプ(発話した各単語の開始・終了時刻が自動記録される)を使ったAI自動字幕が現在のベストプラクティスです。
AI自動字幕の精度を上げるには
自動字幕ツールを選ぶときに確認すべき3点:
faceless.fmではGoogle Cloud Speech-to-Text(Chirp)のワードタイムスタンプを利用しており、単語単位で字幕が同期するASSファイルを生成・FFmpegで動画に焼き込みます。手動タイミング調整なしに高精度な字幕付き動画が出力されます。
MP3ファイルから字幕付き動画を作る具体的な手順については MP3から字幕付き動画を作る方法 を参照してください。
字幕デザインでよくある失敗
失敗1: 字幕が画面下部に固定されてSNSのUIに隠れる → 投稿前にスマホ実機でプレビューし、UIとの干渉を確認する習慣をつけましょう。
失敗2: フォントが細くて背景に溶け込む → 縁取りなし・細字・白背景なしの組み合わせは最悪の視認性です。縁取りをつけるだけで一気に改善します。
失敗3: 1行に詰め込みすぎて読む前にスワイプされる → 1行18字を超えそうな場合は改行を入れるか、字幕の表示時間を延ばします。
失敗4: 音声なしで見たときに情報が伝わらない → 字幕は「音声を文字に変えただけ」ではなく、音声オフ視聴でも完結する情報量を確保します。
字幕よりも映像テロップが向くケース
字幕(音声の書き起こし)よりも画面上のテキストテロップが有効なケースもあります:
- 音楽主体の動画(字幕が歌詞と混同される)
- 映像美を主体にした風景動画(字幕がビジュアルを邪魔する)
- データ・数字を強調したい場面(テロップで大きく表示)
切り抜くクリップの選び方については クリップの選び方ガイド も参考になります。ポッドキャストからショート動画を作る全工程の概要は ポッドキャストからショート動画ガイド をご覧ください。
よくある質問
字幕のフォントサイズはどのくらいが適切ですか?
1080×1920px基準で、字幕テキスト高さが画面の5〜8%程度が目安。小さすぎると視認しにくく、大きすぎると映像を圧迫します。
字幕は上・下どちらに表示すべきですか?
InstagramリールやTikTokではUI(いいね/コメント)が右下にあるため、上寄り配置が安全です。faceless.fmでは上・下を切り替えられます。
1行あたりの文字数はどのくらいが読みやすいですか?
日本語なら1行12〜18字が目安。英語は30〜40字相当。それ以上になると読む前にスワイプされるリスクが高まります。
音声なしで見るユーザーへの対応は?
字幕が完全についていれば音声オフでも内容が伝わります。SNS動画の多くが音声オフで視聴されるため、字幕は必須です。
字幕と音声のズレはどう防ぎますか?
ワードレベルのタイムスタンプを使った自動字幕生成ツールを使うことで、手動同期の手間を省けます。faceless.fmはGoogle Cloud STTのワードタイムスタンプを利用しています。
よくある質問
字幕のフォントサイズはどのくらいが適切ですか?
1080×1920px基準で、字幕テキスト高さが画面の5〜8%程度が目安。小さすぎると視認しにくく、大きすぎると映像を圧迫します。
字幕は上・下どちらに表示すべきですか?
InstagramリールやTikTokではUI(いいね/コメント)が右下にあるため、上寄り配置が安全です。faceless.fmでは上・下を切り替えられます。
1行あたりの文字数はどのくらいが読みやすいですか?
日本語なら1行12〜18字が目安。英語は30〜40字相当。それ以上になると読む前にスワイプされるリスクが高まります。
音声なしで見るユーザーへの対応は?
字幕が完全についていれば音声オフでも内容が伝わります。SNS動画の多くが音声オフで視聴されるため、字幕は必須です。
字幕と音声のズレはどう防ぎますか?
ワードレベルのタイムスタンプを使った自動字幕生成ツールを使うことで、手動同期の手間を省けます。faceless.fmはGoogle Cloud STTのワードタイムスタンプを利用しています。