ガイドショート動画字幕デザイン縦型動画コンテンツ

止められる字幕の作り方—ショート動画の字幕デザインと可読性

ショート動画の字幕はデザインと同期精度でエンゲージメントが変わります。フォント・位置・色・1行文字数・音声同期の5要素と、AIで自動生成する方法を解説。

2026-06-30Faceless.fm Team

ショート動画の字幕は「読みやすさ」と「タイミング」の2軸で視聴維持率が変わります。SNS動画の60〜85%は音声オフで視聴されており、字幕がなければ内容が伝わらないまま離脱されます。フォント・位置・色・文字数・同期の5要素を整えるだけで、最後まで見てもらえる確率が高まります。

要点（TL;DR）

SNS動画の60〜85%が音声オフ視聴のため、字幕は「あると便利」ではなく必須
日本語字幕は1行12〜18字以内・画面に対してテキスト高さ5〜8%が可読性の基準
SNS UIとの干渉を避けるため、字幕の縦位置は上寄りが安全
視認性は「文字色と背景の高コントラスト」と「縁取りまたは半透明背景」で確保
手動同期は非効率。ワードレベルのAI自動字幕で精度とスピードを両立できる

なぜ字幕がショート動画のエンゲージメントを左右するのか

字幕つき動画は視聴完了率が高い傾向にあります。理由は2つです。

音声オフ環境への対応：電車・職場・就寝前など、多くの視聴シーンで音声はオフです。字幕がなければ内容がまったく伝わらない状態で離脱されます

認知負荷の軽減：映像＋音声に加えて字幕があると「言っていることが視覚で確認できる」安心感が生まれ、離脱しにくくなります

また、字幕の質（読みやすさ・ズレのなさ）が低いと「雑に作った動画」という印象を与えます。字幕デザインはコンテンツの信頼性にも影響する要素です。

字幕デザインの5要素

要素1: フォント—太さと視認性を優先する

ショート動画に適したフォントの条件：

太めのウェイト（Bold / Heavy）：細字は背景が複雑な場面で埋もれる

サンセリフ体：Noto Sans JP・源ノ角ゴシックなど

過剰な装飾なし：筆文字・草書体は一瞬で読めない

フォントサイズは1080×1920pxの動画サイズで、テキスト高さが画面高の5〜8%（54〜96px相当）が実用的な目安です。小さすぎると離れて見たときに読めず、大きすぎると映像を圧迫します。

要素2: 位置—SNSのUIと干渉させない

プラットフォーム別に「UIが重なる領域」が異なります：

プラットフォーム	危険ゾーン	推奨字幕位置
TikTok	右下（いいね/コメント）・下中央（キャプション）	中央やや上
Instagram Reels	右下・下部全体	中央〜上寄り
YouTube Shorts	下部（チャンネル名/タイトル）	中央付近

faceless.fmでは字幕の縦位置を「上寄り」「下寄り」から選択できます。SNS投稿用は上寄りを基本にし、投稿前にスマホ実機でUIとの干渉を確認する習慣をつけましょう。

要素3: 色・コントラスト—どんな背景でも読める工夫

字幕の視認性を確保するための3つのアプローチ：

縁取り（アウトライン）：白字に黒縁取り2〜4pxが最もオーソドックスで汎用性が高い

ドロップシャドウ：縁取りより柔らかい印象。薄い背景では効果が薄いことがある

半透明背景帯：字幕の背後に黒・グレーの帯を置く。視認性は最高だが映像面積を遮る

配色は白文字＋黒縁取りが最も汎用性が高く、どんな映像背景でも読めます。テーマカラーに合わせて変える場合も、コントラスト比4.5:1以上を目安にしてください。

要素4: 1行あたりの文字数—読み飛ばされる前に読める量

ショート動画は視聴者が「スワイプしようか」を決める時間が1〜2秒しかありません。1行が長すぎると読み終わる前にスワイプされます。

推奨文字数：

日本語：1行12〜18字以内
英語：30〜40字以内（約5〜8単語）

1フレームで表示する行数は1〜2行が上限です。3行以上は映像面積を圧迫し、情報過多になります。改行のタイミングは意味の区切りに合わせると読みやすさが増します。

要素5: 同期—音声と字幕のズレが離脱を生む

字幕が音声より0.5秒以上ズレていると、脳内での「映像・音声・テキスト」の同期が乱れます。これは視聴者にとって不快で、離脱率に直結します。

手動同期（タイムコード入力）は精度が出しにくく、時間もかかります。ワードレベルのタイムスタンプ（発話した各単語の開始・終了時刻が自動記録される）を使ったAI自動字幕が現在のベストプラクティスです。

AI自動字幕の精度を上げるには

自動字幕ツールを選ぶときに確認すべき3点：

ワードレベルのタイムスタンプ対応か（センテンス単位では字幕ズレが生じやすい）

日本語に対応しているか（日本語は分かち書きがないため、英語対応ツールとは難易度が異なる）

字幕の書式（ASS/SRT）で出力・動画に合成できるか

faceless.fmではGoogle Cloud Speech-to-Text（Chirp）のワードタイムスタンプを利用しており、単語単位で字幕が同期するASSファイルを生成・FFmpegで動画に焼き込みます。手動タイミング調整なしに高精度な字幕付き動画が出力されます。

MP3ファイルから字幕付き動画を作る具体的な手順については MP3から字幕付き動画を作る方法を参照してください。

字幕デザインでよくある失敗

失敗1: 字幕が画面下部に固定されてSNSのUIに隠れる → 投稿前にスマホ実機でプレビューし、UIとの干渉を確認する習慣をつけましょう。

失敗2: フォントが細くて背景に溶け込む → 縁取りなし・細字・白背景なしの組み合わせは最悪の視認性です。縁取りをつけるだけで一気に改善します。

失敗3: 1行に詰め込みすぎて読む前にスワイプされる → 1行18字を超えそうな場合は改行を入れるか、字幕の表示時間を延ばします。

失敗4: 音声なしで見たときに情報が伝わらない → 字幕は「音声を文字に変えただけ」ではなく、音声オフ視聴でも完結する情報量を確保します。

字幕よりも映像テロップが向くケース

字幕（音声の書き起こし）よりも画面上のテキストテロップが有効なケースもあります：

音楽主体の動画（字幕が歌詞と混同される）
映像美を主体にした風景動画（字幕がビジュアルを邪魔する）
データ・数字を強調したい場面（テロップで大きく表示）

これらのケースでは字幕を最小限にするか、特定のセリフシーンのみに限定することを検討してください。

切り抜くクリップの選び方についてはクリップの選び方ガイドも参考になります。ポッドキャストからショート動画を作る全工程の概要はポッドキャストからショート動画ガイドをご覧ください。

faceless.fmで字幕付き縦型動画を自動生成する →

よくある質問

字幕のフォントサイズはどのくらいが適切ですか？

1080×1920px基準で、字幕テキスト高さが画面の5〜8%程度が目安。小さすぎると視認しにくく、大きすぎると映像を圧迫します。

字幕は上・下どちらに表示すべきですか？

InstagramリールやTikTokではUI（いいね/コメント）が右下にあるため、上寄り配置が安全です。faceless.fmでは上・下を切り替えられます。

1行あたりの文字数はどのくらいが読みやすいですか？

日本語なら1行12〜18字が目安。英語は30〜40字相当。それ以上になると読む前にスワイプされるリスクが高まります。

音声なしで見るユーザーへの対応は？

字幕が完全についていれば音声オフでも内容が伝わります。SNS動画の多くが音声オフで視聴されるため、字幕は必須です。

字幕と音声のズレはどう防ぎますか？

ワードレベルのタイムスタンプを使った自動字幕生成ツールを使うことで、手動同期の手間を省けます。faceless.fmはGoogle Cloud STTのワードタイムスタンプを利用しています。

よくある質問

字幕のフォントサイズはどのくらいが適切ですか？

1080×1920px基準で、字幕テキスト高さが画面の5〜8%程度が目安。小さすぎると視認しにくく、大きすぎると映像を圧迫します。

字幕は上・下どちらに表示すべきですか？

InstagramリールやTikTokではUI（いいね/コメント）が右下にあるため、上寄り配置が安全です。faceless.fmでは上・下を切り替えられます。

1行あたりの文字数はどのくらいが読みやすいですか？

日本語なら1行12〜18字が目安。英語は30〜40字相当。それ以上になると読む前にスワイプされるリスクが高まります。

音声なしで見るユーザーへの対応は？

字幕が完全についていれば音声オフでも内容が伝わります。SNS動画の多くが音声オフで視聴されるため、字幕は必須です。

字幕と音声のズレはどう防ぎますか？

Faceless.fmを試してみませんか？

音声コンテンツをアップロードするだけで、AIがショート動画を自動生成します。

無料で始める