AIエージェントを使った動画編集の最適化|ひとり治療家がコロナで外注をやめてからの現在地

はじめに|外注をやめたあの日から
こんにちは、矢上真吾です。
今日のテーマは「AIエージェントを使った動画編集の最適化」です。
私はYouTubeを2018年から続けています。
最初はデザインも編集もプロに外注していました。
最初はそれで良かったんですが、コロナが来たタイミングで本業の売上が半減してしまい、外注にお金をかける余裕がなくなって、外注をお願いするのをやめました。
そこから動画を出すサイクルがどうしても落ちてしまったんですよね。
やったことある方なら分かると思いますが、動画編集ってとてつもなく時間がかかる。
でもこれが、AIエージェントを使うとかなり時短できるようになってきました。
ただし、全部を丸投げするとうまくいかない、というのも分かってきました。
今日は、現状の私がやっている最適化についてお話しします。
私が使っているのは、Claude CodeにAPIをつなげて動かす、というやり方です。
そもそも動画編集は「7つの工程」でできている

動画編集って、ざっくりこの7工程でできています。
- カット:不要部分・無音・言い直しを削る(私は「えー」「あー」が多いのでよく削ります)
- 文字起こし:音声をテキストにする(これがめちゃくちゃ時間かかる)
- テロップの焼き込み:字幕を映像に貼り付ける
- 画像・イラストの差し込み:説明補助のBロールを入れる
- タイトル・バナー:視聴の入り口を作る
- 音響処理:BGM・効果音・音量平準化
- レンダリング:全部を1本のmp4ファイルに書き出す
この7工程のうち、AIに任せられるところと、自分でやるべきところを分けていく、というのが今日の話の本質です。
用語解説|私が使っている5つの道具

正直、私もこれが何なのかよく分からないまま使っている部分があります。
ざっくりですが、ひとつずつ紹介します。
①Whisper(ウィスパー)
OpenAIの文字起こしAIです。
1分間の音声で約0.9円。
文字起こしを外注すると1時間で2,000〜3,000円ぐらいするそうですが、Whisperなら1時間の動画でも約54円。
桁が違いますよね。
②Remotion(リモーション)
JavaScriptで動画を組み立てるツール。
プログラミングで動画編集する、ということです。
これはClaude Codeが勝手に使ってくれています。
③FFmpeg(エフエフエムペグ)
動画処理の世界標準ツールだそうです。
無料で、プロの現場でも裏で使われています。
④Gemini Nano Banana 2 / ChatGPT image 2
画像生成です。
最近はこの2つを使っています。
1枚3〜4円ぐらい。
⑤オーケストレーション
これがいちばん大事です。
上記4つ(Whisper・Remotion・FFmpeg・画像生成)を順番に自動で呼び出す指令塔のことを「オーケストレーション」と呼ぶそうです。
これがないと、結局自分が主導でツールを動かしていかなきゃいけない。
このオーケストレーションをClaude Codeが作ってくれている、というのが現状です。
全部丸投げではうまくいかなかった
私も最初はこれ全部丸投げでやっていました。
でも、なんかうまくいかなかったんですよね。
結局どこが引っかかってしまうかというと、まずカットでした。
カットの部分が、自分が思い描いている場所と、Claude Codeが判断する場所が、どうしてもズレてしまう。
なので、カットに関しては自分でやるようにしました。
その上で、画像を差し込んだりするじゃないですか。
CTA(チャンネル登録よろしくね)とか、フィニッシュ動画、エンディングとか。
そういったところも、僕が全部入れるようにしました。
元はAIが作ってくれているので、それを差し込むところまで自分でやる、という分担です。
これはどの動画でも使うようなものなので、テンプレ化されています。
現在の最適フロー|やり取りを最小にする

そして文字起こし。
最初は文字起こしの結果をそのまま動画に入れていきました。
でも、そのチェックがめちゃめちゃ時間かかるんですよね。
なので今は、こうしています。
Step 1:まず文字起こしだけ出してもらう
文字起こしを先に出してもらって、自分でチェックします。
自分が話している内容なので、「ここはこういう文字だな」というのが分かる。
日本語としておかしいもの、固有名詞の誤変換を直します。
Step 2:テロップのルールを反映
私はテロップを1行に収めてほしいんですが、ちょっと前まで3行になっちゃっていたので、これもルール化しました。
Step 3:チェック後にテロップ焼き込み
修正済みの文字起こしを反映してから、テロップを焼き込んでもらう。
Step 4:BGM・効果音・レンダリング
ここまで来たら、最後にBGMや効果音をつけて、レンダリングしてもらう。
このやり方に変えてストレスが激減した
私が最初にカットだけする。
→ 次に文字起こしを出してもらって、最初にチェック。
→ 投げ直してテロップを焼き込んでもらう。
→ それをチェックして調整。
この流れにしてから、やり取りが少なく、動画編集ができるようになりました。
ストレスがかなり減りました。
そして大事なのは、AIがやってくれている間は別の作業ができるということ。
患者さんの施術もできる。
これが現状の最適化です。
AIと自分は「学習し合う関係」になっていく
最初は全部AIでできるのかな、なんて思っていました。
でも実際は、僕の「ここで切ってほしい」という感覚すら、もしかしたらAIは学習してくれるかもしれない。
そうなれば、もっと楽になる。
ただ今のところ、それはまだ自分の思う通りにはなっていません。
これは今後、お互いがお互いをより深く分かっていく作業を、ずっと続けていったほうがいいのかなと思っています。
実は、これってプロの動画編集者と一緒なんですよ。
私も昔、動画編集を外注していましたが、こちらの思いとズレたりするとやり取りが必要で、けっこう時間がかかっていました。
でも、AIとのやり取りに関してはその時間がめちゃめちゃ短い。
ここで全部完結できちゃっているので、そういう意味で言うと、時短効果はすごく大きいです。
これは一度外注した経験があるからこそ分かることかもしれないですね。
自分が動画を作っていると、やっぱり「思い」が全部反映できないんですよね。
なので、それを自分で補完することと、AIに学習してもらうこと。
これを並行してやっていくと、もっともっと良くなっていくのかなと思っています。
費用感|1本数十円の時代になった

今だと、動画編集を外注すると、長い動画だと1本数万円すると思います。
でも今だったら、数十円しかかからない。
めちゃめちゃいいですよね。
もちろん私はAIを有料のMaxプランで使っているので、AIだけで月2万円ぐらいは使っています。
それでも、1本の動画を作る費用より、はるかに安い。
すごい時代になったなと思います。
まとめ|AIに任せる部分と、自分が握る部分
最初は全部AIでやろうとしていた私が、今は明確にこの線引きをしています。
| 工程 | 担当 |
|---|---|
| カット | 自分 |
| CTA・エンディング差し込み | 自分(テンプレ化済) |
| 文字起こし | AI(Whisper) |
| 文字起こしチェック | 自分 |
| テロップ焼き込み | AI |
| Bロール画像生成 | AI(Gemini) |
| BGM・効果音 | AI |
| レンダリング | AI(FFmpeg) |
| 全体オーケストレーション | AI(Claude Code) |
| 最終チェック | 自分 |
「自分が握るべきところ」を明確にした上で、それ以外をAIに任せる。
これが現状の私の最適解です。
参考になれば幸いです。
あなたも、ひとり治療家・自立家、がんばっていきましょう。
丸投げではなく、編成する。
ひとり治療家でも、AIに「指揮」を出せれば、動画100本/年が現実になる。
関連コンテンツ
- AIに任せてはいけない2つのこと|一人治療家がAI時代に絶対守る線引き
- AIエージェント活用事例|音声10分から6媒体ワークフロー
- 施術しながら全部できる時代になった|一人治療家×AIエージェントの並走経営
矢上真吾について
鍼灸師歴24年/合同会社e-life代表/和からだみなおし処 院長/著書2冊/千葉県館山市で開業中。
ひとり治療家のAI自立化サポートを本気でやっています。

