WhisperでYoutube動画を文字起こしして、Chat-GPTで要約してみた

はじめに

この記事はやってみた感想がメインの記事です。
AI使ってこんなことができるのね~というのが主題なので、技術的な話、特にやり方に深く言及するものではありません。

背景

最近ChatGPTが熱いですね!
というか画像生成AIもガンガン進化してますし、AI界隈が今まさに産業革命を起こそうとしています。
私もbing AIがあまりにも便利なのでGoogle検索の頻度が激減しています。
プログラミングに関する話題もbingに聞いて、情報の正しさをGoogleで確かめるような使い方になってきました。
そんな中で先日、ChatGPTとWhisperのAPIが公開されました。
OpenAI、安価な新APIで事業拡大へ? その先の野望とは | ギズモード・ジャパン
お値段もとってもリーズナブルになったので、私もAPI使ってみたいなぁと思い、Whisper+ChatGPTでYouTubeの動画を要約してみました。

ChatGPTって?

ChatGPTは、OpenAIによって開発された自然言語生成モデルです。GPTは「Generative Pretrained Transformer」の略で、大量のテキストデータを学習して、人間のような文章を生成することができます。ChatGPTは、特に会話形式のテキストに特化しており、チャットボットなどに使用されます。

ということです。
実はこの文章もAIに説明してもらったものです。
「ChatGPTを知らない人にもわかりやすく説明してください」という入力に対しての出力が上の文章になったんですね。
このようにChatGPTはユーザーが普段使う言語で要求した内容に対してテキストで答えることができます。
以前からAPIは公開されていたのですが、価格的な問題がありました。
今回新APIが公開されたことで個人のプログラムの中にこの機能を取り入れることが現実的になりました。

Whisperって?

Whisperは、OpenAIが文字起こしサービスとして公開した無料の音声認識モデルです。Webから収集した68万時間分の多言語音声データを教師付きデータで学習させており、高い精度で入力した音声を文字起こしすることが可能になっています。

こちらもAI製文章です。
入力した人間の発言を文章に直してくれるわけです。
私が試したところGladiaのAPIを通すと30分の動画の音声が1分かからないくらいで文字に変換されました。
人間はせいぜい1.5倍速動画の文字起こしくらいしかできませんので、革命的な速さと言えます。漢字の誤字などは多少存在しますが、精度もかなり高いように感じました。

やってみる

実際にやってみます。
作業の流れとしてはこんな感じになります。

  1. Paper space gradientでノートブックを作る
  2. Youtubeの動画から音声をダウンロードする
  3. Whisperを使って文章化する
  4. DeepLを使って文章を英語化する
  5. ChatGPTに文章と命令を与える
  6. ChatGPTの回答をDeepLで日本語に直す

補足

結果

あなたは、今後6ヶ月間の生産計画を作成することができます。動物のデザイン数を増やす、季節限定アイテムを作る、セットやバンドル商品を導入するなど、月ごとに目標を設定することができます。また、認知度を高めて新しい顧客を獲得するために、マーケティングやプロモーションに時間を割くことができます。ブランド構築に注力し、ハンドメイドアイテムを他と差別化する独自のスタイルを確立することが大切です。時間と労力はかかりますが、根気よく続けることで、ハンドメイドで月収10万円という目標を達成することができます。'

動画の内容と照らし合わせると「だいたい合ってる」という感じの印象を受けます。
しかし、具体的な数字の話や質問者さんへのリスペクトなど、何かうまみ成分が大きく抜け落ちているような印象を感じました。
この辺はプロンプト(命令)を改善することで良くなるかもしれませんが、動画に含まれる人間の感情や情熱をWhisperの文章化だけで表現するのは難しいかもしれません。
ですが、議事録の要約やざっくりニュースを知りたいなどの用途でなら十分に活用できる可能性を感じました。

アドバイザーとしてのChatGPTの能力は?

今回対象にした動画はハンドメイドについての質問に対してアドバイザーである和田まおさん(神)が回答しているという内容です。 ではChatGPTに相談者と同じ質問をしたらどんなアドバイスをしてくれるのでしょう?実際にやってみました。

こんにちわ(^^)vハンドメイド製品の売り上げが伸び悩んでいるとのこと、残念ですね。まず、売上が低いからと言って、自分には才能がないのではと落胆しないでください。特にハンドメイドのような競争の激しい市場では、ビジネスを成功させるためには時間と努力が必要です。ここでは、より多くの人に知ってもらい、売上を伸ばすためのヒントをいくつか紹介します。
InstagramFacebookTwitterなどのソーシャルメディアプラットフォームを通じて、ショップや商品のプロモーションを検討しましょう。魅力的で目を引く投稿を作成し、ターゲットオーディエンスを惹きつける関連ハッシュタグを使用します。これは、あなたの個人的なネットワーク以外の潜在的な顧客にもアプローチするのに役立ちます。
「注目商品」や「セール品」など、minneの機能を活用する。これらの機能は、あなたの商品をより多くの潜在的な購入者の目に触れさせることができます。商品ラインアップの充実に力を入れる。動物が売れていないのであれば、違う客層にアピールできそうな新商品を作るなどして、商品の多様化を図りましょう。また、動物が売れていない理由を特定し、改善策を見つけるのもよいでしょう。例えば、よりユニークなデザインにしたり、カラーバリエーションを増やしたりするのもよいでしょう。
最後に、忍耐強く、粘り強く努力することです。半年という時間は、繁盛するビジネスを確立するために必要な時間ではありません。努力を続け、顧客や友人からのフィードバックを求めて、ビジネスの改善と成長に役立てましょう。これらのヒントが役立つことを願っています。そして、あなたのハンドメイドビジネスの旅の成功を祈っています。

まぁまぁいいこと言ってるじゃん?とぱっと見で思いますが、minneにユーザーが自発的に動かせる注目商品機能とかセール品機能ってないですよね。
そして何より言ってることが薄っぺらい!具体性がない!
ユニークなデザインにしたりカラーバリエーションを増やすなんてのはみんな当たり前にやってるんだよ!
でも売れないから、わからないからもがき苦しんで、そんな中で日々何かを生み出す小さな喜びを握りしめて、ハンドメイドが止められないでいるんだよぉぉ!
うおぉぉぉぉぉ!!!

まとめ

熱くなってしまいましたが、ChatGPTさんはハンドメイドについて詳しい知識がないから当たり障りのないことしか言えないんですよね。
対して元動画を見ると汎用AIじゃ到底出せないようなデータや経験に基づいたアドバイスがじゃぶじゃぶ出てくるんです。やはり神。
でもChatGPTに新たにハンドメイドに関するいろはを学習させてあげればもっと精度の高い的を得た回答が出てくるのも確かです。仏教を学んだ仏AIなんてのも登場しています。 HOTOKE AI - Mechanical Buddha equipped with gpt-3.5-turbo is here to assist you with your inquiries.

今月中には次世代モデルGPT-4が発表されるという話もありますし、AIの進化速度は凄まじいです。まだまだ目が離せない状態が続くんじゃないでしょうか。