danの暇人ブログ

こんにちはぁぁぁぁぁ。主に趣味や雑談などを投稿していまス。最近はVtuberにハマっていまス。Youtube配信もしておるんや。



【AI剣持計画:10】剣持刀也生成計画第二弾


投稿日:2020年8月19日0:29
更新日:2021年5月23日0:00

はい。

タイトルにある通り今までは剣持刀也の画像生成を行っていましたが今度は別のことをやります。

今度は言葉を学習させます

というわけで次はTwitterでの剣持刀也のツイートを学習させてそれっぽいツイートを生成できるか試してみます。

イメージとしては↓の画像のような感じですね。

イメージ

はたしてAI剣持刀也が一体どんなことをツイートするのか楽しみですね。

これも学習の手法やパラメータをチューニングしないとうまくいかないでしょう。

ですが幸いにも今回は学習に使うデータは剣持刀也のツイートであり、その数は数万以上あるので学習データは困らないかと思います。

このデータを私がいかにうまく扱うことができるかによりますね。

流れ

今考えている流れとしては、
  • 剣持刀也のツイートを収集する(プログラムを作る)
  • ツイートを学習を行うことができる形式に加工する
  • AIのモデルを作る
  • 学習を行う
  • パラメータのチューニングを行う

  • こんな感じですね。

    今回は画像生成とは全く違う「自然言語処理」の分野なので全く違うAIを作ります。

    実は自然言語関係のAIも以前作ったことがあるのですが、画像処理関係よりは詳しくないのでAIを作るのに少し時間がかかるかもしれないです。

    まあどっちにしろ作れないわけではないのでやっていこうと思います。

    自然言語のAIは課題が多い

    ですが自然言語処理っていうのは文脈や「これ・あれ」といった代名詞などが何を指しているかを学習させたりするのがとても難しいです。

    過去にAIがセンター試験の現代文を解かせたときに文脈が理解できなくて点数が低かったという結果もあります。

    それ以外にも会話の中で一つ前の会話を覚えていなかったりなどということもあります。

    そして本当の意味で言葉を理解していません。

    例えばですが皆さんは「野球」という単語を見た場合何を連想しますか?

    おそらくスポーツ、9人で行う、バットを使う、プロ野球選手は〇〇がいる、甲子園...などなど色々思い浮かべる人がいます。

    AIは「野球」という単語を覚えていても、「野球」がスポーツであることなどを理解できないのです。

    これがおそらく今の自然言語処理のAIの大きな課題ではないでしょうか。

    まあ単語ベクトル埋め込み分散表現をしたら「野球」という単語が「スポーツ」関係の単語に近いということは分かるかもしれません。

    ですがルールなどその他の意味は理解できません。

    本当の意味でAIが言葉を理解するのはまだまだ先になりそうですね。

    とりあえず作ってみます

    上にあげた現時点の自然言語処理のAIの課題を少し述べてみました。

    ですがAIの技術は着々と進歩しています。

    ここ最近、自然言語処理の技術はブレイクスルーを迎えました。

    googleが開発した「BERT」という言語モデルが文脈を理解できるようになったのです。

    私自身まだあまり調べていないのですが、完全に文脈の理解ではないですけど。

    汎用性が高い言語モデルなので(日本語モデルもあります)できればこれを組み込んでいけたらいいなと考えています。

    まあまずは色々試してみます。

    今回は学習を行うところまでにいくのに時間がかかるかもしれませんが気長に待ってください。

    ・カテゴリ プログラミング
    ・タグ python剣持刀也AI剣持刀也開発企画

    (0)

    コメントを投稿する


    最新記事




    月別アーカイブ


    プロフィール
    このサイトを運営している「dan」と申します。
    私の趣味や雑談等を主に投稿しています。


    管理人
    更新情報&つぶやき

    プライバシーポリシー