はい。
タイトルにある通り今までは剣持刀也の画像生成を行っていましたが今度は別のことをやります。
というわけで次はTwitterでの剣持刀也のツイートを学習させてそれっぽいツイートを生成できるか試してみます。
イメージとしては↓の画像のような感じですね。
はたしてAI剣持刀也が一体どんなことをツイートするのか楽しみですね。
これも学習の手法やパラメータをチューニングしないとうまくいかないでしょう。
ですが幸いにも今回は学習に使うデータは剣持刀也のツイートであり、その数は数万以上あるので学習データは困らないかと思います。
このデータを私がいかにうまく扱うことができるかによりますね。
今考えている流れとしては、
剣持刀也のツイートを収集する(プログラムを作る)
ツイートを学習を行うことができる形式に加工する
AIのモデルを作る
学習を行う
パラメータのチューニングを行う
こんな感じですね。
今回は画像生成とは全く違う「自然言語処理」の分野なので全く違うAIを作ります。
実は自然言語関係のAIも以前作ったことがあるのですが、画像処理関係よりは詳しくないのでAIを作るのに少し時間がかかるかもしれないです。
まあどっちにしろ作れないわけではないのでやっていこうと思います。
ですが自然言語処理っていうのは文脈や「これ・あれ」といった代名詞などが何を指しているかを学習させたりするのがとても難しいです。
過去にAIがセンター試験の現代文を解かせたときに文脈が理解できなくて点数が低かったという結果もあります。
それ以外にも会話の中で一つ前の会話を覚えていなかったりなどということもあります。
そして本当の意味で言葉を理解していません。
例えばですが皆さんは「野球」という単語を見た場合何を連想しますか?
おそらくスポーツ、9人で行う、バットを使う、プロ野球選手は〇〇がいる、甲子園...などなど色々思い浮かべる人がいます。
AIは「野球」という単語を覚えていても、「野球」がスポーツであることなどを理解できないのです。
これがおそらく今の自然言語処理のAIの大きな課題ではないでしょうか。
まあ単語ベクトル埋め込み分散表現をしたら「野球」という単語が「スポーツ」関係の単語に近いということは分かるかもしれません。
ですがルールなどその他の意味は理解できません。
本当の意味でAIが言葉を理解するのはまだまだ先になりそうですね。
上にあげた現時点の自然言語処理のAIの課題を少し述べてみました。
ですがAIの技術は着々と進歩しています。
ここ最近、自然言語処理の技術はブレイクスルーを迎えました。
googleが開発した「BERT」という言語モデルが文脈を理解できるようになったのです。
私自身まだあまり調べていないのですが、完全に文脈の理解ではないですけど。
汎用性が高い言語モデルなので(日本語モデルもあります)できればこれを組み込んでいけたらいいなと考えています。
まあまずは色々試してみます。
今回は学習を行うところまでにいくのに時間がかかるかもしれませんが気長に待ってください。
タイトルにある通り今までは剣持刀也の画像生成を行っていましたが今度は別のことをやります。
今度は言葉を学習させます
イメージとしては↓の画像のような感じですね。

はたしてAI剣持刀也が一体どんなことをツイートするのか楽しみですね。
これも学習の手法やパラメータをチューニングしないとうまくいかないでしょう。
ですが幸いにも今回は学習に使うデータは剣持刀也のツイートであり、その数は数万以上あるので学習データは困らないかと思います。
このデータを私がいかにうまく扱うことができるかによりますね。
流れ
こんな感じですね。
今回は画像生成とは全く違う「自然言語処理」の分野なので全く違うAIを作ります。
実は自然言語関係のAIも以前作ったことがあるのですが、画像処理関係よりは詳しくないのでAIを作るのに少し時間がかかるかもしれないです。
まあどっちにしろ作れないわけではないのでやっていこうと思います。
自然言語のAIは課題が多い
過去にAIがセンター試験の現代文を解かせたときに文脈が理解できなくて点数が低かったという結果もあります。
それ以外にも会話の中で一つ前の会話を覚えていなかったりなどということもあります。
そして本当の意味で言葉を理解していません。
例えばですが皆さんは「野球」という単語を見た場合何を連想しますか?
おそらくスポーツ、9人で行う、バットを使う、プロ野球選手は〇〇がいる、甲子園...などなど色々思い浮かべる人がいます。
AIは「野球」という単語を覚えていても、「野球」がスポーツであることなどを理解できないのです。
これがおそらく今の自然言語処理のAIの大きな課題ではないでしょうか。
まあ単語ベクトル埋め込み分散表現をしたら「野球」という単語が「スポーツ」関係の単語に近いということは分かるかもしれません。
ですがルールなどその他の意味は理解できません。
本当の意味でAIが言葉を理解するのはまだまだ先になりそうですね。
とりあえず作ってみます
ですがAIの技術は着々と進歩しています。
ここ最近、自然言語処理の技術はブレイクスルーを迎えました。
googleが開発した「BERT」という言語モデルが文脈を理解できるようになったのです。
私自身まだあまり調べていないのですが、完全に文脈の理解ではないですけど。
汎用性が高い言語モデルなので(日本語モデルもあります)できればこれを組み込んでいけたらいいなと考えています。
まあまずは色々試してみます。
今回は学習を行うところまでにいくのに時間がかかるかもしれませんが気長に待ってください。