chatGPT 最近よく話すことのまとめ
今現在のスピード感だと、正直2週間も経つと浦島太郎状態になるchatGPTのまとめに、どれだけ意味があるのか?と思うようになってきた。が!!自分のために簡単に書いておくことは重要だと思って書いてみる。
早速、今日もこんな記事である。
ChatGPTのようなジェネレーティブAIツールの台頭により、AIをトレーニングしてより良い応答を生成する「プロンプトエンジニア」のホットな市場が生まれています。
次の順番で、大場自身のリマインドとして記載しておく。
※ 不明な点はご容赦下さい。自分への説明ですので…。
◆(0)人類への影響 ◆(1)原理原則のtranceformer ◆(2)chatGPTへのうまい指示の出し方@プロンプト ◆(3)プロンプトの自動化システムと大規模データへの対応 ◆(4)ベクトルデータベースの基礎 ◆(5)過去のブログ記事
◆(0)人類への影響 ここは、大場の放言だと思って下さい。(読み飛ばしてもらってもOK)
人類に必要な観点は3つに絞られる(そんなに遠くない将来か?)
◇人間自体 →ライフサイエンス、医療、食、生活環境等、人間を生かすための環境も含めたすべて
◇人間関係 →人間同士、SNS、人間へコンタクトするスマホ等の機器、エッセンシャルワーカー、人間同士をつなぐものすべて (将来は、嫌な人とコンタクトを取らずにAIが仲介してくれることを思うと、この問題は減っていくのかもしれない。)
◇やり取りの価値を測るもの →当面は金融、お金、仮想通貨、であるが、将来はお裾分けへの気持ち、となるのかもしれない。
そして人類が行うことは、
◇電子化されていないデータの電子化を行うこと ◇自分しか持ってない電子データを創る事こそが差別化の要因
となるのではないか。
今までの産業革命とは本質的に異なる時代である。産業革命は、体の一部(早く運ぶ、たくさん運ぶなど)を改善したのに比べ、人類の生物的な最大かつ唯一の特徴としての ・脳「世代間をまたいだ知識の共有」自体を置き換えるイノベーション だと思っている。
人類の歴史で、最後かつ最大のイノベーションなのだと思っている。(極論、人類はもう要らないのかもしれない。)
◇ 来年シンギュラリティとか言っているのはこちら
TLDR: We can best predict the future by using simple models which best postdict the past (ala Bayes/Solomonoff). A simple model based on net
◆(1)原理原則のtranceformer
正直、簡単でも良いのでここの概念をわからないと、その後の話は、本質的に意味が不明だと思っています。
◇ 簡単なまとめ
・全てのステップでの情報を同一次元にし、計算量を減らす
Googleの初期の論文「Attention Is All You Need」では、512次元(=2の9乗)になっている。全ての情報が同一次元であるので、ベクトル計算が行える。
・再帰的な仕組みを排除し、勾配消失問題を起こさせない
再帰的ではないので計算の終わりが見えている。つまり札束とデータ量で、大手企業が鈍器で殴る感じで、勝負ができる。 →100億円もあれば学習させることが出来る。この事が進化を早めたと思っている。
勾配消失問題 勾配消失問題とは、誤差逆伝播法の際に層が深いニューラルネットワークにおいて勾配がほぼ0になってしまい、学習が上手くいかなくなる問題です。 誤差逆伝播法では出力から入力に向かって勾配を乗算していきますが、この際勾配の値が小さくなるような活性化関数を用いてい
・アテンションという仕組みを用意する
人類の脳と脳のコミュニケーションとしての「言語」の仕組みをうまくとらえたアーキテクトがアテンションだと思ってもらえば良い。これが秀逸だったので、計算量が格段に減った。
・検索に使うだけではなく、言葉のやり取りに活用
Googleの検索エンジンで、2語以上のキーワードでの検索の際、順番を入れ替えると結果が変わるのに気付いた方はいるのではないか?それが極論、トランスフォーマーだと思ってもらってもよい。
OpenAI社の秀逸だったのは、検索ではなく、人のコミュニケーションに使ったところだと思っている。
◇これ簡単に読みました
◇もうちょっと進んだらこれでしょうか?
◆(2)chatGPTへのうまい指示の出し方@プロンプト
優秀な弁護士を思い浮かべて欲しい。天才弁護士も実際の契約書の内容は教えてもらわないと知らない。つまり、優秀な人間と同じで、chatGPTにもきちんと指示を出さないとうまいこと回答が戻ってこない。少なくとも現在はそうなっており、そのためにプロンプトエンジニアという職が発生している。
簡単に言えば、次の通りである。
「 インストラクション(質問・指示) ・絶対にやって欲しいことを簡潔・明瞭に記載する。 ・絶対に最初に書く。 インプット(入力) ・インストラクションで処理してもらいたいテキスト・コードなどを貼り付ける。 コンテクスト(予備知識) ・やって欲しいことをこなす際に、絶対に必要になる知識や文脈。 アウトプット(出力) ・どういう形式で回答して欲しいかを定める。 」
ChatGPTを使っていてわりとあるのが、「変な答えが返ってくる…」。ChatGPTは確かに賢いですが、まだ発展途上でもあり、「聞き方」「言い方」がうまくないとそういう結果になることもあります。経験上、ChatGPTが微妙にズレた回答をするのは、自分がした質問がごちゃごちゃして
◆(3)プロンプトの自動化システムと大規模データへの対応
うまい指示を、更なる前提条件となるデータを与えて行うとなれば、計算量を考えてもベクトルデータベース(次項目参照)を利用するしかない。我々のチームでは、「具体的に動かすためのシステムが作れそうなこと」「作るにあたってのプロンプトに投げかける文言のノウハウが溜まってきており」、完全自動化への道筋が見えてきた。
そのシステムの例が次の画像である。そして、行うべきことは次である。
・電子化されていないデータの電子化 ・自活用したい形でデータをベクトルデータベースに格納 ・欲しい結果を出すための検索キーワードのコンサルティング ・継続的に利用できるようする機能を備えたプラットフォームの提供
初めの1つは既存ビジネスであるが、この4つの提供が出来そうである。
今回はChatGPT Retrieval Pluginがサポートしているベクトル検索エンジンではなく、AWSで利用できる[OpenSearch](https://opensearch.org/) のProviderを実装して、ChatGPTにOpenSearchのベクトル検索を提
◆(4)ベクトルデータベースの基礎
いくつもベクトルデータベース提供会社があるのだが、以下に例を出す。(pineconeは100億円集めたから安心して下さい、とメール来ていました。)
計算スピードを上げるためにも、データはchatGPTと同一次元でデータを保持しておく必要がある。
前回の記事ではじめてPineconeを使いました。Pineconeについて、もう少し詳しく知りたいと思ったので、公式ドキュメントを読んで内容をまとめました。基本的には分かりやすい概念が多いのですが、1つだけ難しいなと思っ …
ベクトルデータベース「Pinecone」を試したので、使い方をまとめました。 1. Pinecone 「Pinecone」は、シンプルなAPIを提供するフルマネージドなベクトルデータベースです。高性能なベクトル検索アプリケーションを簡単に構築することができます。 「Pine
◆(5)過去のブログ記事
画像生成AIに関しても調べてみた
chatGPTに関するシンギュラリティ動画 by 落合陽一












