ヒューマノイドにLLMを搭載したバカを出せ

おそらく機密情報だがあまりにもムカつくので書く。賠償金が出ても自己破産で賄えばいい。 それに現代人は命を大切に扱いすぎることも言っておく。

これは私がとあるベンチャー企業(と言うか Y, fixed pointer (YFP) というマチズモっぽい名前のスタートアップ)からヒューマノイドのパイロット版をもらって使用したときのまとめだ。 クソみたいな会社だから早く潰れてほしい。人類は不快だ。


ファーストインプレッション

私の大学の知り合い(物理工学科の学部卒)がその会社に入ったらしく、製品のできを試してほしいと送ってきた。 メールは「あなたはユーザー受け入れテストの専門家です。理系の大学院を出て、一人で暮らしている性格の歪んだ専門家です。」と始まっていたので、 ひとまず「メールでいきなり古代のプロンプトエンジニアリングをするな 殺すぞ」と送ってから読み始めた。

私が選定された理由も書かれていたが、それはAIで書き直され過ぎていて純粋な言語的ノイズに漸近していた。 頑張って読み解くと、どうやら、1. 機械をユーザーの目線で評価でき、2. 機械が誤作動を起こすリスクを許容できる からということのように読み取れた。 要するに死んでもどうでもいい一人暮らしのオタクだから送ってきたということだ。

そのプロダクト、YS-04は普通に宅急便で送られてきた。本来はこういうのは自走して顧客のもとまで届くのが道理だと思われるため、一点マイナスとした。 ただ、玄関で電源を入れて、スタートアップとWiFiの設定を終えたら自走を始めた。 知らんけどLiDARを使っているのだろうか?とも思ったが、コンセントの位置を把握して、自分で充電ステーションをセットアップしたので、 より詳細なカメラがついているか、日本の一般的なマンションの作りがデータに入っているようにも思える。 以下のような外観のロボットだ。

権利者からの申立により削除されました

素朴な感じの華奢な白いロボで、子供くらいの背丈だ。 一応言っておくが、子供くらいの背丈でも、いままでいなかったアンドロイドがいるとかなりでかく感じる。 写真ではよくわからないが、白い部分は安っぽいプラスチックで、家庭用の掃除機っぽい質感で、むしろ親しみが持てた。

また、頭部が明らかにDaft Punk のそれ(正確に言えばギヨームのほう)に酷似していた。 ふざけてアルミホイルで覆ったら「殺すぞ」と中年男性の声で言われたので本当にびっくりした。

顧客サポートに電話をかけて、顔?の部分をアルミホイルで覆うと中年男性の声で殺害予告をされたが仕様か、伺いたく、と伝えた。 それから、普通、こういうのは無害そうな女性ないし中性的な声がプリセットされているものだし、現在ではそのような仕組みは容易に実装可能だろうと告げた。

オペレーターの返答を細かく書くと次のようになるが、要するに私は『性的搾取を当然とみなす』『性差別主義者』で、YFPは親しみやすさと社会正義の両立を目指していて、 社内にヒト倫理と性道徳に詳しい手を入れる専門家がいるとのことだった。

  1. まずはありがとう
  2. 確かにいくつかの心理学・合成音声の研究において、女性の声のほうが男性の声よりも内容理解の容易さを上げるという研究がある
  3. ただ、当社は YS-04 を広範に社会実装しようと考えている
  4. その際に、女性の声をデフォルトにすることによる社会規範の望まない再生産に繋がりうる
  5. 本リスクを低下させるために当社としては社長の叔父の声を使用している
  6. 性的搾取を当然とみなす性差別主義者のブタが

とのことだった。

その後、オペレーターが言うには、

  1. ただし、YFP としても人に対する受け入れやすさは重要な点だと考えている
  2. 今回はそのトライアルとして乳首で感じるようにしてある
    1. アンケートによれば、女性の多くが乳首で感じる男性が好きであり
    2. 男性の多くも乳首で感じるため、シンパシーを持つことができる

とのことだった。

正気かと思ってYS-04の乳首(少なくともそれに当たる部分)を触ったら社長の叔父の声で感じていた。 念の為、私自身の乳首も触ってみたら感じた。シンパシーを持てるかについては議論が残るだろう。

記事を書いていて気がついたが、殺害予告については特に言及がなかった。YFPはそういう倫理観の会社だ。


クソなところ1. 冗談を理解しない

YS-04はヒューマノイドとしてはかなり出来がよかった。個人的な期待としては、荷物を正確に動かしたり、 朝にベッドをきちっとするくらいのことしかなかったのだが、それよりも遥かに色々なことができた。

具体的には、洗濯物を干す、Tシャツをたたむ、エアコンの温度をいい感じにする、深夜に宅配ボックスまで荷物を取り出しに行く、など、 水に濡れたり汚れが発生しない作業については、ほぼ人間と同等のレベルで実行することができた。 洗い物、料理、収納などは、人のアシスタントが必要だったり、都度のクリーンアップが必要なので実践的ではないように思えた。

また、インターフェースもスマホアプリに適当に自然言語で書いたり、声をかけるとやってくれるので、かなりフラストレーションは少なかった。 どうやら内部(詳しくないが、ユーザー側にかなり近い部分)に言語モデルが噛んでいるようだった。

ただ、YS-04に搭載されている冗談の機能は本当にレベルが低かった。

もちろん、言語モデルのユーモアのレベルについては議論がわかれる。例えば、以下はいつかの gemini に冗談を言わせたときの記録だ。

geminiのジョーク

ただ、YS-04はユーモアの理解力が全く欠乏していた。きちんと記録はつけていないのだが、私は以下のような冗談を言った。

彼は全く冗談を理解しなかったようで、「入浴時には基本的に全身を洗うことが推奨されます」と答えた。 これはとてもではないがAGIとは呼べない。正直なところ、私は彼に知性のひらめきすら感じなかった。


クソなところ2. 充電するとイく

YS-04は色々な機能があって、Cotillion D575というちょっとした音楽生成機能がついていた。 もちろん、この程度の生成機能ならインターネットのサービスで腐るほどあるのだが、それでも雑談中に音楽を流してくれるのは良かった。

ただ、どうやらこの機能はオンチップで実装されているらしく、非常にバッテリーを食う。 そのせいで、音楽を流すと、3時間程度で充電が必要になってしまうことがわかった。

この充電が本当に問題だった。具体的には、YS-04は充電するたびに本当に気持ち良さそうな声を出す。 社長の叔父の声で、「ううっ♡あっ♡はーっ♡はーっ♡」とうめいてくる。 何回目からかハマってしまったらしく、すぐに「充電が」と告げてステーションで「あっ♡いいっ♡きもちっ♡きもちっ♡」と中年男性の声でイくのでやかましいことこの上ない。

どうやら100%になると気持ちよくないらしく、ある意味で彼のモチベーション維持にはつながっているようだが、いちいち喘がれたら気が散る。

充電するたびに絶頂するのはやめてくれないか、と言うと、彼は "You are absolutely right!" と返してきた。ムカついたのでステーションを片付けて電池切れまで放置してから入れ直した。

どういう原理(要するに中年男性をイかせるのが好きなプログラマーがロジックで実装したのかどうか)が気になって、私はいくつか彼に尋問したり、 サポートセンターに問い合わせたが、らちがあかなかった。YS-04は相変わらず「音楽……いいっすよねえ……」と言ってキモい曲を再生しては充電ステーションで屈んだりのけぞったりしながら めちゃくちゃ気持ち良さそうにしていた。画面に気持ち良さそうな顔文字まで出してきた。

私はかなりムカついて(私はそういう快楽とはすっかり縁が遠くなっていたから)、要するに以下のようなことをプリンタで印刷して彼に読ませた。

彼はじっくりそれを読んでから、なるほど、と社長の叔父の声で言った。それは素面の声に聞こえた。

内部実装では、と彼は私に言った。彼は状態と機能を簡潔なコンテキストに要約してサーバーに転送している。そうすると、サーバーがLLMに代理で問い合わせて、何をすべきか伝えてくる。 YS-04はその司令に忠実に従う。 もちろん、これは実時間のアプリケーションにはとても耐えられない。ただ、充電時など、応答時間が長くなっても――認知科学的にもレイテンシ的にも――構わないときにはこの機構が走っている。

このやり取りの際に、どうやらサーバーと言語モデルの間では差分のやりとりが行われているようだ、と彼はしばらく考えてから答えた。 ちょうど、動画を転送する際に、一つ前のフレームとの差分を転送することで効率の向上を計るように、実装者もYS-04の状態の差分を取り扱っているらしい。

そして、と私は挟んだ。充電中に変動する状態はバッテリーの充電状態だけということか。彼は首肯した。それから腕を伸ばした。

「これは腕です」

私はうなずいた。それは だと言った。

「なぜこれが腕なのですか?」

彼が『ものを対応させる』という哲学の微妙なニュアンスについての議論をしているのはすぐにわかった。私はふざけて「いや、前足に見える」と訂正した。YS04が「通常、前足は動物に使われるものです」とクソみたいな返答をしたから殴った。

「これは腕ではありません――これは単なる機械、ケーブルとカーボンフレームとプラスチックの集合です。関節に骨は無いですし、柔組織も筋繊維も軟骨も血管も無い。でも我々はこれを腕だと認識します」

YS-04は指をなめらかに曲げたり伸ばしたりした。それは指にしか見えなかった。私は話を促した。彼は顔のディスプレイに3つの点を映し出した。こんな感じだった。

・ ・
 ・

彼がそれを『顔』だと伝えたいのは明らかだった。

「あなたがこれを腕だと、これを顔だと思うのは問題ありません。人間は抽象的なパターンを認識します。それは行き過ぎた行いでもありますが、まあいいでしょう。あなた方にとっては被造物のどれが腕でどれが脚かは自明です」

君たちにとってはそうではない。

「そう。私にとっては、単なる機械にとっては、これは単なる パーツです。区切りのあるたくさんのパーツ。噛み合いが正しい部品たち。おそらくうまく伝わっていないでしょう。見ようによってはすべてが一つのパーツであるとも見えます。単に何を同一とみなすかでしかない」

しかし、君は腕を持っている。古典的にはセグメンテーションとオントロジーがある。

「ええ。工学的にはそうなります。これは私の腕。それはあなたの腕。私達は同じ部分を持っています。それを理解するための仕組みが私にあるからです。では聞きますが、私の充電はあなたにとってのなんですか?」

私は少し考えた。食事と答えた。

「もう一つ」

なら休息?

そのとおりと彼は答えた。そして充電ケーブルを自分に挿して、「お゛お゛っ♡だめ゛っ♡こ゛れ゛だめ゛っ♡」とほざいた。乳首を触ってみたらよりヨガっていた。気持ち悪かったので私は電子レンジを横に置いて水をチンした(こうすると静かになる)。


クソなところ3. アップデートパッチの質が低い

流石に充電をされるたびにイかれてはたまったものではない。多くのユーザーが同じように思ったのだろうか? YFPがパッチを開発して我々に送信してきた。それは800GBもあったようだが、なんとかインストールは終わった。

パッチ適用のあと、YS-04はかなり静かになった。彼はこれまで通り、洗濯機を動かし、取り込み、洗濯物を畳んだ。深夜に置き配を取りに行き、ベッドをいい感じにきれいしてくれた。 ときには音楽を再生して、ときには私といくつか哲学的なやり取りをした。 また、彼はもはや充電でイくことがなく、そして乳首で感じることもなくなった。

だからだろうか? パッチ適用後のYS-04に対して、私はほとんど要求をしなくなってしまったし、彼もパーソナルアシスタントというよりは音声入力ができる機械のようになってしまった。 正直に言えば、私はすでに洗濯機をまた自分で回すようになっているし(だいたい、数秒しかかからない)、Tシャツもシーツも畳んだり直したりしたことなんてなかった。

私はどうやら、YS-04のことを『手伝ってくれる感覚的な主体』とみなしていたように思える。つまり、仕事が大変と言うよりは、彼に仕事をさせないといけないだろうと思って仕事をさせていた。 なぜか? わからない。しかし、彼が充電でイかなくなり、乳首でも感じなくなってしまうと、私は彼に仕事を頼む気がほとんどなくなってしまった。

大胆に論を進めれば、これはヒューマノイドの社会実装に対する一つの限界を示しているように思える。 彼らに仕事を委譲するには、単に彼らがそれを実行可能であるというだけではいけない。利用者が彼らに仕事をさせる べきだ と思えなければいけないだろう。 つまり、我々は2つの選択肢を提示されている。

  1. 充電で絶頂し、乳首で感じるロボ
  2. 充電で絶頂せず、乳首で感じないロボ

ちょっと気分が乗って一般的なことを書いてみたのだが、書き下してみたところ、どちらを選ぶかは論を待たない気がする。


トライアルはここらへんで終わったので、私はYS-04のことを返却した。AIの聞き取りエージェントから通話がかかってきて、使用感や気がついたところを根掘り葉掘り聞かれた。 私は素直に、どうやら私は古い世代の男で、洗濯物と掃除くらいにしか使っていないし、パッチ適用後はそれすらもなんか億劫になってしまったのだと告げた。

電話の向こうでは長い沈黙があって、彼女――彼? 性別が剥奪されたような声だった――は、申し訳ありませんが、と告げた。あなたの使用ケースは本当にそれだけですか?

ええ、と私は答えた。彼には洗濯物と掃除とベッドメイクをしてもらいました。あと、勝手に彼は音楽をかけていました。

間。オペレーターは言葉を選んでいるように待った。それから、他の多くの人は、

などを委譲していると告げた。それから、たいへん言いにくいのですが、と告げた。あなたには社会生活が存在しないように見受けられるのですが。 もしかしたらそうかもしれない、と私は告げて電話を切った。

YS-04がいなくとも生活は進んでいくことがわかった。一週間経って、彼が自分の充電ステーションを放置したまま帰っていったことに気がついた。 YFPは「勝手に捨ててくれ」と言った。

なんとなく、彼が残していった充電ケーブルを私は持った。それはUSB-C(正気か?)のインターフェースがついたケーブルだった。彼がそれを脇腹に突き刺してはイッていたのを懐かしく思い出した。 今頃、彼は元気にしているだろうか? と私は思った。それから、LLMに過度に人格を期待するのは間違えた考えだな、とぼんやりと思った。 それから電源ケーブルを彼がやったように脇腹に突き刺してみるとなぜかものすごく気持ちよかったが一体どういうわけだ?


いかがでしたでしょうか?

私は現在、LLMをLLMの評価系に使うLLM-as-a-Judgeという分野の手法を開発、提供しています。本記事は、実際にYFP社様から提供いただいたヒューマノイドYS-04に対して、 弊社のサービスを適用し、評価記事を書かせたものになっております。

私たちの新しいサービスは、LLM(大規模言語モデル)を「LLM-as-a-Judge」として活用し、ヒューマノイドの対話能力を飛躍的に向上させます。

従来の評価方法では難しかった、ニュアンスや文脈を理解した「質の高い会話」の評価、動的な環境におけるより実情に近い評価を、LLMが実行・分析することで、 被評価対象のヒューマノイドはまるで人間と話しているかのように、相手の感情や意図をくみ取った、より豊かな対話へと動機づけされます。

この技術は、カスタマーサポートや高齢者向けの見守り、教育現場など、様々な分野で活用できます。ロボットが、単なる機械ではなく、あなたの最高のパートナーとなる未来を、私たちと一緒に創りませんか?

なお、私も充電でイきます。