近代科学バルス実装考

バルス」とはいわずと知れた「天空の城ラピュタ」の滅びの呪文である。
テレビで再放送され件のシーンにくるたびに、DOS攻撃にも強いという2ちゃんねるのサーバーを落とし、最近の再放送ではツイッターの秒間ツイート数で世界記録を更新した。バルスは世界のネットワークインフラを一瞬のトラフィック増で混乱に落とし、寸断しえる現代唯一の現存する滅びの呪文でもある。


さて、この「バルス」という単語。滅びのコマンドにしては短すぎるのではないかという論考があった。

ラピュタには何故自爆コマンドが用意されているのか
http://mubou.seesaa.net/article/210212206.html


確かに、自爆コマンドが三文字では短すぎる。
「パズーがきたならば、留守だと伝えて頂戴」みたいなツン状態から、
「ぅん、私頑張る…。好きじゃなきゃこんなこと言えないよ。」みたいなデレ状態まで、文中にうっかりバルスが混在してしまうことは大いにありえることだ。注)このふたつのセリフはそれぞれ文中にバルスの音を含んでいる。
そんな、うっかりバルスのたびに、天空の城が崩壊していたのでは設計がどうかしているぜと言わざるを得ない。本当に「バルス」の一言で滅びるのだとしたらあまりにフェザータッチだ。


フェザータッチ

西部開拓時代。ガンマン達は早打ちの腕が生死をわけたため、引き金の感度をよくした。スナイパーも引き金を引くときの握る力で照準がずれないよう、まるで羽毛のような軽さで引き金をひけるように銃のバネを調整した。フェザー(feather)とは羽毛のことである。これがフェザータッチの語源である。


西部劇のように敵意を持って銃を構えている人物と対峙している状況下だったとしよう。実際ムスカは銃を構えていた。ここで、目の前の相手を一瞬で蝋人形にする呪文が「ビリーゲンブルーゲンヴァックスドッカ」ぐらい長かったとして、相手もこの呪文の存在をしっている状況下であれば、詠唱を始めようが詠唱が終わるまえに撃たれてしまうだろう。呪文もまたフェザータッチでなければならないのだ。


だが、軽い引き金は同時に誤爆という悲劇を生み出す。西部開拓時代にも銃がうっかり何かに触れた拍子に暴発し、自分の足を撃ちぬく者が続発した。そこで考案されたのが安全装置である。近代の銃は安全装置を外さないと引き金をひくことができない。ならば当然、ラピュタのシステムにも安全装置はあったはずだ。


言語インターフェイス

iPhone4Sから登場したSiriは世界に衝撃をもたらした。カーナビやスマートフォンなどで徐々にではあるが身近に体験できる言語インターフェイスが登場してきている。課題点も多い。日本語のように同音異義語、語彙が多いものはそもそも音声認識が難しいし、実際の動作環境を考えると環境ノイズをキャンセリングするのが難しい。

オープンソースで開発されている音声認識システムJuliusをいれてカフェとかで動かしてみればわかるが、ちょっと愉快なことになる。次々意味のわからない文章が登場して降霊術かと思ってしまうほどだ。

Julius
http://julius.sourceforge.jp/index.php

現代の科学水準で言語でのみ操作をしようと思ったら大変であるが、カーナビのように予め応答する単語を辞書で絞りこんでおけば実用に耐えうるレベルにはなっている。


先日、野生のプロでイオナズンを実装したひとがいた。
部屋の家電を音声操作可能にしてしまったようだ。話題になっていたので知っている人も多いだろう。
部屋にはいって「電気つけて」というと部屋のあかりが付き、「暖房つけて」というとエアコンが設定温度19度で動き始めるのだ! 本当に進化した音声認識は魔法と区別がつかない。まさに!

引越ししたので未来なお部屋を作ってみた。
http://d.hatena.ne.jp/rti7743/20120104/1325668680

なんかすごかったので、これを実現するのにご本人が公開しているプログラムのソースを見ながらツイッターで呟いてたら、「ルールベースで認識した結果の音声部分をもう一度 ディクテーションにかけて、誤認識をフィルタリングするのがミソです。 」と、ご本人からミソポイントをご指摘いただいた。みそみそ。


にゃるほどと該当部分を探してみた。

https://github.com/rti7743/kaden_voice/blob/master/naichichi/naichichi/RSpeechRecognition.cpp
hr = this->DictationGrammar->SetDictationState(SPRS_ACTIVE );
(略)
hr = this->DictationGrammar->SetDictationState(SPRS_INACTIVE );

この二行などはよく表していると思う。
この二行は()内の引数が違うだけだ。SPRS_ACTIVE と SPRS_INACTIVE というこの2の定数はMicrosoftAPIのドキュメントによると

SPRS_INACTIVE Grammar rule is inactive.
SPRS_ACTIVE   Grammar rule is active.
http://msdn.microsoft.com/en-us/library/ms718917(v=vs.85).aspx
http://msdn.microsoft.com/en-us/library/ms717272(v=vs.85).aspx

つまり、一度文法みたうえで、再度文法をみないチェックをかけているのだ。
こうすることで誤認識を防いでいるのだ。


音声認識の安全装置

バルス音声認識による操作だ。音声による操作はいくつかの安全装置を考慮せねばならない。文中の音節に反応してはならないし、オペレーター以外が発した環境音に反応していてはだめだ。


例えば環境音が多い駅の構内で音声を認識するには、まず人を認識してどの音を選択するかなど雑音抑制によるフィルタなどが考慮されている。

Kinect ヘのリアルタイム雑音抑圧処理の実装
http://spalab.naist.jp/kinect_bss_demo.html


考えてもみてほしい、そもそも飛行石は音声による操作インターフェイスをもっているのだ。それを外部に送る通信インターフェイスも当然もっているだろう。現代のKinectが赤外線光を対象物に照射してものの立体を”みる”、動物のコウモリやイルカが音でモノを”みる”ように飛行石自体にその周辺環境をモニタする能力がないわけはない。レーザーのような可視光が出せるのだ。音も出せる。人間の目には見えない不可視光で、耳には聞こえない音域でオペレーターをとりまく環境をモニタリングし続けることが可能だ。


さらにペンダントという形で使用者本人と物理的に接触している。物理的に接触すれば情報量も増える。脈拍や発汗、呼気などをモニタし続けることで、使用者本人が酩酊状態や錯乱状態になく、どのような心理状態でそれを発したのかがわかることだろう。


使用者は王家の血族だ。代々モニタリングされ情報が蓄積されている。遺伝的特徴が行動パターンや身体的特徴の随所にあらわれる。現代でも静脈や目の虹彩、指紋、声紋などのバイオメトリクス(生体認証)がある。もし、情報の蓄積が十分に進めば近代科学でも優性遺伝で発現する遺伝的特徴でそのものが血脈が否かぐらいはわかることだろう。例えば指紋ひとつをとっても日本人には流れ紋やうずまき紋など主には3種類があるが、こんなことでも確率的に血族かどうかはみわけられる。耳の形がそっくりとか鼻の形がそっくりとかで似てるわねーとおばちゃんが言ったりするが人間でもわかるのだからシステムだって学習できるだろってなもんだもんよ。


だとすれば、自爆コマンドを実行するのに使用者は正統な権限があるか否かの認証はすでに通っていることだろうし、興奮状態にある敵意を持った人物が近くにいるなどという環境も監視できているはずだ。本人は怪我をしていて、生命的にも危機状態である。それをシステム側が認知していたとすれば、「バルス」の発言前に、システム側が状況を判断し、安全装置を外してスタンバイをしていたことになる。


現代科学ですら尻の圧で個人識別できるんだから、声紋だけだって十分だよね。

自動車盗難防止に「お尻で」生体認証:日本の技術
http://sankei.jp.msn.com/wired/news/111226/wir11122617190001-n1.htm

ここでブレイク

はばキットカット! 昨日キットカットに自社のCMをいれたお年始をもらった。なんかすごいね。
なんか長くなったから紅茶タイムだよ。
うちは紅茶屋だから、おまかせ茶葉セットでも貼っておくよ! たまには紅茶でも飲もう。
http://item.rakuten.co.jp/hagurachaya/s-904/



環境センシング感情センシング

東京大学工学部の浅間教授がロボットを次のように定義していた。

1.リアルワールドのセンシングをおこない
2.アクチュエータ(運動機構)をもつもの

環境をセンシングするものが近代においてどれだけ重要な意味をもつことになるだろうか? その重要度は今後増す一方だと思われる。電子工学の世界ではセンサー類が重要度をまし、情報工学的にはセンシングした莫大な情報から”有意”を抜き出すアルゴリズムがより重要になるだろう。


本屋さんの店員はお客さんの動きで万引き犯がわかるという。それと同じように、監視カメラで人間の動きを検出し追跡をおこなうことで不審者や迷子パターンの検出はすでに商品化まで来ている。我々大人がうろうろする子供をみて「僕、迷子になっちゃったかも」と子供が認識するまえに、「あれ?あの子、迷子かな?」と認知することが可能なように、テクニカルにシステムがそれを認知するのだ。


近い将来には我々が意思を明確化、言語化するまえにノンバーバルからえられる莫大な情報から、それを監視するシステムが、まるで長年つれそった奥さんのように次の行動を察する可能性がある。
「お茶ー」と呪文を唱えるまでもなく、メイドロボがお茶を運んでくるのだ。予測行動。これこそが光よりも早い通信だ。よかったね光よりも早い通信あったよ。
生活パターンを学習し、最近のライフログ記録し、趣味嗜好をAmazonのリコメンド機能のように理解したシステムが駆動系を持って、実際の生活にはいりこんでくる。なんということだろう。


ロボは人間の感情を理解しないという過去のSFものはやステレオタイプかもしれない。
最近Twitterの自分のタイムラインをNTTデータのなづきAPIメタデータの感情APIにぶん投げて解析して、株価と連動比較とかしてみてたのだけど、まぁ、精度はいまいちどころかいまさんぐらいの余興レベルなんだけど、一日1万件ぐらいぶんまわした感触としては感情系もできなくもないなと思った。*1
マーケットも現代では投資家の気分がぶつかっている現代ではシステムのアルゴリズムの衝突を象徴した場所でしかない。事実アメリカでは87%の制度で連動がみられたという。個人的には残念な話しである。

http://lusty.sakura.ne.jp/senior/%E3%83%84%E3%82%A4%E3%83%83%E3%82%BF%E3%83%BC%E3%81%A7%E6%A0%AA%E4%BE%A1%E4%BA%88%E6%B8%AC%E3%80%81%E7%B1%B3%E3%82%A4%E3%83%B3%E3%83%87%E3%82%A3%E3%82%A2%E3%83%8A%E5%A4%A7%E5%AD%A6%E3%81%8C%E9%96%8B/
ツイッターを利用した株価予測システムを米 Indiana大学(Bloomington's School of Informatics and Computing)の研究者が開発した。ダウ平均株価(DJIA)のアップダウンを87.6%の精度で予測できたという。

140文字のつぶやきで人々の気分が拾えるのなら、人間をも含む環境センシングとロギングで、人間の機微を理解するアルゴリズムを作ることは十分すぎるほど可能だ。


問題があるとすればアルゴリズムの衝突。これについては、TEDの【ケヴィン・スラヴィン 「アルゴリズムが形作る世界」】がおもしろい。
http://www.ted.com/talks/lang/ja/kevin_slavin_how_algorithms_shape_our_world.html


そう、そこまで機微に穿ってアルゴリズムが組まれるともはや我々人間にはそれを監視すること以前に、結果としてすら何がおきたかもわからなくなるというのだ。

ああ、なんということか、進化したアルゴリズムは神の見えざる手と区別がつかない。


アクチュエータ、運動機構

体重移動をするだけで進みたい方向に運んでくれるセグウエイのように、ボタンがないエレベーターがあってもいい。ラピュタのように目的地まで案内してくれる飛行ブロックがあってもいい。

ただ、運動機構は現代科学において難題だ。例えばロボットの価格はまだ高い。これは運動機構であるサーボモーターがたった一個で数万するからだ。なんでそんなに高いのん?って聞いたら、制御がやっぱり段違いなんだと。スイッチのオンオフしかできないようなモーターでは細かい制御は無理ちんらしい。


ロボでサバゲの多脚ロボットは一体10万以上するロボを2体ばらして、つくるそうだ。
http://youtu.be/sr7gehSsKXo


キネクト+ヘッドマウントディスプレイでロボを遠隔操作という謎い技術をやっている人がいた。これもまたとてつもなく未来だ。このロボットなんだろうと思って調べてみたら、フランスのAldebaran RoboticsのNAOという筐体らしく一体176万もしよるのだ。たっけぇ!
http://www.youtube.com/embed/pxoL4bnLp0g



先の部屋の家電を音声操作するシステムをつくった方も学習型のリモコンが2〜3万していた、結局まだアウトプット系がその性能のわりに高くついている。アシモは油圧系にだけは手をだしたらいかんという社内の不文律を破って進化を遂げたらしい。結局保守コストがあがる。近年中に大きなブレイクスルーがあるとすればアクチュエータ、出力系なんじゃないかと思う。


動物の生体組織の部分培養が現代では技術的に可能になっているので、筋肉繊維でやるとかな。
そいえば人食いエレベーターみたいな映画があったけどあれは生体コンピューターだった・・・。

ここらへんの未来についてはまたTEDなんだけど、【フアン・エンリケズが新しい驚くべき科学について共有します】この動画がおもしろかったのでついでに紹介。なんか最近TEDみまくりなんだよ。
http://www.ted.com/talks/lang/ja/juan_enriquez_shares_mindboggling_new_science.html

結局バルスって

コマンドラインのような対話型のインターフェイスなら、バルスというコマンドは短すぎる。
だけど、上記でのべたように予測しうる近未来のインターフェイスは対話型ではなく補助型になる。環境センシングをされていて、すでにシステム側が準備が通っている場合、バルスという単語は、対話型コマンドにおけるリターンキー、commitにほかならない。


テレビの視聴者のように主人公を監視しつづけた無数のシステムが、(もしかしたらシステムもハラハラどきどきするようになるかもしれない。)緊張、監視下のもとにとうとう発せられるその呪文はGOサインなのだ。


140年前、テレビが映る仕組みは幽霊よりも奇っ怪だった。
110年前、空を飛んだ人はいなかった。
50年前、インターネットを想像した人は皆無だった。

人間が具体的に想像しイメージを共有しえるものは実現可能なものだと思う。

*1:まーけっとかなりあ http://marketcanary.biz/