単刀直入だが、機械学習を論破してみる。

機械学習とは、データから反復的に学習し、そこに潜むパターンを見つけ出すことです。 そして学習した結果を新たなデータにあてはめることで、パターンにしたがって将来を予測することができます。 

機械学習の入力は、最近の進化は目まぐるしく、文書だけでなく、画像、音声、動画でも対応出来る様になったと聞いている。一般的な手続きを鑑み、機械学習とは何ぞや?と考えると、以下の通りとなるだろうか。

1、(black box)に、反復的に学習する。
2、(学習内容から)パターンを見つける。
3、結果やパターンを(black box)に定義する。
4、パターンに従って、新たな入力に対して予測をする。
※()内は、筆者加筆

さて、懸念すべきは何か?
一つ目は、学習させる内容そのもので有ろう。類する「構成要素」を(black box)に学習をさせるが、素朴な疑問であるが、
何を持って「類似する」を判断するのか?

寺田 寅彦著「比較言語学における統計的研究法の可能性について」にこんな記載がある。

“統計的方法の長所は、初めから偶然を認容してかかる点にある。いろいろな「間違い」や「杜撰」でさえも、最後の結果の桁数には影響しないというところにある。”

成る程、偶然を認容してかかる点とは、鋭い示唆と言える。しかし、例えば、学びもしなかった他言語を機械学習が出来るのかと言えば、ある程度の良識・常識・倫理観が必要となるかも知れない。
例えば、美人の定義とは何か?と問えば、性差を始め、シチュエーション、社会的立場などなど考慮する必要が有ろう。それらを一般化するのは、ある種危険な賭けである。

更に、精度を上げたいと願えば、領域を限定して深く探ろうと考えるのは、人の常であろう。何を持って偶然と判断し、何を持って倫理違反と断ずるのだろうか?そこら辺の境界線は、一体、何だろうか?

次に、「時」についてである。
「反復的に学習」をさせていた時と、
「新たな入力」をした時に、
どれくらいの時間的変化があるのか?というのを議論がされていないだろう。時事刻々と価値観が変わる社会であるのは、昨今のニュースを見ていても感じる。
これ又、素朴な疑問であるが、二つの時間差は、議論に登らないのだろうか?

「入力に対する内容と出力結果」のロスというのを、これ又、素朴な疑問であるが、議論にならないのだろうか?
機械学習は、統計学で言う所の「判別分析」
の一種と看做せる。前述の通り、出力結果は○と✖️の二種類である。確かに、入力すべき内容が相当量あるのも事実で有ろうが、経営者的な視点で考えると、生産性や汎用性が少ないのでは?と考えるのは小生の邪推だろうか?

前述にて、生産性について懸念を示したが、
学習をさせた(Black Box)は、この機械学習でしか使用できず、再利用出来ないというのは、わたしの学習不足なのだろうか?

さて、機械学習、就中、判別分析という手法を批判的に見てきた。ここで視点を広げて考えてみる。

ここで、一冊の書籍を紹介したい。

taschen“East meets West.”


西洋と東洋のそれぞれの文化で生活をしてきた筆者がそれぞれの捉え方を、インフォグラフィックを用いて表現している。
その中の一枚に、個人の物事の捉え方を描いた一枚がある。西洋は、個々人が画一的な捉え方を対人で意見を戦わせる。比して、東洋は個々人が画一的にならず、違う見方も寛容している。これを時として「ずるさ」となるかも知れない。

統計学の反対は?

まず、このブログは、統計に関するアレやコレやを、王道を通らずに、邪の道から考えていく、妄想炸裂、安さ爆発、安心してください、書いてるだけですから、と言うブログです。お付き合い頂ければ、幸いです。

さて、冬となると、空気が澄み渡り、夜空を仰ぎ見るのに、いい季節になってきました。

夜空を仰ぎ見るのは、ニュースでの珍しい天体ショーだけになったのは、忙しさに対する怠慢なのか、はたまた、自分の生活の困窮さに余裕がなくなったのか?

さて、今回は日本の天体史を紐解いて、そこから統計(学、若しくは、的)な物に対する考え方を炙り出してみたい。

日本の伝記の中で、「ひかりもの」が現れて、法難・困難を免れたと言う話はよく聞く。ある先人の法難の際に現れたひかりものは、彗星であり、処刑しようとしたその時に彗星が現れたのは事実だと言う、歴史的にも正しかったと言うのが定説となっている。

処刑を試みようとした為政者も、
また、結託していた異教徒たちも、さぞかし、悔しがった事は想像に難くない。
それ以上に、天体を理解していたであろう、
陰陽師も、何でだっ!と思った事だろう。
面子を潰された事だろう。

西洋の天体学が、圧倒的な人的、時間的、または、金銭的なコストを掛けて取り組んだのかを考えると、為政者の権威付けや異文化への理解に対する根拠の必要性から、はたまた、生活の営みの上で単純に必要だったから、色々、憶測は浮かび上がる。

一方の日本は、寧ろ、天候という脅威が生活を支配し、無事と安穏をどう担保するのかが、為政者の腕の見せ所と言った所だろうか?
「あの世に行けば、極楽に行ける」などと言う、トンデモ理論が蔓延り、為政者と結託していたのは、観測で得られる法則を無視している。
非科学的shamanismが蔓延ったとしても、
民集が納得すれば、問題ないと考えたのだろう。

日本に近代的な観測に基づく、西洋天体学が導入されたのは、江戸時代の徳川吉宗の時代だそうだ。前述の伝記は、それ以前の鎌倉時代であり、この時代は、暦の定め方もアバウトな物だったと。

私の拙い天体学史に想いを馳せた後に、
今回の本題に入りたい。

統計学」の反対(相対する)に
位置する考えは、一体なんだろうか?

光に対する影(陰)、
巨人に対する阪神
(プロレスなどの)
ヒーローに対するニヒル、
政治の世界の与党に対する野党などなど。
世の中において、
絶対的な何かを理解する、と言うのは、
なかなか骨が折れるものである。
人間の認識は、相対的な存在を置いて、
色々と理解が深まるだろう。

さて、統計的な事に対するのは、
「類型的」では無かろうか。

対象を絞り、(規程された環境を)観測・観察し、調査し分析するという、一連の統計の流れは観測者から被観測者への(能動的な)働きかけで、事が進んで行くと捉えられる。

一方で、物事は常に影響を与え続けており、統計では観測者だった者は、被観測者の環境、第三者、若しくは、社会情勢を無視したり、行動に対する規制を免れる事は出来ず、パターンに従う。

観測や分析は、観察者に能動的な行動を要求し、結果として圧倒的なコスト(人的、時間的、社会的責務など)を消費すると考えられる。

一方、ルールや規制と言った制約事項は、為政者の立場で考えると、社会的統制や(時間的な)思考のコスト、はたまた、所属意識の醸成などが考えられる。当然、融通が利かないや被対象者のストレスは、それ相応な者となろう。

どちらの優劣を論ずるのは、この多忙な社会の中では、考えるまたは、想いを馳せるという行為は、ある種の贅沢なのかもしれない。しかし、余りにも、脳髄反射的に考えなさ過ぎな人が多く見受けられるのは、何故なのか!と嘆きたくなるばかり。

昔、ラジオのキャッチコピーに、
ダイヤルを少しだけ右に回せば夏が来る、
なんて言う、私世代にはキャッチーで、
今の若いラジコ世代には何ですか〜?な、
謳い文句が有ったのだが、
私も人々の頭の中のダイヤルを
少しだけ、類型的視点では無く、
統計的思考に寄せてみたいのだ。

ことりつぎ

最近、ネットを徘徊して見つけたのがこれである。


「誰でも本屋が作れる仕組み」と謳っており、
非常に興味深い。この仕組みに、私は色々な思索を巡らせてみた。未完成では有るが、この事業の成り行きに注目をして行きたい。

(メリット)
・experience without ‥.
これが、実は要であり、肝要と考える。

創業者のインタビューの中で、
感覚における慣れが担うところが
(人々の生活や購入活動への影響は)
大きいと述べられ、
その機会を増やしたいと仰っていた。


エンドユーザーと取次事業者が関わる際、
彼らは、デジタルの呪縛を逃れている。
つまり、取次事業者の
事業所の一角にある書棚で、
書棚を手に出来る。
エンドユーザーにとっては、
デジタル機器の接触はほぼ無く、
書店とは異なる、購入だけでは無く、
アドバイス、助言など得る可能性があるだろう。

生の声をお互いが聞けて、時に共感を生み、
驚きや体験が伝播する可能性に期待が高まる。

・販売拠点の拡大
現在、書店は縮小傾向となっており、
それに伴い、出版全体もそのトレンドに
従っていると考えられる。
創業者の彼も、本そのものが消える事への危機感が、
この事業のきっかけとも語っている。

一つの取次事業者の取引高は、
街の書店と比較したら、
大きな額になるとも言えない。
また、事業者の利益は、
事業にとって変わると言うのも
考えにくい。

また消費者も、IT機器で書籍が買えることも、
取次事業者とコミュニケーションを取るのも、
不可能ではない。

それでも、取次事業者が増える事は、
新たなコミュニケーションの
ニーズを捉えているだろう。

・レコメンド機能
エンドユーザーは、
取次ユーザーの厳しい目利きを
潜り抜けて来た本を提示して貰える。
取次ユーザーは、販売する書籍に与信を与え、
その与信の元、購入の判断を
エンドユーザー側に委ねられるが、
一定の安心感は、ここで補えるだろう。

(デメリット・懸念点)
・(大型、若しくは、近所の)書店とのバランス
・Web上の書店との関係性
・既存の商慣行との兼ね合い

総じて、このアイディアは、所謂、
「枯れた技術の水平展開」の最良の形かも知れない。

「本」という、この世で
情報が纏った手軽なメディアと、
「アプリ」によって、
販売、流通を管理を可能とし、
「取次」という、
誰もが行ったであろう社会的な行為を
見事にデザイン構築した
彼らの勇気と労力に乾杯であり、完敗である。

それでも、僕は「傘がない」

今日は、ある邦楽を題材に思索を廻らせてみたい。

 

井上陽水の「傘がない」は、

ラジオなどでお聴きになった方など多いかもしれない。

1972年という、自分が生まれる前の楽曲であるが、

異彩を放っている。

 


傘がない 井上陽水 - YouTube

 

大意としては、(君)という存在に会いたい!との

(明言されていないが、この歌の)「主人公」だが、

『傘がない』という事実、周辺の喧騒が

その感情に拍車をかけている。といったところだろうか。

歌詞を読んでいくと、新聞やテレビの

深刻なニュース報道は関係ねえーとぶった切り、

「行かなくちゃ、君に逢いに行かなくちゃ」と

衝動を切々と歌っている。

 

この曲、いくつか特質する内容が見受けられる。

一つは、「天候」が『主人公』の行動の制限条件となっている事である。

 

通常、古文を含めて、

古今東西の歌(もしくは詩)などは、

情景を描き出す要素となる。

さらに、この曲では、『主人公』の制限要素として登場する。

因みに、今のようなビニール傘が普及したのが80年代以降であり、

傘は持っていなければ、濡れるしかない。

これで、ある種の悲哀を描いているのかもしれない。

 

二つ目は、前述の大意で書かせてもらった、深刻に伝えるニュースと

そんな事が問題ではない!という『主人公』の対比が描かれている。

現在のヒット曲の歌詞を読んでみると、

いわゆる「僕」と「あなた」の関係性で終始している歌詞が数多い。

しかし、この曲は故意的にではあるかもしれないが、

新聞やテレビというキーワードを用いて、

(主人公の周辺ではない)世間を描いている。

しかし、『主人公』と「君」の関係性は、

主人公が君に恋焦がれているといった描写だけである。

 

昭和47年というのは、横井庄一さんが発見されたり、

ローマクラブが「成長の限界」を発表したり、

浅間山荘事件が起こり、日本中を震撼させ、

また、飛行機に関わる事件が多かったのが印象的である。

戦後から、高度経済成長を経ての、

この次の日本がどうなるのか?と

漠然たる不安が蔓延していたのかもしれない。

 

ヒット曲を見てみると、

ちあきなおみの「喝采」がレコード大賞を獲得し、

郷ひろみが「男の子女の子」がヒットし、

山本リンダが「どうにも止まらない」「狂わせたいの」で

イメージチェンジしていたあの頃である。

 

1972年 - Wikipedia

 

世の中は、新たな変化の局面と騒然とした世相を知りながらも

どこか楽観的な雰囲気に人々が享受していたのかな?と。

 

傘がないの場合、Aメロで世相のことを描き、

しかし今の自分の問題は、傘がないことが大変であり、

サビで「雨に濡れ、冷たい雨が心にしみる」と嘆き、

最後に君以外のことは考えられなくなることを、いい事だろうと訴える、

傾斜した世界が展開する。

 

この歌詞の4コマ漫画のような構造で考えると、

2コマ目の「傘がない!」と

3こま目の「雨が心にしみる」の嘆きが、

主人公の実態と心理状態であり、

一方の、1コマ目の騒然とした世相の描写と

最後の「いい事だろう」と訴えるのは、

他者に対する、心証もしくは訴えを描いている。

 

騒然とした世相とは関係なく、君に逢うことは、

何の罪でも、義務でも、皮肉でも、権利でもなく、

衝動として描かれている。

 

しかし、何故、君に逢わなくてはいけないのか?

また、こんな大変な時に行く理由が描かれてはいない。

 

この行間を聴いている人に埋めてもらうという、

なかなかリスナーに優しくない仕様となっている。

 

構造的にはこんな感じでしょうかね?

以上、終わり。

 

P.S 本当は、データマイニング企業をメタ分析するとか考えているんですが、

まだ、出来てません。出来たら、また、記事にします。

お久しぶりです。

統計学は学びにくい」という話は、よく伺う。広い分野での使用は、多くの方が存じ、触れている状況にも関わらず嘆きが聞こえるのは、何か原因があるのだろうか?

単純に、それぞれの分野での統計学に対する捉え方、解釈、使用用途が、学習者の目的と合致していないという、ミスマッチ問題だと断定するには、少々、憂慮を覚える。私を含めて、多くの理解が出来ているかと問えば、そうなのか?と疑念を覚える。

 

以前に読んだ、「データサイエンティスト育成ネットワークの形成」を読み進めていくと、いかに、広く、普く、統計が理解されていないか、を痛感せざるを得ない。

 

言葉は踊れど、理解は得られず。

 

そんな思いになるのは、クライアント側の世界は、思っている以上に事が進んでいない、そんな、焦りを感じずには思わずにはいられない。管理者の立場で言えば、作業者が自分よりも年上の人間が多くなったなあ〜、と人口減少社会は、思っている以上に早く到来しそうな現場の悲痛からかもしれない。

 

話を統計学に戻そう。

 

パンは小麦粉から作られる、しかし、パンは小麦粉に戻る事は不可能である。

小麦粉は、パンだけでなく、スイーツや、普段の料理にも使用されるが、

小麦粉には、加工の仕方で、変質する。

 

統計学が、多くの人に触れていながら、理解の進まない理由は、

寧ろ、それぞれの分野でカスタマイズされ、実学的に統計を理解を進め、

各分野での解釈が、「タコツボ化」したのでは?

若しくは、肝要となる部分の理解を疎かになってはいないか?

と考えるのは、深慮すぎると言えるのか?

 

何故に、この乖離が生じたのか?最適な回答は何なのか?

自分なりの思索を重ねてみたい。

(因みに、この文章は統計の解説ではありません。枠内の議論に収めず、もっと幅広い議論を望むばかりです)

続きを読む

技術よりも、人材像を語れ!

前回の話は、此方のスライドに詳細が書いてあったので、置いておきます。
 
 
時知通信社のニュースより、高卒就職内定率がバブル崩壊前水準に回復した。労働市場がいよいよ回復し、買い手から売り手有利になった、という景気のいい見方もある。
 
 
一方で、バブル崩壊前の環境を考えると、18才の人口構成や大学進学率に開きがあるので、単純な比較は出来ないのでは?という疑問もある。

よくもこんな大ウソがいえたものだ。18歳人口は当時の6割、大学進学率は15ポイント以上増加。バブル期に遠く遠く及ばないというのが実情。

近視眼的な考えではなく、中長期的にこのニュースを眺めると、いよいよ慢性的な人材不足の時代が来たのでは、という危機感を感じずには居られない。
 
現在、日本は人口減少時代であり、少子化と高齢化が並行しながら時代は進んでいる。少子化に伴う大学全入時代と過剰な大学間競争に突入している。一方で、高齢化により新卒者よりも定年退職をする人数が多くなり事態で、企業も人材確保に相当に躍起なっていると推測される。
 
この状態が恒常化すれば、今まで様な「いい大学に入れば・・・」などと言う神話は通用せず、何のために学び、研鑽するという大義が低減してしまう。
「それは、各個人の設定次第では?」という自己責任論はさておき、学び舎を出た彼等の進路が、社会の必然で、より保守的な領域に行ってしまうのは、社会人としての大人の責任である。
 
ここで、2つの著作を紹介したい。
 
1冊目は
 
「データサイエンティスト養成読本 R活用編」である。

 

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

 

 

前作から2年を経て続編が発行された。
今回、購読し感じたのは、最新の技術の紹介をしていた前作だったのが、今回は統計ソフトRを深掘りした内容となっており、如何に実践的に使用するのかと言った所を重点的に記載しているなぁ〜と初学者に分かりやすい内容となっている。一方で、実務者にとっては、物足りない一面もあるのかな?と、勝手ながら思ってしまう。
 
その序論には、データサイエンティストの人材育成のジレンマや分かりにくさなどが書かれている。
技術論だけで片付けられない、組織や社会の無理解や過剰な情報による錯乱も垣間見得たりする。
外部の反応だけでなく、データサイエンティスト当人達の問題発見力やビジネススキルに対する考え方などのコツや、how-to化しにくい暗黙知などが挙げられていた。読破された方々は、どうお感じなのか、より詳細に伺いたい。
 
もう一冊は、文部科学省が発行している
 
「データサイエンティスト育成ネットワークの形成」
 
 
この報告書は、データサイエンティストの啓蒙活動やアンケートの集計報告など、周辺環境の客観的なデータが提示されている。
 
気になった箇所を紹介してみる。
 
まず、キャリアを積みたい理由のアンケートには、「データ分析が好き」や「自分のスキルが活かせる」などが高い支持を集めている。
一方で、「勤務地関係無く働ける」「イメージがいい」「安定した職業」には、殆ど支持が為されていない。
このアンケート結果の裏付けになる、聞き取り調査でも、クライアント(発注者)側のリテラシーの低さが大きな問題と捉えている回答が目立った。特に、『クライアント側では分析ができると出世できない。』と言う一言は、この国の現実かも知れない。
 
また、雇用が何万人創生されるのか?との考察も為されている。資本金1億円以上の企業が3万社ほど有るのでそれ位、つまり、3万人位なのでは?と予測している。なかなかな人数で有るが、賃金ベースで試算すると、常用の雇用で3兆円市場に成らなくては維持し続けられない。この金額そのものとは流石に言えないが、それ位のスケール感を持って、今後を考えて行きたい。
 
まだまだ始まったばかりの業種でありながら、人口減少社会の荒波にどう抗い、裾野が広がる動きが形成されるのか?多くの人々に考えてもらいたい問題である。でも、唯一の希望は、どなたでも参加できるという、オープン性なのでは?と想いは深まるばかり。

ビッグデータを学んでも、ギャンブルは上手くなりません(確信)

また、あの雑誌が
統計学」の特集を組んだんだって。

・・・(はぁー)まぁ、いいかっ。

本題に入ります。

先日、こんな記事を読みまして。

ゲームを体系的に捉えて見ようという事で、講演されており、その記事を参考に、今回、書いて見ました。是非、此方を読んで頂いてから、お読み下さいませ。

「統計及び分析」の定義

⚫️分析によって、有意差や効果が確認出来る観察、実験の全てとする

「正解」の存在とゲームの分類
この定義に則ると,その「分析」の中での
観察者、若しくは、意思決定者の振る舞いに,ベストなふるまいが存在する可能性が生まれる。
この「ベストなふるまい」を,仮に「正解」と定義した。そしてこの「正解」の
あり方によって,統計はいくつかのタイプに分類した。

(1)正解が存在し,その内容が明らかで,実行も容易である。
実行がきわめて容易なプロセスによって
面白さが作られている。
何をどうしたら勝てるのか,とても明白で,かつ簡単に実行できる。いないいないばぁなどの儀式的ゲーム(遊び)も含まれる。
例せば、管理図を用いた品質管理や、記述的アプローチによる描写など。システムの保守管理のための定期的な検証などもそうだろう。

(2)正解はないが,ベターと思われるやり方がある「これさえ達成すれば良い」という絶対の選択は存在しないが,プレイヤーは与えられた条件から「こうすればベターなのではないか」という選択肢を探すことになる。
過程における創意工夫や仮説の検証を楽しむ,いわゆる思考ゲームは,このジャンルに入る。

⚫️仮説の検証
専門の領域のルールや慣行、若しくは、業界の倫理観に照らし合わせながら、仮説の構築やデータの収集を行う。
方法論は、比較的周知されており、陳腐化したと批判の一方で、公示した際、一定の妥当性を持って受容される。
⚫️分析結果の「指標化」
各専門分野には、その領域で重用される指標が数多く存在する。
例えば、
教育分野の項目応答理論や、
経済分野の物価指数、
工学分野のQC7つ道具・バスタブ曲線
医学分野の生存時間解析などなど。
そこで提示された数値は、組織の中であらゆる伝達を行い、各ポジション毎に、何を行うべきか?を明示的、若しくは、暗黙的に提示される。
(3)正解はあるが,実行は困難。

何をすればいいかは明らかだが,それを実行するのが難しいアクションゲームや,スポーツがこれに相当する。プレイヤーは
実行の精度や練度を鍛え,その上達を楽しむ
例えば、あるシステムの壊滅的なトラブルに対する、熟練者の解決策を考える。
非定常な動きや出力に対して、熟練者の持ちうるリソースと、限られた時間に改善を
しなくてはならない。
いわゆる、平常運転ではない挙動に、時として、そのシステムに悪影響を及ぼすリスクを承知の上で対応する事もあり得るだろう。
若しくは、全体のシステムから切り離し、
別の領域にて検証を要するかもしれない。
定常とは異なりながらも、ある一定の解決をする際は、定常とは異なるモデルや仕様になっている事は、自明である。
データ分析の世界では、非定常な分析を
アドホック分析」と称している。こういった分析をするには、唯、分析に長けていればいいと言う短絡的な事ではなく、その業種の其れなりのルールや法則も理解した上で、分析者としてのセンス(例えば、どこのパラメータは採用しないで、新たなパラメータで分析するなど)やテクニックを駆使して、成果を示す事になるだろう。
(4)正解が存在するが,それが隠されている

隠された正解を探すタイプのゲーム。パズル・クイズ・なぞなぞ・リアル脱出ゲーム

昨今、統計界隈を賑わせている、ディープラーニングや、テキスト・データマイニング、人間が処理しきれないデータログの解析をするビッグデータの類もこの領域とする。
また、数量化Ⅱ類の様な、解析結果の解釈を、分析した人に委ねるのも、この領域に加えてみる。
(因みに、実験計画法も数量化Ⅱ類のパラメータを簡略化させた一種である、と聞いた事がある)
この領域では、仮説構築から演算までの
煩雑さだけでは無く、演算結果の解釈と言う、思考する箇所、若しくは、センスが問われる箇所が多く存在する。

さて、元記事のゲームの分類を参考にして、統計及び分析の分類を行ってみた。
幾つか、思う所が有った。整理して見よう。

まず予め、お伝えしなくてはならないのは、この順番が何かしらの優劣を評する
ものではない事は確認しておきたい。

その上で、この順列が心理的、若しくは、物理的なコストとみなす事も可能となった。

また、指標化とモデル化と言う2つの方向性を上手く理解する一助となりうるだろう。

3と4を比較すると、作業若しくは測定者と、(あるシステム内の)分析・制御する構築されたモデルとの関係を記述している。

3と4の関係は、どちらが主で、もう一方が従の関係として捉えられる。ここでは例示せず取り上げなかったが、4を突き詰めるとギャンブルの領域となり、人々が或る確率統計モデルに翻弄される事となる。3と4の関係は、危ういバランスの中で生存している。