スクレイピングや奈良漬や「お前のようなアホ」や

投稿日:

 昨年頃だったか。

 若い人――若い、と言ってもそこそこオッサンだが――とIT活用談義をしていて、この「スクレイピング」という言葉が出てきた。まるで初めて聞く言葉のような気がした。いや、必ずしも「初めて聞く」でもなく、聞いたことがないわけでもなかったのだが、耳慣れぬ言葉ではあった。しかし、その時の会話の文脈と、scraping という英語から意味はすぐに通じ、その若い人に「スクレイピングって、何ですか?」などと()き直さなければ解らないということはなかった。

 今で言う、この「スクレイピング」ということを私が最初にやりだした頃には、スクレイピングという言葉が抑々(そもそも)なかった。だから「無料自動収集」だとか「クローリングしてサニタイズして格納」だとかいうような言葉で表現していた。もっとも、私がしていたこと(他人の過去の言葉尻を(とら)えた掲示板での粘着荒らし行為(苦笑)だとか株価データの収集だとか、特定領域のニュース記事の巡回収集だとか)は個人的なくだらんことで、その仕組みを他人に説明する必要はまったくなかったから、わざわざ無料自動収集などという持って回った言葉を使う必要もほとんどなかったのだが。

 今は Python (など)の言語を用いれば、様々なライブラリやプラグインが豊富にあるらしく、Web を巡回してデータを(あさ)ることなど誰でも簡単にできるようである。しかし、私などがそうしたことを始めた頃には周囲にそういうことをしている人はおらず、ネットを(あさ)っても情報は少なく、いきおい、最初はTCP/IPのソケットから書き起こしたものを用い、次いで Perl・CPAN の「LWP」などという Web ライブラリを用いた。今も現役で稼働させている、株価を Yahoo! から取得するスクリプトは、Perl 内から「wget」を呼び出し、必要なデータを切り出す仕組みだ。

 全くのところ、こんなもの「手作りスクレイパー」もいいところである。フロントエンドのスクレイパーのみならず、現役で株価の分析に使っている自作プログラムは、私に幾許(そこばく)の利益をさながら点滴のようにしたたらせ続けてはいるものの、これなど古めかしいかな生の C で書いたもので、ソースコードの冒頭にはそれこそ「#include <stdio.h>」か、せいぜい「math.h」ぐらいしか書いていない。AI などとは程遠い実に簡単・単純なものでしかないのである。

 それらを動かし始めたのは20年前~15年前のことで、そこから(ほとん)ど進歩させていないし、私の IT 技能もほとんど進歩せず、停滞したまま、否、むしろ後退すらしている。

 私は、自分が必要としていることや自分がしたいことは、自分が理解できるコンピュータ技術やプログラミング技術を使って、大概(たいがい)のことならすぐにできる。だが、それを他人が使えるように工夫してやったり説明してやったりなど、面倒臭くて、もうしたくない。それに、当節流行のビッグデータだの AI だのということは、全然わからないしできない。覚えるのも、いまや奈良(なら)(づけ)のようになってしまっている私の脳味噌には荷が勝つから、もう億劫(おっくう)で、嫌だ。他人を使役できるような身分ではないから、自分にできない何かを誰かに肩代わりして貰えるような人望もないし、だいたい、そんな気がハナッから、ない。

 「お前が勿体(もったい)ぶって隠している、しょうもない、お前みたいなアホでもわかる計算機の秘密をとっとと教えろ!」みたいな、そんな、私をバカにした態度の輩に説明を求められ、それでも私は誠実に少し説明しかけるのだが、大概は私が10秒喋るか相手が100文字読むかしないうちに、もう面倒臭がられて説明は(さえぎ)られてしまう。テメェが説明を遮るのが理解できない原因なのに、「これだからコンピュータ屋は説明が下手糞だと言うんだ!ちったァ日本語を鍛えろ」などと吐き捨てられてしまう。そんな連中のお遊びの相手は、もうほとほと嫌だ。

 そんなアレやコレやが、最近の私の、人様から見れば無気力極まるITへの冷淡っぷりの、原因の幾つかなのだと思う。

日本ITストラテジスト協会オープンフォーラム2017

投稿日:

 今日は日本ITストラテジスト協会関東支部の「オープンフォーラム2017」に参加した。毎年開かれており、ITストラテジストが秋葉原に集合する。

 私も毎年参加させていただいている。数年前まで定例会にもよく参加していたので、オープンフォーラムでもスタッフとして末席を汚していた。最近他の事に取り紛れて定例会に行っていないので、去年に続き今年も無役で参加する。

 今年のテーマは「AIとビッグデータをIT戦略に生かすための方策」である。

 ビッグデータの活用については近年、あらゆるところで相当に取沙汰されており、一時の幻滅期を経て、これを活用できるところはすっかり波に乗って活用しており、もはや当たり前となって騒ぐほどの事ではなくなったように見受けられる。だが、波に乗り切れなかったところでは、何事も起こっていないかのように感じられる。

 一方のAIについては、昔から言われてきたことではあるものの、近年に至ってようやく大きな注目を集めはじめた。将棋やチェスなどの象徴的なものは勿論だが、これらは何らかの生産をもたらすものではなく、表徴的なものに過ぎなかった。ところが、生産や経営と言った実質上のことがらに応用ができるようになってきた。

 そこでJISTAでもこれらを社会に生かすため、ITストラテジストとして何ができるかと言う観点からこうしたテーマを挙げているのである。

 実行委員長の挨拶に引き続き、プログラムは早速基調講演1に移る。今回は楽天株式会社執行役員兼楽天技術研究所代表の森正弥氏から、「ECにおける『個別化』後の人工知能活用と協創の世界」と題しての講演であった。

 楽天での様々な実例を踏まえた豊富な知見からなされる、非常に耳新しい講演であった。

 森氏の「シニアはITにせよAIにせよ、それが『ツールである』という言い方、発想をよくする。これではうまくいかない。若い人はITやAIを中心に据えて考え、それで何ができるか、というふうに考え、それをもとに全体を作り直そうとする。そうするとうまくいく」という冒頭の指摘には、考えさせられるところ極めて大であった。また、従来のビッグデータの常識では、データ分析をする際、データの前処理に8割の労力が割かれたものだが、AIによるビッグデータ分析では、前処理したデータを使用すると分析の精度が劣るようになる、AIというものの処理の仕方を知ればそれは自明のことなのだが、そこは盲点である、というお話についても、(もう)(ひら)かれるところがあった。

 プログラムの二つ目は国立情報学研究所情報社会相関研究系准教授の水野貴之氏からの講演で、「企業経営に役立つビッグデータ分析」との題である。

 水野氏は「ビッグデータ分析は、何かしたいという目的や欲求に合わせて『このデータを合目的的に集めよう』としても、うまくいかない。『この料理を作ろう』と献立を決めて、必要な材料を買いに出かけるのに似ている。材料を買いに行ってみたら店にはその材料がなく、結果、料理全体が作れない、ということはままある。データも同じで、目的に合わせてデータを取得しようとすると、経済的な問題などからそのデータが得られない、集められない、だから結果として何もできない、というような問題に直面する。他方、うまくいくビッグデータ分析は、『冷蔵庫の中の残り物を見て何が作れるか献立を決める』ようなやり方に似ている。入手できるデータに何があるかをまず見極め、それを使って何ができるかを考えるのである」という。なるほど腑に落ちる説であり、さもあろうと思われた。

 また、「価格.com」における、比較的高価な値段付けにもかかわらず売り上げのある店についての分析に、アダム・スミスの「神の見えざる手」や近代経済学、情報の偏在などをとり入れた修正市場理論にいたる経済学説を突き合せた考察には瞠目させられた。

 基調講演の次は、講演者のお二方とJISTA会員による恒例のパネルディスカッションである。今年のパネルディスカッションのテーマは「データ活用相談室『最新技術をどうするの?』」との題で、会員からビッグデータ活用上の相談テーマを募り、これについて議論し、アドバイスするというものだ。寄せられる疑問などに共感を覚えるものも多く、興味深く聞くことができた。

 最後に日本ITストラテジスト協会関東支部の活動報告と関東支部長からのご挨拶があり、今年のオープンフォーラムは終了した。

 やや雨模様の秋葉原であったが、今年も非常に勉強になるオープンフォーラムであった。盛会裡に催しを実行したスタッフの皆さんに感謝を申し上げたい。

DPZ~KH Coder~ブレインストーミング~DPL

投稿日:

 気晴らしによく「デイリーポータルZ」を眺める。デイリーボータルZ、略して「DPZ」は、ニフティの面白サイトだ。

 このサイトのアバウト・アスのページを読むと、タイトルに「愉快な気分になりますが、役に立つことはありません」なんて書いてあって、いっそ清々(すがすが)しい。だがしかし、これは謙遜と言うもので、全く知らなかった、しかも役立つ知識を得ることが度々(たびたび)ある。

 今日も「特集・マンションポエム徹底分析!」という、マンションの広告コピーを半分バカにして楽しむというふざけた特集を見て大笑いしていたのだが、それが、バカにするどころか、結構大真面目に、大量に集めたマンションの広告を千件以上もテキストマイニングにかけて分析するなど、なかなか(あなど)れないのである。

 ……で、その中で使われているテキスト分析ソフトウェアが「KH Coder」というもので、なかなか大した代物(シロモノ)であるようだ。

 先日、職場で何度かブレインストーミングなどしたのだが、フリー発言の書き起こし文字列に対して、これを使えばなかなか面白い結果が得られたのかもしれない、などと考えてしまう。また、ブレインストーミング中、ホワイトボードに各人に見えるようにどんどん発言を乱書していくのだが、板書と発言書き起こしを全く同じ分析にかけて、その差を見る、なんてことも面白いかもしれない。

 ただ、職場のブレインストーミングだと、重要な名詞などが必ずしも頻回に使われるわけではなかったりする。その名詞が現れたのは1回こっきりなのだが、その名詞が元になって、非常に発言が進展するきっかけになったりする場合もあるものだ。

 ブレインストーミングを本当に役立てることは難しい。ブレインストーミングを意味あらしめる点は、いつにかかって、ブレインストーミング後のとりまとめにあると思うが、逆に言えばブレインストーミングのとりまとめは大変難しいのだ。ブレインストーミング中の、その場その場のファシリテーションの如何にもかかってくるし、発言者が必ずしもまとまった意見を述べているわけでもない場合もある。それに、デルファイ法的な手法、すなわち、とりまとめ結果を出席者に呈覧し、時間をかけて意見の収束を図りでもしない限り、とりまとめ者の感覚や恣意がとりまとめに入り込むことが防げない。

 今はAIやビッグデータが流行っているから、多分、どこかで誰かが既にそういうことは研究し手掛けているのだろう。あるいは、何時間もかけてブレインストーミングなどしなくても、AI内部で同じことが瞬時に行われて、結論だけポンと出てくるのかもしれない。……AIにどうやって前提となる資料を食わせるのかよくわからないが。

 「あのブレインストーミングが行われた結果、ビジネスがうまくいった」「このブレインストーミングは、逆に失敗した」という事例データさえ大量に用意できれば、つまり、所謂「教師付き」データとして大量に準備することさえできれば、当節流行の「ディープ・ラーニング(深層学習)」にかけてしまう、というのも面白いかもしれない。つまり、「こんなブレインストーミングはハナっから意味がなかった」と、会議が終わった瞬間に断が下されてしまうという不愉快な推論器が作成されてしまうわけだ、呵々(カカ)……。

SMビッグデータ

投稿日:

 子供の頃から鼻が弱い。

 ダニがアレルゲンのアレルギー性鼻炎だ。鼻に弱点を持つから、風邪をひくにしてもまず鼻からだし、副鼻腔炎や鼻中隔側弯もある。私は割合に鼻が高い部類の面相なので、鼻中隔側弯だと言うと「ウソでしょう」と言われるのだが、片鼻は常時つまっている。激しい運動をすると、血管運動性の鼻炎になってますます鼻水とくしゃみが止まらない。私が勉強や球技が苦手なのは、この鼻のせいであると言い訳している。

 秋の暮れ、冬の初め辺りには衣類の出し入れがあるが、これがダニを巻き出し、強烈に来る。電車に乗ると、更衣(ころもがえ)した人の上着にたっぷりダニがついていて、もう、鼻水とくしゃみが止まらない。

 それゆえ、鼻洗浄は欠かせず、毎朝顔を洗うときは鼻からズズズーッ!と水を吸い込み、これをぶはぁーっ、と吐き出すことを繰り返す。

 症状がひどいときには、衛生器具の「ゴムシリンジ」を使って鼻を洗う。ゴムシリンジというのはこういうもので……

L_00618501

……これは、一般には「エネマシリンジ」と呼ばれる。エネマ、というのは言わずと知れた「浣腸」のことである。

 このゴムシリンジが古くなってしまい、ゴムが脆化してボロボロになり、使えなくなってしまった。大きな薬局に行くと売っているのだが、近くの薬局にはどうも置いていない。

 それで、Amazonでポチッた。明日には届くだろう。

 だが、Amazonで買うと、なんとも迷惑と言うか、購入データが「ビッグデータ」のカオスに混ぜ込まれ、分析にかけられてしまうのである。

 このゴムシリンジは浣腸器具なので、SM関係のリコメンド広告、薔薇系漫画やマゾヒズム小説などが推進されてくるようになってしまうのであった。

 まったく、ビッグデータはけっこうだが、俺はSMとちゃうッちゅーねんっ!!(笑)