wget – オッサンとバイエル、ピアノ等

Fedora 31で自作の株式売買シミュレーションシステムを動かす

令和2年(2020)04月29日(水)16時42分2021年1月3日(日)10時28分29秒 JST

　自宅で10年以上の間、株式の売買シミュレーションシステムを運用してきた。Linux上で作動する。

　以前、このブログでも少し書いたことがあるが、これで多少儲けても来ている。

　このシステムは、株価をネットからダウンロードするプログラムをPerlで、これを格納するRDBはPostgreSQL、シミュレーションはCで、ユーザインタフェースはPHPで、というハイブリッド(笑)なつくりである。プラットホームは古いIntel Cerelon D “Prescott-V” 2.66GHzのマシン上に最初Fedora Core 5をインストール、順次アップグレードし、最後はFedora 9となっていた。

　2年ほど前からだったろうか、株価をネットからダウンロードするプログラムがうまく動かなくなってしまっていた。株価は「Yahoo!ファイナンス」の時系列データから無料で頂戴してくるのだが、これはデータではサービスされておらず、htmlの中から特徴的なタグに正規表現でマッチングさせて株価を取り出してくる仕組みになっていた。なので、うまく動かなくなっていたのは、さしずめYahoo!ファイナンスの仕様が変わり、htmlのフォーマットなどが変わったのだろう、と思っていた。実際、正規表現でマッチングさせて目的のデータを切り出すコードになっているから、わずかでもhtmlが変わると、途端に消化不良を起こすのである。

　原因究明や修理が面倒で、また、しばらく株式も値動きがあまりなくて面白くなかったから売買もしておらず、シミュレーションシステムも放りっぱなしになってしまっていた。

　そんな折も折、ここへきて、新型コロナウイルス蔓延により外出の自粛が推奨される事態となった。ために、やむなく家に垂れこめている。平日は仕事に勤(いそ)しんでいるからあまり暇はないが、休日などはどうしても無聊(ぶりょう)となる。

　そこで、意を決して上述のシステムを修理することにした。多分、Yahoo!ファイナンスの仕様、就中(なかんづく)htmlのフォーマットを分析すれば、すぐに修理できるだろうと思っていた。

　ところが、その推量は全然違っていた。

　株価ダウンロードプログラムは、htmlをダウンロードするのに、CPANの「LWP」ライブラリ等は使わず、Perl内から「wget」を呼び出して使っていた。そうしないとSSLの部分が面倒だからだ。

　問題は、このSSL部分にあった。Yahoo!全体の仕様が、TLS1.2未満のSSLを拒絶するよう変更されていたのだ。Fedora 9は、OpenSSL0.9.8までしか対応しておらず、そしてOpenSSL0.9.8はTLS1.0までしか対応していない。

　そこまで確かめて、やっと思い出した。私のシステムが動かなくなった2年ほど前というと、ちょうどSSLのセキュリティホールやSHA-1アルゴリズムの危殆(きたい)化などが取り沙汰され、あちこちのサイトやブラウザがどんどんバージョンアップされて行っていたのだ。

　私はその頃、仕事が非常に忙しく、自宅のPC環境など顧(かえり)みている暇がなかった。それで、他人事のようにそれらのニュースに接していたのである。

　原因は、wgetとOpenSSLが古い、ひいてはプラットフォームOSが古いことにあった。

　最新のFedoraシリーズのバージョンは「31」になっており、そもそも平成17年(2005)発売のCerelon Dのような32ビットCPUには対応していないから、もう、古いLinuxマシンはそろそろお払い箱だろう。

　私のデスクトップマシンはCore i7 4790K 4GHzにメモリは32GBをブチ込み、ストレージは1TBのHDDから、先日2TBのSSDに換装したところだ。されば、ここはもう、仮想化しかあるまい。

　VMWare Playerをダウンロードしてインストール。非営利であれば無料である。これにFedora 31のisoイメージを本家サイトから貰ってきてインストールする。

　動かしてみてびっくりした。私のような商用のSystem V育ちの者にとって、Linuxの「init」システムは長年慣れ親しんだシステムなのだが、Apache2を動かそうと/etc/rc.d/init.d/の下を覗いてビックリ仰天！何も入っていなくて、空っぽではないか！(笑)

　こ、これは……！とGoogle先生にお尋ね申し上げ、今は「init」は否定の憂き目にあい、「systemd」というものに置き換わっているということを知る。

　「systemctl」というサービス・コマンドの操作を調べ、これでhttpdを動かす。PostgreSQL、PHP、wgetなど必要なものをyum改め、「dnf」で次々とブチ込む。

　それから徐(おもむ)ろに株価ダウンロードシステムを動かす。……まったく何の支障もなく、プログラムの変更もなく作動するようになった。

　phpで作られたユーザインタフェースについては、POSTやGETの引数を直接グローバル変数として扱うことのできるかつてのPHPの仕様が廃止されてしまっており、そのままでは動かなくなってしまっていたが、そこは彌縫(びほう)的にパッチ当てをした。

　SELinuxを調整しないとPostgreSQLとPHPが協調動作しないなど、多少ひっかかったところもあったが、元の通り株価売買シミュレーションシステムは作動するようになった。

　さすがは Core i7 だ。生マシンから仮想マシンへの移設とはいえ、もはや骨董(こっとう)品に近い Cerelon の生マシンから移設しただけあって、C で書いたシミュレーション部分は、目を見張るような素晴らしいスピードでカッ飛んでいく。

　もともとこのシステムでは、過去5年分の株価データに対し、8900通り×49銘柄の売買シミュレーションを行っていた。Yahoo!ファイナンスに株価の整理値が出揃う20時50分頃から「cron」でこのシステムを起動していたのだが、これだけの組み合わせのシミュレーションを行うと、全部終わるのは23時くらいにはなってしまっていた。

　ところが今回の移設で、それらシミュレーションがなんと10分ほどで完了するようになった。かつて誰かが言っていたが、「稚拙で鈍足なアルゴリズムでも、意外にマシンパワーの進歩で解決されてしまう」ということの実例を目の当たりにした次第である。

　さて、そのようにしてシミュレーション結果を見てみると、やはり、新型コロナウイルスの影響で、相場は鉄火場と化している。大変な勢いで売買指標が出ている。これは大変だ。

　今この鉄火場に飛び込むのは危険である。ウイルス禍が一段落し、上昇相場になったところからが勝負だろう。

特に拘(こだわ)りもないが

平成29年(2017)11月26日(日)09時20分2022年8月31日(水)21時02分15秒 JST

　平成18年頃からブログに読書記録を付けていた。使っていたブログサービス(OCNの『ブログ人』)が提供していたリスト化機能を使ったものだった。いつだったか、その機能のサービスが終了してしまうことになった。末端の一ユーザからは是非など言うべくもない。

　そのため、折角つけた記録が無くなってしまうことになってしまった。記録は100や200くらいはあったので、 “特に拘(こだわ)りもないが” の続きを読む

古い方のブログのコピーを消す

平成29年(2017)11月11日(土)23時55分2017年11月12日(日)16時25分37秒 JST

　15年ほど前、自宅を建築した際にその記録をHTMLで書き、OCNのホームページサービス「Page ON」を使用して公開した。

　日々の変化事項などは、その中に日誌風に書き加えていたが、そうするうち、当時流行しだした「ブログ」サービスをOCNもやりはじめた。「ブログ人」だ。Movable Type ～ TypePadを活用したサービスだった。

　当時はいろいろ面白い試みもなされており、無料だったので私もそれを使うようになった。「Web2.0」などと言うことが当時言われており、スタティックで一方向だったWebが、ブログのトラックバックPingシステムにより双方向リンクを持てるようになったことが、私にとっても目新しかった。

　10年以上「ブログ人」を使っていたが、3年前、Page ONとともにサービスが終了してしまった。

　サービスが終了する前に、見たままを残しておこうと思い、wgetで丸ごとスナップショットをとった。

　その後、一時Gooブログなどにも移行してみたが、自由でないのが気に入らず、思ったように書けないのが不便なので、意を決してドメインを立て、レンタルサーバを借り、WordPressに移行した。それがこのブログだ。

　一方、レンタルサーバの容量には余裕があったので、wgetで丸ごとコピーした古い方のブログもそこに丸ごと放り込み、ずっと公開していた。

　しかし、記事そのものはこのブログにもインポートしており、並立の状態にあった。

　無駄だな、とも思ったので、意を決して古いブログのバックアップの公開はやめることにした。

ブクレコの本棚のバックアップ

平成29年(2017)05月03日(水)10時01分2017年11月12日(日)10時07分51秒 JST

　サービス終了が判明したブクレコだが、結局のところ、書棚データのエクスポートは出来ないから、手近のマシンの「wget」あたりで丸ごとコピーしておくより他にない。

$ wget -kpr -l0  -t3 -T5 -np https://www.bookreco.jp/bookshelves/59112

　まあ、仕方がない。

　で、こうやってできた「bookshelves」ディレクトリに下りて、

$ grep -h '<p class="title">' 59112?page=* |  sed -e 's/<p class="title">//' -e 's!</p>!!' -e 's/ //g' | sort | uniq | nkf -w   >booklist20160503.txt

……なんぞとやっておけば、一応書名のリストだけは取れる。

　残念なのは、ISBNとか読書日などの情報が全く保存できないことである。これをどうにかするには、Amazonか国会図書館のAPIでも使って変換するより他になさそうである。

　しかし、ふと取得した書棚ファイルを見ると、書籍の外見イメージを取得しているところがあって、そのURLでサイトを呼ぶと、その中にISBNや出版日が書かれていることに気付いた。

　なるほど。そこで、先に得た生の書棚データテキストからこのURLを切り出す。

$ grep -h 'book_image' 59112?page=? 59112?page=1? 59112?page=2? | sed -r 's!^.+(https://www.bookreco.jp/book/[0-9]+).+!\1!' >booksurl

　ファイル名をシェルに展開させるにあたり、「59112?page=*」とせずに「59112?page=? 59112?page=1? 59112?page=2?」としているのは、1番から20番までのファイルがある場合、「59112?page=*」としてしまうと、そのままだと1,11,12,13,14,15,16,17,18,19,2,20,3,4,5,6,7,8,9、というふうに、辞書順に並んでしまうからである。「ブクレコへの登録が新しい順」を保持させるためには、こうするより他にない。

　それから、このURLリストをwget -iに食わせ、データの入った生テキストを得る。

$ wget -O - -i booksurl | sed -rn -e '/<div class="summary">/, /<!-- \/\/end summary -->/p' >booksfulltext

　更に、この生テキストのタグを除き、csvにしてしまう。これをsedなどでのみやるには、結構ゴチャゴチャ書かなければならないのだが、美しく作業する気がてんからなく、行を建て増し建て増しして書いているうちに、結局自分でもなんだかわからない、次のような謎のワンライナーになった。

$ sed -nr -e '/(<span class="bold large">)|(<ul class="floatlist_left clearfix text_thin">)/,/(<\/span>)|(<\/ul>)/p'   booksfulltext | sed -e '/<span /d' -e 's/<\/span>/,/' -e '/<ul/d' -e 's/<\/ul>/-----/' -e 's/<li>出版日://' -e 's/<li>種類://' -e 's/<li>ISBN://' -e 's/<\/li>/,/' | sed -r -e 's/ +//g' -e ':loop;N;$!b loop;s/\n/ /g' -e 's/ +/ /g' -e 's/-----/\n/g' -e 's/, /,/g' -e 's/,\n$/\n/' | nkf -w
 >bookscsv_utf

　このようにして得たCSVをスプレッドシートに読み込ませるわけである。

　ブクレコのデータを抽出して作った読書リスト(Google Drive)

　残念なのは、ブクレコには読書日が入れられないので、いつ読んだ本かと言うことが消失していることだ。

SSLと株

平成29年(2017)04月08日(土)10時27分2020年5月6日(水)19時41分18秒 JST

　もう10年以上くらいにもなるだろうか、株式売買の指標表示を自動化し、「小魚を釣る」ようにして株を売買している。ところが、先週頃から、その自動化システムが動かなくなってしまった。

　私の株式売買は、夜に自作の株式売買シミュレータを作動させ、そのシミュレーション結果に従って手動で翌日の注文を出すという方法だ。注文そのものの自動化もやればできるだろうが、証券会社がAPIを公開してでもくれない限り、多少技術的な敷居が高いので、そこまではしていない。

　株式売買にはいろいろな指標があるが、その指標を使うのに必要な日数などのパラメータは、銘柄ごとに違う。また、指標ごとにも違うので、色々な組み合わせが出てくる。サラリーマンの場合、何十もの銘柄について、銘柄ごとに手作業でそんな組み合わせ作業を毎日している時間など、あるはずがない。

　そこで、色々なパラメータを組み合わせて、過去のデータを使って売買のシミュレーションを行うのだ。トレーディング用語では「バックテスト」と言う。私のシミュレータでは、現在は1銘柄につき約1万通り程度の組み合わせで売買を試す。

　そのシミュレーション結果で、「90%～100%成功するパラメータの組み合わせ」を抽出して表示するのである。実際のところ、そのパラメータの組み合わせで売買サインが出た時に売買すれば、まず9割は儲かる。1割の確率で損をするのだが、これは10銘柄を束にして注文しておけば、「1銘柄はハズレでも、残り9銘柄は当たり」になる。つまり、期待値として「9割は儲かる」理屈になるわけである。

　だが、私が最も工夫した点は実はそこではない。

　私は勤めており、職務に専念する義務がある。これはサラリーマンなら誰でも同じだと思う。仕事中に株式の売買などすれば、免職になってしまう。そこで、このシミュレーションは、売買サインをリアルタイムの株価で出すのではなく、「前日までの株価でシミュレーションし、翌日約定の注文を出した場合で最適なパラメータの組み合わせ」をシミュレーションにより求める。こうすることで、「前日の夜から当日の朝にかけて、自宅で注文しておく」ことができる。つまり、「サラリーマンが職務外の余暇に自宅で自分の金融資産の管理をしているだけ」という形を整えることができるのだ。

　多くのサラリーマンは株で損をするが、それは、株式の必勝本などには、「今の株価」で売買しなければならないような方法しか書かれていないからだ。これだと、例えば、ある日の経済ニュースなどでその日の株価について知り、夜帰宅して、翌日の注文などを出しても、もう手遅れなのだ。だが、私のシミュレータは翌日の注文で十分なように計算するので、サラリーマン向けなのだ。

　シミュレーションに必要な日々の時系列データは、「Yahoo!ファイナンス」から無料で拝借してくる仕組みである。夜にその日の終値が確定した頃、自動的に株価をダウンロードしてくる。無料で済ませるため、生のhtmlを持ってきて株価データをその中から切り取り、データベースに格納する仕組みだ。

　システムはLinux上で動作する3層クライアントサーバシステムである。ユーザインターフェイスはphpで書かれており、Webサービスだ。株価データは、Perlで書かれたスクリプトを定期起動して、前述のようにしてネットから無料で持って来る。データベースはPostgreSQLを使用している。シミュレーションは高速化を図るためCで書いてある。

　ここ数年、何ら不調なく快調に作動していた。ところが、先週から急に動かなくなってしまった。

　短期の株式売買は毎日の値動きに注意していなければならない。私はこの値段の監視を自動化していたわけだ。ところがこれが動かなくなるとお手上げだ。自分で毎日株価を見なければならなくなってしまう。私もそれなりに忙しいので、何十銘柄もの株価チェックを自分でするなんて馬鹿々々しいことは御免である。

　早く原因を調べなければならなかったが、春の人事異動で職場が変わったりして、手が付けられないでいた。ようやく、今日になって原因を調べることができた。

　調べてみると、どうやら、株価データの拝借先である「Yahoo!ファイナンス」の仕様が変わったようだ。これまで非SSLでもサービスしていたのだが、先週頃完全にSSLに改まったらしい。他方、私の「株価データ拝借スクリプト」はPerlで書いてあり、内部で「wget」を呼び出し、これを用いて「時系列株価ページ」を持って来て、その中からデータを切り出す仕組みなのだが、ハードコーディングしてあるURLのスキームは「http」なのである。

　なるほどよしきた、とばかり、これを「https」に変えて試したが、wgetはブラウザのように簡単にはSSL証明書を扱うことができない。

　ググッてみると、「そういう時にはwgetのオプションに『––no-check-certificate』って書いとけ！」と、どなたかが既に調べて書いておられる。ありがたや。

　そこで、作動させるwgetのコマンドラインは次のようになるわけだ。

$ wget --no-check-certificate -q -O - https://info.finance.yahoo.co.jp/history/?sy=1983&sm=1&sd=1&tm=d&code=銘柄コード&p=1 | nkf -w

　URLのスキーム部分を「https」にし、「––no-check-certificate」にするだけである。

　株価時系列データのページの作りが変わってしまっているとこれだけでは駄目なのだが、どうやらページの作りは同じらしく、今のところうまく行っているようだ。

旧ブログのエントリの大部分をインポート

平成28年(2016)02月06日(土)16時00分2016年6月5日(日)13時31分38秒 JST

　旧「オッサンとバイエル、ピアノ等」の記事のインポートは、せっかくの演奏データへのリンクが完全でなくなることなどからやっていなかった。

　しかし、昨日今日書き始めたブログだと誰かに思われるのも癪に触るので、インポートすることにした。しかし、もう元のブログはない。

　wgetでダウンロードしたものを加工して流し込もうかとも思ったが、それも億劫になった。

　ハードディスクを漁っていると、2014年にダウンロードしておいた旧ブログのエクスポートテキストが見つかった。

　MovableType/TypePadの記事をインポートするプラグインをインストールした。バージョンが合わないようだったが、特に問題なく作動した。

　サーバにアップロードできるファイルサイズが2MBまでで、エクスポートテキストは17MBある。20個に分割してアップロードした。

　なんだか記事に抜けもあるし、切れたリンクはどうにもならないようだが、ブログの「歴史感(笑)」はだいたい出たようだ。

　よく考えたら、旧ブログのファイル自体はサーバに上がっているので、エクスポートテキストのリンクを連続置換で書き換えれば良かったかも知れない。

　思いついて「wordpress 記事連続置換」でググると、「Search Regex」というプラグインが見つかる。これも多少バージョンが合わないようだが、思い切って使ってみた。

　なんてことなく動き、特に問題もなく、多くのリンクが復活した。

ドメインとって、新しくブログを立ててみた。

平成27年(2015)04月05日(日)15時48分2019年10月5日(土)18時21分01秒 JST

　OCNのブログサービス「ブログ人」が廃止されてしまってだいぶ経った。しばらくは推奨された「gooブログ」を使ってみていたが、どうも気に入らなかった。

　意を決して、ドメインを取得し、WordPressでブログを立ててみた。

　前の「オッサンとバイエル、ピアノ等」は、wgetで丸ごとローカルにとっておいたのを、別のディレクトリにそのまま置いた。

　「旧・オッサンとバイエル、ピアノ等」
http://www.satotoshio.net/oldblog/

後日追記

　上記「旧・オッサンとバイエル、ピアノ等」は、併存しておくと検索エンジン対策上いろいろと不都合があるように感じたので、消去しました。

2026年3月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31