ブクレコの本棚のバックアップ

投稿日:

 サービス終了が判明したブクレコだが、結局のところ、書棚データのエクスポートは出来ないから、手近のマシンの「wget」あたりで丸ごとコピーしておくより他にない。

$ wget -kpr -l0  -t3 -T5 -np https://www.bookreco.jp/bookshelves/59112

 まあ、仕方がない。

 で、こうやってできた「bookshelves」ディレクトリに下りて、

$ grep -h '<p class="title">' 59112?page=* |  sed -e 's/<p class="title">//' -e 's!</p>!!' -e 's/ //g' | sort | uniq | nkf -w   >booklist20160503.txt

……なんぞとやっておけば、一応書名のリストだけは取れる。

 残念なのは、ISBNとか読書日などの情報が全く保存できないことである。これをどうにかするには、Amazonか国会図書館のAPIでも使って変換するより他になさそうである。

 しかし、ふと取得した書棚ファイルを見ると、書籍の外見イメージを取得しているところがあって、そのURLでサイトを呼ぶと、その中にISBNや出版日が書かれていることに気付いた。

 なるほど。そこで、先に得た生の書棚データテキストからこのURLを切り出す。

$ grep -h 'book_image' 59112?page=? 59112?page=1? 59112?page=2? | sed -r 's!^.+(https://www.bookreco.jp/book/[0-9]+).+!\1!' >booksurl

 ファイル名をシェルに展開させるにあたり、「59112?page=*」とせずに「59112?page=? 59112?page=1? 59112?page=2?」としているのは、1番から20番までのファイルがある場合、「59112?page=*」としてしまうと、そのままだと1,11,12,13,14,15,16,17,18,19,2,20,3,4,5,6,7,8,9、というふうに、辞書順に並んでしまうからである。「ブクレコへの登録が新しい順」を保持させるためには、こうするより他にない。

 それから、このURLリストをwget -iに食わせ、データの入った生テキストを得る。

$ wget -O - -i booksurl | sed -rn -e '/<div class="summary">/, /<!-- \/\/end summary -->/p' >booksfulltext

 更に、この生テキストのタグを除き、csvにしてしまう。これをsedなどでのみやるには、結構ゴチャゴチャ書かなければならないのだが、美しく作業する気がてんからなく、行を建て増し建て増しして書いているうちに、結局自分でもなんだかわからない、次のような謎のワンライナーになった。

$ sed -nr -e '/(<span class="bold large">)|(<ul class="floatlist_left clearfix text_thin">)/,/(<\/span>)|(<\/ul>)/p'   booksfulltext | sed -e '/<span /d' -e 's/<\/span>/,/' -e '/<ul/d' -e 's/<\/ul>/-----/' -e 's/<li>出版日://' -e 's/<li>種類://' -e 's/<li>ISBN://' -e 's/<\/li>/,/' | sed -r -e 's/ +//g' -e ':loop;N;$!b loop;s/\n/ /g' -e 's/ +/ /g' -e 's/-----/\n/g' -e 's/, /,/g' -e 's/,\n$/\n/' | nkf -w
 >bookscsv_utf

 このようにして得たCSVをスプレッドシートに読み込ませるわけである。

 残念なのは、ブクレコには読書日が入れられないので、いつ読んだ本かと言うことが消失していることだ。

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください