らんだむな記憶

blogというものを体験してみようか!的なー

スクレイピング

【スクレイピングまとめ】| Python Node.js PHP Ruby Go VBA | 6種類の言語でヤフートップをスクレイピング - Qiita
この辺がそれぞれ定番のライブラリなのかな?

Python でも良さそう。なら 10分で理解する Beautiful Soup - Qiita とか [スクレイピング] Pythonスクレイピング - Qiita でも参考にするか。

Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation を使う。

pip install beautifulsoup4

但し、定まった構造のないサイトをスクレイピングするのは厳しい。生のソースを見るとかなり汚い構造になっていたりすることもあるし、数字データの後ろに   が入っていたりして単純に isdigit() で判断できなかったりするので、クレンジングが難しい。