【スクレイピングまとめ】| Python Node.js PHP Ruby Go VBA | 6種類の言語でヤフートップをスクレイピング - Qiita
この辺がそれぞれ定番のライブラリなのかな?
Python でも良さそう。なら 10分で理解する Beautiful Soup - Qiita とか [スクレイピング] Pythonスクレイピング - Qiita でも参考にするか。
Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation を使う。
pip install beautifulsoup4
但し、定まった構造のないサイトをスクレイピングするのは厳しい。生のソースを見るとかなり汚い構造になっていたりすることもあるし、数字データの後ろに
が入っていたりして単純に isdigit()
で判断できなかったりするので、クレンジングが難しい。