らんだむな記憶

blogというものを体験してみようか!的なー

2022-03-01から1ヶ月間の記事一覧

Qiskit リンク集

IBM Quantum / Qiskit 関連リンク集 オマケ Grover のアルゴリズムの簡単な実験: https://github.com/quantum-tokyo/qiskit-handson/blob/master/composer/20220331_IQX_grover.pdf

タイタニック (4)

家族という情報は何かしら特徴量になりそうな気がする。 train_df = pd.read_csv('train.csv') test_df = pd.read_csv('test.csv') df_concat = pd.concat([train_df, test_df]) def get_surname(item): return item['Name'].split(',')[0] def get_n_member…

pandas_profiling

よく分からないけど、 import matplotlib.pyplot as plt import pandas_profiling してると plt.show() でグラフが出なくなるような?backend がとられちゃうのかな・・・?Importing pandas_profiling changes matplotlib backend · Issue #130 · ydataai/p…

'ExtensionManager' object has no attribute '_extensions'

で jupyter lab が起動しなくなった。ちょうど jupyterlab 等々を更新した直後だったのだが。 'ExtensionManager' object has no attribute '_extensions' when starting JupyterLab · Issue #10228 · jupyterlab/jupyterlab · GitHub のがあるらしく、 pip …

タイタニック (3)

比例尺度の 年齢 同乗した兄弟姉妹・配偶者の数 同乗した親と子供の数 運賃 および「チケットのクラス」と「性別」の数値化、「乗船した港」の one-hot エンコーディングをしてみた 9 つの数量を特徴量として決定木と簡単なニューラルネットワークで 2 クラ…

タイタニック (2)

タイタニックのデータセットの特徴量は年齢, 同乗した兄弟姉妹・配偶者の数, 同乗した親と子供の数, 運賃, チケットのクラス, 性別, チケット番号, 客室の番号, 乗船した港, 名前である。これを名義尺度, 順序尺度, 間隔尺度, 比例尺度に分類してみよう。 名…

SVM と GBM

『実践Data Scienceシリーズ PythonではじめるKaggleスタートブック』(石原 祥太郎,村田 秀樹)|講談社BOOK倶楽部 に Kaggle ではロジスティック回帰や SVM よりも GDM 系のほうが良さそうという感じのコラムが書かれている。なん…

タイタニック (1)

2019 年の夏〜冬のどっかで登録した Kaggle のアカウントに久しぶりに入ってみる。コンペがやりたいのではなく、タイタニックのデータセットが欲しいからなんだけど。決定木と勾配ブースティング木を適用して iris データセットよりはもう少しマシな結果を見…

勾配ブースティング木 (4)

Greedy function approximation: A gradient boosting machine. の概要を読むと以下のようなことが書かれている: 関数の推定・近似を,パラメータ空間ではなく,関数空間における数値最適化の観点から捉える.段階的加法展開と最急降下法による最小化との間…

財務三表

CTOの頭の中:技術を財務で表現する|Shin Takeuchi|note を見ながら思うに、キャッシュフロー - らんだむな記憶 の頃は少しは読めたのに、それ以降読む機会もなかったので完全に忘れてしまった。そう言えば簿記も少し勉強したのに完全に忘れた。MOOC 上の…

勾配ブースティング木 (3)

LightGBM を使ってみよう。今回も Kaggle 本 p. 240 と公式ドキュメントを混ぜたような内容にしつつ 決定木 (6) - らんだむな記憶 の内容を試す。 import numpy as np from sklearn import datasets from sklearn.model_selection import train_test_split f…

勾配ブースティング木 (2)

とりあえず XGBoost を使ってみる。Kaggle 本*1と公式ドキュメントを混ぜたような内容にしつつ 決定木 (6) - らんだむな記憶 の内容を試す。 import numpy as np from sklearn import datasets from sklearn.model_selection import train_test_split from s…

勾配ブースティング木 (1)

ということで、決定木のことがゆるふわで分かった気持ちになったので、勾配ブースティング木 (GBDT) に手を出してみよう。定番の Kaggleで勝つデータ分析の技術:書籍案内|技術評論社 と 『実践Data Scienceシリーズ PythonではじめるKa…

再帰的な方程式

functional equations - Finding a function $h$ that satisfies $h \left ( \frac{x}{x^2+h(x)} \right )=1$ - Mathematics Stack Exchange より。$$ \begin{align*} h \left( \frac{x}{x^2 + h(x)} \right) = 1 \tag{1} \end{align*} $$ $h(x) \neq \text{…

決定木 (6)

漸く scikit-learn での iris dataset の分類を試みる。今回は scikit-learn 1.0.2 を使った。 といってもよくある実装の通りで from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTree…

決定木 (5)

そろそろコードを見ていきたいが、その前に Python機械学習プログラミング 達人データサイエンティストによる理論と実践 - インプレスブックス にディープラーニングにも通じる極めて重要なことが書いてあるのでメモしておきたい。それは p.92 にある。 だが…

決定木 (4)

「情報理論」を読みつつ、エントロピーの意味を掘り下げたい 定義 確率 $p$ の情報が実際に生起したことを知らせる情報に含まれている情報量を$$ \begin{align*} - \log_2 p \end{align*} $$と定義する。とある。つまり、エントロピーとは、事象 $A_1, \cdot…

決定木 (3)

「情報理論」の話を思い出すと情報量はエントロピーの差で測られた。つまり不確定度の差が情報量ということであった。不純度もまた、不純度の差が情報利得ということのようである。ある程度同一視して、不純度が高いということは不確定度が高いことだと考え…

決定木 (2)

https://github.com/rasbt/python-machine-learning-book-3rd-edition/blob/master/ch03/ch03.ipynb を見ると決定木のところで Gini Impurity(ジニ不純度)やエントロピーとの比較が出ている。この不純度なるものが何かピンと来ないが手元の統計の本を見て…

決定木 (1)

真面目に調べたことないなと。 XGBoost: [1603.02754] XGBoost: A Scalable Tree Boosting System with Greedy function approximation: A gradient boosting machine. LightGBM : https://proceedings.neurips.cc/paper/2017/file/6449f44a102fde848669bdd9…

Udemy 動画高速化

GitHub - augustkimo/Udemy-Custom-Speed-Changer: Set any custom speed(s) in Udemy's video player. を使えばいけそう。

テンソルネットワーク (1)

って何だ? Tensor Network テンソルネットワークの基礎と応用 - 株式会社サイエンス社 株式会社新世社 株式会社数理工学社 テンソルネットワークをざっと確認 by Yuichiro Minato | blueqat

ImageNet のサブセット (2)

Cloud TPU での ResNet のトレーニング | Google Cloud を見ると fake_imagenet データセットは Cloud Storage の次のロケーションにあります。 gs://cloud-tpu-test-datasets/fake_imagenet fake_imagenet データセットは、Cloud TPU の使用方法を理解し、…

ImageNet のサブセット (1)

ImageNet の訓練にどれくらい時間がかかるか? - らんだむな記憶 の続き。ImageNet を見ると、 The data is available for free to researchers for non-commercial use.Mar 11 2021. ImageNet website update. ってなっているが一時期停止してなかったっけ…

CDK (11)

AWS

CDK (10) - らんだむな記憶 でごちゃごちゃ書いたが、 NetworkAcl は使わない cdklocal destroy で VPC のスタックを破棄しない。代わりに LocalStack を再起動する とすれば、IAM+VPC+EC2 のスタック構成でデプロイできた。 $ aws ec2 describe-vpcs --endp…

がむしゃらに働く

Yuichiro Minato on Twitter: "量子コンピュータですが、うちの会社はエンジニアリング中心なので、PythonやJavaScriptのアプリやクラウド実装中心。実務でお客さんの要望捉えて実装なのでスキルは上がるし、有名どころとのコネクションもできる。35まではが…

CTO のコード

副業エンジニアにCTOの自分のコードが駆逐されてハッピーな件 | Findyブログ なるほど。非常にあるべき姿だな、とは思うんだけど、同時に結局 CTO って何をやるんだろう?って疑問は深まるばかり。確かにコーディングがメインタスクではないだろう。事業にお…

CDK (10)

AWS

cdklocal deploy で VPC 機能に関係するスタックのデプロイがうまく通らないので、何がどうなっているのか CloudTrail で確認したかったが、Features - LocalStack を見ると、CloudTrails は Pro 版でないとサポートされていないようなので詰んでしまった・…

道路交通法第 38 条

ドライバーへの「お先にどうぞ」実は間違い!? 横断歩道での正しいルールとは? SNSでの「お願い」が話題 「知らなかった」の声多数!(くるまのニュース) - Yahoo!ニュース 義務教育で道路交通法など習った記憶もないのだが・・・。そして仮に今後義務化し…

コミュニティガイドライン的なもの

Zennで技術・開発に関係のない記事を公開することは規約違反か にまとめてあった。逆をとれば、Zenn では「何らかの技術・開発に関係のある投稿」であれば許容されそう。いまのところ許そう。色々ダメになっても .md が手元に残るので良い。Qiita はダイレク…