hatunina’s blog

メモと日記です

機械学習

KFoldでクロスバリデーション

メモです。 サンプル とりあえずndarrayを定義 import numpy as np X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]]) y = np.array([1, 2, 3, 4]) print(X) print('=========') print(y) # [[1 2] # [3 4] # [5 6] # [7 8]] # ========= # [1 2 3 4] n_split…

pd.factorizeでカテゴリ変数を数値に変換する

カテゴリ変数をユニークな数値に変換してくるやつです(ダミー変数ではない)。 pd.factorize まず、こんなデータフレームがあったとします。 import pandas as pd df = pd.DataFrame({'列1': ['b', 'b', 'a', 'c', 'b'], '列2': ['あ', 'い', 'い', None,…

macにLightGBMをインストールする

pipしただけではエラーが出たのでメモです。 エラーとか pipしてimportしようとするとimage not foundと出てしまう。 調べたところ、ソースからビルドした方が良さそう?とのことで下記ドキュメントを参照し進めて行きました。 github.com すると、cmake ..…

NLTKでIOBタグ付けと頻出単語描画とストップワード除去とシノニムを探す

色々試しました。 Tokenize ~ Pos tagging ~ chunking ~ IOB tagging いじくる文章はiPhoneのwikiを使います。 import nltk sent = """iPhone is a line of smartphones designed and marketed by Apple Inc. The iPhone line of products use Apple's iOS m…

crfsuiteとpycrfsuiteについて

CRFについて勉強中です。 色々調べつつサンプルを動かして見ました。 こちらはコマンドラインで実行できるcrfsuiteのチュートリアル記事です。 CRFsuite - Tutorial on Chunking Task - 英語ですが、難しい単語は出てこないですしざっくり大まかな概要は把握…

numpyでkmeans

numpyでkmeansしました。 github.com 安心と安定のirisデータを使ってkmeansしてます。 元データには正解ラベルがあるので、それとkmeansでクラスタリングした結果を描画して比較してます。 ラベルの色が違うのはご愛嬌。。。 右の図の右上にある赤の点とか…

主成分分析いろいろ

主成分分析について色々調べて試したのでざっくりまとめます。 雰囲気で理解しているので間違った解釈をしている可能性あり データセットに対する固有値問題を解けばいいよ!ってノリだけどそもそも、 ① データセットの共分散行列を求める ② 共分散行列の分…