hatunina’s blog

メモと日記です

機械学習

pd.factorizeでカテゴリ変数を数値に変換する

カテゴリ変数をユニークな数値に変換してくるやつです(ダミー変数ではない)。 pd.factorize まず、こんなデータフレームがあったとします。 import pandas as pd df = pd.DataFrame({'列1': ['b', 'b', 'a', 'c', 'b'], '列2': ['あ', 'い', 'い', None,…

NLTKでIOBタグ付けと頻出単語描画とストップワード除去とシノニムを探す

色々試しました。 Tokenize ~ Pos tagging ~ chunking ~ IOB tagging いじくる文章はiPhoneのwikiを使います。 import nltk sent = """iPhone is a line of smartphones designed and marketed by Apple Inc. The iPhone line of products use Apple's iOS m…

crfsuiteとpycrfsuiteについて

CRFについて勉強中です。 色々調べつつサンプルを動かして見ました。 こちらはコマンドラインで実行できるcrfsuiteのチュートリアル記事です。 CRFsuite - Tutorial on Chunking Task - 英語ですが、難しい単語は出てこないですしざっくり大まかな概要は把握…