hatunina’s blog

メモと日記です

「データサイエンティスト養成読本ビジネス活用」を読んだ

読みました。 www.amazon.co.jp 「仕事ではじめる機械学習」と合わせて上司に叩きつけたい本でした。 マネジメント的な話が多いので、技術的なことが知りたい人は「仕事ではじめる機械学習」を読んだ方がいいかも。

No space left on deviceが発生した時の対処

自分用メモです。 OSはUbunts 18.04 LTSです。 状況 GCEでkaggle APIでデータをダウンロードしていたら No space left on device と表示されエラー 対処1 おそらくディスク容量に空きがないと思われるので df -h で容量を確認する。 そして、容量を圧迫して…

docker for windowsでのpostgres永続化

やりたいこと docker for windowsでdocker-composeを使ってpostgresのデータを永続化したい。 バージョンは以下。OSはWin10です。 方法 下記コマンドで永続化のためのデータコンテナ作成 docker create --name dbdata postgres docker-compose.ymlにvolumeを…

AWS S3でData not foundと表示され削除できない時の対処

aws

現象 バケットを削除したはずなのに、バケット配下のフォルダのみ削除されバケットは残っている状態。。。 また、Data not foundと表示されコンソール上で何も操作できない。。。 対処 削除が反映されるまで時間がかかるのでちょっと待ちましょうとのこと。 …

決定木のTips的なまとめ

kaggleのhomecreditコンペに参加してkernel丸パクリlightgbmよくわからんけどアウトプットはとりあえず出せるマンになったので、レベルアップを試みとりあえず決定木についてまとめようと思います。 個人的に雰囲気で理解していた箇所をまとめています。 ふ…

「AWS 基礎からのネットワーク&サーバー構築」を読んだ

読みました。 www.nikkeibp.co.jp 帯にもあるようにアプリ開発者に超絶おすすめ WordPress, MySQLをEC2に構築するためのネットワーク周りについて学べます。 vartualBoxとかを使う場合にはもっと細々とコマンドを打ったりしてネットワークを作る必要があるん…

aws-cliでCERTIFICATE_VERIFY_FAILEDが出た時の対処

aws

一時的な対処なのでご了承ください。 下記バージョンです。 OSはWin10です。 aws --version # aws-cli/1.16.10 Python/2.7.9 Windows/8 botocore/1.12.0 configureでAPI keyやプロキシ等諸々を設定した後、ネットワークを繋ごうとすると下記エラー aws s3 ls…

「プログラマのためのDocker教科書」を読んでPython環境を作った

読みました。 www.shoeisha.co.jp 業務でDockerの機運が高まっていたので読んだ。 前半の基本的なインフラ周りやdockerコマンド、Dockerfile等についてちゃんとまとまっていてよかった。 正直、ググれば集まるような情報ではあるけど、検索力が低いので断片…

apache sparkの本を読んだ

2つ読みました。 これと www.oreilly.co.jp これ www.shuwasystem.co.jp 周りに詳しい人がいないので、得意なこと苦手なこと、使い方の全体像、PythonとJavaでの書き方が知りたくてざっとまとめて読みました。 「アプリケーションエンジニアの〜」の方は全…

apache sparkでファイル名を指定して保存する

メモです! stackoverflowまとめただけです! 以下バージョンです。 >> pyspark --version SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLogg…

pandas.DataFrameからlistの要素を取得したい

あんまり使う機会ないけど毎回忘れるのでメモです。 こんな感じのitemsがリストになっている要素を取得したいやつです。 df.head() # id items # 0 A [A, B] # 1 B [B, C, D] # 2 C [B, C] print(df.iloc[2, 1]) print(type(df.iloc[2, 1])) # ['B', 'C'] # <class 'list'></class>…

apache sparkでInvalid maximum heap sizeって言われた時の対処

結論から言うとJDKが32bitのせいなので64bitをインストール&環境変数の設定をしましょう。 結論にたどり着くまでに色々ハマったので以下メモ(微妙な情報が混ぜってるかも) sparkの処理中にjava.io.IOException: ディスクに十分な空き領域がありません。と…

apache sparkでStackOverflowErrorとOutOfMemoryErrorが発生した時の対処

以下バージョンです。 dockerコンテナ内で起動しています。 >> pyspark --version SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder…

jupyter notebookでpyspark

環境はMacOSです。 sparkは以下 >>> echo $JAVA_HOME /Library/Java/JavaVirtualMachines/jdk1.8.0_122.jdk/Contents/Home >>> pyspark --version Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.3…

Macでspark-jobserverのサンプルを動かす&Tips

職場のWin10環境でハマりまくっているのでMacでサクッとやってみる。 基本的にレポジトリ周辺にまとめられているドキュメントを参照しただけです。 まずレポジトリをクローン github.com docker docker run -d -p 8090:8090 sparkjobserver/spark-jobserver:…

Windows10でdocker-compose upがコケた時の対処法

メモです。 Win10環境でdocker-compose upすると下記エラー Error response from daemon: Cannot restart container xxxxx: driver failed programming external connectivity on endpoint xxxxx Win10の高速スタートアップ機能の「完全シャットダウン」とや…

「前処理大全」を読みました

読みました。 gihyo.jp ドッグイヤーしまくりました。 最近はデータ分析やらダッシュボード・プロトタイプ作成が主な業務になっているので、こういうデータ欲しいんだけどどう書くのが効率的かな〜って時に逆引きしてます。 特にSQLはちょっと苦手なので、目…

KFoldでクロスバリデーション

メモです。 サンプル とりあえずndarrayを定義 import numpy as np X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]]) y = np.array([1, 2, 3, 4]) print(X) print('=========') print(y) # [[1 2] # [3 4] # [5 6] # [7 8]] # ========= # [1 2 3 4] n_split…

pd.factorizeでカテゴリ変数を数値に変換する

カテゴリ変数をユニークな数値に変換してくるやつです(ダミー変数ではない)。 pd.factorize まず、こんなデータフレームがあったとします。 import pandas as pd df = pd.DataFrame({'列1': ['b', 'b', 'a', 'c', 'b'], '列2': ['あ', 'い', 'い', None,…

macにLightGBMをインストールする

pipしただけではエラーが出たのでメモです。 エラーとか pipしてimportしようとするとimage not foundと出てしまう。 調べたところ、ソースからビルドした方が良さそう?とのことで下記ドキュメントを参照し進めて行きました。 github.com すると、cmake ..…

Python2.7とPython3.5の組み込み関数lowerの話

たぶん超絶ニッチ でも気になったから覚えているうちにまとめます。 なんならちゃんと解決してないので誰か教えてください。 状況 lower関数ですが、対象となる文字列を小文字に変換してくれるやつです。 まずはPython2.7での挙動を確認します。 # ABは半角 …

Python2.7からPython3.5へ移行した

まだ完全に移行完了した訳ではないけど覚えているうちにまとめておく 理由 システム自体はPython2.7で動いているんだけど、新しくNeuroNERというライブラリを使うことになり、これ3.x系じゃないと動かないやんけ!ってなったからです。 やったこと ざっくり…

「シス管系女子3」を読みました

読みました system-admin-girl.com 技術書典のサークル眺めてたら、「3」あるんかい!ってなって買いました。 買った時に作者さんに一言お礼を言いたかったけど、めちゃくちゃ人がいたので躊躇してしまった。ざんねん ネットワークやセキュリティのお話がメ…

pd.Seriesに辞書を渡すとキーで昇順にソートされる

例 Seriesを作る際にindexを指定した場合、指定したindexはリストなので順番を持っています。 なので、リストの順番でSeriesが作られます。 hoge = pd.Series([1, 2, 3, 4, 5], index=['C','A','B','E','D']) print(hoge) # 実行結果 C 1 A 2 B 3 E 4 D 5 dt…

pandasのSettingWithCopyWarningの対処法

事象 こんな感じのデータフレームがあった時 import pandas as pd df = pd.DataFrame({'A': ['a', 'b', 'c', 'd', 'e'], 'B': [1, 1, 1, 2, 2]}) print(df) # 実行結果 A B 0 a 1 1 b 1 2 c 1 3 d 2 4 e 2 列Bが1のとこだけ抽出して新しい列を追加したいな〜…

技術書典4に行きました

行きました。 techbookfest.org 買ったやつ 買った!こういうイベント超好きです。#技術書典 pic.twitter.com/1Rgr8Qtsh8— hatunina24 (@hatunina) 2018年4月22日 シス管系女子があったので買ってしまった。このシリーズ好きすぎだろわろす あとはkaggleとDj…

「ベイズ推定入門」を読みました

読みました。 shop.ohmsha.co.jp 完全に息抜きです。 余裕のあるうちにちょっとでも語彙力を増やす。 以下目次です。 第1章 こんなところにベイズ推定 第2章 確率分布とベイズ推定 第3章 機械学習とベイズ推定 第4章 不可能を可能にするベイズ推定 第5章 カ…

bitflyerから日付を指定して約定履歴を取得するスクリプトを改良しました

これの続きです。 hatunina.hatenablog.com 追加したところ ・データ取得開始日だけでなく取得終了日(時間)まで指定できるようになりました。 ・取得したデータを1分足、1時間足、日足のHLOC(高値、安値、始値、終値) + 出来高に変換できるようになりま…

NLTKでIOBタグ付けと頻出単語描画とストップワード除去とシノニムを探す

色々試しました。 Tokenize ~ Pos tagging ~ chunking ~ IOB tagging いじくる文章はiPhoneのwikiを使います。 import nltk sent = """iPhone is a line of smartphones designed and marketed by Apple Inc. The iPhone line of products use Apple's iOS m…

「パーフェクトPython」を読みました

読みました。 gihyo.jp めちゃくちゃ良かった。 最近読んだ中で一番良かった。 やはり良書と呼ばれるものはハズレがない Python以外の言語経験がある方ならこれ一冊で十分 「みんなのPython」→「パーフェクトPython」の順番でもいいかもしれない。 初めての…