hatunina’s blog

メモと日記です

「達人に学ぶDB設計徹底指南書」を読んだ

読みました。 www.shoeisha.co.jp 今後、データマートを作ることがありそうなので読みました(本当はDWHに関する本を探していたけれど良さそうなのが見つからなかった)。 真面目に仕事やってれば感覚的に知ってるよね、みたいなことが中心ですが、正規化の…

絶対プロキシ突破するマン!(Win10, 認証あり, pip)

オラァ!!!!! set HTTP_PROXY=http://user_name:passward@proxyserver:8080 set HTTPS_PROXY=http://user_name:passward@proxyserver:8080 pip --trusted-host files.pythonhosted.org --trusted-host pypi.org install hoge user_nameにメールアドレス…

AWS Step FunctionsでTaskにParametersを設定してAWS Lambdaで読み込む

aws

Parameters周りの話があまり見当たらなかったのでまとめました。 やりたいこと AWS Step FunctionsとAWS LambdaでETLっぽいことをしたい! 初期パラメータはPassで渡し後ろのTaskでもパラメータを渡したい! 想定 下図のようなステートマシンを想定します。 …

「データサイエンスのための統計学入門」を読んだ

読みました。 www.oreilly.co.jp だいたい前半が統計学で後半が機械学習の話です。 数式はほぼ出てこずで各手法の特徴や使い所を中心に書いてあります。 「統計学者はこう使うがデータサイエンティストはこう使う」という話がちょいちょい出てきて面白いです…

2018年の振り返りと2019年の目標とか

ポエムです。 僕は2016年10月からWebエンジニア(特定派遣)に転生したマンです。 会社では建前上MLエンジニアかデータサイエンティストということになっています。 Webエンジニア転生前は営業マンでした。 2018年 草 主にkaggleのプライベートリポジトリで…

「データサイエンティスト養成読本ビジネス活用」を読んだ

読みました。 www.amazon.co.jp 「仕事ではじめる機械学習」と合わせて上司に叩きつけたい本でした。 マネジメント的な話が多いので、技術的なことが知りたい人は「仕事ではじめる機械学習」を読んだ方がいいかも。

No space left on deviceが発生した時の対処

自分用メモです。 OSはUbunts 18.04 LTSです。 状況 GCEでkaggle APIでデータをダウンロードしていたら No space left on device と表示されエラー 対処1 おそらくディスク容量に空きがないと思われるので df -h で容量を確認する。 そして、容量を圧迫して…

docker for windowsでのpostgres永続化

やりたいこと docker for windowsでdocker-composeを使ってpostgresのデータを永続化したい。 バージョンは以下。OSはWin10です。 方法 下記コマンドで永続化のためのデータコンテナ作成 docker create --name dbdata postgres docker-compose.ymlにvolumeを…

AWS S3でData not foundと表示され削除できない時の対処

aws

現象 バケットを削除したはずなのに、バケット配下のフォルダのみ削除されバケットは残っている状態。。。 また、Data not foundと表示されコンソール上で何も操作できない。。。 対処 削除が反映されるまで時間がかかるのでちょっと待ちましょうとのこと。 …

決定木のTips的なまとめ

kaggleのhomecreditコンペに参加してkernel丸パクリlightgbmよくわからんけどアウトプットはとりあえず出せるマンになったので、レベルアップを試みとりあえず決定木についてまとめようと思います。 個人的に雰囲気で理解していた箇所をまとめています。 ふ…

「AWS 基礎からのネットワーク&サーバー構築」を読んだ

読みました。 www.nikkeibp.co.jp 帯にもあるようにアプリ開発者に超絶おすすめ WordPress, MySQLをEC2に構築するためのネットワーク周りについて学べます。 vartualBoxとかを使う場合にはもっと細々とコマンドを打ったりしてネットワークを作る必要があるん…

aws-cliでCERTIFICATE_VERIFY_FAILEDが出た時の対処

aws

一時的な対処なのでご了承ください。 下記バージョンです。 OSはWin10です。 aws --version # aws-cli/1.16.10 Python/2.7.9 Windows/8 botocore/1.12.0 configureでAPI keyやプロキシ等諸々を設定した後、ネットワークを繋ごうとすると下記エラー aws s3 ls…

「プログラマのためのDocker教科書」を読んでPython環境を作った

読みました。 www.shoeisha.co.jp 業務でDockerの機運が高まっていたので読んだ。 前半の基本的なインフラ周りやdockerコマンド、Dockerfile等についてちゃんとまとまっていてよかった。 正直、ググれば集まるような情報ではあるけど、検索力が低いので断片…

apache sparkの本を読んだ

2つ読みました。 これと www.oreilly.co.jp これ www.shuwasystem.co.jp 周りに詳しい人がいないので、得意なこと苦手なこと、使い方の全体像、PythonとJavaでの書き方が知りたくてざっとまとめて読みました。 「アプリケーションエンジニアの〜」の方は全…

apache sparkでファイル名を指定して保存する

メモです! stackoverflowまとめただけです! 以下バージョンです。 >> pyspark --version SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLogg…

pandas.DataFrameからlistの要素を取得したい

あんまり使う機会ないけど毎回忘れるのでメモです。 こんな感じのitemsがリストになっている要素を取得したいやつです。 df.head() # id items # 0 A [A, B] # 1 B [B, C, D] # 2 C [B, C] print(df.iloc[2, 1]) print(type(df.iloc[2, 1])) # ['B', 'C'] # <class 'list'></class>…

apache sparkでInvalid maximum heap sizeって言われた時の対処

結論から言うとJDKが32bitのせいなので64bitをインストール&環境変数の設定をしましょう。 結論にたどり着くまでに色々ハマったので以下メモ(微妙な情報が混ぜってるかも) sparkの処理中にjava.io.IOException: ディスクに十分な空き領域がありません。と…

apache sparkでStackOverflowErrorとOutOfMemoryErrorが発生した時の対処

以下バージョンです。 dockerコンテナ内で起動しています。 >> pyspark --version SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder…

jupyter notebookでpyspark

環境はMacOSです。 sparkは以下 >>> echo $JAVA_HOME /Library/Java/JavaVirtualMachines/jdk1.8.0_122.jdk/Contents/Home >>> pyspark --version Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.3…

Macでspark-jobserverのサンプルを動かす&Tips

職場のWin10環境でハマりまくっているのでMacでサクッとやってみる。 基本的にレポジトリ周辺にまとめられているドキュメントを参照しただけです。 まずレポジトリをクローン github.com docker docker run -d -p 8090:8090 sparkjobserver/spark-jobserver:…

Windows10でdocker-compose upがコケた時の対処法

メモです。 Win10環境でdocker-compose upすると下記エラー Error response from daemon: Cannot restart container xxxxx: driver failed programming external connectivity on endpoint xxxxx Win10の高速スタートアップ機能の「完全シャットダウン」とや…

「前処理大全」を読みました

読みました。 gihyo.jp ドッグイヤーしまくりました。 最近はデータ分析やらダッシュボード・プロトタイプ作成が主な業務になっているので、こういうデータ欲しいんだけどどう書くのが効率的かな〜って時に逆引きしてます。 特にSQLはちょっと苦手なので、目…

KFoldでクロスバリデーション

メモです。 サンプル とりあえずndarrayを定義 import numpy as np X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]]) y = np.array([1, 2, 3, 4]) print(X) print('=========') print(y) # [[1 2] # [3 4] # [5 6] # [7 8]] # ========= # [1 2 3 4] n_split…

pd.factorizeでカテゴリ変数を数値に変換する

カテゴリ変数をユニークな数値に変換してくるやつです(ダミー変数ではない)。 pd.factorize まず、こんなデータフレームがあったとします。 import pandas as pd df = pd.DataFrame({'列1': ['b', 'b', 'a', 'c', 'b'], '列2': ['あ', 'い', 'い', None,…

Python2.7とPython3.5の組み込み関数lowerの話

たぶん超絶ニッチ でも気になったから覚えているうちにまとめます。 なんならちゃんと解決してないので誰か教えてください。 状況 lower関数ですが、対象となる文字列を小文字に変換してくれるやつです。 まずはPython2.7での挙動を確認します。 # ABは半角 …

Python2.7からPython3.5へ移行した

まだ完全に移行完了した訳ではないけど覚えているうちにまとめておく 理由 システム自体はPython2.7で動いているんだけど、新しくNeuroNERというライブラリを使うことになり、これ3.x系じゃないと動かないやんけ!ってなったからです。 やったこと ざっくり…

「シス管系女子3」を読みました

読みました system-admin-girl.com 技術書典のサークル眺めてたら、「3」あるんかい!ってなって買いました。 買った時に作者さんに一言お礼を言いたかったけど、めちゃくちゃ人がいたので躊躇してしまった。ざんねん ネットワークやセキュリティのお話がメ…

pd.Seriesに辞書を渡すとキーで昇順にソートされる

例 Seriesを作る際にindexを指定した場合、指定したindexはリストなので順番を持っています。 なので、リストの順番でSeriesが作られます。 hoge = pd.Series([1, 2, 3, 4, 5], index=['C','A','B','E','D']) print(hoge) # 実行結果 C 1 A 2 B 3 E 4 D 5 dt…

技術書典4に行きました

行きました。 techbookfest.org 買ったやつ 買った!こういうイベント超好きです。#技術書典 pic.twitter.com/1Rgr8Qtsh8— hatunina24 (@hatunina) 2018年4月22日 シス管系女子があったので買ってしまった。このシリーズ好きすぎだろわろす あとはkaggleとDj…

bitflyerから日付を指定して約定履歴を取得するスクリプトを改良しました

これの続きです。 hatunina.hatenablog.com 追加したところ ・データ取得開始日だけでなく取得終了日(時間)まで指定できるようになりました。 ・取得したデータを1分足、1時間足、日足のHLOC(高値、安値、始値、終値) + 出来高に変換できるようになりま…