hatunina’s blog

メモと日記です

19年前期触った技術

新しい技術何か触ったっけという日記です。新しく触ったやつは赤字です。 やってたこと 主に不正検知(機械学習ベース)やユーザーログ取得のPoC、TeradataやHadoopからデータ抽出・集計をやりました。 触った技術 Python 機械学習やデータ抽出、集計などで…

接続先サーバによってTerminalの背景を変える

概要 devやproductionごとにTerminalの背景を変えることで作業ミスを防ぎたい 環境 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.4 BuildVersion: 18E226 手順 接続先サーバによってTerminalの背景を変えるシェルスクリプトを書く 1.1. 接続先サ…

「達人に学ぶDB設計徹底指南書」を読んだ

読みました。 www.shoeisha.co.jp 今後、データマートを作ることがありそうなので読みました(本当はDWHに関する本を探していたけれど良さそうなのが見つからなかった)。 真面目に仕事やってれば感覚的に知ってるよね、みたいなことが中心ですが、正規化の…

絶対プロキシ突破するマン!(Win10, 認証あり, pip)

オラァ!!!!! set HTTP_PROXY=http://user_name:passward@proxyserver:8080 set HTTPS_PROXY=http://user_name:passward@proxyserver:8080 pip --trusted-host files.pythonhosted.org --trusted-host pypi.org install hoge user_nameにメールアドレス…

AWS Step FunctionsでTaskにParametersを設定してAWS Lambdaで読み込む

aws

Parameters周りの話があまり見当たらなかったのでまとめました。 やりたいこと AWS Step FunctionsとAWS LambdaでETLっぽいことをしたい! 初期パラメータはPassで渡し後ろのTaskでもパラメータを渡したい! 想定 下図のようなステートマシンを想定します。 …

「データサイエンスのための統計学入門」を読んだ

読みました。 www.oreilly.co.jp だいたい前半が統計学で後半が機械学習の話です。 数式はほぼ出てこずで各手法の特徴や使い所を中心に書いてあります。 「統計学者はこう使うがデータサイエンティストはこう使う」という話がちょいちょい出てきて面白いです…

2018年の振り返りと2019年の目標とか

ポエムです。 僕は2016年10月からWebエンジニア(特定派遣)に転生したマンです。 会社では建前上MLエンジニアかデータサイエンティストということになっています。 Webエンジニア転生前は営業マンでした。 2018年 草 主にkaggleのプライベートリポジトリで…

「データサイエンティスト養成読本ビジネス活用」を読んだ

読みました。 www.amazon.co.jp 「仕事ではじめる機械学習」と合わせて上司に叩きつけたい本でした。 マネジメント的な話が多いので、技術的なことが知りたい人は「仕事ではじめる機械学習」を読んだ方がいいかも。

No space left on deviceが発生した時の対処

自分用メモです。 OSはUbunts 18.04 LTSです。 状況 GCEでkaggle APIでデータをダウンロードしていたら No space left on device と表示されエラー 対処1 おそらくディスク容量に空きがないと思われるので df -h で容量を確認する。 そして、容量を圧迫して…

docker for windowsでのpostgres永続化

やりたいこと docker for windowsでdocker-composeを使ってpostgresのデータを永続化したい。 バージョンは以下。OSはWin10です。 方法 下記コマンドで永続化のためのデータコンテナ作成 docker create --name dbdata postgres docker-compose.ymlにvolumeを…

AWS S3でData not foundと表示され削除できない時の対処

aws

現象 バケットを削除したはずなのに、バケット配下のフォルダのみ削除されバケットは残っている状態。。。 また、Data not foundと表示されコンソール上で何も操作できない。。。 対処 削除が反映されるまで時間がかかるのでちょっと待ちましょうとのこと。 …

「AWS 基礎からのネットワーク&サーバー構築」を読んだ

読みました。 www.nikkeibp.co.jp 帯にもあるようにアプリ開発者に超絶おすすめ WordPress, MySQLをEC2に構築するためのネットワーク周りについて学べます。 vartualBoxとかを使う場合にはもっと細々とコマンドを打ったりしてネットワークを作る必要があるん…

aws-cliでCERTIFICATE_VERIFY_FAILEDが出た時の対処

aws

一時的な対処なのでご了承ください。 下記バージョンです。 OSはWin10です。 aws --version # aws-cli/1.16.10 Python/2.7.9 Windows/8 botocore/1.12.0 configureでAPI keyやプロキシ等諸々を設定した後、ネットワークを繋ごうとすると下記エラー aws s3 ls…

「プログラマのためのDocker教科書」を読んでPython環境を作った

読みました。 www.shoeisha.co.jp 業務でDockerの機運が高まっていたので読んだ。 前半の基本的なインフラ周りやdockerコマンド、Dockerfile等についてちゃんとまとまっていてよかった。 正直、ググれば集まるような情報ではあるけど、検索力が低いので断片…

apache sparkの本を読んだ

2つ読みました。 これと www.oreilly.co.jp これ www.shuwasystem.co.jp 周りに詳しい人がいないので、得意なこと苦手なこと、使い方の全体像、PythonとJavaでの書き方が知りたくてざっとまとめて読みました。 「アプリケーションエンジニアの〜」の方は全…

apache sparkでファイル名を指定して保存する

メモです! stackoverflowまとめただけです! 以下バージョンです。 >> pyspark --version SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLogg…

pandas.DataFrameからlistの要素を取得したい

あんまり使う機会ないけど毎回忘れるのでメモです。 こんな感じのitemsがリストになっている要素を取得したいやつです。 df.head() # id items # 0 A [A, B] # 1 B [B, C, D] # 2 C [B, C] print(df.iloc[2, 1]) print(type(df.iloc[2, 1])) # ['B', 'C'] # <class 'list'></class>…

apache sparkでInvalid maximum heap sizeって言われた時の対処

結論から言うとJDKが32bitのせいなので64bitをインストール&環境変数の設定をしましょう。 結論にたどり着くまでに色々ハマったので以下メモ(微妙な情報が混ぜってるかも) sparkの処理中にjava.io.IOException: ディスクに十分な空き領域がありません。と…

apache sparkでStackOverflowErrorとOutOfMemoryErrorが発生した時の対処

以下バージョンです。 dockerコンテナ内で起動しています。 >> pyspark --version SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder…

jupyter notebookでpyspark

環境はMacOSです。 sparkは以下 >>> echo $JAVA_HOME /Library/Java/JavaVirtualMachines/jdk1.8.0_122.jdk/Contents/Home >>> pyspark --version Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.3…

Macでspark-jobserverのサンプルを動かす&Tips

職場のWin10環境でハマりまくっているのでMacでサクッとやってみる。 基本的にレポジトリ周辺にまとめられているドキュメントを参照しただけです。 まずレポジトリをクローン github.com docker docker run -d -p 8090:8090 sparkjobserver/spark-jobserver:…

Windows10でdocker-compose upがコケた時の対処法

メモです。 Win10環境でdocker-compose upすると下記エラー Error response from daemon: Cannot restart container xxxxx: driver failed programming external connectivity on endpoint xxxxx Win10の高速スタートアップ機能の「完全シャットダウン」とや…

「前処理大全」を読みました

読みました。 gihyo.jp ドッグイヤーしまくりました。 最近はデータ分析やらダッシュボード・プロトタイプ作成が主な業務になっているので、こういうデータ欲しいんだけどどう書くのが効率的かな〜って時に逆引きしてます。 特にSQLはちょっと苦手なので、目…

pd.factorizeでカテゴリ変数を数値に変換する

カテゴリ変数をユニークな数値に変換してくるやつです(ダミー変数ではない)。 pd.factorize まず、こんなデータフレームがあったとします。 import pandas as pd df = pd.DataFrame({'列1': ['b', 'b', 'a', 'c', 'b'], '列2': ['あ', 'い', 'い', None,…

pd.Seriesに辞書を渡すとキーで昇順にソートされる

例 Seriesを作る際にindexを指定した場合、指定したindexはリストなので順番を持っています。 なので、リストの順番でSeriesが作られます。 hoge = pd.Series([1, 2, 3, 4, 5], index=['C','A','B','E','D']) print(hoge) # 実行結果 C 1 A 2 B 3 E 4 D 5 dt…

NLTKでIOBタグ付けと頻出単語描画とストップワード除去とシノニムを探す

色々試しました。 Tokenize ~ Pos tagging ~ chunking ~ IOB tagging いじくる文章はiPhoneのwikiを使います。 import nltk sent = """iPhone is a line of smartphones designed and marketed by Apple Inc. The iPhone line of products use Apple's iOS m…

「パーフェクトPython」を読みました

読みました。 gihyo.jp めちゃくちゃ良かった。 最近読んだ中で一番良かった。 やはり良書と呼ばれるものはハズレがない Python以外の言語経験がある方ならこれ一冊で十分 「みんなのPython」→「パーフェクトPython」の順番でもいいかもしれない。 初めての…

crfsuiteとpycrfsuiteについて

CRFについて勉強中です。 色々調べつつサンプルを動かして見ました。 こちらはコマンドラインで実行できるcrfsuiteのチュートリアル記事です。 CRFsuite - Tutorial on Chunking Task - 英語ですが、難しい単語は出てこないですしざっくり大まかな概要は把握…

Pythonのconfigparserで設定ファイルを読み込む

mainのプロセスで初期化する内容が多くなって来た時には設定ファイルを作成して読み込むのが良い。 例えば、こんな感じのmain.pyがあったとします。 #!/usr/bin/env python # -*- coding: utf-8 -*- class Main(object): def __init__(self): self.data_dir=…