docker for windowsでのpostgres永続化
やりたいこと
docker for windowsでdocker-composeを使ってpostgresのデータを永続化したい。
バージョンは以下。OSはWin10です。
方法
下記コマンドで永続化のためのデータコンテナ作成
docker create --name dbdata postgres
docker-compose.ymlにvolumeを追記しトップレベルでデータコンテナを指定する。
例えば redash
だとこんな感じ。
version: '2' services: server: image: redash/redash:latest command: server depends_on: - postgres - redis ports: - "5000:5000" environment: PYTHONUNBUFFERED: 0 REDASH_LOG_LEVEL: "INFO" REDASH_REDIS_URL: "redis://redis:6379/0" REDASH_DATABASE_URL: "postgresql://postgres@postgres/postgres" REDASH_COOKIE_SECRET: veryverysecret REDASH_WEB_WORKERS: 4 restart: always worker: image: redash/redash:latest command: scheduler environment: PYTHONUNBUFFERED: 0 REDASH_LOG_LEVEL: "INFO" REDASH_REDIS_URL: "redis://redis:6379/0" REDASH_DATABASE_URL: "postgresql://postgres@postgres/postgres" QUEUES: "queries,scheduled_queries,celery" WORKERS_COUNT: 2 restart: always redis: image: redis:3.0-alpine restart: always postgres: image: postgres:9.5.6-alpine volumes: - dbdata:/var/lib/postgresql/data restart: always nginx: image: redash/nginx:latest ports: - "80:80" depends_on: - server links: - server:redash restart: always volumes: dbdata:
こうしておけば docker-compose up
, docker-compose down
を繰り返してもpostgresのデータは dbdata
コンテナへ永続化される。
参考
AWS S3でData not foundと表示され削除できない時の対処
「AWS 基礎からのネットワーク&サーバー構築」を読んだ
読みました。
www.nikkeibp.co.jp
帯にもあるようにアプリ開発者に超絶おすすめ
WordPress, MySQLをEC2に構築するためのネットワーク周りについて学べます。
vartualBoxとかを使う場合にはもっと細々とコマンドを打ったりしてネットワークを作る必要があるんだろうけど、AWSではGUIやCLIで簡単に作れちゃうので、GUIの操作も含めて把握できます。
ただ、当然だけどぱらぱらめくっただけの部分はほとんど理解できてないかも。ゲートウェイよくわからん。
CHAPTER9冒頭のまとめ部分は今後何回も見返しそうだし、ネットワーク構築で迷った際には全体的に辞書として使えそう。
aws-cliでCERTIFICATE_VERIFY_FAILEDが出た時の対処
一時的な対処なのでご了承ください。
下記バージョンです。
OSはWin10です。
aws --version # aws-cli/1.16.10 Python/2.7.9 Windows/8 botocore/1.12.0
configure
でAPI keyやプロキシ等諸々を設定した後、ネットワークを繋ごうとすると下記エラー
aws s3 ls # SSL validation failed for https://s3.ap-northeast-1.amazonaws.com/ [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)
そんな時は--no-verify
オプションをつければとりあえずなんとかなる。
aws s3 ls --no-verify # C:\Program Files\Amazon\AWSCLI\.\urllib3\connectionpool.py:857: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: # https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl # -warnings # C:\Program Files\Amazon\AWSCLI\.\dateutil\parser\_parser.py:1175: UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal # 2018-07-31 16:55:08 hoge # 2018-08-09 11:24:58 huga
まあwarning出るけど。。。
参考
apache sparkでファイル名を指定して保存する
メモです!
stackoverflowまとめただけです!
以下バージョンです。
>> pyspark --version SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found binding in [jar:file:/opt/hadoop-2.7.3/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation. SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.3.1 /_/ Using Scala version 2.11.8, OpenJDK 64-Bit Server VM, 1.8.0_171
概要
例えば、こんな感じでデータセットを保存すると。。。
df.coalesce(1).write.json('./data/hoge/', mode='overwrite')
ディレクトリ名までしか指定できない。
$ tree . └── hoge ├── _SUCCESS └── part-00000-0f5a725e-c34d-4c59-9627-debe270aa558-c000.json
そもそもデータでかいんだから一つにまとめんなって話でディレクトリ単位がデータの区分になっていることを想定しているからっぽい。
それでもファイル名を指定したい!っていう時の対処法です。
PySpark
普通に保存してからHadoop APIを使ってリネーム&デリートしてあげる。
df.coalesce(1).write().json("./data/hoge", "overwrite"); from py4j.java_gateway import java_import java_import(spark._jvm, "org.apache.hadoop.fs.Path"); fs = spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration()) file = fs.globStatus(sc._jvm.Path('./data/hoge/part*'))[0].getPath().getName() fs.rename(sc._jvm.Path('./data/hoge/' + file), sc._jvm.Path('./data/output/output.json')) fs.delete(sc._jvm.Path('./data/hoge/'), True)
Java
PySparkと同じ。
import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; dataset.coalesce(1).write() .mode("overwrite") .format("json") .save("./data/hoge"); try { FileSystem fs = org.apache.hadoop.fs.FileSystem.get(spark.sparkContext().hadoopConfiguration()); String oldFileName = fs.globStatus(new Path("./data/hoge"+ "/part-*"))[0].getPath().getName(); fs.rename(new Path("./data/hoge", oldFileName), new Path("./data/output/output.json")); fs.delete(new Path("./data/hoge"), true); } catch (IOException e) { e.printStackTrace(); }
Scala
PySparkとJavaと同じ。
Scala知らないのでこれ見てください。
stackoverflow.com