Amazon AWS 配置 TensorFlow 与 Keras 环境记录

因为一些需求，需要在 AWS 上进行一些 GPU 的计算，按道理 AWS 已经提供了深度学习的 AMI 映像供我们使用，但是我实在是搞不清他到底做了些什么，因此也不怎么会用。加上自带各种用不到的库实在太大，为了放下我所有的数据需要开 80G 的 EBS 存储卷，感觉有些小贵，无奈之下只能从最干净的 Ubuntu 16.04 开始配置一台符合我需求的 EC2 实例。

具体步骤我打算按照 Keras 官方文档上的方案，由于我也不确定能不能搞定，这里就做一个实时的记录：

配置 python 与 CUDA 环境，这个相对比较简单，需要注意一点的是 cuDNN 库需要在国内自己找，这个 CSDN 上有很多，文件名是 cudnn-8.0-linux-x64-v5.1.tgz 就好了。这一步我进行得十分顺利。
Keras 相关依赖包的安装，这里开始出现了问题
- 首先安装 Anaconda，需要注意一点的是，Anaconda 安装包会将其自身路径写入 .bashrc，但是需要执行 source .bashrc 这条命令才能使 Anaconda 做的修改生效，这里一定要注意，不要认为是安装出了问题。完成之后运行 python，应该就会发现你的 python 已经是 Anaconda 发行版了。
- 接下来 pip install –U –pre pip setuptools wheel 这步也出现了问题，执行 pip 后报错 “FileNotFoundError: [Errno 2] No such file or directory: ‘/home/ubuntu/anaconda3/lib/python3.6/site-packages/setuptools-27.2.0-py3.6.egg’
  - 解决方案是这里，手工指定 setuptools 版本进行安装：pip install setuptools==27.2.0
- 然后是安装 scipy numpy tensorflow-gpu keras 等一干所必要的包，安装一切顺利
- 检查 TensorFlow 安装时再次出现问题，import tensorflow 出现 ImportError: libcudnn.so.6: cannot open shared object file: No such file or directory
  - 查询后发现，pip 默认安装是 tensorflow 1.3，这个版本需要 cuDNN 6.0，但是考虑到教程通用性需求，不选择升级到 tf 1.3，采用 pip install –U –pre tensorflow-gpu==1.2 命令强制安装 1.2 版本使用 cuDNN 5.1

之后的操作就相当顺利了，所有的操作都和本地类似，还是熟悉的东西好用啊。

由于我不需要现在就继续进行计算，因此在停止了实例之后，为其配置的环境创建一个 AMI，供下次继续计算时开启竞价型实例使用。

GLORIOUS DAYS

「私が戻ってきたのはね。もう一度、星の音を聞くためだよ」—— 姫野星奏

Amazon AWS 配置 TensorFlow 与 Keras 环境记录

发表回复取消回复

GLORIOUS DAYS

发表回复 取消回复

GLORIOUS DAYS

发表回复取消回复