分类目录归档:System Maintenance

关于 VSCode SSH 插件出现 flock: 99: Input/output error 的解决方案

VSCode 的 SSH 插件默认会在 ~/.vscode-server 下获取 lock,但是在某些 home 目录挂载在 NFS 的服务器上会出现 > flock: 99: Input/output error 的错误。

解决方案是在 /tmp 下获取 lock,在 SSH 插件的设置中选中 LockFiles In Temp 即可,或者搜索 remote.SSH.lockfilesInTmp 也可以找到这个设置。

编译带有 Intel MKL 的 TensorFlow

我永远也不知道该用哪个版本的 Bazel 编译 TensorFlow;以及……牙膏厂能不能好好写文档。

本文均在 Python3 环境下进行编译,0202 年了为什么还有人在用 Python2。

环境准备

Python 开发环境:

sudo apt install python3-dev python3-pip
pip3 install -U --user pip six numpy wheel setuptools mock 
pip3 install -U --user keras_applications --no-deps
pip3 install -U --user keras_preprocessing --no-deps

Bazel:

这里不直接安装,而是使用 Bazelisk 这个 wrapper 完成对 bazel 的调用。Bazelisk 的 release 为一个 standalone 的二进制包,我们可以直接把它改名为 bazel 放入 PATH 中直接进行调用,所有的参数会自动 passthrough 到具体的 bazel 上。在调用 bazelisk 之前,可以使用 USE_BAZEL_VERSION 这个环境变量指定需要的 bazel 版本,如果没有在本地缓存过,则会被自动下载。由于编译 TensorFlow 对 bazel 版本有严格的要求,使用 bazelisk 可以不用反复重新安装 bazel 就能尝试不同的版本。

Intel MKL:

Intel 有 apt 源可以直接安装这个包

wget https://apt.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS-2019.PUB
apt-key add GPG-PUB-KEY-INTEL-SW-PRODUCTS-2019.PUB
rm GPG-PUB-KEY-INTEL-SW-PRODUCTS-2019.PUB

sudo wget https://apt.repos.intel.com/setup/intelproducts.list -O /etc/apt/sources.list.d/intelproducts.list
sudo apt-get update

之后可以在这个页面取得想要安装的包的版本的名字,或者直接用 apt-cache search 也可以。目前最新的 MKL 版本为 intel-mkl-64bit-2020.0-088。

编译

git clone https://github.com/tensorflow/tensorflow.git
cd tensorflow
git checkout branch_name  # r1.9, r1.10, etc.
./configure

在 configure 中完成一些配置,比如是否需要 GPU 支持,MPI 支持等等,这里不赘述。

如果我们要编译一个带有 CPU 优化、MKL 库以及 CUDA 支持的 TensorFlow:

bazel build --config=opt --config=mkl --config=cuda //tensorflow/tools/pip_package:build_pip_package

之后创建 Python 的 .whl 安装包

./bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg

然后在 /tmp/tensorflow_pkg 下就可以看到编译好的安装包了。

Reference

https://www.tensorflow.org/install/source
https://github.com/bazelbuild/bazelisk
https://github.com/tensorflow/tensorflow/issues/26249
https://gist.github.com/pachamaltese/afc4faef2f191b533556f261a46b3aa8
https://software.intel.com/en-us/articles/installing-intel-free-libs-and-python-apt-repo

在 Linux 下使用 Office 365

在 Windows 上用习惯了微软全家桶,切到 Linux 就没指望了,又不能说装个 Windows 虚拟机就为了用 Office 365,那只好尝试找找替代品了。

首先是 Outlook,包含了学校账户的 Exchange ActiveSync,个人 Outlook 邮箱还有日程功能。在 Linux 上比较常见的邮件客户端是 Mozilla Thunderbird,通过插件配置可以最低限度地支持 Outlook 提供的一些服务。

  • owl for exchange 提供 Exchange ActiveSync 的邮件支持
  • lightning 提供 Outlook 日历的基础功能支持
  • tbsync + provider for exchange activesync 提供到 Office 365 账户的日历同步功能
  • provider for google calendar 为 lightning 提供到 Google Calendar 的同步功能

有了这些插件以后,就可以依次添加自己的账户开始同步了。不能说多好用,勉强能用吧。

然后是 Microsoft To-Do,这个有好事者开发了一个跨平台的版本:klaussinani/ao。通过 snap 就可以安装。

还有 OneNote,这个似乎除了网页版就没有什么比较好用的版本,不过也有好事者用 Electron 做了一个本地网页客户端:patrikx3/onenote。还算能用,也是通过 snap 安装。

OneDrive 的同步,也有好事者写了 Linux 上可用的版本:skilion/onedrive。这个要写一下正确的安装流程,我装的时候差点就把 OneDrive 里面的文件全部删掉了,幸好有回收站。

对于 Ubuntu 18.04,安装流程是这样的:

sudo apt install libcurl4-openssl-dev
sudo apt install libsqlite3-dev

# Ubuntu 18
sudo snap install --classic dmd && sudo snap install --classic dub

git clone https://github.com/skilion/onedrive.git
cd onedrive
make
sudo make install

注意,在运行之前,一定是在运行之前,自行在 ~/.config 下创建配置文件目录,以 ~/.config/onedrive 为例,如果需要同步多个账户则应使用不同的目录名称:

mkdir -p ~/.config/onedrive
cp ./config ~/.config/onedrive/config
nano ~/.config/onedrive/config

config 文件结构类似这样:

# Directory where the files will be synced
sync_dir = "~/OneDrive"
# Skip files and directories that match this pattern
skip_file = ".*|~*"

标记了默认的同步路径为 ~/OneDrive,由于在首次运行 onedrive 的时候默认就是授权,因此如果要更改同步目录的话,在这里要先在配置文件里面写好。然后运行 onedrive –confdir=”~/.config/onedrive” 开始进行授权操作,这样就会在 sync_dir 处创建对应的文件夹,然后开始下载。

如果要自动同步,在 make install 之后,在 /usr/lib/systemd/user 下已经被创建了一个 onedrive.service 文件,类似这样:

[Unit]
Description=OneDrive Free Client
Documentation=https://github.com/skilion/onedrive

[Service]
ExecStart=/usr/local/bin/onedrive -m
Restart=no

[Install]
WantedBy=default.target

如果想要同步多个账户的话,把 ExecStart 改成类似于 onedrive -m –confdir=”~/.config/onedrivePersonal” 这样带有配置文件目录的形式。之后:

systemctl --user enable onedrive
systemctl --user start onedrive

就可以启动服务自动运行了。

如果不想使用 User Service,希望在系统启动时运行,则在 /etc/systemd/system 下创建 onedrive.service,写入类似于:

[Unit]
Description=OneDrive Free Client
Documentation=https://github.com/skilion/onedrive

[Service]
ExecStart=/usr/bin/sudo -u <user> /usr/local/bin/onedrive -m --confdir="/home/<user>/.config/onedrive"
Restart=always

[Install]
WantedBy=default.target

之后:

systemctl enable onedrive
systemctl start onedrive

切记,不能在授权完成之后,复制 config 文件并更改 sync_dir,然后直接用 -m 参数运行 onedrive,这样会使得该程序认为本地有全部删除的更改,会直接删掉 OneDrive 上所有文件。所以一定要先写配置文件再授权。

最后记录一下添加 SMB 打印机的过程,Linux 通过 CUPS 管理打印机,但是图形界面的管理未必好用,可以尝试用 localhost:631 来管理,注意 cups-2.2.7 在 Linux 版 Chrome 上有 bug,会出现 unauthorized error,这个需要升级到 2.2.8 或者使用 firefox。具体配置可以看 Arch Wiki

在物理机上全新安装 Ubuntu 的一些坑

起因是这样的,老板表示都搞 Research 了,日常使用就用 Ubuntu 吧……然后就在一台 Dell Optiplex 5060 上装起了 Ubuntu。

这台机器本身没有 SSD,IT 搬过来的时候系统就装在一块 500G/7200rpm 的海门酷鱼上(ST500LM034)。9102 年了,我用 SSD 装系统都用了 7 年了,没有 SSD 的机器完全没法用,遂购入一块 NVMe SSD 插在了 M.2 接口上,然后插入 xubuntu 安装 U 盘开始重装。

这时候问题来了,尽管在 BIOS 里能看到,但是 Ubuntu 死活检测不到那块 NVMe。经多处查询,发现可以尝试在 BIOS 中把默认的 SATA 模式改成 AHCI,而不是 RAID,改过来以后,就没问题了。此处要吐槽一下 Dell 知识库,里面写的完全是反的,表示应该把 AHCI 模式改成 RAID,我信你就有鬼了。

安装流程很快完成以后,又出现了另外一个问题,xubuntu 18.04.3 已经默认使用了 HWE Kernel,在尝试安装 openssh-server 的时候,表示有部分依赖无法满足。之前遇到这个问题的时候,尝试过 aptitude,给出的方案之一是降级大量的软件包,但是这样之后把系统的包搞得一团糟,apt 已经完全无法正常使用。考虑到默认使用的是 HWE kernel,在 aptitude 降级的时候也出现过卸载带 hwe 后缀的软件包,安装不带 hwe 后缀的软件包的操作,因此怀疑是软件源的问题。

于是在这里生成新的软件源列表,注意勾选 main restricted universe multiverse、security updates 和 backports 这些,生成链接之后,复制到 /etc/apt/sources.list 中。在 apt udpate 之后,发现整个系统终于能正常工作了。现在看来,ubuntu 18.04 使用 HWE Kernel 的版本在默认的软件源列表上是有坑的,似乎是 bionic-updates 没有被包含在其中,造成软件包版本混乱的问题。

在解决了这些问题之后,似乎至少能正常使用了。

iKoula 独服在 netplan.io 下配置 IPv6

netplan.io 实在是太烂了

假设 IPv4 地址是 AAA.BBB.CCC.DDD,修改 /etc/netplan/01-netcfg.yaml

# Network configuration file
# Auto generated by Ikoula

network:
  version: 2
  renderer: networkd
  ethernets:
    eth0:
      dhcp4: no
      addresses: 
        - AAA.BBB.CCC.DDD/24
        - "2a00:c70:1:AAA:BBB:CCC:DDD:1/96"
      gateway4: AAA.BBB.CCC.1
      gateway6: 2a00:c70:1:AAA:BBB:CCC::1
      nameservers:
        addresses: [213.246.36.14,213.246.33.144,80.93.83.11]

之后 netplan try 验证格式并回车应用,或者直接 netplan apply

WordPress 迁移

从……大概一年多以前?Offline 要涨价开始,我就说要抛弃他家 Scaleway,转到 Hetzner Cloud 上来,然而因为懒……所以就一直没弄。今天突发奇想就弄了一下。

WordPress 迁移的方法有很多,可以考虑底层的方法把网站目录、数据库和 nginx 配置文件连锅端,也可以用一些插件辅助完成这个事情。出于懒……我个人选择了插件。

在这个迁移中使用的是 All-in-One WP Migration 插件,其作者声称可以直接打包把站点导出,包含所有的文章、主题以及插件信息。为了测试该插件能否正常工作,我首先使用了另一个二级域名并安装 WordPress 作为测试平台,很顺利地完成了导入以后,就开始了主域名的迁移工作。

由于我的环境是 Oneinstack 的 LNMP 一件包,其 vhost 管理并没有提供相应的更改域名功能,在阅读了代码之后,发现其功能似乎是 stateless 的,也就是说包括 vhost 列表的查询以及 Let’s encrypt 证书管理在内都通过读取对应应用程序的配置文件完成,而非本地再对已有的域名进行配置文件的保存。这样的设计为我之后要干的事情提供了极大的方便,即手动更改本地域名地址之后,只要不变动文件夹结构,就不会影响该脚本的后续使用。

迁移这个简单的 WordPress 站点(没什么特殊配置,都在 WP 框架内完成,因此使用迁移插件即可),需要做的有这样几件事:

  • 导出原站点
  • 在新 VPS 上建立 vhost,并申请 Let’s encrypt 证书
  • 安装 WordPress
  • 导入原站点

需要注意的一点是,如果需要在 vhost 中更改域名,一定要在安装 WordPress 之前完成,因为 WordPress 似乎根据安装时保存在 MySQL 数据库中的网址自行进行 301 跳转,即使更改了 nginx 中的网址,Wordpress 仍然会在后续访问中跳转会原来的地址,进而会导致 https 证书地址不匹配的问题。

这个问题最开始是在完成了使用测试域名的导入以后,想更换为原来的主域名时发生的。在使用 acme.sh 生成证书并安装,且完成 nginx config 中的证书路径修改之后:

acme.sh --issue -d <domain> --webroot <web_root_dir>
acme-sh --install-cert -d <domain> --key-file /usr/local/nginx/conf/ssl/<domain>.key --fullchain-file /usr/local/nginx/conf/ssl/<domain>.crt --reloadcmd  "service nginx force-reload"

在访问原网址时仍然会跳转到之前使用的测试网址,这让我百思不得其解。在删除网站根目录下的所有文件,重新生成证书以及 vhost 配置文件等方法均无果之后,我使用了使用 curl -I 查看调试信息:

# curl -I https://blog.gloriousdays.pw
HTTP/2 301
server: nginx
date: Sun, 25 Aug 2019 16:36:56 GMT
content-type: text/html; charset=UTF-8
location: https://blog2.gloriousdays.pw/
x-redirect-by: WordPress
strict-transport-security: max-age=15768000

可以看到似乎是由 WordPress 完成的 301 跳转。与之相对的正常访问和 nginx 完成的 301 跳转是这样:

# curl -I https://blog.gloriousdays.pw
HTTP/2 200
server: nginx
date: Sun, 25 Aug 2019 17:46:59 GMT
content-type: text/html; charset=UTF-8
content-length: 41183
vary: Accept-Encoding
vary: Accept-Encoding, Cookie
cache-control: max-age=3, must-revalidate
last-modified: Sun, 25 Aug 2019 17:34:44 GMT
strict-transport-security: max-age=15768000

# curl -I http://blog.gloriousdays.pw
HTTP/1.1 301 Moved Permanently
Server: nginx
Date: Sun, 25 Aug 2019 17:47:03 GMT
Content-Type: text/html
Content-Length: 162
Connection: keep-alive
Location: https://blog.gloriousdays.pw/
Strict-Transport-Security: max-age=15768000

这样似乎就定位了问题所在,Wordpress 在某个地方存储了网站的地址,并且依照其进行跳转。后来想到,在进行网站测试导入时,已经完成了 WordPress 安装并连接了数据库,在之前删除网站目录文件重新放入 WordPress 安装包的时候也没有进行清除,或许那个数据库才是问题所在。于是果断进入 mysql 命令行 drop database,并重新进行安装和导入站点流程,这时候网站就已经正常工作了。

总结一下的话,就是在安装 WordPress 之后一定不要更改 nginx 对应的域名,说实话这也很奇怪,301 跳转这个功能委托给 nginx 完成就好,WP 何必多此一举呢。

修改 Linux 默认 locale 使得非 ASCII 字符在 ssh 下可以正常显示

一般来说,如果没有进行过特殊配置的话(比如说我们用 debootstrap 安装的系统),其默认 locale 会是 POSIX,我们使用 locale 命令可以看到这个情况。

# locale
LANG=
LANGUAGE=
LC_CTYPE="POSIX"
LC_NUMERIC="POSIX"
LC_TIME="POSIX"
LC_COLLATE="POSIX"
LC_MONETARY="POSIX"
LC_MESSAGES="POSIX"
LC_PAPER="POSIX"
LC_NAME="POSIX"
LC_ADDRESS="POSIX"
LC_TELEPHONE="POSIX"
LC_MEASUREMENT="POSIX"
LC_IDENTIFICATION="POSIX"
LC_ALL=

C 是系统默认的 locale,而 POSIX 是 C 的别名,因此这里看到的情况就是默认的 C Locale。它所指定的属性和行为由 ISO C 标准所指定。当我们新安装完一个系统时,默认的 locale 就是 C 或 POSIX。我们这里说的 C 其实就是 ASCII 编码。

但是我们同样也知道,标准的 ASCII 字符集中是不包含中文、日文等字符的,因此如果 POSIX 作为系统默认的 locale,那么会遇到在 SSH 下无法正确显示这些字符的问题,会直接按字节解析为 ASCII 转义字符,因此要想更正这个情况只有修改系统默认的 locale。

通过 locale -a 可以查看当前系统可用的所有 locale:

# locale -a
C
C.UTF-8
POSIX
en_US.utf8

显然,en_US.utf8 是一个好选择。

下面贴过来一段对上文中提及的 LC_* 环境变量的接释:

  • LANG
    LANG的优先级是最低的,它是所有 LC_* 变量的默认值。下方所有以 LC_ 开头变量(不包括LC_ALL)中,如果存在没有设置变量值的变量,那么系统将会使用 LANG 的变量值来给这个变量进行赋值。如果变量有值,则保持不变,不受影响。可以看到,我们上面示例中的输出中的 LC_*变量的值其实就是 LANG 变量决定的
  • LC_CTYPE
    用于字符分类和字符串处理,控制所有字符的处理方式,包括字符编码,字符是单字节还是多字节,如何打印等,这个变量是最重要的。
  • LC_NUMERIC
    用于格式化非货币的数字显示。
  • LC_TIME
    用于格式化时间和日期。
  • LC_COLLATE
    用于比较和排序。
  • LC_MONETORY
    用于格式化货币单位。
  • LC_MESSAGES
    用于控制程序输出时所使用的语言,主要是提示信息,错误信息,状态信息, 标题,标签, 按钮和菜单等。
  • LC_PAPER
    默认纸张尺寸大小
  • LC_NAME
    姓名书写方式
  • LC_ADDRESS
    地址书写方式
  • LC_TELEPHONE
    电话号码书写方式
  • LC_MEASUREMENT
    度量衡表达方式
  • LC_IDENTIFICATION
    locale对自身包含信息的概述
  • LC_ALL
    它不是环境变量,它是一个宏,可通过该变量的设置覆盖所有的 LC_* 变量。这个变量设置之后,可以废除 LC_* 的设置值,使得这些变量的设置值与 LC_ALL 的值一致,注意,LANG 变量不受影响。在这里,这个宏操作就是用 LC_ALL 的值去覆盖 LC_* 的变量值

从描述中可以看出,优先级级别:LC_ALL > LC_* > LANG

注意:定义这么多变量在某些情况下是很有用的,例如,当我需要一个能够输入中文的英文环境,我可以把 LC_CTYPE 设定成 zh_CN.GB18030,而其他所有的项都是 en_US.UTF-8。

如果我们要修改这个默认的变量,可以在自己的 ~/.bashrc 中进行 export,比如我加入了这两行:

export LANG=en_US.utf8
export LC_CTYPE=en_US.utf8

之后重新登录一下就可以正常显示 Unicode 字符了。

Ubuntu 18.04 配置 Online IPv6

Ubuntu 的 netplan.io 实在是太烂了

Online 的 IPv6,之前写过一篇,是通过 /etc/network/interfaces 文件中的 pre-up 字段运行 dhclient 宣告 DUID,然而在 Ubuntu 18.04 中,ifupdown 换成了 netplan.io,原来的方法就不能用了。此外,dhclient 在每次运行的时候会清空当前 iface 上的 IPv6 地址,这个也给 netplan 造成了麻烦。在折腾之后有了一种解决办法:

  • 在 netplan 配置文件中写入静态 IPv6 地址(同 /etc/network/interfaces)
  • 使用 systemd 运行 dhclient
  • 在运行 dhclient 之后再次执行 netplan apply

需要写入如下文件:

/etc/dhcp/dhclient6.conf

interface "<iface>" {
  send dhcp6.client-id <DUID>;
  request;
}

/etc/systemd/system/dhclient.service

[Unit]
Description=dhclient for sending DUID IPv6
Wants=network.target
Before=network.target

[Service]
Type=forking
ExecStart=/sbin/dhclient -cf /etc/dhcp/dhclient6.conf -6 -P -v <iface>

[Install]
WantedBy=multi-user.target

/etc/systemd/system/dhclient-netplan.service

[Unit]
Description=redo netplan apply after dhclient
Wants=dhclient.service
After=dhclient.service
Before=network.target

[Service]
Type=oneshot
ExecStart=/usr/sbin/netplan apply

[Install]
WantedBy=dhclient.service

该文件在 dhclient.service 改变状态之后执行,注意该 oneshot 不能使用 RemainAfterExit=True,不然在 restart dhclient 以后,不能再次执行 netplan apply。

/etc/netplan/01-netcfg.yaml

# This file describes the network interfaces available on your system
# For more information, see netplan(5).
network:
  version: 2
  renderer: networkd
  ethernets:
    <iface>:
      dhcp4: yes
      dhcp6: no
      accept-ra: yes
      addresses:
      - <IPv6>/56

即可。

参考资料:

https://documentation.online.net/en/dedicated-server/network/network-configuration-with-netplan
https://documentation.online.net/en/dedicated-server/network/ipv6/prefix
https://askubuntu.com/questions/1031853/how-to-set-up-ipv6-with-netplan-on-ubuntu-18-04?rq=1
https://lafibre.info/scaleway/configurer-une-ipv6-online-net-sur-ubuntu-18-04/
https://unix.stackexchange.com/questions/219940/getting-a-service-started-automatically-when-another-gets-started

Online Dedibox IPv6 配置

Ubuntu 18.04 配置 HE Tunnelbroker

关于 qb 有可能遇到 ICE default IO error handler doing an exit() 的问题

在一些性能比较弱的机器上,比如 N2800,运行 qb 时可能会报错 ICE default IO error handler doing an exit()。

说实话这是一个比较莫名其妙的错误,ICE 是一个 X client 之间通信的协议,可能是 Qt 在后台有什么操作吧。StackOverflow 上对于这个错误的解决方法是删除 ~/.ICEauthority 文件,然后就好了。我猜可能是 qb 启动如果卡太久 GUI 出不来的话会把这个文件搞坏,然后再启动的时候读取这个文件就炸了,删除这个文件以后 Qt 可能会报一个 warning,authentication failure 之类的,这个不影响运行,而且 qb 也不会炸了。

这个文件在每次启动桌面时会自动生成,因此已加入 qb 自动重启脚本中的错误检测豪华套餐。