ascp(新版v4) 下载原始数据,真的快!!!

ascp(新版v4) 下载原始数据,真的快!!!

原始数据下载工具速度测评

对于生物信息学研究人员来说,下载 NCBI 上的原始数据是经常要碰到的事情,目前也有许多方法可以下载原始数据,例如:

  • NCBI官方的 SRA Toolkit 进行下载
  • wget, curl 命令直接下载
  • aspera 工具下载
  • grabseqs 工具下载
  • Kingfisher 工具下载
  • 导出链接用 IDM 工具下载

但 aspera 下载是最快,而且还不需要转换,实测如下:

  • IDM

    20250402_l5iXPX

  • Kingfisher20250402_tq7yyp

  • aspera

    20250402_Rpkxqz

但目前 ascp 更新到了 v4 版本,安装和使用规则都发生了很大的变化……

1
2
3
4
5
6
7
8
9
conda search aspera-cli

Loading channels: done
# Name Version Build Channel
aspera-cli 4.14.0 hdfd78af_1 anaconda/cloud/bioconda
aspera-cli 4.14.0 he0b3917_0 anaconda/cloud/bioconda
aspera-cli 4.14.0 hfafdfc2_0 anaconda/cloud/bioconda
aspera-cli 4.19.0 hdfd78af_0 anaconda/cloud/bioconda
aspera-cli 4.20.0 hdfd78af_0 anaconda/cloud/bioconda

安装新版ascp

1. 利用 conda 安装 aspera-cli

1
conda install -y aspera-cli=4.20.0

2. 设置环境变量

1
2
3
4
5
6
# 先寻找路径
which ascli
# /path/to/your/bin/ascli

# 将以上路径添加到~/.bashrc或~/.zshrc文件中
export PATH=$PATH:/path/to/your/bin

3. 安装 ascp

新版 ascp 安装比较麻烦:

1
2
3
4
5
6
7
8
9
10
11
12
# 需要先下载sdk(https://ibm.biz/sdk_location)
wget https://production-transfer-sdk.s3.us-west-2.amazonaws.com/1.1.2/linux-amd64-1.1.2-753f662.tar.gz
tar -zxvf linux-amd64-1.1.2-753f662.tar.gz

# 安装 ascp,注意:命令需在与linux-amd64-1.1.2-753f662.tar.gz文件同级目录下运行
ascli config ascp install --sdk-url=file:///linux-amd64-1.1.2-753f662.tar.gz

# 寻找 ascp 路径
ascli config ascp show
# /path/to/your/ascp

# 如果是mac,需要下载 macos-arm64-1.1.2-753f662.zip 或者 macos-amd64-1.1.2-753f662.zip,其他步骤一致

4. 寻找密钥

1
2
3
4
5
6
7
8
9
10
# 找到秘钥,主要使用pem
find $HOME -name aspera_bypass_dsa.pem

# 注意如果没有,也可以使用旧版本 asperaweb_id_dsa.openssh ,以下只在mac上测试是可行的
# mac上使用本地安装了 osx-64/aspera-cli-3.9.6-hbec0bfc_0.tar.bz2
find /youpath -name 'asperaweb_id_dsa.openssh'
# 一般在:/path/to/your/envs/<conda 环境名称>/pkgs/aspera-cli-3.9.6-hbec0bfc_0/etc/asperaweb_id_dsa.openssh



下载SRA数据

基本命令格式

1
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra instant/reads/ByRun/sra/SRR/SRR123/SRR1234567/SRR1234567.sra .

参数说明:

  • -QT:禁用加密提高性能
  • -l 300m:限制最大传输速度为300MB/s
  • -P33001:指定端口号
  • -i:指定密钥文件

举例

  1. 可以使用 EBI 下载数据,需要在 Show Column Selection 先钩选
    20250402_qZoDMF

  2. 然后复制 Aspera 连接,利用 aspc 命令下载
    20250402_TrAQ5E

常见问题及解决

  1. 问题:出现”Permission denied”错误
    解决:检查密钥文件路径是否正确,权限是否合适(chmod 600)

  2. 问题:速度不如预期
    解决:调整-l参数值,以适应您的网络带宽

  3. 问题:连接频繁断开
    解决:添加-k2参数,增强连接稳定性