ascp(新版v4) 下载原始数据,真的快!!!
ascp(新版v4) 下载原始数据,真的快!!!
原始数据下载工具速度测评
对于生物信息学研究人员来说,下载 NCBI 上的原始数据是经常要碰到的事情,目前也有许多方法可以下载原始数据,例如:
- NCBI官方的 SRA Toolkit 进行下载
- wget, curl 命令直接下载
- aspera 工具下载
- grabseqs 工具下载
- Kingfisher 工具下载
- 导出链接用 IDM 工具下载
但 aspera 下载是最快,而且还不需要转换,实测如下:
IDM
Kingfisher
aspera
但目前 ascp 更新到了 v4 版本,安装和使用规则都发生了很大的变化……
1 | conda search aspera-cli |
安装新版ascp
1. 利用 conda 安装 aspera-cli
1 | conda install -y aspera-cli=4.20.0 |
2. 设置环境变量
1 | # 先寻找路径 |
3. 安装 ascp
新版 ascp 安装比较麻烦:
1 | # 需要先下载sdk(https://ibm.biz/sdk_location) |
4. 寻找密钥
1 | 找到秘钥,主要使用pem |
下载SRA数据
基本命令格式
1 | ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra instant/reads/ByRun/sra/SRR/SRR123/SRR1234567/SRR1234567.sra . |
参数说明:
-QT
:禁用加密提高性能-l 300m
:限制最大传输速度为300MB/s-P33001
:指定端口号-i
:指定密钥文件
举例
可以使用 EBI 下载数据,需要在 Show Column Selection 先钩选
然后复制 Aspera 连接,利用 aspc 命令下载
常见问题及解决
问题:出现”Permission denied”错误
解决:检查密钥文件路径是否正确,权限是否合适(chmod 600)问题:速度不如预期
解决:调整-l参数值,以适应您的网络带宽问题:连接频繁断开
解决:添加-k2参数,增强连接稳定性