DeepSeek助力快速生成DNBC4tools所需样本对应信息

圆圆 0 2025-07-02 11:30:10

工欲善其事必先利器

前面我们介绍了华大DNBelab C SeriesTM单细胞调整组定量的基本流程：DNBC4tools—华大DNBelab系列单细胞分析流水线明确需求

其中在准备样本数据步骤有提到，多样本处理首先需要制作一个自己的样本信息回复列表sample.tsv：第一列是样本名称第二列是cDNA文库指定数据，多个fastq文件以分隔符分隔，R1 和 R2 文件以分号分隔。第三列是取消标记文库失踪数据。多个 fastq 文件以分隔符分隔，R1 和 R2 文件以分号分隔。

比如我处理的样本文件名是：图片

需要的sample.tsv 文件格式是：生成代码：javascript代码运行次数：0运行复制$sample1 /data/cDNA1_R1.fq.gz；/data/cDNA1_R2.fq.gz /data/oligo1_R1.fq.gz，/data/oligo4_R1.fq.gz；/data/oligo1_R2.fq.gz，/data/oligo4_R2.fq.gz $sample2 /data/cDNA2_R1.fq.gz；/data/cDNA2_R2.fq.gz /data/oligo2_R1.fq.gz；/data/oligo2_R2.fq.gz $sample3 /data/cDNA3_R1.fq.gz；/data/cDNA3_R2.fq.gz /data/oligo3_R1.fq.gz；/data/oligo3_R2.fq.gz登录后复制

我们现在需要根据样本文件名规律来生成样本文件的对应信息。手写是不可能手写的，容易出错不说，还不能重复。这里通常需要我们来编程批量进行文本处理。DeepSeek能力

初步观察这个需求实现起来还是挺复杂的，以前往往需要花费一定的时间来进行代码实现。现在AI盛行，这个时候我们就可以使用DeepSeek来快速生成我们需要的代码。

相当于下面的代码：代码语言：javascript代码运行次数：0运行复制ls *.gz | awk -F_ 'BEGIN {OFS=quot；\tquot；} { 样本 = $1； lib = $2； split($3， temp， quot；.quot；)；方向 = temp[1]； all_samples[sample] = 1； if (lib ~ /^L[0-9] /) { lib_num = substr(lib， 2) 0； # 提取L后面的数字 # 记录文库顺序 if (!(sample SUBSEP lib_num in lib_seen)) { libs_order[sample] = libs_order[sample] ? libs_order[sample] quot； quot； lib_num ： lib_num； lib_seen[sample， lib_num] = 1； } # 存储文件路径 if (direction == quot；f1quot；) { f1_files[sample， lib_num] = $0； } else if (direction == quot；r2quot；) { r2_files[sample， lib_num] = $0； } } else if (lib == quot；oligoquot；) { if (direction == quot；f1quot；) { oligo_f1[sample] = $0； } else if (direction == quot；r2quot；) { oligo_r2[sample] = $0； } }}END { for (sample in all_samples) { # 处理L00数据 l00_f1 = quot；quot；； l00_r2 = quot；quot；； if (sample in libs_order) { split(libs_order[sample]， lib_nums， quot； quot；)； n = length(lib_nums)； # 冒号确保排序文库顺序 for (i=1；ilt；=n；i) { for (j=1；jlt；=n-i；j ) { if (lib_nums[j 1] lt；lib_nums[j]) { tmp = lib_nums[j]；

lib_nums[j] = lib_nums[j 1]； lib_nums[j 1] = tmp； } } } } } } } } } nums[j] = lib_nums[j 1]； # 构建f1和r2列表 for (i=1； ilt；=n； i ) { num = lib_nums[i]； if ((sample， num) in f1_files) { l00_f1 = l00_f1 ? l00_f1 quot；，quot； f1_files[sample， num] ： f1_files[sample， num]； } if ((sample， num) in r2_files) { l00_r2 = l00_r2 ? l00_r2 quot；，quot； r2_files[sample， num] ： r2_files[sample， num]； } } } # mkL00字段 l00_combined = l00_f1 quot；；quot； l00_r2； # 处理Oligo数据 oligo_data = quot；quot；； if (oligo_f1[sample] amp；amp；oligo_r2[sample]) { oligo_data =oligo_f1[sample] quot；；quot； oligo_r2[样本]； } 打印样本，l00_combined，oligo_data； }}' gt； Sample2.tsv登录后复制

快速获取我们需要的样本信息文件sample2.tsv：（检查文件信息）代码语言：javascript代码运行次数：0运行复制$cat Sample2.tsv D10 D10_L001_f1.fq.gz，D10_L002_f1.fq.gz；D10_L001_r2.fq.gz，D10_L002_r2.fq.gz D10_oligo_f1.fq.gz；D10_oligo_r2.fq.gzD15 D15_L001_f1.fq.gz，D15_L002_f1.fq.gz；D15_L001_r2.fq.gz，D15_L002_r2.fq.gz D15_oligo_f1.fq.gz；D15_oligo_r2.fq.gzD5-2 D5-2_L001_f1.fq.gz，D5-2_L002_f1.fq.gz；D5-2_L001_r2.fq.gz，D5-2_L002_r2.fq.gz D5-2_oligo_f1.fq.gz；D5-2_oligo_r2.fq.gzD2-

1 D2-1_L001_f1.fq.gz，D2-1_L002_f1.fq.gz；D2-1_L001_r2.fq.gz，D2-1_L002_r2.fq.gz D2-1_oligo_f1.fq.gz；D2-1_oligo_r2.fq.gzD8-2 D8-2_L001_f1.fq.gz，D8-2_L002_f1.fq.gz；D8-2_L001_r2.fq.gz，D8-2_L002_r2.fq.gz D8-2_oligo_f1.fq.gz；D8-2_oligo_r2.fq.gzD5-1 D5-1_L001_f1.fq.gz，D5-1_L002_f1.fq.gz；D5-1_L001_r2.fq.gz，D5-1_L002_r2.fq.gz D5-1_oligo_f1.fq.gz；D5-1_oligo_r2.fq.gzD2-2 D2-2_L001_f1.fq.gz，D2-2_L002_f1.fq.gz；D2-2_L001_r2.fq.gz，D2-2_L002_r2.fq.gz D2-2_oligo_f1.fq.gz；D2-2_oligo_r2.fq.gzD12 D12_L001_f1.fq.gz；D12_L001_r2.fq.gz D12_oligo_f1.fq.gz；D12_oligo_r2.fq.gzD8-1 D8-1_L001_f1.fq.gz，D8-1_L002_f1.fq.gz；D8-1_L001_r2.fq.gz，D8-1_L002_r2.fq.gz D8-1_oligo_f1.fq.gz；D8-1_oligo_r2.fq.gz登录后复制

然后就是批量生成运行脚本代码语言：javascript代码运行次数：0运行复制dnbc4tools rna multi --list sample2.tsv --genomeDir 〜/参考/人类/homo_ensembl_112_dnbc4_index --线程10登录后复制示例

示例

至此，后面提交批量运行任务即可。参见：DNBC4tools—华大DNBelab系列单细胞分析流水线玩转服务器—从前台到后台，让你的任务无忧运行

以上就是DeepSeek根据快速生成DNBC4tools所需样本信息的详细，内容更多请关注乐哥常识网其他相关！

标签：DeepSeek助力

DeepSeek助力快速生成DNBC4tools所需样本对应信息

DeepSeek助力快速生成DNBC4tools所需样本对应信息

精品视频一区与二区：揭秘内容生态的差异化布局与趋势

北京上品折扣店怎么样（北京的上品折扣店地址）