Bedtools作为基因组研究的 “ 瑞士军刀 ”, 功能强大且易于操作,是生信行业不可多得的好软件。通常对bed区间的注释,我们使用其中“ 求交集 ”的功能(bedtools intersect) ,但是有一个很不方便的地方,我们通常要生成对应的bed文件,再注释完成后还需要用R语言等读入才能继续分析,所以整合度不是很好,本文希望提供R语言的思路来解决该问题。
Bedtools作为基因组研究的 “ 瑞士军刀 ”, 功能强大且易于操作,是生信行业不可多得的好软件。通常对bed区间的注释,我们使用其中“ 求交集 ”的功能(bedtools intersect) ,但是有一个很不方便的地方,我们通常要生成对应的bed文件,再注释完成后还需要用R语言等读入才能继续分析,所以整合度不是很好,本文希望提供R语言的思路来解决该问题。
在生物信息学中经常用到的脚本语言主要是python
和perl
,他们被用来处理文本,大量统计,流程控制等等,其自身也是各有优势。比如说perl
天生就为了处理文本而生,但是python
确是有名的胶水语言,特别在整合C
代码时显示出巨大的优势,其语法简洁易懂,易于维护更让其成为仅次于C
和JAVA
的第三大语言,但其糟糕的性能在处理大量循环时会让人忍不住抓狂。因此,Julia
语言应运而生,其控制了python
中没必要的动态性,加之使用JIT技术让其能够保有高性能的同时具备简洁的语法。
NART
设计用于基于图谱的纳米孔扩增子(实时)分析,例如 16S rRNA 基因。NART
由NART
(Nanopore Amplicon Real-Time entry)和 NAWF
(Nanopore Amplicon snakemake
WorkFlow entry)组成。通过基于映射的策略提供从基础调用读取到最终计数矩阵的(实时)端到端解决方案。
LACA
是用于长扩增子一致性分析(例如 16S rRNA 基因扩增子分析)的可重复且可扩展的工作流程。它使用用snakemake
管理工作流程以及conda来
管理环境。
在此工作流程中,介绍了 Qiime2 和 R 中 16S rRNA 基因扩增子数据分析的主要步骤。本教程是为哥本哈根大学食品科学系的 MAC 2023 课程准备的。尽管这些步骤是为 Oxford Nanopore Tech (ONT) 测序设计的,但也在 Ilumina 短读长上进行了测试。
上一篇文章我们写了一个Streamlit的程序来全栈的执行我们的任务,但是我们也看到了它的一个缺点:前端界面非异步,UI定制缺乏灵活性。那么,我们接下来尝试采用前后端分离的方式来完成上次的任务。
1 / 4