Week 1生物信息学导论与序列操作基础
### 🧬 核心知识点:高通量数据与序列 介绍生物信息学面临的大数据挑战。学习 DNA/RNA 序列的基础比较和相似度计算方法。 - **核心概念/公式**: DNA Sequencing, High-throughput Data, Sequence Comparison. ⏰ **本周节奏**: 难度 ⭐⭐ | 预计投入 10h 🎯 **考试关联**: 简述生物大数据的基本特征与序列比较的朴素算法。 🧪 **Tutorial/Lab**: 熟悉 Python 生物信息学库基础。 📌 **作业关联**: 建立基础的数据处理认知。 ⚠️ **易错点**: 忽视基因序列中巨大的数据冗余与计算复杂度。 (数据来源:2026 Course Handbook)
Week 2序列比对算法 (Sequence Alignment)
### 🔀 核心知识点:全局与局部比对 深入学习基于动态规划的序列比对算法。掌握 Needleman-Wunsch(全局)和 Smith-Waterman(局部)算法。 - **核心概念/公式**: Global/Local Alignment, Dynamic Programming, Substitution Matrices (BLOSUM). ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐ | 预计投入 14h 🎯 **考试关联**: 手绘动态规划矩阵并回溯找出最优比对路径。 🧪 **Tutorial/Lab**: 用 Python 实现 Smith-Waterman 算法。 📌 **作业关联**: Project 1 的核心算法基础。 ⚠️ **易错点**: 矩阵初始化时对 Gap Penalty(空位罚分)的处理逻辑错误。 (数据来源:2026 Course Handbook)
Week 3多序列比对与启发式搜索 (Heuristic Search)
### 🔍 核心知识点:BLAST 算法解析 由于动态规划计算成本过高,学习使用启发式搜索(如 BLAST)在海量数据库中快速定位相似序列。 - **核心概念/公式**: Multiple Sequence Alignment (MSA), Heuristic Search, BLAST, E-value. ⏰ **本周节奏**: 难度 ⭐⭐⭐ | 预计投入 12h 🎯 **考试关联**: 解释 BLAST 中 Seed word 匹配和扩展机制的工作原理。 🧪 **Tutorial/Lab**: 运行 BLAST 查询并解析结果中的 E-value 统计意义。 📌 **作业关联**: Project 1 中可能涉及的大规模序列检索优化。 ⚠️ **易错点**: 误以为启发式搜索总能找到数学上的绝对最优解。 (数据来源:2026 Course Handbook)
Week 4高级序列索引数据结构 (Sequence Indexing)
### 🌳 核心知识点:后缀树与后缀数组 为了极速检索全基因组,学习高级数据结构:Suffix Trees, Suffix Arrays 以及 BWT。 - **核心概念/公式**: Suffix Tree, Suffix Array, Burrows-Wheeler Transform (BWT), FM-index. ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐ | 预计投入 15h 🎯 **考试关联**: 根据给定短字符串构建后缀数组和 BWT 转换序列。 🧪 **Tutorial/Lab**: 实现基于后缀数组的极速子串查找。 📌 **作业关联**: **Project 1 发布**,构建高效的基因组序列索引。 ⚠️ **易错点**: 构建后缀树时空间复杂度爆炸导致内存溢出。 (数据来源:2026 Course Handbook)
Week 5图数据结构与基因组组装 (Genome Assembly)
### 🕸️ 核心知识点:De Bruijn 图 探讨如何将数以百万计的短序列读取(Reads)拼接成完整的基因组。重点学习欧拉路径与 De Bruijn Graph。 - **核心概念/公式**: De Bruijn Graphs, Eulerian Path, Overlap-Layout-Consensus (OLC). ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐⭐ | 预计投入 16h 🎯 **考试关联**: 从一组 K-mers 构建 De Bruijn 图并寻找欧拉回路。 🧪 **Tutorial/Lab**: 编写算法组装一段模拟的短片段序列。 📌 **作业关联**: 图论算法在生物数据中的实际应用。 ⚠️ **易错点**: 混淆了寻找哈密顿路径(NP-Hard)与寻找欧拉路径(多项式时间)的难度差异。 (数据来源:2026 Course Handbook)
Week 6系统发育学与进化树 (Phylogenetics)
### 🌿 核心知识点:进化距离与建树算法 学习如何根据基因差异推导物种的进化关系。掌握 UPGMA、Neighbor-Joining 和最大简约法 (Parsimony)。 - **核心概念/公式**: Evolutionary Distance, UPGMA, Neighbor-Joining, Maximum Parsimony. ⏰ **本周节奏**: 难度 ⭐⭐⭐ | 预计投入 12h 🎯 **考试关联**: 给定距离矩阵,手动执行 UPGMA 聚类步骤并画出系统发育树。 🧪 **Tutorial/Lab**: 使用 Python 库构建并可视化多物种进化树。 📌 **作业关联**: **Project 1 截止**。 🔥 ⚠️ **易错点**: 在距离矩阵更新时计算节点距离权重出错。 (数据来源:2026 Course Handbook)
Week 7生物网络分析 (Network Analysis)
### 🔗 核心知识点:蛋白质交互网络 研究生物网络(如 PPI, 基因调控网络)的拓扑属性。分析度分布、聚类系数与网络基序 (Motifs)。 - **核心概念/公式**: Protein-Protein Interaction (PPI), Degree Distribution, Network Motifs, Hubs. ⏰ **本周节奏**: 难度 ⭐⭐⭐ | 预计投入 12h 🎯 **考试关联**: 识别网络中的关键 Hub 节点及其生物学意义。 🧪 **Tutorial/Lab**: 运用图计算库分析真实 PPI 网络的连通性。 📌 **作业关联**: 为 Project 2 的复杂数据分析预热。 ⚠️ **易错点**: 孤立地看待节点,忽视了网络基序的系统性功能。 (数据来源:2026 Course Handbook)
Week 8机器学习在生物信息学中的应用 (Machine Learning I)
### 🤖 核心知识点:监督学习与分类 探讨传统机器学习算法(如 SVM, 随机森林)在疾病预测、基因功能分类中的应用。 - **核心概念/公式**: Supervised Learning, Feature Extraction (k-mer frequencies), Classification Metrics. ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐ | 预计投入 14h 🎯 **考试关联**: 评估分类器在极度不平衡医学数据集中的表现(Recall vs Precision)。 🧪 **Tutorial/Lab**: 训练一个 SVM 模型分类致病与非致病基因突变。 📌 **作业关联**: **Project 2 发布**,综合运用 ML 解决真实生物学问题。 ⚠️ **易错点**: 特征提取阶段引入数据泄露(Data Leakage)。 (数据来源:2026 Course Handbook)
Week 9无监督学习与降维 (Machine Learning II)
### 📉 核心知识点:聚类与 PCA 处理海量无标签的转录组数据(如单细胞 RNA-seq)。学习 K-means 聚类与主成分分析 (PCA)。 - **核心概念/公式**: Unsupervised Learning, PCA, t-SNE/UMAP, Hierarchical Clustering. ⏰ **本周节奏**: 难度 ⭐⭐⭐ | 预计投入 12h 🎯 **考试关联**: 解释 PCA 降维在消除组学数据噪声中的数学原理。 🧪 **Tutorial/Lab**: 对高维基因表达矩阵进行降维并可视化为 2D 散点图。 📌 **作业关联**: Project 2 数据预处理与探索性分析。 ⚠️ **易错点**: 在运行 t-SNE 时过度解读簇与簇之间的全局距离。 (数据来源:2026 Course Handbook)
Week 10计算复杂性与算法优化 (Complexity & Optimisation)
### ⏱️ 核心知识点:NP 难问题与近似算法 生物信息学中充满了 NP-Hard 问题(如多序列比对)。探讨如何通过贪心算法或近似策略缓解算力瓶颈。 - **核心概念/公式**: Big-O Notation, NP-Hardness, Approximation Algorithms, Greedy Strategies. ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐ | 预计投入 14h 🎯 **考试关联**: 分析特定生物学算法的时间与空间复杂度。 🧪 **Tutorial/Lab**: 对比精确算法与近似算法在运行时间和结果精度上的差距。 📌 **作业关联**: 优化 Project 2 模型的运行效率。 ⚠️ **易错点**: 误以为多项式时间的算法在面对 TB 级数据时依然适用。 (数据来源:2026 Course Handbook)
Week 11前沿应用与综合案例 (Advanced Topics)
### 🧬 核心知识点:单细胞测序与宏基因组 介绍计算基因组学的最前沿挑战,包括单细胞分析(Single-cell RNA-seq)与宏基因组(Metagenomics)微生物群落分析。 - **核心概念/公式**: Single-cell Transcriptomics, Metagenomics, Taxonomic Profiling. ⏰ **本周节奏**: 难度 ⭐⭐⭐ | 预计投入 12h 🎯 **考试关联**: 结合具体前沿应用场景设计算法流程(Workflow)。 🧪 **Tutorial/Lab**: 探索前沿论文中的开源代码实现。 📌 **作业关联**: **Project 2 截止**。 🔥 提交完整的生物数据分析流水线及报告。 ⚠️ **易错点**: 忽视了单细胞数据极度稀疏(Drop-out)带来的计算干扰。 (数据来源:2026 Course Handbook)
Week 12期末复习与全景回顾 (Review)
### 📝 复习周:算法与数据的结合 系统回顾从序列比对到基因组组装、从进化树到机器学习预测的全栈知识体系。 - **核心概念/公式**: Algorithm Selection, Data Structures Re-cap, Exam Strategy. ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐ | 预计投入 20h 🎯 **考试关联**: 综合设计大题:给定一个全新的生物学难题,选择最适合的数据结构与算法策略并论述原因。 🧪 **Tutorial/Lab**: 历年考题解析。 📌 **作业关联**: 无 ⚠️ **易错点**: 死记硬背算法细节,而缺乏在真实场景下的工具“选型”思维。 (数据来源:2026 Course Handbook)