Week 1Introduction to Data Science Lifecycle
### 📊 核心知识点:数据科学生命周期 本周介绍数据科学的整体框架和工作流程。课程采用 scenario-based 教学,每周围绕真实数据场景展开。前置要求:Python 编程(CSSE1001)和数据库基础(INFS1200)。 - **核心概念**: Data Science lifecycle (问题定义 → 数据收集 → 数据清洗 → EDA → 建模 → 评估 → 部署), CRISP-DM framework, types of data science problems (classification, regression, clustering) ⏰ **本周节奏**: 难度 ⭐⭐ | 预计投入 6h(Lecture 1h + Practical 2h + 自学 3h) 🎯 **考试关联**: Mid-semester exam 会考数据科学生命周期的各阶段及其作用 🧪 **Practical**: Python 环境搭建(Jupyter Notebook),熟悉 pandas/numpy 基础操作 📌 **作业关联**: 后续 practical assignments 都基于完整 lifecycle 展开 ⚠️ **易错点**: 数据科学 ≠ 机器学习;数据清洗和 EDA 往往占项目 80% 时间,不要跳过 (数据来源:2025 Course Profile + UQ Handbook)
Data Scie
💡 学习提示
• 请详细解释 COMP2011 中 "Introduction to Data Science Lifecycle" 的核心概念
• Introduction to Data Science Lifecycle 的常见考题有哪些?如何准备?
• Introduction to Data Science Lifecycle 在实际工作中有哪些应用场景?
Week 2Data Types, Collection & Storage
### 📊 核心知识点:数据类型与数据收集 本周学习不同类型数据的特征和收集方法。理解 structured vs unstructured data 的区别是数据科学的基础。 - **核心概念**: Data types (numerical, categorical, ordinal, text, time-series), structured vs unstructured data, data collection methods (APIs, web scraping, surveys, databases), CSV/JSON/Parquet formats, pandas.read_csv() ⏰ **本周节奏**: 难度 ⭐⭐ | 预计投入 7h(Lecture 1h + Practical 2h + 自学 2h + 编程练习 2h) 🎯 **考试关联**: 数据类型的识别和选择合适的处理方法是 mid-sem 常考题 🧪 **Practical**: 使用 pandas 加载不同格式数据集,练习 DataFrame 基本操作(head, info, describe, shape) 📌 **作业关联**: Practical Assignment 1 通常涉及数据加载和初步探索 ⚠️ **易错点**: 数值型 ID(如邮编)不应当作数值处理;categorical 编码方式(label vs one-hot)影响后续建模 (数据来源:2025 Course Profile + UQ Handbook)
Data types (
💡 学习提示
• 请详细解释 COMP2011 中 "Data Types, Collection & Storage" 的核心概念
• Data Types, Collection & Storage 的常见考题有哪些?如何准备?
• Data Types, Collection & Storage 在实际工作中有哪些应用场景?
Week 3Data Wrangling with Pandas
### 🔧 核心知识点:数据清洗与整理 本周深入 pandas 进行数据清洗(Data Wrangling)。真实数据总是脏的 — 缺失值、异常值、格式不一致是常态。 - **核心概念**: Missing values (NaN, dropna, fillna, imputation strategies), outlier detection (IQR, Z-score), data type conversion (astype), string operations, merge/join, groupby aggregation ⏰ **本周节奏**: 难度 ⭐⭐⭐ | 预计投入 8h(Lecture 1h + Practical 2h + 自学 3h + 编程练习 2h) 🎯 **考试关联**: 缺失值处理策略的选择和 groupby 操作是 mid-sem 高频考点 🧪 **Practical**: 对真实脏数据集进行完整清洗流程:识别缺失值 → 选择策略 → 处理异常值 → 格式统一 📌 **作业关联**: 每个 practical assignment 都需要数据清洗步骤,本周是核心技能 ⚠️ **易错点**: dropna() 可能删除过多数据导致样本偏差;fillna(mean) 对 skewed 数据不适用,应考虑 median (数据来源:2025 Course Profile + UQ Handbook)
Missi
💡 学习提示
• 请详细解释 COMP2011 中 "Data Wrangling with Pandas" 的核心概念
• Data Wrangling with Pandas 的常见考题有哪些?如何准备?
• Data Wrangling with Pandas 在实际工作中有哪些应用场景?
Week 4Exploratory Data Analysis (EDA)
### 📊 核心知识点:探索性数据分析 EDA 是数据科学中最关键的步骤之一 — 在建模前必须先理解数据的分布、关系和模式。 - **核心概念**: Descriptive statistics (mean, median, mode, std, percentiles), correlation analysis (Pearson, Spearman), distribution analysis, pandas .describe() / .corr(), feature relationships, hypothesis generation ⏰ **本周节奏**: 难度 ⭐⭐⭐ | 预计投入 8h(Lecture 1h + Practical 2h + 自学 3h + 分析报告 2h) 🎯 **考试关联**: 描述性统计量的解读和 correlation 分析是 mid-sem 必考内容 🧪 **Practical**: 对给定 scenario 数据集完成完整 EDA:统计摘要 → 相关性分析 → 发现 patterns → 生成假设 📌 **作业关联**: Practical Assignment 通常要求提交完整的 EDA 报告 ⚠️ **易错点**: Correlation ≠ Causation(相关不等于因果);只看 mean 不看 distribution 容易误判 (数据来源:2025 Course Profile + UQ Handbook)
Descriptive statistics (mea
💡 学习提示
• 请详细解释 COMP2011 中 "Exploratory Data Analysis (EDA)" 的核心概念
• Exploratory Data Analysis (EDA) 的常见考题有哪些?如何准备?
• Exploratory Data Analysis (EDA) 在实际工作中有哪些应用场景?
Week 5Data Visualization
### 📈 核心知识点:数据可视化 本周学习用图表讲故事。好的可视化能让复杂数据一目了然,差的可视化则会误导决策。 - **核心概念**: matplotlib.pyplot, seaborn, chart types (bar, line, scatter, histogram, box plot, heatmap), choosing the right chart, color theory basics, labels/titles/legends, avoiding misleading visualizations ⏰ **本周节奏**: 难度 ⭐⭐ | 预计投入 7h(Lecture 1h + Practical 2h + 自学 2h + 可视化练习 2h) 🎯 **考试关联**: 给定数据场景选择合适的图表类型是常考题;解读图表发现问题也会考 🧪 **Practical**: 用 matplotlib + seaborn 为 EDA 结果创建 5+ 种可视化,练习 subplot 布局 📌 **作业关联**: 所有 practical assignment 都需要高质量可视化来支持分析结论 ⚠️ **易错点**: 饼图不适合多类别比较;scatter plot 无 label 的话无法区分维度;truncated y-axis 会夸大变化 (数据来源:2025 Course Profile + UQ Handbook)
matplotlib.pyplotseabor
💡 学习提示
• 请详细解释 COMP2011 中 "Data Visualization" 的核心概念
• Data Visualization 的常见考题有哪些?如何准备?
• Data Visualization 在实际工作中有哪些应用场景?
Week 6Statistical Foundations for Data Science
### 📐 核心知识点:数据科学的统计学基础 本周建立统计推断的基础,为后续机器学习做铺垫。重点是理解 probability, distributions 和 hypothesis testing。 - **核心概念**: Probability basics, normal distribution, Central Limit Theorem, confidence intervals, hypothesis testing (p-value, significance level α), t-test, chi-square test, scipy.stats ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐ | 预计投入 9h(Lecture 1h + Practical 2h + 自学 4h + 练习 2h)🔥 难度跳升 🎯 **考试关联**: Mid-semester exam 高频考点 — hypothesis testing 的步骤和 p-value 解读 🧪 **Practical**: 用 scipy.stats 完成 hypothesis testing:选择检验方法 → 计算统计量 → 解读 p-value → 得出结论 📌 **作业关联**: Practical Assignment 中可能要求对分析结论进行统计检验 ⚠️ **易错点**: p-value < 0.05 不代表 "证明了",只是 "有足够证据拒绝 H0";样本量太小时 t-test 结果不可靠 (数据来源:2025 Course Profile + UQ Handbook)
Probability basics
💡 学习提示
• 请详细解释 COMP2011 中 "Statistical Foundations for Data Science" 的核心概念
• Statistical Foundations for Data Science 的常见考题有哪些?如何准备?
• Statistical Foundations for Data Science 在实际工作中有哪些应用场景?
Week 7Introduction to Machine Learning
### 🤖 核心知识点:机器学习入门 本周开始机器学习模块。介绍 ML 的基本概念、分类体系和 scikit-learn 工具链。 - **核心概念**: Supervised vs Unsupervised vs Reinforcement Learning, training/validation/test split, overfitting vs underfitting, bias-variance tradeoff, scikit-learn pipeline (fit/predict/score), cross-validation ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐ | 预计投入 9h(Lecture 1h + Practical 2h + 自学 4h + Mid-sem 复习 2h)🔥 Mid-sem 备考 🎯 **考试关联**: Mid-semester exam 通常在 Week 7-8,覆盖 Week 1-6 内容。ML 基础概念也会考 🧪 **Practical**: 用 scikit-learn 完成第一个 ML pipeline:数据加载 → train/test split → 训练模型 → 评估 📌 **作业关联**: 后续 practical assignment 需要完整 ML pipeline ⚠️ **易错点**: 用 test set 调参 = data leakage;train/test split 前要确保 shuffle 且不含 target leakage (数据来源:2025 Course Profile + UQ Handbook)
Supervised vs U
💡 学习提示
• 请详细解释 COMP2011 中 "Introduction to Machine Learning" 的核心概念
• Introduction to Machine Learning 的常见考题有哪些?如何准备?
• Introduction to Machine Learning 在实际工作中有哪些应用场景?
Week 8Supervised Learning: Classification
### 🎯 核心知识点:监督学习 — 分类 本周深入分类算法。分类是数据科学中最常见的任务(垃圾邮件检测、疾病诊断、客户流失预测等)。 - **核心概念**: Decision Trees (ID3/C4.5/CART), k-Nearest Neighbors (KNN), Logistic Regression, confusion matrix, accuracy/precision/recall/F1-score, ROC curve, AUC ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐ | 预计投入 9h(Lecture 1h + Practical 2h + 自学 4h + 编程实验 2h) 🎯 **考试关联**: 混淆矩阵的计算和指标解读是必考;Decision Tree 的构建过程可能出手动题 🧪 **Practical**: 用 scenario 数据训练 Decision Tree 和 KNN 分类器,比较性能,绘制 confusion matrix 📌 **作业关联**: Practical Assignment 中的分类任务通常需要比较多个模型 ⚠️ **易错点**: Accuracy 在不平衡数据上会误导(99% negative → 99% accuracy 但无法识别 positive);KNN 对特征尺度敏感,必须先 StandardScaler (数据来源:2025 Course Profile + UQ Handbook)
Decisio
💡 学习提示
• 请详细解释 COMP2011 中 "Supervised Learning: Classification" 的核心概念
• Supervised Learning: Classification 的常见考题有哪些?如何准备?
• Supervised Learning: Classification 在实际工作中有哪些应用场景?
Week 9Supervised Learning: Regression
### 📈 核心知识点:监督学习 — 回归 本周学习回归分析,用于预测连续值(房价预测、销售预测等)。从 Linear Regression 开始,理解模型拟合的数学原理。 - **核心概念**: Linear Regression (OLS, coefficients, R² score), polynomial regression, regularization (Ridge/Lasso 概念), feature scaling, MSE / RMSE / MAE evaluation metrics ⏰ **本周节奏**: 难度 ⭐⭐⭐ | 预计投入 8h(Lecture 1h + Practical 2h + 自学 3h + 编程练习 2h) 🎯 **考试关联**: Linear Regression 的 R² 解读和残差分析是常考内容 🧪 **Practical**: 用 scikit-learn 训练 Linear Regression 模型,分析 coefficients 含义,绘制残差图 📌 **作业关联**: Practical Assignment 可能包含回归预测场景 ⚠️ **易错点**: R² = 0.9 不代表模型好(可能 overfit);多重共线性(multicollinearity)会导致 coefficient 不稳定 (数据来源:2025 Course Profile + UQ Handbook)
Li
💡 学习提示
• 请详细解释 COMP2011 中 "Supervised Learning: Regression" 的核心概念
• Supervised Learning: Regression 的常见考题有哪些?如何准备?
• Supervised Learning: Regression 在实际工作中有哪些应用场景?
Week 10Unsupervised Learning: Clustering
### 🔍 核心知识点:无监督学习 — 聚类 本周从有监督转向无监督学习。聚类用于发现数据中的自然分组(客户分群、文档分类、异常检测等)。 - **核心概念**: K-Means (algorithm steps, elbow method, silhouette score), Hierarchical Clustering (dendrogram), DBSCAN (density-based, handles noise), dimensionality reduction (PCA 概念) ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐ | 预计投入 9h(Lecture 1h + Practical 2h + 自学 4h + Assignment 2h) 🎯 **考试关联**: K-Means 的算法步骤和 K 值选择方法(elbow method)是常考内容 🧪 **Practical**: 用 K-Means 和 DBSCAN 对客户数据聚类,用 silhouette score 评估,用 PCA 可视化 📌 **作业关联**: 最后的 practical assignment 可能包含聚类分析场景 ⚠️ **易错点**: K-Means 对初始中心点敏感(用 k-means++ 缓解);K-Means 假设 spherical clusters,对非凸形状效果差 (数据来源:2025 Course Profile + UQ Handbook)
K-Mea
💡 学习提示
• 请详细解释 COMP2011 中 "Unsupervised Learning: Clustering" 的核心概念
• Unsupervised Learning: Clustering 的常见考题有哪些?如何准备?
• Unsupervised Learning: Clustering 在实际工作中有哪些应用场景?
Week 11Model Evaluation & Validation
### ✅ 核心知识点:模型评估与验证 本周系统学习如何正确评估和验证 ML 模型。避免 overfitting、正确使用交叉验证是数据科学实践的核心技能。 - **核心概念**: k-Fold Cross-Validation, stratified sampling, hyperparameter tuning (GridSearchCV), learning curves, model selection criteria, ensemble methods intro (Random Forest, Bagging 概念) ⏰ **本周节奏**: 难度 ⭐⭐⭐⭐ | 预计投入 9h(Lecture 1h + Practical 2h + 自学 4h + 作业冲刺 2h) 🎯 **考试关联**: Cross-validation 的原理和作用、overfitting 的识别方法是重要考点 🧪 **Practical**: 用 GridSearchCV 调参优化模型,绘制 learning curves 判断 over/underfitting 📌 **作业关联**: Final practical assignment 需要展示完整的模型评估流程 ⚠️ **易错点**: 在整个数据集上做 feature selection 后再 split = data leakage;cross-validation 的 fold 数不宜太大(计算代价)也不宜太小(估计不稳定) (数据来源:2025 Course Profile + UQ Handbook)
k-Fold Cross-Validatio
💡 学习提示
• 请详细解释 COMP2011 中 "Model Evaluation & Validation" 的核心概念
• Model Evaluation & Validation 的常见考题有哪些?如何准备?
• Model Evaluation & Validation 在实际工作中有哪些应用场景?
Week 12Ethics in Data Science & Course Review
### ⚖️ 核心知识点:数据科学伦理与课程回顾 最后一周讨论数据科学的伦理责任和社会影响。同时回顾全课程内容,为后续学习打基础。 - **核心概念**: Data privacy (GDPR, Australian Privacy Act), algorithmic bias and fairness, responsible AI principles, data anonymization, informed consent, ethical decision frameworks in data-intensive projects ⏰ **本周节奏**: 难度 ⭐⭐ | 预计投入 7h(Lecture 1h + Practical 2h + 课程回顾 4h) 🎯 **考试关联**: 伦理相关内容可能在 practical assignment 的反思部分考察 🧪 **Practical**: 分析一个真实案例(如 COMPAS 再犯预测系统)中的偏见问题,讨论改进方案 📌 **作业关联**: 最终 practical assignment 的 reflection section 通常涉及伦理考量 ⚠️ **易错点**: "模型是公平的因为它对所有人用同一个算法" — 这是典型谬误;输入数据的偏见会被模型放大 (数据来源:2025 Course Profile + UQ Handbook)
Data privacy (GDPRAustralia
💡 学习提示
• 请详细解释 COMP2011 中 "Ethics in Data Science & Course Review" 的核心概念
• Ethics in Data Science & Course Review 的常见考题有哪些?如何准备?
• Ethics in Data Science & Course Review 在实际工作中有哪些应用场景?