第 6 周

dplyr数据处理 II

预习
随堂练习
讲义
作业
发布者

曾永艺

发布日期

2023年10月20日


“净土宇宙 🌌”的核心数据结构为 tibble(即由行(样本)和列(变量)构成的表格型数据),dplyr 包基于数据操作语法A Grammar of Data Manipulation)构建出一组用来操作 tibble 对象的核心函数——它们就是我们在接下来两次课中需要学习、理解并掌握的知识。

本讲主要涵盖以下几方面的内容(加粗字体为本次课的讲授内容):

  1. 样本处理
  2. 变量处理
  3. 汇总
  4. 分组和行式处理
  5. %>% 连接多个操作
  6. 合并多个数据集
  7. 操作数据库和 data.table

1. 课前准备

📖 预习 R for Data Science, 2e 第三部分 Transform 中关于数据集合并的章节,即 20 Joins

此书第1版有中文翻译版 《R数据科学》出版,上述内容大致对应“第9章 使用 dplyr 处理关系数据”。若同学们觉得直接阅读英文原版教材有点吃力 / 费时,可参阅中文翻译版。

由于上课内容较多,而上课时间有限,上课节奏预计较快,有些内容甚至会一带而过,请同学们务必腾出时间来过一遍上述预习章节的内容。

🖥️ 我准备的基于 xaringan包 的 网页版讲义,供同学们参考。

2. 课堂讲义

🖥️ 第4讲 dplyr数据处理

3. 随堂练习

⌨️ [见课堂讲义]

4. 课后作业

✍️ 课后作业