第 7 周
数据导入与齐整
预习
随堂练习
讲义
作业
“问渠那得清如许?为有源头活水来。” 在上一讲中我们主要讲述 dplyr 包基于数据操作语法(A Grammar of Data Manipulation)的核心函数,并利用 nycflights13 包提供的数据集作为示例。数据操作语法想要达到其预期目标依赖于其所操作的 tibble 对象为“齐整的数据”(tidy data),而在数据科学实践中我们往往会从不同来源读取 / 导入形形色色的数据集,这就需要我们掌握 tidyverse 中与数据导入和数据齐整有关的 R 包及其核心函数。
本讲主要涵盖以下几方面的内容:
1. 数据导入
- 读入矩形文本数据:
readr
包 - 读入其它类型的数据
2. 数据齐整
- 齐整数据
tidyr
包pivot_longer()
和pivot_wider()
separate_*()
和unite()
pivot_*()
和separate_*()
:一个复杂案例unnest_*()
和hoist()
1. 课前准备
📖 预习 R for Data Science, 2e 第一部分 Whole game 中关于数据导入和数据齐整的章节,即 8 Data import 和 6 Data tidying。
此书第1版有中文翻译版 《R数据科学》出版,对应章节为“第7章 使用tibble
实现简单数据框”和“第8章 使用readr
进行数据导入”(很遗憾,原书关于 tidyr
包的第12章在翻译版中并未出现,🙃)。若同学们觉得直接阅读英文原版教材有点吃力 / 费时,可参阅中文翻译版。
由于上课内容较多,而上课时间有限,上课节奏预计较快,有些内容甚至会一带而过,请同学们务必腾出时间来过一遍上述预习章节的内容。
🖥️ 我准备的基于 xaringan
包 的 网页版讲义,供同学们参考。
2. 课堂讲义
🖥️ 第5讲 数据导入与齐整
3. 随堂练习
⌨️ [见课堂讲义]
4. 课后作业
✍️ 课后作业