第 7 周

数据导入与齐整

预习
随堂练习
讲义
作业
发布者

曾永艺

发布日期

2023年10月27日

“问渠那得清如许?为有源头活水来。” 在上一讲中我们主要讲述 dplyr 包基于数据操作语法(A Grammar of Data Manipulation)的核心函数,并利用 nycflights13 包提供的数据集作为示例。数据操作语法想要达到其预期目标依赖于其所操作的 tibble 对象为“齐整的数据”(tidy data),而在数据科学实践中我们往往会从不同来源读取 / 导入形形色色的数据集,这就需要我们掌握 tidyverse 中与数据导入和数据齐整有关的 R 包及其核心函数。

本讲主要涵盖以下几方面的内容:

1. 数据导入

2. 数据齐整



1. 课前准备

📖 预习 R for Data Science, 2e 第一部分 Whole game 中关于数据导入和数据齐整的章节,即 8 Data import6 Data tidying

此书第1版有中文翻译版 《R数据科学》出版,对应章节为“第7章 使用tibble实现简单数据框”和“第8章 使用readr进行数据导入”(很遗憾,原书关于 tidyr 包的第12章在翻译版中并未出现,🙃)。若同学们觉得直接阅读英文原版教材有点吃力 / 费时,可参阅中文翻译版。

由于上课内容较多,而上课时间有限,上课节奏预计较快,有些内容甚至会一带而过,请同学们务必腾出时间来过一遍上述预习章节的内容。

🖥️ 我准备的基于 xaringan包 的 网页版讲义,供同学们参考。

2. 课堂讲义

🖥️ 第5讲 数据导入与齐整

3. 随堂练习

⌨️ [见课堂讲义]

4. 课后作业

✍️ 课后作业