3  数据清洗

从非结构的、半结构的数据中抽取有用的信息,常常需要一番数据清洗操作,最重要的工具之一是正则表达式。R 语言内置一系列函数,组成一套工具,详见 ?regex

3.1 正则表达式

3.1.1 量词

3.1.2 级联

3.1.3 断言

正向查找 / 反向查找

3.1.4 反向引用

3.1.5 命名捕捉

3.2 字符串操作

3.2.1 查找

grep() / grepl() 返回是否匹配的结果

3.2.2 替换

sub() / gsub() 替换一次和多次

3.2.3 提取

regexpr() / gregexpr()

regexec() / gregexec()