58
正则表达式
正则表达式(Regex):高效提取文本模式
你现在可能会困惑什么
“regex 看不懂,符号太多了。”
先掌握常用场景(邮箱、订单号、手机号),不必一次记全语法。
一句话定义
Regex 是字符串匹配规则,用于查找、提取、替换文本。
生活类比
文本像货架,regex 是筛选条件标签。
最小可运行例子
import re
text = "email: hello@example.com"
m = re.search(r"[\w.-]+@[\w.-]+\.\w+", text)
print(m.group())
课堂小测(5 分钟)
- 提取文本中的所有订单号(如
A-123)。 - 提取全部 email。
- 用
re.sub()脱敏数字。
课堂小测参考答案与判分点
- 参考答案方向:能写出可运行代码,并覆盖题目中的核心条件与边界输入。
- 判分点 1(正确性):主流程结果正确,关键分支可执行。
- 判分点 2(可读性):变量命名清晰,结构不过度嵌套。
- 判分点 3(健壮性):对空值、类型错误或异常输入有基础保护。
迁移任务(课后)
写 extract_contacts(text) 返回 emails/phones 两个列表。
本节验收标准
你能独立做到:
- 使用
search/findall/sub - 写基础 pattern 并调试
- 完成文本提取与脱敏
常见报错与调试步骤(新手版)
- 报错看不懂:先读最后一行错误类型(如
TypeError、NameError),再回到对应代码行定位。 - 不确定变量值:在关键位置临时
print(变量, type(变量)),先确认数据是否符合预期。 - 改了代码却没生效:确认文件已保存、运行的是当前文件、终端环境(venv)是否正确。
常见误区
- 误区:regex 越复杂越好。
- 正解:可读可维护优先。