NLP 里的 unigram、bigram、trigram 和 n-gram 是什么?
What are unigrams, bigrams, trigrams, and n-grams in NLP?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: easy
标签: NLP, n-gram
参考答案摘要
n-gram 指文本中连续的、长度为 n 的 token 序列。 Unigram :单个词/Token。 Bigram :连续 2 个 token 的组合。 Trigram :连续 3 个 token 的组合。 n-gram :长度为 n 的连续序列统称。 常用于语言模型、文本分类特征、拼写纠错、下一词预测等场景。
答题技巧
技术面试题建议先理清思路再作答,从基础概念讲起,逐步深入。可以结合实际项目经验解释技术原理,展示你的理解深度和实践能力。
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案、收藏题目并进行模拟面试练习。