NLP 里的 unigram、bigram、trigram 和 n-gram 是什么?
What are unigrams, bigrams, trigrams, and n-grams in NLP?
题目类型: 技术面试题
这是一道技术面试题,常见于澳洲IT公司面试中。
难度: easy
标签: NLP, n-gram
参考答案摘要
n-gram 指文本中连续的、长度为 n 的 token 序列。 Unigram :单个词/Token。 Bigram :连续 2 个 token 的组合。 Trigram :连续 3 个 token 的组合。 n-gram :长度为 n 的连续序列统称。 常用于语言模型、文本分类特征、拼写纠错、下一词预测等场景。
本题提供 STAR 原则详细解答和技术解析,登录匠人学院学习中心即可查看完整答案。