在自然语言处理领域,因为计算机无法直接识别文本数据,因此对文本进行向量化表示是必不可少的。文本向量化即用数值向量来表示文本语义,而词袋模型则是在尽可能保留文本语义的前提下对文本进行向量化表示。TFIDF词袋模型算法应用广泛,它采用的是文本加权的方法,利用统计思想,即文本出现的次数和整个语料中文档频率来计算字词的重要程度。
XGBoost是“Extreme Gradient Boosting”的简称,是一种基于决策树的集成机器学习算法。XGBoost算法是软件和硬件优化技术的完美结合,可在最短的时间内,使用较少的计算资源,得到较为出色的结果,是兼顾预测性能和处理时间的最佳预测方法。