研究前沿

李新:机器学习算法在互联网搜索查询数据选择中的应用

研究成果:Machine Learning in Internet Search Query Selection for Tourism Forecasting

作者:李新,李恒云,潘冰,罗振雄

发表期刊:Journal of Travel Research

基于互联网搜索查询数据的预测研究中的一个重要问题是:平衡搜索关键词的覆盖度和准确度这两个指标。引入覆盖度高的关键词组合会包含更多的互联网信息,但是不可避免地出现无关噪音以及导致模型过度拟合。然而,在旅游预测研究中,就如何自动选择最相关的搜索查询数据从而有效提高旅游精度该问题仍旧没有很好地解决。

本研究讨论了机器学习算法是否能够应用到互联网搜索查询数据中的选择,并提高预测精度。我们以月度的北京旅游客流量和周度的美国查尔斯顿酒店的入住率预测为案例,分别收集了来自百度和谷歌的搜索查询数据。本研究采用了四种特征选择方法:基于过滤的特征选择,递归特征选择,基于遗传算法的特征选择以及基于随机森林的特征选择。本研究将四种方法分别应用到百度和谷歌搜索查询数据的选择中,从中选出最优预测子集,用于北京旅游客流量和查尔斯顿酒店入住率预测中,进一步评价了四种方法在两个预测案例中的表现。研究表明:与预测的基准模型相比,经过特征选择算法所筛选出来的搜索数据子集,能够显著提升客流量及入住率的预测精度。

本研究的贡献在于:提出了一种“自下而上”的面向互联网搜索数据特征选择的策略,使得搜索数据的选择减少对专家经验或领域知识的依赖,数据选择更具有客观性。引入特征选择算法,在互联网搜索数据量和准确度之间进行平衡,降低模型复杂度的同时提高预测精度。