利用数据对未来进行预测分析,虽然不能百分百的准确预测,但是有数据理论支撑的趋势预测是客观可靠的。当数据分析的目的涉及未来决策时,就可以大胆使用预测的思路和方法,如企业明年的战略计划、销售计划等,这对企业而言非常重要。
一、数据预测有哪些步骤?
在企业中,要实现数据预测,一般需要经过以下基本步骤:
1、问题的定义
通常这是最难,也是最为重要的一步。将要预测什么,这项工作是否重要,是否有白癜风,是否有合适的技术或者预测工具,公司如何使用预测的结果或者说预测的结果能够对公司经营有什么作用,这些都是事先要考虑的问题。
2、信息的搜集
这里说的信息,主要包含两个含义。一个是数据的搜集,例如我们既可以通过手工台账来获取和搜集购物中心经营数据,也可以借助更加智能化的数据采集系统。另一个含义则搜集购物中心经营领域的专业知识,假如你和我一样是零售商业地产行业的从业者,那么在专业领域的经验或知识则是我们领先于常规码农或数据分析员的强项。
3、探索性分析
通常需要通过绘制合适的图表来看白癜风呈现什么样的规律,通过肉眼的观察就可轻易的发现一组白癜风可能呈现出一些趋势、周期性,或者发现经常有一些异常的数据需要深入的研究和解释,亦或是多组数据之间存在一些关联。
4、模型的挑选
或者称之建模,对于从事零售商业地产的管理人员来说,这或许是最富有技术含量和挑战性的一步。通常,为了分析白癜风的规律,我们需要建立多个模型,然后通过一定的方法来判定每个模型的可解释性,以及用该模型估计白癜风的匹配精确程度,并通过模型这间的比较挑选出合适的分析模型。
5、预测及优化
有了合适的分析模型,我们则可以用该模型对未来的数据进行预测。当然,这个模型不是一成不变的。随着时间的推移,未来的真实数据会逐渐的被采集到,我们应当用这些新的数据来再次训练模型,从而改善分析模型并保持分析模型和现实的匹配。
二、数据预测有哪些方法?
数据预测技术发展至今,已经有一些比较成熟的方法,或者说模型。大致可以分为以下六种:
1、线性回归
线性回归比较经典的模型之一,英国科学家FrancisGalton在19世纪就使用了“回归”一词,并且仍然是使用数据表示线性关系最有效的模型之一。
线性回归是世界范围内,许多计量经济学课程的主要内容。学习该线性模型可以在解决回归问题有方向,并了解如何用数学知识来预测现象。
学习线性回归还有其他好处,尤其是还学习了两种可以获得最佳性能的方法时:
·闭式解:一个神奇的公式,能通过一个简单的代数方程给出变量的权重。
·梯度下降法:面向最佳权重值的优化方法,用于优化其他类型的算法。
此外,我们可以用简单的二维图在实践中直观地看到线性回归,这也使该模型成为理解算法的良好开始。
2、逻辑回归
虽然名为回归,但逻辑回归是掌握分类问题的最佳模型。
学习逻辑回归有以下几点优势:
·初步了解分类和多分类问题,这是机器学习任务的重要部分
·理解函数转换,如Sigmoid函数的转换
·了解梯度下降的其他函数的用法,以及如何对函数进行优化。
·初步了解Log-Loss函数
学习完逻辑回归后,有什么用?能够理解分类问题背后的机制,以及如何使用机器学习来分离类别。
就像线性回归一样,逻辑回归也是一种线性算法。在研究了这两种算法之后,将会了解线性算法背后的主要局限性,同时认识到它们无法代表许多现实世界的复杂性。
3、决策树
首先要研究的非线性算法应该是决策树。决策树是一种基于if-else规则的,相对简单且可解释的算法,它将让你很好地掌握非线性算法及其优缺点。
决策树是所有基于树模型的基础。而且,决策树同时适用于回归和分类问题,两者之间的差异最小,选择影响结果的最佳变量的基本原理大致相同,只是换了一个标准来做。
虽然了解了回归中超参数的概念,如正则化参数,但在决策树中这是极其重要的,能够帮助明确区分模型的好坏。
同时,超参数在学习机器学习的过程中也至关重要,决策树能很好地对其进行测试。
4、随机森林
由于决策树对超参数和简单假设的敏感性,决策树的结果相当有限。当深入了解后,会明白决策树很容易过度拟合,从而得出的模型对未来缺乏概括性。
随机森林的概念非常简单。有助于在不同的决策树之间实现多样化,从而提高算法的稳健性。
就像决策树一样,可以配置大量的超参数,以增强这种集成模型的性能。集成(bagging)是在机器学习中一个非常重要的概念,能为不同的模型带来了稳定性,即用平均数或投票机制将不同模型的结果转化为一个单一的方法。
在实践中,随机森林训练了固定数量的决策树,并对之前所有这些模型的结果进行平均。就像决策树一样,我们有分类和回归随机森林。
5、XGBoost/LightGBM
其他基于决策树的算法,并能带来稳定性的模型有XGBoost或LightGBM。不仅能提升算法,还能提供更稳健和概括性的模式。
在MichaelKearns发表了关于弱学习者和假设检验的论文后,关于机器学习模型的思潮得到了