数据分析

基本流程

基本流程大致如下

  1. 商业理解
  2. 数据理解
  3. 数据准备
  4. 模型评估
  5. 模型建立
  6. 上线发布

商业理解

从商业的角度理解需求,探究数据对于业务的重要性,从而更好地服务于业务场景的需要。

数据理解

对于收集的数据,应该在内容及质量上做深入探索,从内容维度上,理解数据的含义、数据的扩展性,从质量的维度上可以判别数据的完整性、正确性等。

模型评估 & 模型建立

对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标,选取合适的数据分析模型。

数据分析算法

算法有很多种,这里就选取比较有代表意义算法来说明。

K-Means

K-Means 算法是一个聚类算法。你可以这么理解,最终我想把物体划分成K类。假设每个类别里面,都有个“中心点”,即意见领袖,它是这个类别的核心。现在我有一个新点要归类,这时候就只要计算这个新点与K个中心点的距离,距离哪个中心点近,就变成了哪个类别。

KNN

KNN也叫K最近邻算法,英文是 K-Nearest Neighbor。所谓K近邻,就是每个样本都可以用它最接近的K个邻居来代表。如果一个样本,它的K个最接近的邻居都属于分类A,那么这个样本也属于分类A。

Apriori

Apriori是一种挖掘关联规则(association rules)的算法,它通过挖掘频繁项集(frequent item sets)来揭示物品之间的关联关系,被广泛应用到商业挖掘和网络安全等领域中。频繁项集是指经常出现在一起的物品的集合,关联规则暗示着两种物品之间可能存在很强的关系。

针对不同的算法,我们还是要对我们的数据内容及业务场景做具体分析,才能够选择出更加合适的方案。

数据可视化

最终,需要对数据进行可视化处理。数据往往是隐性的,尤其是当数据量大的时候很难感知,可视化可以帮我们很好地理解这些数据的结构,以及分析结果的呈现。

对于这个部分,我们可以借助于第三方工具。

总结

不管从商业场景的考量,还是到最终的可视化数据呈现,做好数据分析,我们需要对数据、业务以及算法都有深入的理解。如何建立更多用户之间的连接,也许,答案就在这些数据中。

如果您觉得本文对您有用,欢迎捐赠或留言~
微信支付
支付宝

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注