当前位置：文档库 › 数据挖掘报告

数据挖掘报告

基于电商网站商品数据的数据分析与挖掘

1.电子商务和数据挖掘简介

1．1 电子商务

电子商务是指个人或企业通过Internet网络，采用数字化电子方式进行商务数据交换和开展商务业务活动。目前国内已有网上商情广告、电子票据交换、网上订购，网上支付结算等多种类型的电子商务形式。电子商务正以其低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步在全球流行。电子商务是指以Internet网络为载体、利用数字化电子方式开展的商务活动。随着网络技术和数据库技术的飞速发展，电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部收集了大量的数据，并且迫切需要将这些数据转换成有用的信息和知识，为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据，发现隐藏在其后的规律性，提取出有效信息，进而指导企业调整营销策略，给客户提供动态的个性化的高效率服务

1．2 数据挖掘技术

数据挖掘(Data Mining)，又称数据库中的知识

(Knowledge Discovery in Database, KDD)，是从大量的、不完全的、有噪声的、模糊的和随机的数据中，提取隐含在其中的、人们事先不知道的，但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科，它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域，它不仅是面向特定数据库的简单检索查询调用，而且，要对数据进行微观、中观乃至宏观的统计、分析、综合和推理，以指定实际问题的求解，企图发现事件间的相互关联，甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用，如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。

而电子商务中的数据挖掘即Web挖掘，是利用数据挖掘技术从www的资源（即Web文档）和行为（即We服务）中自动发现并提取感兴趣的、有用的模式和隐含的信息，它是一项综合技术涉及到Internet技术学、人工智能、、信息学、学等多个领域。

1．3. 数据挖掘过程

挖掘数据过程可以分为3个步骤：数据预处理、模式发现、模式分析。

1．3．1 数据预处理

实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此，数据挖掘一般不对原始数据进行挖掘，要通过预处理提供准确、简洁的数据。预处理主要完成以下工作：包括合并数据，将多个文件或多个数据库中的数据进行合并处理；选择数据，提取出适合分析的数据集合；数据清洗、过滤，剔除一些无关记录，将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。

1. 3. 2 模式发现

模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。

1. 3. 3 模式分析

模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段，对得到的模式进行数据分析，得出有意义的结论。常用的技术手段有：关联规则、分类、聚类、序列模式等。

电子商务是现代信息技术发展的必然结果，也是未来商业运作模式的必然选择。利用数据挖掘技术来分析大量的数据，可以挖掘出商品的消费规律与客户的访问模式，帮助企业制定有效的营销策略，充分发挥企业的独特优势，促进管理创新和技术创新，提高企业竞争力。

随着电子商务发展的势头越来越强劲, 面向电子商务的数据挖掘将是一个非常有前景的领域。它能自动预测客户的消费趋势、市场走向，指导企业建设个性化智能网站，带来巨大的商业利润，可以为企业创建新的商业增长点。但是在面向电子商务的数据挖掘中也存在很多问题急需解决，比如怎样将服务器的日志数据转化成适合某种数据挖掘技术的数据格式，怎样解决分布性、异构性数据源的挖掘，如何控制整个Web上知识发现过程等。随着硬件环境、挖掘算法的深入研究及应用经验的积累，数据挖掘技术及在电子商务中的应用必将取得长足的进展。

2.数据挖掘

2.1数据挖掘主要内容

对于10种品牌的卫生巾的属性、价格、包装等性能与其销量的关系。

10种卫生巾分别为：555、ABC、高洁丝、护舒宝、洁婷、乐而雅、米娅、七度空间、苏菲、怡丽

2.2数据来源

天猫超市

2.3数据挖掘工具

1.八爪鱼采集器

八爪鱼采集器是深圳视界信息技术有限公司研发的一款业界领先的网页采集软件，具有使用简单，功能强大等诸多优点。

八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心，可以在很短的时间内，轻松从各种不同的网站或者网页获取大量的规范化数据，帮助任何需要从网页获取信息的客户实现数据自动化采集，编辑，规范化，摆脱对人工搜索及收集数据的依赖，从而降低获取信息的成本，提高效率。

使用八爪鱼可以非常容易的从任何网页精确采集你需要的数据，生成自定义的、规整的数据格式。八爪鱼数据采集系统能做的包括但并不局限于以下内容：

1. 金融数据，如季报，年报，财务报告, 包括每日最新净值自动采集;

2. 各大新闻门户网站实时监控，自动更新及上传最新发布的新闻;

3. 监控竞争对手最新信息，包括商品价格及库存;

4. 监控各大社交网站，博客，自动抓取企业产品的相关评论;

5. 收集最新最全的职场招聘信息;

6. 监控各大地产相关网站，采集新房二手房最新行情;

7. 采集各大汽车网站具体的新车二手车信息;

8. 发现和收集潜在客户信息;

9. 采集行业网站的产品目录及产品信息;

10. 在各大电商平台之间同步商品信息，做到在一个平台发布，其他平台自动更新。

由于其强大的功能，所以我们小组选择使用八爪鱼采集器对卫生巾的相关属性进行采集。虽然其功能强大，但是八爪鱼采集器对于网速的要求较高，若网速太慢，采集数据的速度就会很慢，采集的时间就需要更多。

Rost

Rost是一款强大的文字分析软件，这款论文检测软件由武汉大学信息管理学院出版科学系教师沈阳副教授所研发，此软件可以对导入的文档进行分词、词频分析、流量、相似程度等的功能性分析，还可以对文本进行处理，包括字段抽取、基于文字特征的行抽取、文本替换与增补等，可以对聊天分析、全网分析、网站分析、浏览分析、微博分析、期刊分析等，此软件可以将分析完的结果直接以PDF、DOC、PPT、XLS、TXT等形式输出，其每检测400字需要6秒钟，所以如果需要检测字数较多的文本，就需要等一定时间。

3.MicrosoftExcel

Microsoft Excel是微软公司的办公软件Microsoft office的组件之一，是由Microsoft为Windows和Apple Macintosh操作系统的电脑而编写和运行的一款试算表软件。其功能十分强大，可以对数据进行清洗、透视等

2.4数据挖掘必要性和可行性

1.数据挖掘必要性

随着21世纪的到来，越来越多的人倾向于网上购物，网上购物是当今的主要趋势，本次数据挖掘是基于京东超市对于卫生巾的其价格、各方面属性对其销售量的影响。

本次数据挖掘是针对女性每个月的必用品卫生巾的相关数据进行挖掘，这对于女性朋友来说一个很重要也很必要的一个挖掘，通过本次数据挖掘可以为女性朋友提供一个适合其本身的卫生巾组合套装。

2.数据挖掘可行性

挖掘技术上，我们通过一学期的学习对于相关的软件有所了解，网络上对于各种数据挖掘工具的具体操作的视频也是不胜枚举，学校图书馆对于相关软件操作的书也很多，所以我们在技术上是完全可以实现数据挖掘的整个过程。在人员上，我们小组总共5个人，对于搜集数据来源为天猫超市这样一个不是特别大的

网站的数据信息来说，5个人是完全足够的，同时还有老师的指导，所以在人员上也是可以实现基于天猫超市的排名前十的卫生巾品牌及其销量的数据挖掘的。

2.5数据挖掘详细过程

2.5.1过程描述

首先是数据预处理，我们运用八爪鱼对网页上的相关属性进行采集，采集的属性包括：标题、价格、产地、包邮与否、规格、其功能、客户对商品的评价的指数（是否与商品相符）月销量、好评度、这些指标，由于对相关软件运用的不是特别成熟，所以导致有部分数据缺失。但这对于我们的数据分析五影响，缺失的数据也正是我们需要将其进行清洗过滤的部分数据。

其次是模式发现阶段，我们采用关联分析和分类规则对相关数据进行再处理，从而得出具有较高准确性和关联性的数据。

最后模式分析阶段，我们运用Rost 和Excel工具对相关数据进行处理，最后得出相关具有规律性和高价值的数据信息。

2.5.1过程操作

1.八爪鱼

用八爪鱼对护舒宝相关数据进行采集过程，如图：

首先，命名任务名、任务组，并输入网址：

其次，对天猫超市的网页的第一个商品的相关属性进行抓取，并设置循环抓取，在本网页的所有商品与第一个商品一样的属性都会被抓取下来，抓取过程如图：

在次，设置工作流程，并修改相关字段的字段名，如图：

最后，进行数据抓取阶段，只需要等待几分钟数据就能抓取完成，如图：

上述即是对数据的抓取过程，10个品牌均是循环以上操作，最后以Excel表格的形式导出即可。导出的数据只是数据源，数据没有任何规律和价值，需要对相关数据进行进一步的分析和提炼。

2.ROST

第二个是用rost对导出的excel表格中的文字部分进行分析，过程如下：首先是对将表格中的中文部分添加到记事本中，如图：

第二步，因为我们同ROST的目的是对词频的统计，用来统计在商品售卖中售卖材质、长短、香味等特殊属性对消费者的吸引程度，所以必须将上述部分的标题进行分词处理，处理后如下图：

最后，进行词频统计，将输出分词后的txt导入到ROST，进行词频统计，如图：

由词频统计可以看出ABC品牌的卫生巾在日用、超薄、和纯棉的属性是被用户高度重视的，超长、清凉、迷你等属性用户关注度不是特别高，所以在以后的经营中，可以对ABC品牌的卫生巾具有日用、超薄、纯棉等属性的大量囤货，对于超长、清凉、迷你等属性应考虑其销售热度。

2.Excel

最后是利用excel对导出的数据进行分析，比较每一个商品的本身属性与其销售量的关系。

如图：高洁丝的价格（X）与收藏（Y）的关系

由上图可以看出，当价格为25.9元28片时是销量最多的一个价格，往后的趋势基本就是价格越高，销售量月越低。还有一个可能的影响因素是商品是以组合的

形式销售，后面价格越贵，表示组合装越多，女性对于卫生巾的使用不必要囤货太多，因为卫生巾也是有保质期，一般女性没有囤大量卫生巾的习惯，所以组合中卫生巾量太大，即使是进行促销，但是销售量不一定好。

所以这给商家的的建议就是，不用搞促销时就采用大包装量多的组合装，这样并不能提高销售量，而是应该推出适合的少数量的组合装。

如图：高洁丝的销量与收藏的关系

由上图可以看出，高洁丝的月销售量与收藏的线基本重合，成正相关的关系，收藏的越多，其销售量越高。

这个数据对于消费者来说是购买商品的一个可信的信息，在购买商品的时候一般销售量与收藏量成正比，如是发现收藏量很少，但是销售量很高这很可能存在刷单现象，消费者应该具有一定的辨识能力。

如图：高洁丝的销售与评价的关系

如图：高洁丝价格和销量图

由上图可以看出价格9.9的时候笑脸的最高的，整体趋势是价格处于15-30块的时候销量较好，价格太高或太低，销量都不可观。

各品牌销售量图：

各品牌之间的销量的比较，通过各品牌之间的一个比较，选出当今主流的卫生巾品牌，对于，其他品牌的卫生巾作为一个参考，需要向最好销量的卫生巾品牌学习，找出其商品有点、销售特点、宣传方式等。

由上图可以看出苏菲销量达到247026，大多数女性洗好苏菲品牌的卫生巾，米娅下销量仅824，米娅是面世不久的一款外包装很吸引人，颜值很高的卫生巾。其销售量较低可能与其面世时间较短、宣传方式等有关。

数据挖掘实验三报告

实验三：基于Weka 进行关联规则挖掘实验步骤 1.利用Weka对数据集contact-lenses.arff进行Apriori关联规则挖掘。要求：描述数据集；解释Apriori 算法及流程；解释Weka 中有关Apriori 的参数；解释输出结果 Apriori 算法： 1、发现频繁项集，过程为（1）扫描（2）计数（3）比较（4）产生频繁项集（5）连接、剪枝，产生候选项集（6）重复步骤（1）~（5）直到不能发现更大的频集 2、产生关联规则（1）对于每个频繁项集L，产生L的所有非空子集；（2）对于L的每个非空子集S，如果 P（L）/P（S）≧min_conf(最小置信度阈值) 则输出规则“S=>L-S” Weka 中有关Apriori 的参数：

1. car 如果设为真，则会挖掘类关联规则而不是全局关联规则。 2. classindex 类属性索引。如果设置为-1，最后的属性被当做类属性。 3.delta 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。 4. lowerBoundMinSupport 最小支持度下界。 5. metricType 度量类型。设置对规则进行排序的度量依据。可以是：置信度（类关联规则只能用置信度挖掘），提升度(lift)，杠杆率(leverage)，确信度(conviction)。在Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度，它们分别是： a)Lift ：P(A,B)/(P(A)P(B)) Lift=1时表示A和B独立。这个数越大(>1)，越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度. b)Leverage :P(A,B)-P(A)P(B) Leverage=0时A和B独立，Leverage越大A和B的关系越密切

数据挖掘实验报告

《数据挖掘》Weka实验报告姓名＿学号＿指导教师开课学期2015 至2016 学年 2 学期完成日期2015年6月12日

1.实验目的基于https://www.wendangku.net/doc/a214748314.html,/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29的数据，使用数据挖掘中的分类算法，运用Weka平台的基本功能对数据集进行分类，对算法结果进行性能比较，画出性能比较图，另外针对不同数量的训练集进行对比实验，并画出性能比较图训练并测试。 2.实验环境实验采用Weka平台，数据使用来自https://www.wendangku.net/doc/a214748314.html,/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29，主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发。Weka使用Java写成的，并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数据集，并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类，该表含有Sample code number（样本代码)，Clump Thickness（丛厚度），Uniformity of Cell Size （均匀的细胞大小），Uniformity of Cell Shape （均匀的细胞形状），Marginal Adhesion（边际粘连），Single Epithelial Cell Size（单一的上皮细胞大小），Bare Nuclei（裸核），Bland Chromatin（平淡的染色质），Normal Nucleoli（正常的核仁），Mitoses（有丝分裂），Class（分类），其中第二项到第十项取值均为1-10，分类中2代表良性，4代表恶性。通过实验，希望能找出患乳腺癌客户各指标的分布情况。该数据的数据属性如下： 1. Sample code number（numeric），样本代码； 2. Clump Thickness（numeric），丛厚度；

数据挖掘及决策树

昆明理工大学信息工程与自动化学院学生实验报告（2016 —2017 学年第学期）课程名称：数据仓库与数据挖掘开课实验室：信自楼444 2017 年 06 月 01 日一、上机目的及内容目的： 1．理解数据挖掘的基本概念及其过程； 2．理解数据挖掘与数据仓库、OLAP之间的关系 3．理解基本的数据挖掘技术与方法的工作原理与过程，掌握数据挖掘相关工具的使用。内容：给定AdventureWorksDW数据仓库，构建“Microsoft 决策树”模型，分析客户群中购买自行车的模式。要求: 利用实验室和指导教师提供的实验软件，认真完成规定的实验内容，真实地记录实验中遇到的二、实验原理及基本技术路线图（方框原理图或程序流程图）请描述数据挖掘及决策树的相关基本概念、模型等。 1.数据挖掘：从大量的、不完全的、有噪音的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。

预测：利用历史数据建立模型，再运用最新数据作为输入值，获得未来变化趋势或者评估给定样本可能具有的属性值或值的范围聚类分析根据数据的不同特征，将其划分为不同数据类偏差分析对差异和极端特例的描述，揭示事物偏离常规的异常现象，其基本思想是寻找观测结果与参照值之间有意义的差别 3.决策树：是一种预测模型，它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。算法概念 ID3 在实体世界中，每个实体用多个特征来描述。每个特征限于在一个离散集中取互斥的值 C4.5 对ID3算法进行了改进：用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；在树构造过程中进行剪枝；能够完成对连续属性的离散化处理；能够对不完整数据进行处理。三、所用仪器、材料（设备名称、型号、规格等或使用软件） 1台PC及Microsoft SQL Server套件四、实验方法、步骤（或：程序代码或操作过程）（一）准备Analysis Services 数据库 1.Analysis Services 项目创建成功 2.更改存储数据挖掘对象的实例

数据挖掘实训报告

项目1：基于sklearn的数据分类挖掘一、项目任务 ①熟悉sklearn数据挖掘的基本功能。 ②进行用朴素贝叶斯、KNN、决策树C4.5、SVM算法进行数据分类分析。二、项目环境及条件 ?sklearn-0.18.0 ?python- ?numpy- ?scipy- ?matplotlib- 三、实验数据 Iris数据集 Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。 Digits数据集美国著名数据集NIST的子集，模式识别常用实验数据集，图像属于灰度图像。分辨率为8x8

四、项目内容及过程 1.读取数据集从sklearn中读取iris和digits数据集并测试打印打印的数据集存在numpy.ndarray中，ndarray会自动省略较长矩阵的中间部分。 Iris数据集的样本数据为其花瓣的各项属性 Digits数据集的样本数据为手写数字图像的像素值 2.划分数据集引入sklearn的model_selection使用train_test_split划分digits数据集，训练集和测试集比例为8:2 3.使用KNN和SVM对digits测试集分类引用sklearn的svm.SVC和neighbors.KNeighborsClassifier模块调用算法，使用classification_report查看预测结果的准确率和召回率

数据挖掘实验报告(一)

数据挖掘实验报告（一）数据预处理姓名：李圣杰班级：计算机1304 学号：1311610602

一、实验目的 1.学习均值平滑，中值平滑，边界值平滑的基本原理 2.掌握链表的使用方法 3.掌握文件读取的方法二、实验设备 PC一台，dev-c++5.11 三、实验内容数据平滑假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。使用你所熟悉的程序设计语言进行编程，实现如下功能（要求程序具有通用性）： (a) 使用按箱平均值平滑法对以上数据进行平滑，箱的深度为3。 (b) 使用按箱中值平滑法对以上数据进行平滑，箱的深度为3。 (c) 使用按箱边界值平滑法对以上数据进行平滑，箱的深度为3。四、实验原理使用c语言，对数据文件进行读取，存入带头节点的指针链表中，同时计数，均值求三个数的平均值，中值求中间的一个数的值，边界值将中间的数转换为离边界较近的边界值五、实验步骤代码 #include #include #include #define DEEP 3 #define DATAFILE "data.txt" #define VPT 10 //定义结构体 typedef struct chain{ int num; struct chain *next; }* data; //定义全局变量 data head,p,q; FILE *fp; int num,sum,count=0; int i,j; int *box; void mean(); void medain(); void boundary(); int main () { //定义头指针 head=(data)malloc(sizeof(struc t chain)); head->next=NULL; /*打开文件*/ fp=fopen(DATAFILE,"r"); if(!fp) exit(0); p=head; while(!feof(fp)){

数据挖掘实验报告资料

大数据理论与技术读书报告 -----K最近邻分类算法指导老师: 陈莉学生姓名: 李阳帆学号: 201531467 专业: 计算机技术日期 :2016年8月31日

摘要数据挖掘是机器学习领域内广泛研究的知识领域，是将人工智能技术和数据库技术紧密结合，让计算机帮助人们从庞大的数据中智能地、自动地提取出有价值的知识模式，以满足人们不同应用的需要。K 近邻算法（KNN）是基于统计的分类方法，是大数据理论与分析的分类算法中比较常用的一种方法。该算法具有直观、无需先验统计知识、无师学习等特点，目前已经成为数据挖掘技术的理论和应用研究方法之一。本文主要研究了K 近邻分类算法，首先简要地介绍了数据挖掘中的各种分类算法，详细地阐述了K 近邻算法的基本原理和应用领域，最后在matlab环境里仿真实现，并对实验结果进行分析，提出了改进的方法。关键词：K 近邻，聚类算法，权重，复杂度，准确度

1.引言 (1) 2.研究目的与意义 (1) 3.算法思想 (2) 4.算法实现 (2) 4.1 参数设置 (2) 4.2数据集 (2) 4.3实验步骤 (3) 4.4实验结果与分析 (3) 5.总结与反思 (4) 附件1 (6)

1.引言随着数据库技术的飞速发展，人工智能领域的一个分支—— 机器学习的研究自 20 世纪 50 年代开始以来也取得了很大进展。用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后的知识，这两者的结合促成了数据库中的知识发现（Knowledge Discovery in Databases，简记 KDD）的产生，也称作数据挖掘（Data Ming，简记 DM）。数据挖掘是信息技术自然演化的结果。信息技术的发展大致可以描述为如下的过程：初期的是简单的数据收集和数据库的构造；后来发展到对数据的管理，包括：数据存储、检索以及数据库事务处理；再后来发展到对数据的分析和理解，这时候出现了数据仓库技术和数据挖掘技术。数据挖掘是涉及数据库和人工智能等学科的一门当前相当活跃的研究领域。数据挖掘是机器学习领域内广泛研究的知识领域，是将人工智能技术和数据库技术紧密结合，让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式，以满足人们不同应用的需要[1]。目前，数据挖掘已经成为一个具有迫切实现需要的很有前途的热点研究课题。 2.研究目的与意义近邻方法是在一组历史数据记录中寻找一个或者若干个与当前记录最相似的历史纪录的已知特征值来预测当前记录的未知或遗失特征值[14]。近邻方法是数据挖掘分类算法中比较常用的一种方法。K 近邻算法（简称 KNN）是基于统计的分类方法[15]。KNN 分类算法根据待识样本在特征空间中 K 个最近邻样本中的多数样本的类别来进行分类，因此具有直观、无需先验统计知识、无师学习等特点，从而成为非参数分类的一种重要方法。大多数分类方法是基于向量空间模型的。当前在分类方法中，对任意两个向量： x= ) ,..., , ( 2 1x x x n和) ,..., , (' ' 2 ' 1 'x x x x n 存在 3 种最通用的距离度量：欧氏距离、余弦距离[16]和内积[17]。有两种常用的分类策略：一种是计算待分类向量到所有训练集中的向量间的距离：如 K 近邻选择K个距离最小的向量然后进行综合，以决定其类别。另一种是用训练集中的向量构成类别向量，仅计算待分类向量到所有类别向量的距离，选择一个距离最小的类别向量决定类别的归属。很明显，距离计算在分类中起关键作用。由于以上 3 种距离度量不涉及向量的特征之间的关系，这使得距离的计算不精确，从而影响分类的效果。

数据挖掘报告

摘要数据挖掘技术可以在浩瀚的数据中进行统计、分析、综合、推理，发现数据部关联，并作出预测，提供数据信息，为决策提供辅助支持。目前，数据挖掘技术已经广泛应用在商业领域，同样，可以将数据挖掘技术与国家教育项目相结合，对项目中的各类数据信息进行挖掘分析，提取隐藏的数据信息，为项目开发部门提供决策依据，进一步提高项目的科学性和高效性。本文结合自身参与教育部指定的关于城市集群竞争力项目的实践经验，分析数据挖掘技术在国家教育项目中应用的可行性，并以此为例，采用JAVA语言编写实现KNN算法。在项目实施方案中，以城市集群的数据为基础，完成数据挖掘的全过程：确定数据挖掘的对象和目标、数据清理和预处理，对某个指标缺失的数据引入神经网络方法进行预测填补，对缺失较多的数据引入对比和类比的方法进行预测填补，采用KNN算法实现数据分类，形成指标体系。利用数据挖掘的结果，通过对指标数据的分析，预测决定城市集群竞争力的主要因素，从而为今后城市集群的发展方向和职能定位提供参考，为城镇体系的总体发展指明方向，为提高我国城市集群整体经济实力和综合竞争力提供一些有益的建议和对策，促进成熟集群向一体化方向发展，同时也可以为国其他城市集群的发展提供给一些有益的参考。【关键词】数据挖掘 KNN算法数据分类 JAVA 城市集群竞争力

目录摘要 (1) 目录 (2) 第一章绪论 (3) 1.1研究背景和研究意义 (3) 第二章数据挖掘技术的研究 (4) 2.1 数据挖掘的功能 (4) 2.2 数据挖掘的对象 (6) 2.3 数据挖掘的过程 (7) 2.4 数据挖掘算法 (9) 第三章 KNN算法介绍与实现 (10) 3.1 KNN算法介绍 (10) 3.2 KNN算法的JAVA实现 (12) 第四章总结 (17)

大数据平台项目方案说明

大数据平台建设方案（项目需求与技术方案）一、项目背景 “十三五”期间，随着我国现代信息技术的蓬勃发展，信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌，信息化应用进入一个“新常态”。***（某政府部门）为积极应对“互联网+”和大数据时代的机遇和挑战，适应全省经济社会发展与改革要求，大数据平台应运而生。大数据平台整合省社会经济发展资源，打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台，以信息化提升数据化管理与服务能力，及时准确掌握社会经济发展情况，做到“用数据说话、用数据管理、用数据决策、用数据创新”，牢牢把握社会经济发展主动权和话语权。二、建设目标大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析，实现企业信用社会化监督，建立规范化共建共享投资项目管理体系，推进政务数据共享和业务协同，为决策提供及时、准确、可靠的信息依据，提高政务工作的前瞻性和针对性，加大宏观调控力度，促进经济持续健康发

展。 1、制定统一信息资源管理规范，拓宽数据获取渠道，整合业务信息系统数据、企业单位数据和互联网抓取数据，构建汇聚式一体化数据库，为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性，编制数据资源目录，建立信息资源交换管理标准体系，在业务可行性的基础上，实现数据信息共享，推进信息公开，建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上，为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。三、建设原则大数据平台以信息资源整合为重点，以大数据应用为核心，坚持“统筹规划、分步实施，整合资源、协同共享，突出重点、注重实效，深化应用、创新驱动”的原则，全面提升信息化建设水平，促进全省经济持续健康发展。

数据挖掘实验报告-关联规则挖掘

数据挖掘实验报告（二）关联规则挖掘姓名：李圣杰班级：计算机1304 学号：1311610602

一、实验目的 1. 1.掌握关联规则挖掘的Apriori算法； 2.将Apriori算法用具体的编程语言实现。二、实验设备 PC一台，dev-c++5.11 三、实验内容根据下列的Apriori算法进行编程：

四、实验步骤 1.编制程序。 2.调试程序。可采用下面的数据库D作为原始数据调试程序，得到的候选1项集、2项集、3项集分别为C1、C2、C3，得到的频繁1项集、2项集、3项集分别为L1、L2、L3。

代码 #include #include #define D 4 //事务的个数 #define MinSupCount 2 //最小事务支持度数 void main() { char a[4][5]={ {'A','C','D'}, {'B','C','E'}, {'A','B','C','E'}, {'B','E'} }; char b[20],d[100],t,b2[100][10],b21[100 ][10]; int i,j,k,x=0,flag=1,c[20]={0},x1=0,i1 =0,j1,counter=0,c1[100]={0},flag1= 1,j2,u=0,c2[100]={0},n[20],v=1; int count[100],temp; for(i=0;i=MinSupCount) { d[x1]=b[k]; count[x1]=c[k]; x1++; } } //对选出的项集中的元素进行排序 for(i=0;i

数据挖掘报告书

数据挖掘报告书题目：关联规则算法在电影爱好中的应用院系：经济管理学院专业: 信息管理与信息系统班级：07304班小组成员：王梦宇李肖楠黄林橙沈岁张舒 2010年6月

〇、SQL Server 2005 Microsoft SQL Server 2005是微软公司在2005年12月推出的一个全面的数据库平台，使用集成的商业智能工具，提供了企业级的数据管理。使用Business Intelligence Development Studio 在Analysis Services 项目中定义数据源、数据源视图、维度和多维数据集，并可以利用其现有的数据挖掘算法方便简单的对数据进行分析。SQL Server 2005包括算法主要有：决策树，关联规则，神经网络，时序，聚类分析等。微软公司的数据库产品SQL Server 2005中包含了数据挖掘特性, 可以直接从数据库或者数据仓库中进行数据挖掘操作，实现数据挖掘与数据库以及应用程序的紧密耦合，从而大大提高数据挖掘效率。 Microsoft关联规则算法属于priori关联规则算法家族，该算法适用于挖掘频繁项集的非常流行和有效的算法。在关联算法中有两个步骤：第一个步骤是挖掘频繁项集；第二步是基于频繁项集来生成关联规则。关联规则算法对算法参数的设置非常敏感。以下是用于Microsoft 关联规则算法的一系列参数： 1．Minimum_Support:定义了项要成为频繁项集所必须满足的最小支持度。 2．Maximum_Support：定义了频繁项集的最大支持度阈值。 3．Minimum_Probability：定义了一个关联规则的最小概率。 4．Minimum_Importance：重要性小于它的规则会被过滤掉。

基于数据挖掘的统计过程控制项目研究.doc

基于数据挖掘的统计过程控制项目研究统计过程控制(Statistical Process Control)是一种借助数理统计方法的先进质量管理和控制技术，以过程的稳定性为主要目标，强调全过程的预防，能够有效地降低产品的不合格率，从而降低生产成本。近年来SPC技术在国外的应用已经非常广泛，已经成为提高企业管理的有效工具，通过SPC 方法运用统计技术对生产过程中的各工序参数进行监控，从而达到保证产品质量和生产精细化的目的。目前SPC 在国内烟草企业的生产过程应用在生产管理和统计数据分析中大多只停留在现场的监控，和事后数据罗列。大部分还停留在使用MiniTab软件，或应用Excel 表格中的一些简单SPC统计功能。只能进行事后分析和处理，数据处理滞后且效率较低，不能达到实时监控。本文基于数据挖掘(data mining) SPC项目应用，利用数据挖掘理论识别卷烟生产关键工序，从大量数据中获取有效的、稳定模式的生产过程数据，对其进行分析建模。进行软件开发，采用面向多对象的思想，将制丝生产中所有质量特征经过检测仪器实时检测后，转换为计算机能识别连续型的随机变量数值，进一步更好的应用实时数据指导生产。首先，介绍了我国烟草行业的概况和研究背景，论述了国内外相关技术的发展状况和研究状况，阐述了本课题的研究内容和意义并探讨了SPC及数据挖掘的原理及发展。其次，进行了数据挖掘SPC质量控制系统设计。主要内容包括青岛卷烟厂企业信息化现状，确定实施SPC背景，及实施项目的软硬件基础。再次，进行了数据挖掘SPC系统在关键工序中的应用。根据业务相关需求设计了可行的数据挖掘的功能模型及算法、系统架构及其实现，包括具体的功能的实现，主要是在混丝加香段

大数据挖掘weka大数据分类实验报告材料

一、实验目的使用数据挖掘中的分类算法，对数据集进行分类训练并测试。应用不同的分类算法，比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。二、实验环境实验采用Weka 平台，数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。 Weka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发。Weka使用Java 写成的，并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数据集，并评估由不同的学习方案所得出的结果。三、数据预处理 Weka平台支持ARFF格式和CSV格式的数据。由于本次使用平台自带的ARFF格式数据，所以不存在格式转换的过程。实验所用的ARFF格式数据集如图1所示图1 ARFF格式数据集(iris.arff)

对于iris数据集，它包含了150个实例（每个分类包含50个实例），共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型，class属性为分类属性，表示实例所对应的的类别。该数据集中的全部实例共可分为三类：Iris Setosa、Iris Versicolour和Iris Virginica。实验数据集中所有的数据都是实验所需的，因此不存在属性筛选的问题。若所采用的数据集中存在大量的与实验无关的属性，则需要使用weka平台的Filter(过滤器)实现属性的筛选。实验所需的训练集和测试集均为iris.arff。四、实验过程及结果应用iris数据集，分别采用LibSVM、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价，分别在训练数据上训练出分类模型，找出各个模型最优的参数值，并对三个模型进行全面评价比较，得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器，并利用该分类器对测试数据进行预测。 1、LibSVM分类 Weka 平台内部没有集成libSVM分类器，要使用该分类器，需要下载libsvm.jar并导入到Weka中。用“Explorer”打开数据集“iris.arff”，并在Explorer中将功能面板切换到“Classify”。点“Choose”按钮选择“functions(weka.classifiers.functions.LibSVM)”，选择LibSVM分类算法。在Test Options 面板中选择Cross-Validatioin folds=10，即十折交叉验证。然后点击“start”按钮：

数据挖掘实验报告

数据挖掘实验报告 ——加权K-近邻法一、数据源说明 1. 数据理解数据来自于天猫对顾客的BuyOrNot(买与不买)，BuyDNactDN(消费活跃度)，ActDNTotalDN(活跃度)，BuyBBrand(成交有效度)，BuyHit(活动有效度)这五个变量的统计。数据分成两类数据，一类作为训练数据集，一类为测试数据集。 2.数据清理现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值，光滑噪声并识别离群点，并纠正数据中的不一致。 a) 缺失值：当数据中存在缺失值是，忽略该元组 b) 噪声数据：本文暂没考虑。二、基于变量重要性的加权K-近邻法[1] 由于我们计算K-近邻法默认输入变量在距离测度中有“同等重要”的贡献，但情况并不总是如此。我们知道不同的变量对我们所要预测的变量的作用是不一定一样的，所以找出对输出变量分类预测有意义的重要变量对数据预测具有重要作用。同时也可以减少那些对输出变量分类预测无意义的输入变量，减少模型的变量。为此，采用基于变量重要性的K-近邻法，计算加权距离，给重要的变量赋予较高的权重，不重要的变量赋予较低的权重是必要的。（1）算法思路：我们引进1w 为第i 个输入变量的权重，是输入变量重要性（也称特征重要性），FI 函数，定义为：∑== p j i FI FI 1 ) i ()((i)w 。其中(i)FI 为第i 个输入变量的特征重要性， ∑=<1,1w )((i)i w 这里，(i)FI 依第i 个输入变量对预测误差的影响定义。设输入变量集合包含p 个变量：p x x x x ,...,,,321。剔除第i 个变量后计算输入变量

宁夏分行：资金体内循环及承接率-数据挖掘与分析报告

宁夏区分行资金体内循环及承接率数据挖掘与分析报告宁夏区分行新一代项目组朱子奕 2014/12/2

我行应总行指示，自2014年中旬知晓了资金体内循环和资金承接率两个专项数据的重要性后，就从数据挖掘及分析方面，展开了对这两项数据指标的提取、整理、研究处理工作。现就相关分析成果向大家做汇报：一、在总行未开始全面通报这两项数据时，我行便开始自发的数据处理工作，借助科技部门的力量，从ODSB数据库中提取数据，针对体内循环及承接率，首先从两个路径提取了数据，以ODSB中“汇划/非汇划”为标志，区分了两类数据。并分别对数据进行了大量的处理工作。在这里再跟大家啰嗦一下两个指标的含义，体内循环率指我行对公户转到其他我行对公户的资金量或笔数占我行对公户转出到所有金融机构对公户款项的占比，承接率指我行对公户接收其他我行对公户的资金量或笔数占我行对公户接收所有金融机构对公户的款项的占比。 1、行内→行内在刚提取出这类数据时，我们发现相对于行内→行外，这类数据的数据量大的有点异常，如果直接以此为基础，那么算出的体内循环率会远远超过总行平均水平和其他先进分行的水平，所以一度让我们对取数的路径和操作步骤产生了怀疑。但我们与资金结算部的账务交易专家进行了讨论、又对几十万条的转账信息做了梳理后发现，在所有行内→行内的交易数据中，有很大一部分数据其实属于非常规类客户交易，应该在做这类数据处理时进行剔除，比如下面这几种： ①现金管理系统运行所产生的资金归集与资金划拨； ②回单柜使用费、短信使用费、汇划费等我行业务管理费； ③同名客户之间划拨的多发自身交易； ④贷款回收本息，及其他通过内部账户发生的交易；当对这4类数据进行了剔除后，整个样本数量集便呈现出一个正常的数量，OK，

数据挖掘期末实验报告

数据挖掘技术期末报告理学院姓名：学号：联系电话：

专业班级：评分：优□|良□|中□|及格□|不及格□

一、实验目的基于从UCI公开数据库中下载的数据，使用数据挖掘中的分类算法，用Weka 平台的基本功能对数据集进行分类，对算法结果进行性能比较，画出性能比较图，另外针对不同数量的训练集进行对比实验，并画出性能比较图训练并测试。二、实验环境实验采用Weka平台，数据使用来自从UCI公开数据库中下载，主要使用其中的Breast Cancer Wisc-onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发。Weka使用Java写成的，并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数据集，并评估由不同的学习方案所得出的结果。三、实验步骤 3.1数据预处理本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类，该表含有Sample code number（样本代码)，Clump Thickness（丛厚度），Uniformity of Cell Size（均匀的细胞大小），Uniformity of Cell Shape （均匀的细胞形状），Marginal Adhesion（边际粘连），Single Epithelial Cell Size（单一的上皮细胞大小），Bare Nuclei（裸核），Bland Chromatin（平淡的染色质），Normal Nucleoli（正常的核仁），Mitoses（有丝分裂），Class（分类），其中第二项到第十项取值均为1-10，分类中2代表良性，4代表恶性。通过实验，希望能找出患乳腺癌客户各指标的分布情况。

数据挖掘实验报告1

实验一 ID3算法实现一、实验目的通过编程实现决策树算法，信息增益的计算、数据子集划分、决策树的构建过程。加深对相关算法的理解过程。实验类型：验证计划课间：4学时二、实验内容 1、分析决策树算法的实现流程； 2、分析信息增益的计算、数据子集划分、决策树的构建过程； 3、根据算法描述编程实现算法，调试运行； 4、对所给数据集进行验算，得到分析结果。三、实验方法算法描述：以代表训练样本的单个结点开始建树；若样本都在同一个类，则该结点成为树叶，并用该类标记；否则，算法使用信息增益作为启发信息，选择能够最好地将样本分类的属性；对测试属性的每个已知值，创建一个分支，并据此划分样本；算法使用同样的过程，递归形成每个划分上的样本决策树递归划分步骤，当下列条件之一成立时停止：给定结点的所有样本属于同一类；没有剩余属性可以进一步划分样本，在此情况下，采用多数表决进行四、实验步骤 1、算法实现过程中需要使用的数据结构描述： Struct {int Attrib_Col; // 当前节点对应属性 int Value; // 对应边值 Tree_Node* Left_Node; // 子树 Tree_Node* Right_Node // 同层其他节点 Boolean IsLeaf; // 是否叶子节点 int ClassNo; // 对应分类标号 }Tree_Node; 2、整体算法流程

主程序： InputData(); T=Build_ID3(Data,Record_No, Num_Attrib); OutputRule(T); 释放内存; 3、相关子函数： 3.1、 InputData() { 输入属性集大小Num_Attrib; 输入样本数Num_Record; 分配内存Data[Num_Record][Num_Attrib]; 输入样本数据Data[Num_Record][Num_Attrib]；获取类别数C(从最后一列中得到); } 3.2、Build_ID3(Data,Record_No, Num_Attrib) { Int Class_Distribute[C]; If (Record_No==0) { return Null } N=new tree_node(); 计算Data中各类的分布情况存入Class_Distribute Temp_Num_Attrib=0; For (i=0;i=0) Temp_Num_Attrib++; If Temp_Num_Attrib==0 { N->ClassNo=最多的类； N->IsLeaf=TRUE; N->Left_Node=NULL;N->Right_Node=NULL; Return N; } If Class_Distribute中仅一类的分布大于0 { N->ClassNo=该类； N->IsLeaf=TRUE; N->Left_Node=NULL;N->Right_Node=NULL; Return N; } InforGain=0;CurrentCol=-1; For i=0;i

数据挖掘实验报告一

数据预处理一、实验原理预处理方法基本方法 1、数据清洗去掉噪声和无关数据 2、数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储中 3、数据变换把原始数据转换成为适合数据挖掘的形式 4、数据归约主要方法包括:数据立方体聚集，维归约，数据压缩，数值归约，离散化和概念分层等二、实验目的掌握数据预处理的基本方法。三、实验内容 1、R语言初步认识（掌握R程序运行环境） 2、实验数据预处理。（掌握R语言中数据预处理的使用）对给定的测试用例数据集，进行以下操作。 1）、加载程序，熟悉各按钮的功能。 2）、熟悉各函数的功能，运行程序，并对程序进行分析。对餐饮销量数据进统计量分析，求销量数据均值、中位数、极差、标准差，变异系数和四分位数间距。对餐饮企业菜品的盈利贡献度（即菜品盈利帕累托分析），画出帕累托图。 3）数据预处理缺省值的处理：用均值替换、回归查补和多重查补对缺省值进行处理对连续属性离散化：用等频、等宽等方法对数据进行离散化处理四、实验步骤 1、R语言运行环境的安装配置和简单使用（1）安装R语言 R语言下载安装包，然后进行默认安装，然后安装RStudio 工具（2）R语言控制台的使用 1.2.1查看帮助文档

1.2.2 安装软件包 1.2.3 进行简单的数据操作（3）RStudio 简单使用 1.3.1 RStudio 中进行简单的数据处理 1.3.2 RStudio 中进行简单的数据处理

2、R语言中数据预处理（1）加载程序，熟悉各按钮的功能。（2）熟悉各函数的功能，运行程序，并对程序进行分析 2.2.1 销量中位数、极差、标准差，变异系数和四分位数间距。 , 2.2.2对餐饮企业菜品的盈利贡献度（即菜品盈利帕累托分析），画出帕累托图。

数据挖掘 FP-Growth算法实验报告

FP-Growth算法实验报告一、算法介绍数据挖掘是从数据库中提取隐含的、未知的和潜在的有用信息的过程,是数据库及相关领域研究中的一个极其重要而又具有广阔应用前景的新领域. 目前,对数据挖掘的研究主要集中在分类、聚类、关联规则挖掘、序列模式发现、异常和趋势发现等方面,其中关联规则挖掘在商业等领域中的成功应用使它成为数据挖掘中最重要、最活跃和最成熟的研究方向. 现有的大多数算法均是以Apriori 先验算法为基础的,产生关联规则时需要生成大量的候选项目集. 为了避免生成候选项目集,Han等提出了基于FP 树频繁增长模式（Frequent-Pattern Growth，FP-Growth）算法。 FP 树的构造过程可描述为: 首先创建树的根结点, 用“null”标记. 扫描交易数据集DB ,每个事务中的项目按照支持度递减排序,并对每个事务创建一个分枝. 一般地,当为一个事务考虑增加分枝时,沿共同前缀上的每个结点的计数值增加1 ,为跟随在前缀之后的项目创建结点并链接. 为方便树的遍历,创建一个频繁项目列表,使得每个项目通过一个结点头指针指向它在树中的位置. FP 树挖掘过程可描述为:由长度为1 的频繁项目开始,构造它的条件项目基和条件FP树,并递归地在该树上进行挖掘. 项目增长通过后缀项目与条件FP 树产生的频繁项目连接实现. FP-Growth 算法将发现大频繁项目集的问题转换成递归地发现一些小频繁项目,然后连接后缀.它使用最不频繁的项目后缀,提供了好的选择性。算法：FP-Growth。使用FP树，通过模式增长挖掘频繁模式。输入： ?D：事物数据库 ?min_sup：最小支持度阈值输出：频繁模式的完全集。方法： 1.按一下步骤构造FP树：（a）扫描数据库D一次。手机频繁项的集合F和它们的支持度计数。对F按支持度计数降序排序，结果为频繁项列表L。（b）创建FP树的根节点，以“null”标记它。对于D中每个事物Trans，执行：选择Trans中的频繁项，并按L中的次序排序。设Trans排序后的频繁项列表为[p|P]，其中p是第一个元素，而P是剩下的元素列表。调用insert_tree([p|P],T)。该过程执行情况如下。如果T有子女N使得N.item-name=p.item-name，则N的计数增加1；否则，创建一个新节点N，将其计数设置为1，链接到它的父节点T，并且通过节点链结构将其链接到具有相同item-name的结点。如果P非空，则递归地调用insert_tree(P,N)。 2.FP树的挖掘通过调用FP-growth（FP_tree,null）实现。该过程实现如下。 Procedure FP_growth(Tree,α) （1）if Tree包含单个路径P then （2）for路径P中结点的每个组合（记作β）

创新项目总结报告范文

创新项目总结报告范文创新项目总结报告范文拾光APP是我的一个互联网创业项目，针对的群体主要是大学生和中学生，解决了他们学习的时候忍不住玩手机的问题。目前产品获得种子轮融资，在20+安卓市场上线，下载量超过60,000，微信关注量6,000+，微博关注量4,000+;产品曾获360应用圈、小米市场、vivo市场好评推荐;获全国大学生互联网+创新创业大赛省赛金奖等多项大奖。它的市场有上亿的用户，盈利空间也上亿;它的竞品有我要当学霸(上千万的下载量)、forest(百万下载量)，但拾光有自己的独特优势;它的用户主要是大学生和中学生，他们有戒除手机上瘾，提高学习效率的需求，拾光能够帮助他们解决这个痛点。产品分为倒计时设置、分时段设置、锁屏、挑战模块等功能。前三者解决了用户一次性、多次分时段时间管理的功能。挑战模块用于激励用户。项目进行过程中遇到过很多困惑，包括技术难题、团队人员流失问题等。其中，面对团队人员流失，我们的解决方案是:使用各种途径去找技术人员，包括 1.校园高薪请人(找到了大神); 2.其他工作室挖人(最好的方法，找到了鱿鱼和王k);

3.社招(培训机构如刘k;已工作的人，如摩托罗拉Panda，失败); 4.甚至想过外包(但最终放弃，因为创业团队的技术还是得掌握在自己手中); 我的个人收获: 1.专业实践:全面学习和实践了一个互联网产品的从0到1，学会了做产品和运营; 2.管理能力:学习如何带团队，也收获了一群朋友; 拾光分析.jpg 一、产品定位这是一款时间管理类APP(工具型)。二、目标用户目标用户:大学生(尤其是考研党)、初高中生(尤其是高三生，尤其是二级中学学生)、需要高效率时间管理的上班族。用户画像:20岁的大三学生小王是个考研党，但是复习一直没法进入状态。上课时控制不住玩手机，听不进课;到图书馆自习，一掏出手机，就玩了一上午，什么也没做。他感到非常浪费时间，学习效率极低，但是没有办法控制自己对手机的依赖。三、使用场景学习的时候，期末复习的时候，考研复习的时候，高三