一、你认为什么是数据挖掘
下面是一些特定的挑战,它们引发了对数据挖掘的研究。 可伸缩 由于数据产生和收集技术的进步,数吉字节、数太字节甚至数拍字节的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集,则算法必须是可伸缩的(scalable)。许多数据挖掘算法使用特殊的搜索策略处理指数性搜索问题。可伸缩可能还需要实现新的数据结构,以有效的方式访问个别记录。例如,当要处理的数据不能放进内存时,可能需要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩程度。 高维性 现在,常常遇到具有数以百计或数以千计属性的数据集,而不是数十年前常见的只具有少量属性的数据集。在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因表达数据。具有时间或空间分量的数据集也趋向于具有很高的维度。例如,考虑包含不同地区的温度测量的数据集。如果温度在一个相当长的时间周期内重复地测量,则维度(特征数)的增长正比于测量的次数。为低维数据开发的传统的数据分析技术通常不能很好地处理这样的高维数据。此外,对于某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加。 异种数据和复杂数据 通常,传统的数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大,越来越需要能够处理异种属性的技术。近年来,已经出现了更复杂的数据对象。这些非传统的数据类型的例子包括含有半结构化文本和超链接的Web页面集、具有序列和三维结构的DNA数据、包含地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据。为挖掘这种复杂对象而开发的技术应当考虑数据中的联系,如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子联系。 数据的所有权与分布 有时,需要分析的数据并非存放在一个站点,或归属一个单位,而是地理上分布在属于多个机构的资源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:(1) 如何降低执行分布式计算所需的通信量?(2) 如何有效地统一从多个资源得到的数据挖掘结果?(3) 如何处理数据安全性问题? 非传统的分析 传统的统计方法基于一种假设-检验模式。换句话说,提出一种假设,设计实验来收集数据,然后针对假设分析数据。但是,这一过程劳力费神。当前的数据分析任务常常需要产生和评估数以千计的假设,因此希望自动地产生和评估假设导致了一些数据挖掘技术的开发。此外,数据挖掘所分析的数据集通常不是精心设计的实验的结果,并且它们通常代表数据的时机性样本(opportunistic sample),而不是随机样本(random sample)。而且,这些数据集常常涉及非传统的数据类型和数据分布。 通常,数据挖掘任务分为下面两大类: l 预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称目标变量(target variable)或因变量(dependent variable),而用来做预测的属性称说明变量(explanatory variable)或自变量(independent variable)。 l 描述任务。这里,目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。
|
二、常用的数据挖掘技术
数据挖掘问题类型 对应的技术 ①数据描述和汇总 ②分群: 聚类、神经网路、可视化 ③概念描述: 规则归纳、概念聚类 ④分类: 判别分析、规则归纳、决策树、神经网络、K最近邻、基于案例的推理、遗传算法 ⑤预测: 回归分析、回归树、神经网络、K最近邻、博克斯一詹金斯、遗传算法 ⑥相关分析: 相关分析、回归分析、关联规则、贝叶斯网络、归纳逻辑程序设计、可视化技术
|
三、数据挖掘干什么
职位职责: 1、根据自己对行业,以及公司业务的了解,独自承担复杂分析任务,并形成分析报告; 2、相关分析方向包括:用户行为分析、广告点击分析,业务逻辑相关以及竞争环境相关; 3、根据业务逻辑变化,设计相应分析模型并支持业务分析工作开展。 岗位要求: 1、2年以上行业建模的经验; 2、本科以上,数学,统计,计算机,物理等相关专业毕业; 3、精通统计学,数据挖掘技术,尤其是回归模型、决策树模型。 4、精通SPSS Clementine/SAS EM等各类型数据分析工具,能制作专业分析报告; 5、有金融、通信或互联网某一行业实际数据挖掘项目经验,并对此行业业务有深刻认识; 6、对互联网领域有热情,较强的学习及人际技巧、影响说服能力,喜欢有挑战的工作。
|