数据分析中的核心概念

Core Concepts in Data Analysis

课程通过对一维和二维数据的深入分析,研究为开发新概念(主成分分析/聚类)或发现变量之间引人深思的相关性(回归和…

高等经济学院

分享

数据分析中的核心概念

课程通过对一维和二维数据的深入分析,研究为开发新概念(主成分分析/聚类)或发现变量之间引人深思的相关性(回归和分类)而创造的数据分析基本方法的相关理论和应用。

课程简介

正如概念和数据相关性所体现的那样,分析应有助于优化和扩展相关领域的认知,在这种思想的深刻影响下,我们设计开发了这套现代数据分析、机器学习和数据挖掘的非传统课程。从这个角度出发,数据分析的两个主要途径是对概念&相关性研究、建立并优化变量相互关系的总结归纳,其中包括总量、平均值等简单归纳,以及更为复杂的归纳,如:实体集中一组特征和聚类结构的主成分分析。同样,相关性包括输入特征与目标特征(如贝叶斯分类)之间的双变量和多变量关系。

以数据作为对象进行计算分析,是一门新兴技术。在传统的科学和统计学领域,往往是首先发现问题,进而研究有助于寻求解决方案的数据信息;现在,特别是随着大数据的出现,研究却常常相反。典型问题是:研究数据集——其中包含哪些规律?——数据之间是否存在某种结构?这些特征是否有助于预测和总结规律?这个过程更像是旅行家的世界观而非科学家,科学家坐在书桌前,从万物中获得可以复制的信号,试图将其纳入具有普遍意义的模型当中;而旅行家解决的是这个过程中出现的问题——即所谓的数据分析。 鲍里斯·米尔金教授遵循这些原则编写的课程教材已于2011年由Springer伦敦出版社出版发行,相关评论如下:数据分析的核心概念一书,表达清楚,作者以复杂论文少有的清晰度阐述了自己的观点。…课本成功之处选登:估计读者们很难再看到关于数据分析相关概念如此详尽的好书了。(美国计算机学会《计算技术回顾》,2011年6月)。”

课程大纲

第1周 引言
数据的相关示例 和数据分析问题; 数据分析的可视化。

第2周 一维数据分析
特征尺度,直方图,直方图的2种常见类型:高斯定律和幂次定律,中心值,明科夫斯基距离和数据恢复,基于Bootstrap的jQuery表单验证插件Validation-for-Bootstrap。

第3-4周 二维数据分析
相关案例:
(定量变量:散点图,线性回归,相关系数和确定性系数:含义与特性。名义变量:列联表,克托莱指数,皮尔逊卡方系数及其双重意义和可视化)。

第5-6周 多元相关性学习
(贝氏法,贝叶斯分类器与词袋模型;决策树及其构建方法。)

第7周 主成分分析法(PCA) 和奇异值分解
(主成分分析法背后的奇异值分解模型:以学生分数作为主体因子得分和主体载荷的结果,用于获取隐藏的潜在因子的应用程序,数据可视化与主成分分析法,常见的主成分分析与数据归一化问题。)

第8周 k均值聚类
(K均值迭代与K均值特性
K均值标准,异常集群与智能的K均值。)

背景知识

了解微积分的基础知识:函数、倒数和一阶最优性条件的概念;
熟悉线性代数的基本概念,其中包括向量、内积、欧几里得距离和矩阵;
了解集合论符号的基本内容;
并具备在MatLab、R语言或其他软件环境中基本代码的运用能力。

参考资料

虽然本课程相对独立,所学内容课上均已包含,我们依然推荐下列参考书(但不作强制性要求):
《数据分析的核心概念:归纳、相关性与可视化》(Core Concepts in Data Analysis: Summarization, Correlation, Visualization),作者:B.米尔金(2011年),大学计算机科学系列丛书,Springer伦敦出版社。
《数据挖掘:概念与技术》(Data Mining: Concepts and Techniques),第三版,作者:J. Han, M. Kamber,J. Pei (2011年),摩根考夫曼数据管理系列丛书,摩根考夫曼出版社。
《数据分析教学》(Teach Me Data Analysis),作者:H. Lohninger(1999年),出版社:施普林格,柏林-纽约-东京。

授课形式

课程包含一组教学视频,每个时长10-15分钟,附带1-2个随堂测验;另设有独立于教学视频之外的家庭作业;家庭作业包括根据自己的喜好找到一个具有说明性的真实数据集,利用数据集完成数据分析作业,另设期末考试。

常见问题

1. 学完这门课,我能得到结课证书吗?
凡顺利完成本课程的学生均可获得由授课老师签发的结课证书。

2. 选修这门课需要准备什么?
需要能上网的电脑,课程资料副本(多数可免费获取),数据计算环境,如MatLab(学生版售价不高)或免费的统计计算软件R,jpen软件Weka,由时间阅读、计算、研究计算结果、写作和参与讨论。

3. 如何获取学习所需的数据集?
现在有很多包含各种数据集及其相关描述和数据计算结果说明的公共资源库,其中属Irvine数据挖掘资源库最为大众所熟知。不过,还是建议大家先选择一个自己感兴趣的主题,比如足球运动员或电影明星的收入或各国人口的预期寿命。事实上,大家都可以通过Google找到任何主题,拿预期寿命来说,网上可以找到全球200多个国家的“国家-特征”数据表格,其中包括各国人口预期寿命、人均收入、人均工业产值等内容。

4.可以使用除Matlab以外的基于Java的计算环境吗?
当然,任何计算语言/环境都可以。

5.研究方法时可以不用自己编码直接使用现有的软件吗?
可以,但是要对计算软件的参数设置进行描述和说明。

声明:MOOC中国收录之课程均源自下列机构,版权均归他们所有。本站仅作报道并尊重其著作权益,感谢他们对MOOC事业做出的贡献!(排名不分先后)
  • Coursera
  • edX
  • OpenLearning
  • FutureLearn
  • iversity
  • Udacity
  • NovoEd
  • Canvas
  • Open2Study
  • Google
  • ewant
  • FUN
  • IOC-Athlete-MOOC
  • World-Science-U
  • Codecademy
  • CourseSites
  • opencourseworld
  • ShareCourse
  • gacco
  • MiriadaX
  • JANUX
  • openhpi
  • Stanford-Open-Edx
  • 网易云课堂
  • 中国大学MOOC
  • 学堂在线
  • 顶你学堂
  • 华文慕课
  • 好大学在线CnMooc

Copyright © 2008-2015 MOOC.CN 慕课改变你,你改变世界