过程挖掘:数据科学实战

Process Mining: Data science in Action

过程挖掘是基于模型的过程分析和面向数据的分析技术之间所缺少的一个环节,课程通过具体的数据集和使用方便的软件为大家提供可以直接用于分析和改进各领域过程的科学知识。

埃因霍温科技大学

分享

过程挖掘:数据科学实战

课程概述

数据科学是一个属于未来的学科,不能以智慧的方式使用(大)数据的组织将无法生存。数据科学家仅仅专注于数据存储和数据分析是不够的,还要将数据与过程分析联系起来。过程挖掘在传统的基于模型的过程分析(如模拟和其他业务流程管理技术)和以数据为中心的分析技术(如机器学习和数据挖掘)之间搭建了一座重要桥梁。过程挖掘寻求事件数据(如观察行为)和过程模型(手制或自动发现)之间的交汇。该技术最近才得以应用,但是却适用于各种类型的操作过程(组织和系统)。应用实例包括:分析医院的治疗过程、改进跨国公司的客户服务、了解客户使用预定网站的浏览行为、行李处理系统的失效分析,以及改进X光机的用户界面。所有这些应用都有一个共同点,即动态行为与过程模型相关联。所以,我们称之为“数据科学实战”。

课程主讲过程挖掘中的关键分析技术,同学们将学习各种过程发现算法,这些算法可通过原始的事件数据自动学习过程模型。我们还会研究其他各类运用事件数据的过程分析技术,并提供可在各种应用领域中直接运用该理论的易用软件、真实数据集和实用技能

课程大纲

首先,课程会大致介绍利用事件数据支持决策和企业过程(再)设计的相关方法和技术;进而重点研究数据挖掘与企业过程建模之间的桥梁——过程挖掘。作为入门级课程,我们还安排了各种实践任务。

课程主要研究三类过程挖掘:
1、第一类过程挖掘是(过程)发现。发现技术通过事件日志制作过程模型,而不利用任何先验信息。例如:通过事件日志制作过程模型(Petri网),解释日志中记录行为的Alpha算法。

2、第二类过程挖掘是(过程)一致性。现有的过程模型与相同过程的事件日志进行比较。一致性检查可用于检查日志所记录的真实数据是否与模型相符,反之亦然。

3、第三类过程挖掘是(过程)增强。思路是利用某些事件日志记录的实际过程信息,扩展或改进现有的过程模型。不过,一致性检查衡量的是模型与现实之间的一致性,而这第三类过程挖掘旨在改变或扩展先验模型。 实例之一便是利用性能信息扩展过程模型,如显示瓶颈问题。过程挖掘技术可以线下使用,也可以线上设置,后者也被称为操作支持。例如出现偏差时对不一致性的察觉。再比如运行情况的时间预测,即部分运行已执行,剩余的处理时间可以根据类似过程的历史信息进行估计。

过程挖掘不仅在数据挖掘和企业过程管理之间搭建了一座桥梁;而且有助于解决“企业”和“IT”领域经典的划分问题。 基于过程挖掘的企业过程询证管理可以帮助我们为企业过程优化和信息系统开发创建一个共同基础。

我们将列举多个实例,利用真实的事件日志来研究相关概念和算法。 通过对这门课的学习,同学们将对企业过程智能领域有一个充分的了解,并能够运行过程挖掘项目。

通过学习,学员应当:
– 充分了解企业过程智能技术(尤其是过程挖掘);
– 了解大数据 在当今社会中的作用;
– 能够将过程挖掘技术与其他分析技术如模拟、企业智能、数据挖掘、机器学习和验证等结合起来;
– 能够运用基本的过程发现技术,通过事件日志学习过程建模(手制或利用工具);
– 能运用基本的一致性检查技术比较事件日志和过程模型(动手或利用工具);
– 能利用从事件日志中提取的信息扩展过程模型(如,显示瓶颈问题);
– 对需要启动过程挖掘项目的数据有一个充分的认识;
– 能够描述基于此类事件数据做出回答的相关问题的特征;
– 解释过程挖掘如何用于运行支持(预测与建议),
– 能够以结构化的方式执行过程挖掘项目。

背景知识

大致了解逻辑、集合和统计学知识(大学本科水平),课上会使用相关软件,所以要具备基本的电脑技能(但无需编程经验)。希望学员们对过程建模和数据挖掘感兴趣,但是无需背景知识,因为课上会介绍这些概念。

参考资料

课程没有配套教材,虽然课程相对独立,所学内容课上均已包含,不过还是建议同学们参考《过程挖掘:企业过程的发现、一致性与增强》(Process Mining: Discovery, Conformance and Enhancement of Business Processes),作者:W.M.P. van der Aalst,Springer-Verlag出版社,2011年(ISBN 978-3-642-19344-6),书中内容与课程紧密贴合,但不做强制性要求;也可以浏览过程挖掘声明或访问网站http://www.processmining.org/查阅更多背景资料。

授课形式

– 课程为期6周。每周包含一组简短的教学视频(以“单元”为单位),每个视频长约8-15分钟。
– 每周的阅读任务。
– 周测验(多选,在线测试),以检验大家对每周视频内容的掌握程度。
– 期末考试(多选,在线测试)。
– 针对每周内容的补充练习和实践解决方案,其中包括测验和期末考试中不曾涉及的、更深入的练习。
– 运用工具和技术研究真实数据,并发布简短报告(普通证书级别可选做)。
– 工具测验,有助于了解课上使用的各种工具(普通证书级别可选做)。
– 论坛讨论

常见问题

学完这门课,我能获得结课证书吗?
凡顺利完成本课程的学生均可获得由授课老师签发的结课证书。

选修这门课需要准备什么?
需要台式机和/或平板电脑来观看视频(注意:工具无法在安卓或苹果平板电脑上运行),网速良好,准备好我们提供的阅读材料和你的好奇心。由于课程工具不适用于平板电脑,所以需要具备台式机或笔记本电脑来运行工具和完成作业。

选修这门课需要特定软件吗?
需要,除了标准软件,如网络浏览器外,我们还需要特定的软件。请详见本页的“软件”部分。

选修这门课需要相关的科学背景吗?
大致了解逻辑、集合和统计学知识(大学本科水平)

如何提问?
同学们可以通过在线论坛讨论提问和寻找答案,在线课堂能以最快速度显示其他同学给出的(最佳)答案,教学团队会监督讨论的准确性,并解答学员们普遍希望我们回复的问题。

为什么免费发布这门课程?
荷兰埃因霍温科技大学是一所年轻、有理想有朝气的技术型高校,我们希望发展自身的国际形象,并与全世界分享和交流自己众多的核心领域知识,我们承诺通过多元化的教育为学生提供求知的空间。该大型开放式网络课程让我们有机会与全世界共享知识。

数据科学家:21世界最具吸引力的工作?
2009年,首席经济学家Hal Varian在Google上指出:“未来十年,数据科学家将成为一个极具吸引力的职业。人们认为我在开玩笑,但是当时谁又能猜到电脑工程师会成为20世纪90年代的热门职业呢?”这之后,“数据科学家:21世纪最具吸引力的工作”一文引发了人们对数据科学家这一新兴市场需求的讨论。几家媒体在分析就业空缺时提到了此说法,我们的确看到市场对数据科学家的需求正在飞速增长。近期,大数据备受关注也说明了数据科学的重要性。

过程挖掘与数据挖掘相同吗?
传统的数据挖掘方法不以过程为中心,数据挖掘输入的是典型的记录集合,输出的是决策树、集群的集合或频繁模式。过程挖掘从事件开始,输出与端对端过程模型相关联。数据挖掘工具可用于支持更大过程中的特定决策。但是,它们无法用于过程发现、一致性检查和其他形式的过程分析。这门课还为大家介绍了基本的数据挖掘方法,并与过程挖掘相结合,从而说明二者的差别与共性。

课程都使用哪些软件?
过程挖掘的开源框架ProM,详见 www.processmining.org)和来自Fluxicon的商业过程挖掘工具Disco(详见www.fluxicon.com)。 Disco使用方便,本课程学员可以免费使用。Disco可以非常轻松地将原始数据转换为适用于过程挖掘的事件日志,并迅速创建过程模型,以显示过程中的瓶颈问题。ProM则更高级一些,可提供上百种不同类型的分析,而且支持课上讨论的所有过程挖掘技术。

课程使用哪类数据集?
课程提供的几类数据集,从简单的合成事件日志到复杂的大型真实事件日志,如医院治疗数据、汽车制造商的事故日志、保险公司的贷款申请日志和银行的事件日志。简单的事件日志用于解释和说明技术问题,而复杂的事件日志则有助于深入理解真实数据科学项目当下正面临的挑战。

过程挖掘只适用于企业过程分析吗?
不是,虽然课上的很多案例取自企业过程,但也有软件和各种设备的进程,例如,可利用过程挖掘了解机器和软件产品失败的时间和原因;今后将有越来越多的设备通过物联网与互联网连接,从而显著扩展过程挖掘的适用范围。过程挖掘可用于分析各种行为,例如机器和硬件/软件系统领域。

我可以利用自己的数据进行过程挖掘吗?
事件数据无处不在,课程列举了很多案例加以说明,我们也鼓励大家应用软件分析这些数据集,例如来自社交媒体(twitter和facebook)或企业信息系统(如:SAP)的数据

(课程中文简介转自网易)

声明:MOOC中国收录之课程均源自下列机构,版权均归他们所有。本站仅作报道并尊重其著作权益,感谢他们对MOOC事业做出的贡献!(排名不分先后)
  • Coursera
  • edX
  • OpenLearning
  • FutureLearn
  • iversity
  • Udacity
  • NovoEd
  • Canvas
  • Open2Study
  • Google
  • ewant
  • FUN
  • IOC-Athlete-MOOC
  • World-Science-U
  • Codecademy
  • CourseSites
  • opencourseworld
  • ShareCourse
  • gacco
  • MiriadaX
  • JANUX
  • openhpi
  • Stanford-Open-Edx
  • 网易云课堂
  • 中国大学MOOC
  • 学堂在线
  • 顶你学堂
  • 华文慕课
  • 好大学在线CnMooc

Copyright © 2008-2015 MOOC.CN 慕课改变你,你改变世界