过程挖掘:数据科学实战

Process Mining: Data science in Action

过程挖掘是基于模型的过程分析和面向数据的分析技术之间所缺少的一个环节,课程通过具体的数据集和使用方便的软件为大家提供可以直接用于分析和改进各领域过程的科学知识。

埃因霍温科技大学

Coursera

计算机

普通(中级)

29 小时

Sponsored\Ad:本课程链接由Coursera和Linkshare共同提供
  • 英语
  • 1808

课程概况

数据科学是一个属于未来的学科,不能以智慧的方式使用(大)数据的组织将无法生存。数据科学家仅仅专注于数据存储和数据分析是不够的,还要将数据与过程分析联系起来。过程挖掘在传统的基于模型的过程分析(如模拟和其他业务流程管理技术)和以数据为中心的分析技术(如机器学习和数据挖掘)之间搭建了一座重要桥梁。过程挖掘寻求事件数据(如观察行为)和过程模型(手制或自动发现)之间的交汇。该技术最近才得以应用,但是却适用于各种类型的操作过程(组织和系统)。应用实例包括:分析医院的治疗过程、改进跨国公司的客户服务、了解客户使用预定网站的浏览行为、行李处理系统的失效分析,以及改进X光机的用户界面。所有这些应用都有一个共同点,即动态行为与过程模型相关联。所以,我们称之为“数据科学实战”。

课程主讲过程挖掘中的关键分析技术,同学们将学习各种过程发现算法,这些算法可通过原始的事件数据自动学习过程模型。我们还会研究其他各类运用事件数据的过程分析技术,并提供可在各种应用领域中直接运用该理论的易用软件、真实数据集和实用技能。

Process mining is the missing link between model-based process analysis and data-oriented analysis techniques. Through concrete data sets and easy to use software the course provides data science knowledge that can be applied directly to analyze and improve processes in a variety of domains.

Data science is the profession of the future, because organizations that are unable to use (big) data in a smart way will not survive. It is not sufficient to focus on data storage and data analysis. The data scientist also needs to relate data to process analysis. Process mining bridges the gap between traditional model-based process analysis (e.g., simulation and other business process management techniques) and data-centric analysis techniques such as machine learning and data mining. Process mining seeks the confrontation between event data (i.e., observed behavior) and process models (hand-made or discovered automatically). This technology has become available only recently, but it can be applied to any type of operational processes (organizations and systems). Example applications include: analyzing treatment processes in hospitals, improving customer service processes in a multinational, understanding the browsing behavior of customers using booking site, analyzing failures of a baggage handling system, and improving the user interface of an X-ray machine. All of these applications have in common that dynamic behavior needs to be related to process models. Hence, we refer to this as “data science in action”.

The course explains the key analysis techniques in process mining. Participants will learn various process discovery algorithms. These can be used to automatically learn process models from raw event data. Various other process analysis techniques that use event data will be presented. Moreover, the course will provide easy-to-use software, real-life data sets, and practical skills to directly apply the theory in a variety of application domains.

This course starts with an overview of approaches and technologies that use event data to support decision making and business process (re)design. Then the course focuses on process mining as a bridge between data mining and business process modeling. The course is at an introductory level with various practical assignments.

首先,课程会大致介绍利用事件数据支持决策和企业过程(再)设计的相关方法和技术;进而重点研究数据挖掘与企业过程建模之间的桥梁——过程挖掘。作为入门级课程,我们还安排了各种实践任务。

课程主要研究三类过程挖掘:
1、第一类过程挖掘是(过程)发现。发现技术通过事件日志制作过程模型,而不利用任何先验信息。例如:通过事件日志制作过程模型(Petri网),解释日志中记录行为的Alpha算法。

2、第二类过程挖掘是(过程)一致性。现有的过程模型与相同过程的事件日志进行比较。一致性检查可用于检查日志所记录的真实数据是否与模型相符,反之亦然。

3、第三类过程挖掘是(过程)增强。思路是利用某些事件日志记录的实际过程信息,扩展或改进现有的过程模型。不过,一致性检查衡量的是模型与现实之间的一致性,而这第三类过程挖掘旨在改变或扩展先验模型。 实例之一便是利用性能信息扩展过程模型,如显示瓶颈问题。过程挖掘技术可以线下使用,也可以线上设置,后者也被称为操作支持。例如出现偏差时对不一致性的察觉。再比如运行情况的时间预测,即部分运行已执行,剩余的处理时间可以根据类似过程的历史信息进行估计。

过程挖掘不仅在数据挖掘和企业过程管理之间搭建了一座桥梁;而且有助于解决“企业”和“IT”领域经典的划分问题。 基于过程挖掘的企业过程询证管理可以帮助我们为企业过程优化和信息系统开发创建一个共同基础。

我们将列举多个实例,利用真实的事件日志来研究相关概念和算法。 通过对这门课的学习,同学们将对企业过程智能领域有一个充分的了解,并能够运行过程挖掘项目。

你将学到什么

充分了解企业过程智能技术(尤其是过程挖掘);

了解大数据 在当今社会中的作用;

能够将过程挖掘技术与其他分析技术如模拟、企业智能、数据挖掘、机器学习和验证等结合起来;

能够运用基本的过程发现技术,通过事件日志学习过程建模(手制或利用工具);

能运用基本的一致性检查技术比较事件日志和过程模型(动手或利用工具);

能利用从事件日志中提取的信息扩展过程模型(如,显示瓶颈问题);

对需要启动过程挖掘项目的数据有一个充分的认识;

能够描述基于此类事件数据做出回答的相关问题的特征;

解释过程挖掘如何用于运行支持(预测与建议),

能够以结构化的方式执行过程挖掘项目。

课程大纲

周1
完成时间为 6 小时
Introduction and Data Mining
This first module contains general course information (syllabus, grading information) as well as the first lectures introducing data mining and
process mining.
18 个视频 (总计 228 分钟), 7 个阅读材料, 2 个测验

周2
完成时间为 4 小时
Process Models and Process Discovery
In this module we introduce process models and the key feature of process mining: discovering process models from event data.
8 个视频 (总计 159 分钟), 1 个阅读材料, 2 个测验

周3
完成时间为 3 小时
Different Types of Process Models
Now that you know the basics of process mining, it is time to dive a little bit deeper and show you other ways of discovering a process model
from event data.
8 个视频 (总计 145 分钟), 1 个阅读材料, 1 个测验

周4
完成时间为 5 小时
Process Discovery Techniques and Conformance Checking
In this module we conclude process discovery by discussing alternative approaches. We also introduce how to check the conformance of the
event data and the process model.
8 个视频 (总计 129 分钟), 1 个阅读材料, 2 个测验

周5
完成时间为 2 小时
Enrichment of Process Models
In this module we focus on enriching process models. We can for instance add the data aspect to process models, show bottlenecks on the
process model and analyse the social aspects of the process.
9 个视频 (总计 113 分钟), 1 个阅读材料, 1 个测验

周6
完成时间为 3 小时
Operational Support and Conclusion
In this final module we discuss how process mining can be applied on running processes. We also address how to get the (right) event data,
process mining software, and how to get from data to results.

预备知识

大致了解逻辑、集合和统计学知识(大学本科水平),课上会使用相关软件,所以要具备基本的电脑技能(但无需编程经验)。希望学员们对过程建模和数据挖掘感兴趣,但是无需背景知识,因为课上会介绍这些概念。

参考资料

课程没有配套教材,虽然课程相对独立,所学内容课上均已包含,不过还是建议同学们参考《过程挖掘:企业过程的发现、一致性与增强》(Process Mining: Discovery, Conformance and Enhancement of Business Processes),作者:W.M.P. van der Aalst,Springer-Verlag出版社,2011年(ISBN 978-3-642-19344-6),书中内容与课程紧密贴合,但不做强制性要求;也可以浏览过程挖掘声明或访问网站http://www.processmining.org/查阅更多背景资料。

常见问题

选修这门课需要特定软件吗?
需要,除了标准软件,如网络浏览器外,我们还需要特定的软件。请详见本页的“软件”部分。

选修这门课需要相关的科学背景吗?
大致了解逻辑、集合和统计学知识(大学本科水平)

数据科学家:21世界最具吸引力的工作?
2009年,首席经济学家Hal Varian在Google上指出:“未来十年,数据科学家将成为一个极具吸引力的职业。人们认为我在开玩笑,但是当时谁又能猜到电脑工程师会成为20世纪90年代的热门职业呢?”这之后,“数据科学家:21世纪最具吸引力的工作”一文引发了人们对数据科学家这一新兴市场需求的讨论。几家媒体在分析就业空缺时提到了此说法,我们的确看到市场对数据科学家的需求正在飞速增长。近期,大数据备受关注也说明了数据科学的重要性。

过程挖掘与数据挖掘相同吗?
传统的数据挖掘方法不以过程为中心,数据挖掘输入的是典型的记录集合,输出的是决策树、集群的集合或频繁模式。过程挖掘从事件开始,输出与端对端过程模型相关联。数据挖掘工具可用于支持更大过程中的特定决策。但是,它们无法用于过程发现、一致性检查和其他形式的过程分析。这门课还为大家介绍了基本的数据挖掘方法,并与过程挖掘相结合,从而说明二者的差别与共性。

课程都使用哪些软件?
过程挖掘的开源框架ProM,详见 www.processmining.org)和来自Fluxicon的商业过程挖掘工具Disco(详见www.fluxicon.com)。 Disco使用方便,本课程学员可以免费使用。Disco可以非常轻松地将原始数据转换为适用于过程挖掘的事件日志,并迅速创建过程模型,以显示过程中的瓶颈问题。ProM则更高级一些,可提供上百种不同类型的分析,而且支持课上讨论的所有过程挖掘技术。

课程使用哪类数据集?
课程提供的几类数据集,从简单的合成事件日志到复杂的大型真实事件日志,如医院治疗数据、汽车制造商的事故日志、保险公司的贷款申请日志和银行的事件日志。简单的事件日志用于解释和说明技术问题,而复杂的事件日志则有助于深入理解真实数据科学项目当下正面临的挑战。

过程挖掘只适用于企业过程分析吗?
不是,虽然课上的很多案例取自企业过程,但也有软件和各种设备的进程,例如,可利用过程挖掘了解机器和软件产品失败的时间和原因;今后将有越来越多的设备通过物联网与互联网连接,从而显著扩展过程挖掘的适用范围。过程挖掘可用于分析各种行为,例如机器和硬件/软件系统领域。

我可以利用自己的数据进行过程挖掘吗?
事件数据无处不在,课程列举了很多案例加以说明,我们也鼓励大家应用软件分析这些数据集,例如来自社交媒体(twitter和facebook)或企业信息系统(如:SAP)的数据

Self-Driving Cars. Become an autonomous vehicle engineer.
声明:MOOC中国发布之课程均源自下列机构,版权均归他们所有。本站仅作报道收录并尊重其著作权益,感谢他们对MOOC事业做出的贡献!(排名不分先后)
  • Coursera
  • edX
  • OpenLearning
  • FutureLearn
  • iversity
  • Udacity
  • NovoEd
  • Canvas
  • Open2Study
  • Google
  • ewant
  • FUN
  • IOC-Athlete-MOOC
  • World-Science-U
  • Codecademy
  • CourseSites
  • opencourseworld
  • ShareCourse
  • gacco
  • MiriadaX
  • JANUX
  • openhpi
  • Stanford-Open-Edx
  • 网易云课堂
  • 中国大学MOOC
  • 学堂在线
  • 顶你学堂
  • 华文慕课
  • 好大学在线CnMooc
  • 以及更多...

© 2008-2018 MOOC.CN 慕课改变你,你改变世界