文本检索和搜索引擎

Text Retrieval and Search Engines

隶属于 数据挖掘 专项课程 » 搜索引擎是管理和挖掘大文本数据的重要工具。通过这门课,我们将学习搜索引擎的工作…

伊利诺伊大学香槟分校

分享

文本检索和搜索引擎
  • 分类: 计算机
  • 平台: Coursera
  • 语言: 英语

隶属于 数据挖掘 专项课程 »
搜索引擎是管理和挖掘大文本数据的重要工具。通过这门课,我们将学习搜索引擎的工作原理,主要的搜索算法以及如何优化搜索精度。

课程概述

自然语言文本数据近年来一直呈现迅猛发展的态势,其中包括网页、新闻消息、科学文献、电子邮件、企业文件和社会媒体,如微博文章、论坛发帖、产品评论和推特。直接生成文本数据的通常是人类自己,而不是电脑系统或传感器,所以它是独一无二的,而且除了其他许多我们能够进行文本编码的知识以外,文本数据对于发现有关大众看法和偏好的相关知识尤为重要。

课上讲到的搜索引擎技术,在所有涉及文本数据的数据挖掘应用中扮演着重要角色,原因有两个:第一,虽然对于特定问题来说,原始数据可能太大了,但它往往是一个相对较小的相关数据的子集,而在较大的文本集合中,搜索引擎正是快速发现相关文本数据的小型子集的重要工具 。第二,搜索引擎通过检查相关的原始文本数据来了解被发现的模式,从而帮助分析员解释数据中被发现的所有模式。课上,我们将学习文本检索领域的基本概念、原理和主要技术,这些都是关于搜索引擎的基础科学知识。

课程大纲

主要内容包括:
文本数据挖掘简介
文本检索的基本概念
信息检索模型
搜索引擎的实现
搜索引擎的评估
搜索引擎的先进技术

背景知识

了解数据结构的基本知识,最好精通C++或Java编程语言;熟悉概率和统计的基本知识会对学习所有帮助,但不做强制性要求。

授课形式

课程形式包含教学视频,附带测验和同学互相评分的课外作业。

常见问题

这门课与数据挖掘专项课程应该怎样合理安排?
这是该系列课程的第二套课程。

声明:MOOC中国收录之课程均源自下列机构,版权均归他们所有。本站仅作报道并尊重其著作权益,感谢他们对MOOC事业做出的贡献!(排名不分先后)
  • Coursera
  • edX
  • OpenLearning
  • FutureLearn
  • iversity
  • Udacity
  • NovoEd
  • Canvas
  • Open2Study
  • Google
  • ewant
  • FUN
  • IOC-Athlete-MOOC
  • World-Science-U
  • Codecademy
  • CourseSites
  • opencourseworld
  • ShareCourse
  • gacco
  • MiriadaX
  • JANUX
  • openhpi
  • Stanford-Open-Edx
  • 网易云课堂
  • 中国大学MOOC
  • 学堂在线
  • 顶你学堂
  • 华文慕课
  • 好大学在线CnMooc

Copyright © 2008-2015 MOOC.CN 慕课改变你,你改变世界