Python网络爬虫与信息提取

“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。还等什么?快写个爬虫探索世界吧! ——“弹指之间·享受创新”,通过4周学习,你将掌握利用Python语言进行定向网络数据爬取和网页解析的基本能力。

北京理工大学

分享

Python数据分析与展示
  • 分类: 计算机
  • 平台: 中国大学MOOC
  • 语言: 中文

课程概述

“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。还等什么?快写个爬虫探索世界吧!
本课程面向各类编程学习者,讲解利用Python语言爬取网络数据并提取关键信息的技术和方法,帮助学习者掌握定向网络数据爬取和网页解析的基本能力。

本课程介绍Python计算生态中最优秀的网络数据爬取和解析技术,所讲述内容广泛服务于Amazon、Google、NSA、PayPal、Twitter等国际知名公司和组织。包括必修内容和选修内容。

必修内容包括:
(1)Python第三方库Requests,讲解通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法;
(2)robots协议,网络爬虫排除标准,讲解礼貌合法获取信息的规范;
(3)Python第三方库Beautiful Soup,讲解从所爬取HTML页面中解析完整Web信息的方法;
(4)Python标准库Re,讲解从所爬取HTML页面中提取关键信息的方法。

选修(介绍性)内容包括:
(1)“网络爬虫引擎”的设计原理;
(2)Python专业网络爬虫框架第三方库Scrapy,简要介绍构造专业网络爬虫的基本方法。
该课程希望传递“理解和运用计算生态,培养集成创新思维”的理念,重点培养学习者运用当代最优秀第三方专业资源,快速分析和解决问题的能力。

“人生苦短,不要刀耕火种”,嵩老师教你直面问题和需求,用最好的工具解决它!

2017年度全新上线的Python语言系列专题课,带给你不一样的学习体验!
>>Python 网络爬虫与信息提取
http://www.icourse163.org/course/BIT-1001870001
>>Python 数据分析与展示
http://www.icourse163.org/course/BIT-1001870002
>>Python 机器学习应用
http://www.icourse163.org/course/BIT-1001872001
>>Python 科学计算三维可视化
http://www.icourse163.org/course/BIT-1001871001
>>Python 游戏开发入门
http://www.icourse163.org/course/BIT-1001873001
>>Python 云端系统开发入门
http://www.icourse163.org/course/BIT-1001871002

证书要求

本课程采取百分制,客观题和主观编程题各占50分。60分-79分可获得合格证书,80分以上可获得优秀证书,满分者将获得嵩老师的额外神秘大礼。

预备知识

本课程需要学习者具备Python语言编程的基本知识和初步技能,建议Python零基础学习者先修嵩老师的“Python语言程序设计”课程。具体地,学习者需要预先掌握Python的数字类型、字符串类型、分支、循环、函数、列表类型、字典类型、文件和第三方库使用等概念和编程方法。

授课大纲

根据第三方库内容特点,课程共分6个内容模块和2个实战模块:
模块1:Requests库的基本使用、利用Requests定向获取HTML网页
模块2:网络爬虫排除标准、Request库的高级使用(表单提交、会话等)
模块3:Beautiful Soup库的基本使用、解析HTML网页信息的方法
模块4:Re(正则表达式)库的基本使用、提取HTML页面关键信息的方法
模块5(实战):实战项目1——中国大学排名的网络爬虫
模块6(实战):实战项目2——股票数据获取的网络爬虫
模块7(选修):专业爬虫框架、网络爬虫引擎的设计原理
模块8(选修):专业爬虫框架Scrapy的基本使用(介绍)

参考资料

Python集成开发环境(IDE)
[1] IDLE: Python解释器默认工具(推荐)
[2] Anaconda: https://www.continuum.io/
[3] PyCharm: http://www.jetbrains.com/pycharm/

参考教程
[1] Python零基础入门教程:《Python语言程序设计基础(第2版)》,嵩天、礼欣、黄天羽著,高等教育出版社,2016.12
[2] 专题参考教程: 课内资料。

参考网站
[1] Python Requests: http://www.python-requests.org
[2] Python Beautiful Soup: https://www.crummy.com/software/BeautifulSoup
[3] Python Scrapy: http://scrapy.org/

常见问题

Q1:除了Python,这个课程需要其他编程语言基础吗?
A1:不需要,只要具备基本的Python编程能力,就可以学习本课程。

Q2:Python 2.x和Python 3.x,这个课程采用哪个版本?
A2:Python 3.x已经足够成熟,这是Python语言的现在和未来,嵩老师所有Python课程都采用Python 3.x系列版本。

Q3:在线开放课程看不到老师,有问题谁来解答?
A3:为了更好服务同学们,本课程教师和多名助教会每天在线答疑,尽快解决与课程相关的各类问题。

Q4:课程里面除了视频、文档和练习,还有什么新的形式吗?
A4:大学老师都是一本正经的,但你见过大学老师闲扯吗?课间,嵩老师想说说不一样的话…

声明:MOOC中国收录之课程均源自下列机构,版权均归他们所有。本站仅作报道并尊重其著作权益,感谢他们对MOOC事业做出的贡献!(排名不分先后)
  • Coursera
  • edX
  • OpenLearning
  • FutureLearn
  • iversity
  • Udacity
  • NovoEd
  • Canvas
  • Open2Study
  • Google
  • ewant
  • FUN
  • IOC-Athlete-MOOC
  • World-Science-U
  • Codecademy
  • CourseSites
  • opencourseworld
  • ShareCourse
  • gacco
  • MiriadaX
  • JANUX
  • openhpi
  • Stanford-Open-Edx
  • 网易云课堂
  • 中国大学MOOC
  • 学堂在线
  • 顶你学堂
  • 华文慕课
  • 好大学在线CnMooc

Copyright © 2008-2015 MOOC.CN 慕课改变你,你改变世界