Python爬虫与Stata应用能力提升与实证前沿 寒假工作坊

主讲嘉宾介绍

邓旭东 哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。曾在多所大学做数据采集和文本分析 分享 ,运营【公众号:大邓和他的Python】主要分享Python、爬虫、文本分析、机器学习等相关内容。

江艇:香港科技大学商学院经济学博士,中国人民大学经济学院副教授,人大国家发展与战略研究院研究员,人大微观数据与实证方法研究中心副主任,美国哥伦比亚大学商学院访问学者。主要研究领域为经济增长与发展、城市经济学、新政治经济学,在Economics Letters、Review of Development Economics、《经济研究》、《管理世界》、《世界经济》等国内外著名学术刊物上发表多篇论文。曾应邀在多所高校讲授“应用微观计量经济学”短期前沿课程,学员反响热烈。

司继春 (慧航): 上海对外经贸大学统计与信息学院助理教授,主要研究领域为微观计量经济学、产业组织理论。在 Journal of Business and Economic Statistics、《财经研究》等学术刊物上发表多篇论文。其实,大家更熟悉的是知乎上大名鼎鼎的[慧航],拥有 219,753 个关注者,获得过 110,578 次赞同,他就是司继春老师 —— [慧航]。

王非: 美国南加州大学经济学博士,中国人民大学劳动人事学院副教授,人大国家发展与战略研究院研究员,全球劳动组织(GLO)会员,中国就业研究所副研究员。主持国家自然科学基金青年科学基金项目。主要研究领域为劳动经济学、人口经济学、主观福祉等,在 PNAS,Journal of Happiness Studies,Journal of Population Economics,China Economic Review,《人口研究》等国内外权威期刊上发表多篇论文。曾多次讲授微观实证研究方法,广受好评,《Stata简明讲义》作者。

模块1 Python数据采集 & 文本数据分析

Day 1 上午   邓旭东

Python语法入门  

Python跟英语一样也是一门语言 
环境配置、pip安装
jupyter notebook使用方法
数据类型
for循环、if逻辑、try-except
常用函数、常用库
常见问题解决办法

Day 1 下午  邓旭东

Python网络爬虫  

网络爬虫原理

开发者工具使用

数据抓包

requests库

pyquery库

元素(数据)定位

数据存储(txt,csv)

案例1:天涯论坛

案例2:大众点评‍

案例3:BOSS直聘

案例4:百度企业信用

案例5:京东评论

Day 2 上午  邓旭东

文本分析入门 

文本分析应用场景 
txt、pdf、word等类型文件的数据读取
中文分词-jieba库
可视化-pyecharts库
英文通用情感词库-Harvard-IV4
英文金融会计领域情感词库Loughran&MCdonald
常见的中文情感词典
中文情感词典的构建及使用
数据分析-pandas库
案例1-词频统计
案例2-制作词云图
案例3-海量公司年报文本分析
案例4-使用情感词典进行情感计算

Day 2 下午  邓旭东

文本分析进阶 

什么是机器学习

监督学习与非监督学习

使用机器学习进行文本分析的步骤

表达文本数据信息的方式(独热编码、词袋法、TF-IDF)

文本可读性计算

公司年报信息含量(标准信息与特有信息)计算思路

理解特征矩阵、语料、文档、特征

机器学习库-sklearn语法学习

了解协同过滤-推荐系统

案例1-在线评论情感分析

案例2-文本分类

案例3-LDA话题模型

案例4-计算消费者异质性信息

了解文本分析在经管研究中使用情况,可以参考

[1]沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[EB/OL].

[2]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics

[3]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.

[4]Wang, Quan, Beibei Li, and Param Vir Singh. “Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis.” Information Systems Research 29.2 (2018): 273-291.

模块2 Stata 应用能力提升与实证前沿

Day 1 上午  江艇

因果推断导论 

1、何为因果推断?
2、传统因果模型
3、实验数据与观测数据
4、观测数据研究的基本挑战
5、潜在因果模型
6、分配机制与识别假设
7、潜在因果模型与传统因果模型的关系

Day 1 下午  江艇

截面数据因果推断的参数和非参数方法(上)

1、非参数方法的工作原理

2、参数方法的工作原理

3、插曲之一:线性回归中的控制变量

4、插曲之二:交互项模型

Day 2 上午  江艇

截面数据因果推断的参数和非参数方法(下)

1、  参数方法与非参数方法的比较
2、  匹配方法实操
3、(选讲)逆概率加权与双重稳健估计
4、(选讲)条件平均处理效应

Day 2 下午  江艇

面板数据因果推断的参数和非参数方法  

1、 面板数据固定效应模型
2、 双重差分法的识别和估计
3、 双重差分法常见问题剖析
4、 双重差分与匹配的结合
5、(选讲)半参数双重差分估计
6、 非参数方法初步及其与参数方法的区别和联系
7、(选讲)模糊双重差分

Day 3 上午  司继春(慧航)

Stata基础与Stata16新功能  

1、 Stata基础:基本操作与数据操作、数据框操作
2、Stata基础:分类变量与数值变量的描述性分析
3、Stata进阶:宏
4、Stata进阶:条件与循环
5、Stata进阶:Stata与Python的结合

Day 3 下午  司继春(慧航)

OLS:预测与解释   

1、如何估计条件期望:OLS
2、预测:过拟合、欠拟合与交叉验证
3、预测:使用LASSO回归进行变量选择
4、HCW方法的LASSO方法实例
5、作为因果推断的OLS:控制变量与固定效应
6、作为因果推断的OLS:系数的解释
7、作为因果推断的OLS:异方差稳健标准误与聚类标准误

Day 4 上午  司继春(慧航 )

面板数据与动态面板模型   

1、面板数据:固定效应与随机效应
2、面板数据:交互固定效应
3、工具变量简介
4、动态面板模型的实现:差分GMM与系统GMM
5、动态面板应用举例

Day 4 下午  司继春(慧航)

离散选择模型与非线性模型选讲   

1、 分位数回归
2、 离散选择模型:Probit、Logit回归
3、 计量经济学中的离散选择模型:理论基础与解释
4、 多元选择模型:多项Logistics回归
5、 多元选择模型:顺序选择模型
6、 多元选择模型:分类树、随机森林及其Stata实现
7、 其他非线性模型:删失样本模型(Tobit模型)、样本选择模型(Heckman两步法)

Day 5 上午  王非

数据的获得及处理方法 

1、常见公开数据库介绍
2、数据的获得和熟悉
3、数据清理流程
4、数据描述方法

Day 5 下午  王非

数据分析流程、遗漏变量偏误及合成控制法   

1、数据分析“三件套”:稳健性、异质性和机制分析
2、遗漏变量偏误的估算
3、合成控制法的基本原理和前提假设
4、合成控制法的运算、解读和检验
5、合成控制法的软件操作及论文结果现场复制

Day 6 上午  王非

工具变量法理论与实操   

1、工具变量法的基本原理和前提条件
2、工具变量法的操作步骤
3、工具变量的寻找方法
4、工具变量的有效性检验
5、工具变量法的软件操作及经典论文现场复制

Day 6 下午  王非

断点回归法理论与实操    

1、断点回归法的基本原理及两类情形
2、断点回归法的估计过程
3、断点回归法的一揽子检验
4、断点回归法的软件操作及前沿论文现场复制

相关信息

参会费用

模块Ⅰ:2500元/人;

模块 Ⅱ: 4800元/人;

优惠政策:两个模块一起报名九折;三人及以上九折;五人及以上八折;老学员九折;学生优惠200元/人。 交通与食宿费自理, 提供 歌江维嘉大酒店 周边住宿信息。

住宿安排

工作坊签约四星级酒店,标间或大床房每天约350元,含自助早餐;或附近旅馆标间、大床房每天约200元,会务组提供住宿咨询。

交通路线指南

报到地点: 钱塘新区高教园区东区 27号大街301号(地铁1号线云水站旁)歌江维嘉大酒店

1. 杭州东站  搭乘  地铁1号线 下沙江滨方向 (注意不要选择间隔的临 平方向 ), 40分钟 即达 报到地点

2. 萧山国际机场 打的  半小时 到达 报告地点

报名缴费信息

单位:杭州国商智库信息技术服务有限公司

开户银行: 中国银行杭州大学城支行

银行账户:6232636200100260588

报名时间:从即日起( 按缴费顺序安排教室座位 )。

咨询电话:  19817117852(丁老师)

欢迎大家

进群咨询!

特别提醒

为不影响各单位、老师、同学的日常工作和学习,工作坊安排在假期举办。如果一些机构寒假期间暂停财务工作,建议拟报名同学老师在之前办理相关事项,报到则可拿到发票,以免等到春季开学办理而可能有所影响相关程序。