当前位置:恩施知识网 > 生活常识 > 正文

python求因子代码,python 量化分析

代码及数据见文章最后。
主要内容:
一、CAPM的不足与三因子模型的诞生
二、三因子模型的原理
三、Python三因子模型选股实战一、CAPM的不足与三因子模型的诞生CAPM模型经历了大量的实证和应用之后,有证据表明,市场风险溢酬并不能充分解释个别风险资产的收益率。于是很多研究者开始探索其他的因素,比如公司市值、PE、杠杆比例、账面市值比等。
Fama和French两个人对于各种因素进行了全面的组合分析,当单独使用Beta或者用Beta分别与其他几个因子相

代码及数据见文章最后。

主要内容:

一、CAPM的不足与三因子模型的诞生

二、三因子模型的原理

三、Python三因子模型选股实战

一、CAPM的不足与三因子模型的诞生

CAPM模型经历了大量的实证和应用之后,有证据表明,市场风险溢酬并不能充分解释个别风险资产的收益率。于是很多研究者开始探索其他的因素,比如公司市值、PE、杠杆比例、账面市值比等。

Fama和French两个人对于各种因素进行了全面的组合分析,当单独使用Beta或者用Beta分别与其他几个因子相结合时,Beta的解释能力很弱;市值、PE(市盈率)、杠杆比例、BM(账面市值比,PB的倒数)单独来用时,对于收益率的解释能力都很强,但是组合起来时,市值、BM会弱化杠杆比例和PE的解释能力。

后来Fama和French两人提取了3个重要因子:市场风险溢酬因子、市值因子和账面市值比因子,以收益率作为因变量构建了一个类似CAPM的线性模型,即著名的三因子模型。

二、三因子模型的原理

三因子模型中的3个因子均为投资组合的收益率:市场风险溢酬因子对应了市场投资组合的收益率,市值因子对应了做多市值较小的公司与做空市值较大的公司的投资组合带来的收益率,账面市值比因子对应的是做多高BM公司、做空低BM公司的投资组合带来的收益率。三因子模型的形式为:

可以看到这里用的是期望,所以我们仍然转换成线性回归模型的形式:

这样大家就比较熟悉了,一个常数项,三个自变量,一个误差项,一个因变量,妥妥的一个多元线性回归模型。跟CAPM中一样,α代表超额收益率,越高越好,说明我们的投资组合越优秀。

不要看到这么多名词就害怕,在实际应用过程中,这些数据都是已知的,我们直接把数据扔给计算机,通过最小二乘法求解得到α、b、s、h的估计值即可以及它们是否显著即可。

唯一稍显麻烦一点的是SMB和HML的计算,这一部分需要先根据流通市值将股票分为1:1的大市值(B)和小市值(S)股票;根据BM数据将股票分为3:4:3的高中低(H/M/L)三组;这样我们就有了2×3共计6种投资组合(SL/SM/SH/BL/BM/BH)。然后我们通过市值加权平均的方式求得各组的收益率,最后就是求SMB和HML了:

三、Python三因子模型选股实战

1.计算SMB和HML

导入必要的库

定义计算函数

计算并存储数据

根据我实际测试,计算两年的数据大概要七八分钟,我们可以把历史数据整个计算一遍,存到本地或者数据库中,以后就可以直接调用了。偷懒的同学也可以私信我,我会提供我已经计算好的数据给大家。毕竟这两种组合的收益率的计算不是我们这节的重点。

2.挑选股票和基准指数

还是以这几只股票为例,不过这几只股票可能太有代表性,跟指数的波动形态比较接近,在大家自己练手的时候,推荐选择不同市值水平、PB水平的股票来测试,我们这里只讲解方法。

这里geA是指国证A股指数,更能代表整个A股市场。

整合数据,并简单探索

观察数据间的相关性

红色代表正相关,蓝色代表负相关。颜色越深,相关性越强。

收益率时序图

累计收益率时序图

多元线性方程求解

求解过程如下,这次我就不帮大家解读结果了,大家尝试着自己来理解一下。

我提供一些提示,x1、x2、x3分别对应了市场风险溢酬因子、市值因子、账面市值比因子,const对应着常数项,即超额收益率α。

一般情况下,当p值小于0.05时,我们认为该因子对于收益率有显著影响。

这里就放一张图,剩下的结果可以在我提供的J

upyter Notebook文件中看到。

文中提到的一些数据和代码,可以关注后私信“三因子”三个字来免费获取。

python求因子代码,python 量化分析

《Python与量化投资从基础到实战》pdf下载在线阅读,求百度网盘云资源

《07 Python股票量化投资课程(完结)》百度网盘资源免费下载

链接:https://pan.baidu.com/s/1MgFE6VMeR8H6YkS2jxEZmw?pwd=zxcv 提取码:zxcv

07 Python股票量化投资课程(完结)|09课后大作业|08第八课资料|07第七课资料|06第六课资料|05第五课资料|04第四课资料|03第三课资料|02第二课资料|01第一课资料|25人工智能与量化投资(下).mp4|24人工智能与量化投资(上).mp4|23实盘交易(下).mp4|22实盘交易(中).mp4|21实盘交易(上).mp4    

python求因子代码,python 量化分析

python大数据挖掘系列之基础知识入门 知识整理(入门教程含源码)

Python在大数据行业非常火爆近两年,as a pythonic,所以也得涉足下大数据分析,下面就聊聊它们。

Python数据分析与挖掘技术概述

所谓数据分析,即对已知的数据进行分析,然后提取出一些有价值的信息,比如统计平均数,标准差等信息,数据分析的数据量可能不会太大,而数据挖掘,是指对大量的数据进行分析与挖倔,得到一些未知的,有价值的信息等,比如从网站的用户和用户行为中挖掘出用户的潜在需求信息,从而对网站进行改善等。
数据分析与数据挖掘密不可分,数据挖掘是对数据分析的提升。数据挖掘技术可以帮助我们更好的发现事物之间的规律。所以我们可以利用数据挖掘技术可以帮助我们更好的发现事物之间的规律。比如发掘用户潜在需求,实现信息的个性化推送,发现疾病与病状甚至病与药物之间的规律等。

预先善其事必先利其器

我们首先聊聊数据分析的模块有哪些:

下面就说说这些模块的基础使用。

numpy模块安装与使用

安装:
下载地址是:http://www.lfd.uci.edu/~gohlke/pythonlibs/
我这里下载的包是1.11.3版本,地址是:http://www.lfd.uci.edu/~gohlke/pythonlibs/f9r7rmd8/numpy-1.11.3+mkl-cp35-cp35m-win_amd64.whl
下载好后,使用pip install "numpy-1.11.3+mkl-cp35-cp35m-win_amd64.whl"
安装的numpy版本一定要是带mkl版本的,这样能够更好支持numpy

numpy简单使用

生成随机数

主要使用numpy下的random方法。

pandas

使用 pip install pandas 即可

直接上代码:
下面看看pandas输出的结果, 这一行的数字第几列,第一列的数字是行数,定位一个通过第一行,第几列来定位:

常用方法如下:

下面看看pandas对数据的统计,下面就说说每一行的信息

转置功能:把行数转换为列数,把列数转换为行数,如下所示:

通过pandas导入数据

pandas支持多种输入格式,我这里就简单罗列日常生活最常用的几种,对于更多的输入方式可以查看源码后者官网。

CSV文件

csv文件导入后显示输出的话,是按照csv文件默认的行输出的,有多少列就输出多少列,比如我有五列数据,那么它就在prinit输出结果的时候,就显示五列

excel表格

依赖于xlrd模块,请安装它。
老样子,原滋原味的输出显示excel本来的结果,只不过在每一行的开头加上了一个行数

读取SQL

依赖于PyMySQL,所以需要安装它。pandas把sql作为输入的时候,需要制定两个参数,第一个是sql语句,第二个是sql连接实例。

读取HTML

依赖于lxml模块,请安装它。
对于HTTPS的网页,依赖于BeautifulSoup4,html5lib模块。
读取HTML只会读取HTML里的表格,也就是只读取

显示的是时候是通过python的列表展示,同时添加了行与列的标识

读取txt文件

输出显示的时候同时添加了行与列的标识

scipy

安装方法是先下载whl格式文件,然后通过pip install “包名” 安装。whl包下载地址是:http://www.lfd.uci.edu/~gohlke/pythonlibs/f9r7rmd8/scipy-0.18.1-cp35-cp35m-win_amd64.whl

matplotlib 数据可视化分析

我们安装这个模块直接使用pip install即可。不需要提前下载whl后通过 pip install安装。

下面请看代码:

下面说说修改图的样式

关于图形类型,有下面几种:

关于颜色,有下面几种:

关于形状,有下面几种:

我们还可以对图稍作修改,添加一些样式,下面修改圆点图为红色的点,代码如下:

我们还可以画虚线图,代码如下所示:

还可以给图添加上标题,x,y轴的标签,代码如下所示

直方图

利用直方图能够很好的显示每一段的数据。下面使用随机数做一个直方图。

Y轴为出现的次数,X轴为这个数的值(或者是范围)

还可以指定直方图类型通过histtype参数:

图形区别语言无法描述很详细,大家可以自信尝试。

举个例子:

子图功能

什么是子图功能呢?子图就是在一个大的画板里面能够显示多张小图,每个一小图为大画板的子图。
我们知道生成一个图是使用plot功能,子图就是subplog。代码操作如下:

我们现在可以通过一堆数据来绘图,根据图能够很容易的发现异常。下面我们就通过一个csv文件来实践下,这个csv文件是某个网站的文章阅读数与评论数。


先说说这个csv的文件结构,第一列是序号,第二列是每篇文章的URL,第三列每篇文章的阅读数,第四列是每篇评论数。


我们的需求就是把评论数作为Y轴,阅读数作为X轴,所以我们需要获取第三列和第四列的数据。我们知道获取数据的方法是通过pandas的values方法来获取某一行的值,在对这一行的值做切片处理,获取下标为3(阅读数)和4(评论数)的值,但是,这里只是一行的值,我们需要是这个csv文件下的所有评论数和阅读数,那怎么办?聪明的你会说,我自定义2个列表,我遍历下这个csv文件,把阅读数和评论数分别添加到对应的列表里,这不就行了嘛。呵呵,其实有一个更快捷的方法,那么就是使用T转置方法,这样再通过values方法,就能直接获取这一评论数和阅读数了,此时在交给你matplotlib里的pylab方法来作图,那么就OK了。了解思路后,那么就写吧。

下面看看代码:

免责申明:以上内容属作者个人观点,版权归原作者所有,不代表恩施知识网立场!登载此文只为提供信息参考,并不用于任何商业目的。如有侵权或内容不符,请联系我们处理,谢谢合作!
当前文章地址:https://www.esly.wang/shenghuo/22430.html 感谢你把文章分享给有需要的朋友!
上一篇:宋词三百首一百个经典名句,宋词最经典的十句话 下一篇:手上青筋跟血压有关吗,高血压青筋凸出

文章评论