首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

基于A股新闻共现网络的股票收益分析

研究数据提供:ChinaScope 核心观点 ▪ 本文利用新闻数据,以全量公司(上市+非上市)为节点,以共同出现在新闻中为边,构建了新闻共现网络,并对其做社群检测; ▪ 新闻共现网络内,有关联的股票对比无关联股票对表现出更强的相关性...A 股覆盖率低,因此在每月末计算共现矩阵过去 90 日的总边数,即如果公司 a 和公司 b 在过去 90 日中存在新闻共现情况,那么也将其纳入新闻共现网络中,扩展网络的覆盖度更高,股票共现关系也相对更稳定...在对新闻共现网络进行社群检测时同样发现整个网络是由一个大连接组件和许多小连接组件构成的,小连接组件内的公司数量少,但组件间划分明显,绝大部分公司都集中在最大连接组件内。...,并绘制如下分布图。可以发现,各板块内部,也都呈现了“存在新闻共现关联的股票对比非关联股票对表现出更强的相关性”的特点,即分布更偏向 Y 轴上侧。...4.2.3 行业内表现 由于银行业的成分股与集群内的成分股重叠率较高,下图单独绘制了各时间点银行业内成分股的集群划分表现,可以发现集群划分并不能带来更高的相关性,无法从银行成分股中进一步筛选出相关性更高的股票

51130
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    关于自然语言处理,数据科学家需要了解的 7 项技术

    因此这个列表一般是从零开始创建,并针对所要处理的应用执行了定制。...GloVe使用了所谓的共现矩阵(co-occurrence matrix)。共现矩阵表示每对单词在语料库里一起出现的频率。...例如:假设我们要为以下三个句子创建一个共现矩阵: 我喜欢数据科学(I love Data Science)。 我喜欢编程(I love coding)。...该文本库的共现矩阵如下所示: 真实世界中的数据集,矩阵会大得多。好处在于:单词嵌入只需计一次数据,之后就可以保存到磁盘中了。...之后,我们要训练GloVe学习每个单词的固定长度向量,以便让任何两个单词的向量点积(dot product)与共现矩阵中对数单词的共现概率相等。

    1.2K21

    机器学习之基于PCA的人脸识别

    ,下面是对代码进行逐行分析: oneFace=sample(:,1); 从样本中选取第一张人脸作为重构对象,将其存储在oneFace变量中。...subplot(2,4,index); 创建一个2x4的子图网格,并选择第index个子图作为当前维度值的显示位置。...:),[],colors); end end 思路分析:  这段代码是用于对经过PCA降维的人脸样本进行可视化的部分,下面是对代码进行逐行分析: visualizeDataTemp=[]; 创建一个空矩阵...colors=[]; 创建一个空矩阵colors,用于存储数据点的颜色信息。 for i=1:50 for循环遍历50次,对于每个数据点。...然后使用散点图或3D散点图将数据点绘制出来,并根据数据点的分组信息为其指定不同的颜色。这样可以观察不同维度下人脸样本在降维空间中的分布情况。

    26020

    「国王-男人+女人=皇后」背后的词类比原理究竟为何?| ACL 2019

    我们可以明确解释一个单词和上下文向量的内积,因为即使 SGNS 和 GloVe 实际上是迭代地学习向量,他们也会隐式地分解一个包含共现统计量的「单词-上下文」矩阵。...第一个等式是 GloVe(https://nlp.stanford.edu/pubs/glove.pdf)的局部目标,其中 ? 代表共现次数,b_x,b_y 代表学到的每个单词的偏置。...无论我们选择哪个等式,我们最终都会运用到共现偏移点互信息定理(或简称 csPMI 定理)。...共现偏移点互信息定理(csPMI) 令 W 为无重建误差的 SGNS 或 GloVe 单词向量空间,M 为 SGNS 或 GloVe 隐式分解得到的「单词-上下文」矩阵,S 为一组有序对,满足 |S|>...结语 在无噪声的 SGNS 或 Glove 空间中,线性类比在一组单词对上成立,当且仅当对于每个单词和任意两个单词对来说,它们在分解出的「单词-上下文」矩阵中的行向量共面的情况下,共现偏移点互信息(csPMI

    1.3K20

    基于Python的Xenium空转分析流程

    本示例展示了如何计算共现概率。...共现概率 >1:目标簇倾向于与条件簇空间上共同出现(存在正关联)。 共现概率 ≈1:两簇的空间分布无显著关联。 共现概率 共现得分定义为: image-20250109223714663 我们可以使用 squidpy.gr.co_occurrence 函数计算共现得分。...首先,我们创建一个表,这是原始AnnData对象的子集,并将其存储在表格中: sdata.tables["subsample"] = sc.pp.subsample(adata, fraction=0.5...不同曲线(颜色/图例):每条曲线表示一个特定簇(或细胞类型)的共现概率随距离变化的趋势。 从图中得到的结论: 曲线的峰值位置:表示目标簇在条件簇的某一特定距离范围内共现概率最高。

    19800

    从NLP视角看电视剧《狂飙》,会有什么发现?

    因此,本文打算从自然语言处理、数据分析和可视化的角度来凑个热闹(原本计划在大结局当天发出来文章,可惜,大结局有一段时间了。拖延了,哈哈哈)。...图片 3.3 top关键词共现矩阵网络 文本中关键词是很重要的特征,关键词共现矩阵网络是一组文本中词或短语之间的共现关系网。...共现网络中,每个关键词被表示为一个节点,词之间的共现关系被表示为边,关键词之间的共现频率表示权重。我们可以使用网络分析算法挖掘文本中的相关主题和模式。...利用pyecharts可视化短评top 2000关键词的词共现结果如图所示。...图片 Gephi是一个常用的网络分析和可视化软件,本文同时用gephi可视化了一组top 2000关键词的词共现关系图如下。

    1.1K31

    论文阅读笔记:GloVe: Global Vectors for Word Representation

    通过一个简单的例子来介绍从共现概率中如何得到单词特定方面的意义: 考虑两个在某些方面比较类似的词:i代表ice,j代表steam。...综上,词向量的学习应该从共现概率的比值开始而不是概率本身。...这里还存在一个问题,对于所有的共现次数,这个模型都一视同仁,然而一些共现次数小应该被视为噪声或者或能表达的信息很少,因此需要对模型进行加权,令 为权重,最终得到模型: 其中应该满足以下三个条件...4.2语料库和训练细节 语料库:略 统计共现矩阵 的创建: • 语料库中的词汇都符号化和并变为小写,建立一个含有400,000个常用词的词汇表。...作者从神经网络的训练中得到的灵感:对于某些神经网络,训练多个网络并把这些网络结合起来有助于减少过拟合和噪声并且能改善性能。

    3.3K120

    【Hello NLP】CS224n学习笔记:共现矩阵、SVD与GloVe词向量

    那么,每一个词,都可以做一个这样的统计,得到一个共现矩阵。这里直接贴一个cs224n上的例子: ?...这样就可以得到一个共现矩阵。 共现矩阵的每一列,自然可以当做这个词的一个向量表示。这样的表示明显优于one-hot表示,因为它的每一维都有含义——共现次数,因此这样的向量表示可以求词语之间的相似度。...但是,维度问题,我们有解决方法——「SVD矩阵分解」!我们将巨大的共现矩阵进行SVD分解后,只选取最重要的几个特征值,得到每一个词的低维表示。 ?...但是,「基于共现矩阵的方法也有其优势」,那就是「充分利用了全局的统计信息」。因为我们进行矩阵分解,是对整个共现矩阵进行分解,这个矩阵中包含着全局的信息。...理解GloVe词向量,有两种思路: 一种是由Word2Vec的skip-gram算法改进而来(思路较为清晰); 一种是由词语见的“共现概率比”构造出来(过程较为复杂)。

    2.3K30

    学姐问我推荐系统是怎么做的?我用23张图带她搞懂!

    第一步:整理物品的共现矩阵 假设有 A、B、C、D、E 5个用户,其中用户 A 喜欢物品 a、b、c,用户 B 喜欢物品 a、b等等。 所谓共现,即:两个物品被同一个用户喜欢了。...比如物品 a 和 b,由于他们同时被用户 A、B、C 喜欢,所以 a 和 b 的共现次数是3,采用这种统计方法就可以快速构建出共现矩阵。...基于第1步计算出来的共现矩阵以及每个物品的喜欢人数,便可以构造出物品的相似度矩阵: 第三步:推荐物品 最后一步,便可以基于相似度矩阵推荐物品了,公式如下: 其中,Puj 表示用户 u 对物品 j 的感兴趣程度...读取原始数据 程序主要使用数据集中的 ratings.dat 这个文件,通过解析该文件,抽取出 user_id、movie_id、rating 3个字段,最终构造出算法依赖的数据,并保存在变量 dataset...从算法角度追求多样性和准确性,从工程角度追求性能,这两者之间必须找到一个平衡点。 6、推荐系统的稳定性和效果追踪。

    82140

    白话词嵌入:从计数向量到Word2Vec

    文本中蕴含着海量的数据,有必要从中提取出有用的东西,并创建应用,比如亚马逊商品评论、文档或新闻的情感分析、谷歌搜索的分类和聚类。 正式给词嵌入下个定义:词嵌入是使用词典,将单词映射到矢量上。...先解释下什么是共现矩阵和内容窗口: 共现矩阵:对于给定的预料,两个词w1和w2的共现次数是它们出现在内容窗口中的次数; 内容窗口:某个单词的一定的前后范围称为内容窗口。 ?...示意图:He和is的4次共现 共现矩阵的变化 假设语料中有V个不同的词。共现矩阵可以有两种变体: 共现矩阵的大小是V x V。...假如对上面大小是V x V的矩阵做了主成分分析,可以获得V个主成分,从其中挑出k个,就可以构成一个大小是V x k的矩阵。 对于某一个单词,就算经过了降维,语义也不会下降很多。k的大小通常是数百。...共现矩阵的优点: 保留了词之间的语义关系,比如:“男人”和“女人”通常比“男人”和“苹果”离得更近; 使用主成分分析或奇异值分解,可以获得更准确的词向量; 一经算好一个共现矩阵,可以多次使用。

    1.1K11

    多标签图像识别发展历程(2015~2020)

    与通用识别和细粒度识别相比,多标签识别任务本身更关注当图像中存在多个物体、多个类别标签时,如何建模不同物体、不同标签的相关性与依赖关系,这个问题在论文中也经常被称为共现依赖(label co-occurrences...2019 CVPR ML-GCN [7] 本文以所有标签的词向量为图结点,标签共现频率的统计信息作为邻接矩阵,利用图神经网络(GCN)建模标签之间的相关性,并对分类网络的特征进行加权得到最终的分类结果。...image.png ML-GCN 2019 ICCV SSGRL [8] 本文以所有标签的词向量与图像语义特征融合得到的与类别相关的图像特征作为图结点,标签共现频率的统计信息作为邻接矩阵,利用GCN来建模这些类别相关特征之间的相互关系...作为ML-GCN的同期工作,本文与ML-GCN都率先提出利用GCN解决多标签识别中的共现依赖问题,并且在GCN结点和邻接矩阵的构造上也有很多共通之处。 ?...对于邻接矩阵的构造,本文并没有像之前的工作那样使用静态的邻接矩阵(比如ML-GCN是从数据集标签中统计得到的邻接矩阵),而是通过图结点自适应地学习邻接矩阵,这样每张图都会有对应的邻接矩阵,更加适应不同图片上各自的标签依赖关系

    1.3K30

    Glove和fastText

    我们定义X为共现词频矩阵,其中元素x_{ij}表示词j出现在词i的环境(context)的次数。这里的"环境"有多种定义。...Glove试图用有关词向量的函数来表达共现概率比值 用词向量表达共现概率比值 Glove的核心在于使用词向量表达共现概率比值。而任意一个这样的比值需要三个词i、j和k的词向量。...}}{P_{jk}} 由于共现概率比值是一个标量,我们可以使用向量之间的内积把函数f的自变量进一步改写 f((\boldsymbol{v}_i-\boldsymbol{v}_j)^T\boldsymbol...需要注意的是,损失函数的计算复杂度与共现词频矩阵X中非零元素的数目呈线性关系。我们可以从X中随机采样小批量非零元素,使用随机梯度下降迭代词向量和偏移项。...fastText可以通过子词表达两个词的相关性,例如"Tischtennis"和"Tennis" 如果遇到一个新词,对于fastText来说,它可以从训练集中找出这个新词的所有子词向量,然后做个求和,就能算出这个新词的词向量了

    53920

    实践篇 | 推荐系统之矩阵分解模型

    此外,还可以把行为数据表示为评分矩阵或共现矩阵,通过矩阵分解的方法把用户和文章都向量化,从而计算出“用户-文章”或“文章-文章”的余弦相似度。...2.2基于行为的MF召回 由于同一个用户在一段时间内阅读的文章具有一定程度的相关性,利用行为数据的这个特点,我们以一个大小固定的滑动时间窗口扫描训练样本中所有用户的历史点击文章序列,构造一个文章跟文章的共现矩阵...基于行为的MF召回有两点值得探讨的: (1)为什么不直接分解“用户-文章”的行为矩阵,而是分解“文章-文章”的共现矩阵?...(2)分解“文章-文章”共现矩阵的依据是什么? 在实践中,已经有不少人把用户的行为数据当做是文本数据来用,并取得了成功。具体做法是把用户的点击序列当成是一个文本,序列中的每个item当做是一个词。...因为有一个跟word2vec类似的学习词向量的方法,叫做GloVe[17],就是通过分解“词-词”的共现矩阵学习词向量的,只是word2vec用的损失函数是交叉熵,GloVe用的损失函数是平方损失。

    1.7K51

    重磅!!|“自然语言处理(NLP)系列教程06”之 Glove模型详解

    输入:语料库 输出:词向量 方法的主要概述:首先基于语料库构建词的共现矩阵,然后基于共现矩阵(不明白的小伙伴可以看上一篇文章)和GloVe模型学习词向量。...** 开始 -> 统计共现矩阵 -> 训练词向量 -> 结束** 2 Golve模型公式 Golve模型代价函数: ?...vi,vj是单词i和单词j的词向量,bi,bj是两个标量(主要用于偏差项),f是权重函数,N是词汇表的大小(共现矩阵维度为N*N)。可以看出Glove模型并没有使用神经网络的方法。...其主要的思想是:假设我们已经得到了词向量vi,vj,vk,如果我们用词向量通过某种函数计算ratio,能够同样得到这样的规律的话,就意味着我们词向量与共现矩阵具有很好的一致性,也就说明我们的词向量中蕴含了共现矩阵中所蕴含的信息...将其变成为: ? 即添加了一个偏差项bj,并将log(Xi)吸收到偏差项bi中。于是代价函数就变成了: ?

    1.8K10

    用Pandas在Python中可视化机器学习数据

    这些数据可以从UCI机器学习库中免费获得,并且下载后可以为每一个样本直接使用。 单变量图 在本节中,我们可以独立的看待每一个特征。 直方图 想要快速的得到每个特征的分布情况,那就去绘制直方图。...[Univariate-Box-and-Whisker-Plots.png] 多变量情况 本部分展示多个变量之间共同作用的图表示例。 相关矩阵图 相关性表明两个变量之间是如何变化的。...然后,您可以绘制相关矩阵,并了解哪些变量具有高相关性。 这很有用,因为一些像线性回归和逻辑回归的机器学习算法可能在输入变量高度相关的情况下表现不佳。...[Correlation-Matrix-Plot.png] 散点图矩阵 散点图将两个变量之间的关系显示为二维平面上的点,每条坐标轴代表一个变量特征。您可以为数据中的每对变量特征创建一个散点图。...由于对角线上的散点图都是由每一个变量自己绘制出的小点,所以对角线显示了每个特征的直方图。

    6.1K50

    新闻共现:股票长期与动态关联性表征的因子挖掘

    : 因子挖掘:基于图神经网络与公司主营(附代码) 首先看一下今天这篇文章的主要内容: 基于股票在新闻钟的共现网络,提出了Equity2Vec的方法,把股票在新闻钟的共现关系用一个向量表征表示。...通过新闻共现关系度量股票长期关联性 财经新闻报道中,通常在一篇新闻中会出现多个股票,这些股票之间必然存在着一定的关联性。通过统计两两股票在过去一段时间出现的次数,我们就构建了股票的共现矩阵。...对以上共现矩阵进行矩阵分解(Matrix Factorization),如下图3a所示,我们就可以得到每个节点,也就是每个股票的向量表征。...但实际情况中,对于股票i,j的关联性,可能存在一些专家先验值,将 作为先验偏离加入损失函数,并加入正则项: 其中 通过动态图捕捉股票间的短期关联性 股票的新闻共现关系是时变的,近期时间段的共现关系能够捕捉短期股票关联度的变化...实证结果本身并不重要,重要的是本文给我们对于新闻共现的挖掘提供了一个思路,主要是同时从新闻共现中提取股票长期关联和短期关联的表征,并与传统因子进行结合。

    1K21

    Lead-follower因子:新闻共现股票收益的关联性研究

    新闻共现图的月度degree是一个很好的预测股票横截面收益的指标。一个月的再平衡投资组合测试表明,degree提供了显著的正Alpha(相对Fama-French三因子和五因子模型)。...如上定义, 就是股票共现图的邻接矩阵。 我们可以根据股票ij的某些性质来拆解邻接矩阵 (或者说是重构股票共现图)。...这里在确定共现图时,使用的是滚动窗口 (即时间t-l至t)的所有新闻。...多个网站2016-2020年期间共100多万篇新闻,构建了标普500成分股的新闻共现关系图,使用的滑动窗口为1年。...新闻共现图的月度degree是一个很好的预测股票横截面收益的指标。一个月换仓的投资组合测试表明,degree提供了显著的正Alpha(相对Fama-French三因子和五因子模型)。

    75220

    OpenGL学习笔记(二)——渲染管线&着色语言

    1.1.4图元装配 图元组装:顶点数据根据设置的绘制方式被结合成完整的图元。 例如: 点绘制方式仅需要一个单独的顶点,此方式下每个顶点为一个图元。...例如:当观察一个正四边体并离某个三角形面很近时,可能只能看到此面的一部分。这时在屏幕上显示的就不再是三角形,而是经过裁剪后的多边形。如图所示: ?...但是目前的显示设备屏幕都是离散化的(由一个个像素组成)因此还需要讲投影结果离散化,将其分解成一个个离散化的小单元,这些小单元一般称为片元。这些片元都对应帧缓冲区中的一个像素。 ?...顶点着色器的输出包括: 内建输出变量——例如gl_Position,经过变换矩阵变换后的顶点最终位置。 易变变量(varying)——从顶点着色器计算产生并传递给片元着色器的数据变量。...gl_PointSize(内建输出变量) 顶点着色器中可以指定一个点的大小(大小为像素)。并将其赋值给gl_PointSize进而传递给渲染管线的后续阶段。如果没有指定,默认值为1。

    2.1K80

    十二.机器学习之回归分析万字总结全网首发(线性回归、多项式回归、逻辑回归)

    整个数据集共10个特征值,为了方便可视化画图我们只获取其中一个特征进行实验,这也可以绘制图形,而真实分析中,通常经过降维处理再绘制图形。...、胸围、体长等多个变量的影响,因此需要设计一个目标变量与多个自变量间的回归分析,即多元回归分析。...多项式回归(Polynomial Regression)是研究一个因变量与一个或多个自变量间多项式的回归分析方法。...data是一个矩阵,每一列代表了萼片或花瓣的长宽,一共4列,每一行代表一个被测量的鸢尾植物,一共采样了150条记录,即150朵鸢尾花样本。...xx网格矩阵;再把第二列花萼宽度数据按h取等分作为列,并复制多列得到yy网格矩阵;最后将xx和yy矩阵都变成两个一维数组,再调用np.c_[]函数将其组合成一个二维数组进行预测。

    1.2K10
    领券