我致力于对一些评论(段落)进行分类,由多个句子组成。我通过libSVM在Weka中对它们进行分类。然而,我有另一个想法,我不知道如何实现:
我认为在评论中创建每个句子基于句法和浅语义的特性是值得一试的。但是,由于段落的句子大小不同,我无法找到对这些特性进行顺序编码的任何方法。我之所以想把这些特征按顺序排列,是因为句子特征的顺序可能为分类提供了更好的线索。例如,如果我有两个实例P1 (有3个句子)和P2 (2个句子),我就有一个类似的空格(假设每个句子都有一个二进制特性作为a或b):
P1 -> a b b /classX P2 -> b a /classY
那么,我的问题是,我是否
我正在尝试为Stata中的一个变量生成频率,条件是另一个变量的类别。
另一个分类变量对我感兴趣的类别有大约79万个观察值。
Stata对单向表和双向表分别有12,000行和1,200行的限制,这使得这是不可能的。
每次运行tab x if y==<category of interest>时,我都会得到以下错误:
too many values
r(134);
我安装了bigtab包,虽然它提供了表,但它不能与by一起使用,也不能运行统计测试。
有没有解决这个问题的办法?
当SAS甚至SPSS都可以毫无问题地运行完全相同的操作时,Stata竟然会有这个任意的限制,这似乎很愚蠢。
下面的脚本通过切割所有大于6的频率来过滤频率。然而,fftfreq并没有使用看似正确的函数fftfreq。
据我所知,rfftfreq应该与rfft一起使用。为什么这段代码在使用fftfreq与rfft时仍能工作?
import numpy as np
from scipy.fftpack import rfft, irfft, fftfreq
time = np.linspace(0,10,2000)
signal = np.cos(5*np.pi*time) + np.cos(7*np.pi*time)
W = fftfreq(signal.size, d=time[1]-time