我有一个HTML文件文件需要分析。如何将整个目录中的HTML文件读入R中进行处理?此外,我还需要将rvest中的函数迭代地应用于HTML文件,以返回如下所示的数据帧:
HTML File | Updated Date
Url 1 | Date
Url 2 | Date
...
如何为一组文件完成此迭代过程?
谢谢!
我有一个制表符分隔的文件,比如
text_id text task_1 task_2 task_3
hasoc_en_1 in the know as nation's pride is involved lorem NOT NONE NONE
hasoc_en_2 admitted to treason . #TrumpIsATraitor #McCainsAHero #JohnMcCainDay HOF HATE TIN
我可以将其读入数据帧中,如下所示
df=pd.read_csv(r"c:\Users\asd\Desktop\d
我正在尝试从大多数使用UTF-8编码(并声明<meta charset="utf-8">)但也有一些其他编码(我认为是Windows1252或ISO8859-1)编码的HTML页面中读取表格到R中。Here's an example.我要把所有的东西正确地解码成R数据帧。XML::readHTMLTable接受encoding参数,但似乎不允许尝试多种编码。 那么,在R中,如何为输入文件的每一行尝试几种编码呢?在Python 3中,我会这样做: with open('file', 'rb') as o:
for li
我知道在R中合并数据帧的问题很常见,但经过艰苦的搜索,我还没有找到解决问题的方法。 我在R中有两个数据帧:一个包含关于人口的信息(这里是组织、n=~4200),包括他们的地区、州、县、项目名称等;另一个只包含509个独特的县-州组合的县和州信息。 我需要将较大的数据帧与较小的数据帧进行匹配,以便最终得到一个合并的数据帧,其中N行等于较小的数据帧。 例如,大型数据帧(n=~4200行)如下所示: County State Court Program Court.Type ... ... ...
String1 CT Court1
我有一个dataframe "df“如下:
V1 V2
1 b a
2 b a
3 a b
4 b a
5 a b
6 a b
7 a b
8 b a
9 a b
10 a b
11 a b
12 b a
有没有一种方法可以让在R中自动执行以下三个步骤的?
步骤1: R标识数据的12行中的"df“&模式"a b”重复了大部分时间。
Step2:基于步骤1中的多数模式的,R只使用步骤1中包含多数模式的行来设置数据帧
我尝试在R中使用for循环为我的拆分结果创建单独的数据帧。它可能有更好的解决方案,但我是R的初学者,所以任何意见都是值得感谢的。
‘例如:’
For (i in 1:100)
{i<-df[[i]]}
‘我希望得到像这样的东西
'1' equal to df[[1]]
'2' equal to df[[2]]
'3' equal to df[[3]]
.
.
.
'i' equal to df[[i]]
但它只获取最后一个i
'100' which is equal to df[[100]]
如何为每个i获
我有根据统一id和访问日期排序的数据。有些人有多次访问。数据采用长格式,按访问排序。我只想复制每个人最后一次访问的一行。如何仅复制数据帧中的特定行?
id visit glucose
1 12 Jan 2015 12
1 3 Feb 2015 8
2 1 Feb 2015 13
3 12 Jan 2015 7
3 4 Feb 2015 13
3 1 March 2015 8
我试图合并R中的两个数据帧,但是我有两个不同的列,具有不同类型的ID变量。有时,行将具有其中一个列的值,而不是另一个列的值。我想把它们都考虑进去,这样如果一个帧缺少一个列的值,那么另一个就会被使用。
> df1 <- data.frame(first = c('a', 'b', NA), second = c(NA, 'q', 'r'))
> df1
first second
1 a <NA>
2 b q
3 <NA> r
> df2 &
我有SAP系统的数据集。数据结构看起来很糟糕。数据如下所示。每个值由4行分隔,其中包含其他列的数据。我需要做的是复制单元格并将其粘贴到适当的列中,然后返回并复制另一个值B,即A下面的4行。
A
B
C
我试着开发代码,但它不能正常工作。你能看一下密码并给我一些建议吗?
Sub Create_table()
Dim R As Long
Dim R2 As Long
R = 2
R2 = 7
Range("B7").Select
Do While ActiveCell.Value <> ""
ActiveCell.Copy
这里有类似的问题:
我现在有了一个包含shape=(100,4)的数据帧,即四个从Y1到Y4的依赖变量。使用另一个独立的数组m = 1,2,3,4。我需要用Ys和m建立一个线性模型,生成一个预测的Y值。
我如何才能对整个数据帧执行它,而不是在数据帧的每一行的for循环中执行它呢?
import numpy as np
import pandas as pd
from scipy.optimize import curve_fit
from scipy.stats import linregress
Y = np.random.randn(100, 4)
m = np.array([1, 2
我正在尝试找到一种在数据帧内进行搜索的方法,以返回多个条件的列和行引用。
#some data
SalesData<-data.frame(Appliance=c("Radio", "Laptop", "TV", "Fridge"), ThisYear=c(5,25,5,8), LastYear=c(6,20,5,8))
#code to find which row column TV is in which correctly gives row 3, col 1
TVRef<-which(SalesDat