首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何读取列和标头不匹配的HTML表?

如何读取列和标头不匹配的HTML表?
EN

Stack Overflow用户
提问于 2017-02-28 04:07:42
回答 2查看 75关注 0票数 0

HTML表主体比表标题中定义的列多1列。这将导致跳过最后一列,当然也会导致列错。如何将额外的列添加到R中的结果data.framework/ table中,同时使用package("htmltab")读取HTML显然,后置处理没有帮助。

下面是一个示例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
install.packages("htmltab")
library(htmltab)
bu<- 0
bu <- data.table("Pl.", "Mannschaft", "Kurzname" ,  "Spiele", "G.", "U.", "V.", "Tore", "Diff.", "Pkt.")
#https://www.bundesliga-prognose.de/1/2009/1/
url <- "https://www.bundesliga-prognose.de/1/2009/1/"
bu <- htmltab(doc = url,  column=10,columnnames=c ("Pl." ,  "Mannschaft", "Kurzname" , "Spiele", "G.", "U.", "V.", "Tore", "Diff.", "Pkt."), which = "//th[text() = 'Pl.']/ancestor::table")
bu <- data.table(bu)
head(bu)

--这导致了

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 Pl.            Mannschaft        Spiele G. U. V. Tore Diff. Pkt.
 1:  1.         VfL Wolfsburg     Wolfsburg  1  1  0    0   2:0    2
 2:  2.   Eintracht Frankfurt  E. Frankfurt  1  1  0    0   3:2    1
 3:  3.         FC Schalke 04 FC Schalke 04  1  1  0    0   2:1    1
 4:  4.     Borussia Dortmund   B. Dortmund  1  1  0    0   1:0    1
 5:  NA     Hertha BSC Berlin H. BSC Berlin  1  1  0    0   1:0    1
 6:  6. Bor. Mönchengladbach   M´gladbach  1  0  1    0   3:3    0

由于没有在标题中指定short-name("Kurzname"),所以在游戏(Spiele)列a等等中显示短名("Kurzname")。所以跳过了最后一列。如何在使用("Kurzname")包读取标头时添加额外的列短名htmltab?另外,我想用行id/ NA包替换第5行中的htmltab

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-03-21 06:29:52

在这种帮助下,我找到了一个非常简单的解决方案:

  1. 指定跳过标头
  2. 通过colNames列出/定义所有列 url <- "https://www.bundesliga-prognose.de/1/2007/5/“sp_2007_5<- htmltab(doc = url,其中= "//table1/tbody",标头=0,colNames = c("Datum”,"Anpfiff",“colNames”,"Heim_Kurzname","Gast","Gast_Kurzname","Ergebnis",“孕产”),rm_nodata_cols = F,编码= "UTF-8")头(Sp_2007_5)
票数 0
EN

Stack Overflow用户

发布于 2017-02-28 06:33:20

这似乎确实是htmltab的一个问题。我找到的唯一解决方案是直接读取表的tbody。然后,您需要手动添加标头。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
htmltab(doc = url, which = "//table[2]/tbody")
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42508377

复制
相关文章
设置和获取HTTP标头
%Net.HttpRequest的以下每个属性都包含具有相应名称的HTTP标头的值。如果不设置这些属性,则会自动计算它们:
用户7741497
2022/06/09
2.5K0
对 Google 说不 - 本站已启用屏蔽 FLoC 的 HTTP 标头
被广泛用于定向广告业务和用户数据收集的第三方 Cookie 即将迎来它的消失,而 Google 正试图设计一种方法让广告商在第三方 Cookie 消失后继续根据用户的浏览情况进行跟踪,即 FLoC。
Shiroka
2022/04/28
8770
通过 HTTP 标头的 XSS
在某些情况下,在应用程序的一个 HTTP 标头中传递的信息未正确清理,并在请求页面的某处或另一端输出,从而导致 XSS 情况。
Khan安全团队
2022/03/09
2.1K0
通过主机标头的 XSS
在 IE 中处理重定向时有一个有趣的错误,它可以将任意字符插入到 Host 标头中。假设您有以下 http 响应:
Khan安全团队
2022/01/11
1.6K0
常见的HTTP标头介绍
在网络爬虫的实践过程中会遇到诸多挑战,被屏蔽是最令人头疼的一个。幸好,有许多技术可以帮助您免受IP屏蔽带来的影响,这其中,HTTP标头(HTTP Headers)的使用和优化是最有效的方法之一,但它往往也是最被大家低估的方法之一。
用户7850017
2022/05/07
1.1K0
常见的HTTP标头介绍
如何生成A-AZ列 excel表的列 不用序号的那种?
前几天在Python最强王者交流群【逸】问了一个Pyhton处理Excel的问题,这里拿出来给大家分享下。
前端皮皮
2022/12/19
1.7K0
如何生成A-AZ列 excel表的列 不用序号的那种?
如何使用python连接MySQL表的列值?
MySQL 是一个开源关系数据库管理系统,广泛用于存储、管理和组织数据。使用 MySQL 表时,通常需要将多个列值组合成一个字符串以进行报告和分析。Python是一种高级编程语言,提供了多个库,可以连接到MySQL数据库和执行SQL查询。
很酷的站长
2023/08/11
3090
如何使用python连接MySQL表的列值?
Python 读取excel指定的列
https://www.cnblogs.com/xiao987334176/p/9330368.html#autoid-4-5-2
py3study
2020/03/04
2.5K0
Python 读取excel指定的列
MySQL 表和列的注释深入理解
像代码一样,可以为表以及表中的列添加注释,方便其他人知晓其功能。对于一些字段,在经过一定时间后,创建者未必也能想起其具体的含意,所以注释显得尤为重要。
星哥玩云
2022/08/17
2K0
R语言入门之频率表和列联表
‍‍‍‍‍‍在这一期我们将要学习如何针对分类变量数据创建频率表和列联表,之后在此基础之上进行独立性检验、关联度测量以及相关数据的可视化。
生信与临床
2020/08/06
2.7K0
R语言入门之频率表和列联表
如何锁定表头和表行同时锁定_jquery表头固定列
前段时间需要这个功能,但是找了很多都不能完美的实现,不是只能锁定表头,就是浏览器兼容问题什么的,在此就自己做了一个锁定表头和列的js方法,依赖于JQuery。
全栈程序员站长
2022/09/20
2.5K0
如何锁定表头和表行同时锁定_jquery表头固定列
Access不匹配查询
大家好上节介绍了重复项查询,继续介绍选择查询中的不匹配项查询,不匹配查询也是在查询向导中创建。
无言之月
2020/06/04
2K0
opencv读取摄像头和视频数据
淼学派对
2023/10/14
5600
了解匹配表
应付款管理系统将使用多个 Oracle Purchasing 表进行匹配。要在应付款管理系统中执行匹配,您需要将非 Oracle 采购应用产品数据与这些表一起装入。
全栈程序员站长
2022/07/04
2810
MySQL查询表位置和列注释等
; # 查询表在哪个数据库与注释 SELECT TABLE_SCHEMA, TABLE_NAME, TABLE_COMMENT FROM information_schema.TABLES WHERE 1=1 # AND TABLE_SCHEMA = '数据库名' AND TABLE_NAME = '表名' # AND TABLE_COMMENT = '表注释' ; # 查询列在哪个表与注释 SELECT c.TABLE_SCHEMA, c.TABLE_NAME, t.TABLE_COMMENT, COL
林万程
2018/06/21
3K0
Oracle查询表位置和列注释等
-- 注释 SELECT t.TABLE_NAME, t.COMMENTS, c.COLUMN_NAME, c.COMMENTS FROM USER_COL_COMMENTS c JOIN USER_TAB_COMMENTS t ON c.TABLE_NAME = t.TABLE_NAME WHERE 1 = 1 -- AND t.TABLE_NAME = '' -- AND t.COMMENTS like '%%' -- AND c.COLUMN_NAME = '' --
林万程
2020/06/16
9930
Python3列表和元组
数据结构是以某种方式组合起来的数据元素的集合。在Python中基本的数据结构就是序列
py3study
2020/01/13
1.3K0
EasyExcel实现动态列解析和存表
一个表中的数据来源于多个其他系统的导出表,其中的特点就是大多数的字段都是一样的(可能导出的表头不一样),只有部分少数字段是每个系统自己独有的。围绕这个做一次功能性分析
青衫染红尘
2022/08/02
5.3K1
C++ 中的随机标头系列1
开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第1天,点击查看活动详情
鲸落c
2022/11/28
1.4K0
C++ 中的随机标头系列1
html菜单和课程表
菜单: <html> <head> <meta charset="utf-8"> <title>菜单练习</title> </head> <body> <table border="1" cellspacing="0" bordercolor="#cc0"> <tr> <th colspan="3">星期一菜谱</th> </tr> <tr> <td rowspan="2">素菜</td> <td>青草茄子</td>
超蛋lhy
2018/08/31
2.1K0
html菜单和课程表

相似问题

表标头与表体不匹配

16

HTML表:粘性列重叠标头

51

表列对齐与表标头不匹配

21

如何使用tabindex表值和标头读取表

15

带有嵌套表和标头的Html表

23
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文