前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >R中读取包含中文字符的文件时这个诡异的错误你见过吗?

R中读取包含中文字符的文件时这个诡异的错误你见过吗?

作者头像
生信宝典
发布于 2022-01-18 13:29:52
发布于 2022-01-18 13:29:52
2.3K00
代码可运行
举报
文章被收录于专栏:生信宝典生信宝典
运行总次数:0
代码可运行

我们有一个文件,里面写了一些中文信息,命名为chinese.txt,内容为

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Train   Time
转录组开课时间 2021/10/29-2021/10/31
临床基因组学开课时间  2021/11/12-2021/11/14
宏基因组开课时间    2021/11/19-2021/11/21
扩增子开课时间 2022/01/07-2022/01/09

尝试读入R,报错 line 2 did not have 2 elements 很诡异的提示!!!

如果我们一直去数列数,这是怎么都不会发现问题的。考虑到大多数程序语言对非英文支持不好,考虑是编码格式问题。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
train <- read.table('chinese.txt')

Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : line 2 did not have 2 elements

解决方案1:指定编码格式

正确的读了进来

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
train <- read.table('chinese.txt', fileEncoding = "utf-8", header=T)
train

##                  Train                  Time
## 1       转录组开课时间 2021/10/29-2021/10/31
## 2 临床基因组学开课时间 2021/11/12-2021/11/14
## 3     宏基因组开课时间 2021/11/19-2021/11/21
## 4       扩增子开课时间 2022/01/07-2022/01/09

解决方案2:用readr包里面的read_tsv

这个使用更方便,适用范围也更广。有时在read.table中即使指定了fileEncoding = "utf-8"参数后依然解决不了问题的文件,用readr毫无压力。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(readr)
readr::read_tsv('chinese.txt')

## 
## -- Column specification --------------------------------------------------------------------------
## cols(
##   Train = col_character(),
##   Time = col_character()
## )

## # A tibble: 4 x 2
##   Train                Time                 
##   <chr>                <chr>                
## 1 转录组开课时间       2021/10/29-2021/10/31
## 2 临床基因组学开课时间 2021/11/12-2021/11/14
## 3 宏基因组开课时间     2021/11/19-2021/11/21
## 4 扩增子开课时间       2022/01/07-2022/01/09

解决方案3:用data.table包里面的fread

需要手动指定编码格式

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(data.table)
# UTF-8 大小写敏感
fread('chinese.txt', encoding = "UTF-8")

##                   Train                  Time
## 1:       转录组开课时间 2021/10/29-2021/10/31
## 2: 临床基因组学开课时间 2021/11/12-2021/11/14
## 3:     宏基因组开课时间 2021/11/19-2021/11/21
## 4:       扩增子开课时间 2022/01/07-2022/01/09
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
微生物组—宏基因组分析专题研讨会(2020.2)
在广大粉丝的期待下,《生信宝典》联合《宏基因组》在2020年2月14-16日,北京鼓楼推出《宏基因组分析》专题培训第七期,为大家提供一条走进生信大门的捷径、为同行提供一个宏基因组分析学习和交流的机会、助力学员真正理解分析原理和完成实战分析,独创四段式教学(3天集中授课+自行练习2周+再集中讲解答疑+上课视频回看反复练习),“教—练—答—用”四个环节统一协调,真正实现独立分析大数据。
生信宝典
2019/12/25
1.6K0
微生物组—宏基因组分析专题研讨会(2020.2)
Nature ecDNA 系列 | ecDNA 如何促进癌症的进化
[ul]- Nucleotide frequency, dinucleotide frequency and trinucleotide frequency - H3K4me3 marks (ENCODE accession: ENCFF191IBA), H3K27ac marks (ENCFF208GHP), H3K4me1 marks (ENCFF759BRD), H3K3me3 marks (ENCFF983DSU) - DNase hypersensitivity sites (ENCFF823HYK) - Replication timing (https://github.com/skandlab/MutSpot/tree/master/features/Ch38), fragile sites (HGNC 2021) and - RepeatMasker long interspersed nuclear element, short interspersed nuclear element, long terminal repeat, simple repeat and DNA transposon annotations from UCSC101.
生信菜鸟团
2024/11/28
2010
Nature ecDNA 系列 | ecDNA 如何促进癌症的进化
245热图展示微生物组的物种和功能丰度或有无、距离矩阵
NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
生信宝典
2020/09/01
3K0
245热图展示微生物组的物种和功能丰度或有无、距离矩阵
psych +igraph:共表达网络构建
将0、6、12 h的count的table依次导入,分别计算这3个时间点的差异基因。
生信宝典
2019/05/09
2.4K0
psych +igraph:共表达网络构建
SAHMI 单细胞宿主-微生物互作分析代码实战
2020年11月29日,拙文《单细胞时代 || 宿主-微生物组相互作用》中,浅谈了在单细胞水平分析宿主细胞与微生物组的相互作用,当时主要参考的文章是:Host-Microbiome Interactions in the Era of Single-Cell Biology。
生信技能树jimmy
2024/06/13
1.5K1
SAHMI 单细胞宿主-微生物互作分析代码实战
时空月速览 |191篇文章,追踪发育/再生/进化/疾病前沿研究(2022年11月)
近年来,单细胞和空间组学技术快速发展,多年被Nature Methods评为年度技术,且在生命科学领域得到广泛应用。为了帮助大家更高效、更快速地了解单细胞空间组技术研究和应用的科研前沿,华大时空联合国家基因库生命大数据平台(CNGBdb)联合推出《时空月速览》专栏,每月分享单细胞空间组学技术及其在生命科学领域的研究进展,遴选重要研究成果并解读分享。
尐尐呅
2023/03/02
5070
时空月速览 |191篇文章,追踪发育/再生/进化/疾病前沿研究(2022年11月)
临床生物信息学工作者需要哪些【硬技能】和【软技能】?
生信菜鸟团
2025/01/02
1310
临床生物信息学工作者需要哪些【硬技能】和【软技能】?
时空月速览 | 179篇文章,追踪发育/再生/演化/疾病前沿研究(2022年12月)
.近年来,单细胞和空间组学技术快速发展,多年被Nature Methods评为年度技术,且在生命科学领域得到广泛应用。为了帮助大家更高效、更快速地了解单细胞空间组技术研究和应用的科研前沿,华大时空联合国家基因库生命大数据平台(CNGBdb)联合推出《时空月速览》专栏,每月分享单细胞空间组学技术及其在生命科学领域的研究进展,遴选重要研究成果并解读分享。
尐尐呅
2023/03/02
4660
时空月速览 | 179篇文章,追踪发育/再生/演化/疾病前沿研究(2022年12月)
刷了一下历年的中国生物信息学十大进展
从上面的3个分类评选的入选的工作中进一步评选,产生每个年度“中国生物信息学十大进展”。
生信技能树
2023/09/04
1.2K0
刷了一下历年的中国生物信息学十大进展
读书笔记 | 第二部分 NGS 介绍和数据分析
生信菜鸟团
2024/11/23
1680
读书笔记 | 第二部分 NGS 介绍和数据分析
RNA-seq这十年(3万字长文综述)
我们在生信菜鸟团公众号举办的每周文献精选活动,菜鸟团一周文献推荐(No.20)广受好评的是大神级的RNA-Seq综述,题目:RNA sequencing: the teenage years ,所以在我们生信技能树VIP交流群也得到了关注。
生信技能树
2019/08/08
13.6K0
RNA-seq这十年(3万字长文综述)
Nature | 代码值得学习!发现RNA剪接异常产生的新一类“公共新抗原”,公共数据挖掘
◉ TCGA RNA-seq 数据在胶质母细胞瘤 (GBM,n = 167 个样本)、低级别胶质瘤 (LGG,n = 516)、肺腺癌 (LUAD,n = 517)、肺鳞状细胞癌 (LUSC,n = 501)、间皮瘤 (MESO,n = 516)、肝细胞癌 (LIHC,n = 371)、胃腺癌 (STAD,n = 415)、皮肤黑色素瘤 (SKCM,n = 470)、肾乳头状细胞癌 (KIRP,n = 290)、肾嫌色细胞癌 (KICH,n = 66)、结肠腺癌 (COAD,n = 458) 和前列腺腺癌 (PRAD,n = 497) 中进行了分析。◉ 选取肿瘤纯度 ≥60% 的样本(实心颜色)进行分析,由于缺乏纯度数据,排除了 MESO 和 STAD 样本。◉ 对患者间的 NJ 频率 (PSR) 进行了分析,其中公共 NJ 被定义为 PSR ≥10%(红线)。◉ 按肿瘤类型统计了每例样本中检测到的公共 NJ 的总数(d)和 log2[读段频率](e)(COAD,n = 265;GBM,n = 391;KICH,n = 773;KIRP,n = 247;LGG,n = 327;LIHC,n = 173;LUAD,n = 175;LUSC,n = 555;MESO,n = 277;PRAD,n = 245;SKCM,n = 353;STAD,n = 1,433)。◉ 根据剪接类型对公共 NJ 进行分类:3′ 或 5′ 剪接位点的外显子丢失 (A3 或 A5 丢失 (A3−; A5−))、3′ 或 5′ 剪接位点的内含子获得 (A3 或 A5 获得 (A3+; A5+))、外显子跳跃 (ES)、外显子内的连接、内含子内的连接和其他类型(f),以及框移 (FS) 状态(g);IF 表示同框。◉ 所有泛癌症范围的 NJ 在所有研究的 TCGA 肿瘤类型中的表达情况(log2[每百万计数 (CPM)])。◉ 更多的统计细节见补充表 3。图 a 使用 BioRender 创建(致谢:D.W.K.,https://BioRender.com/k09l557;2024 年)。
生信菜鸟团
2025/03/21
1240
Nature | 代码值得学习!发现RNA剪接异常产生的新一类“公共新抗原”,公共数据挖掘
Cibersort免疫浸润的在线分析及R语言代码实现
上期展示了ESITMATE(基于转录组数据)计算免疫得分和肿瘤纯度的一个例子,详见ggplot2实现分半小提琴图绘制基因表达谱和免疫得分。实际上计算肿瘤纯度的方法还有InfiniumPurify(基于甲基化数据)、ABSOLUTE(基于体细胞拷贝数变异)、PurityEst(基于突变数据)等等,而计算免疫浸润的有Cibersort、ssGSEA、TIMER等算法。
生信宝典
2022/01/18
5.9K0
Cibersort免疫浸润的在线分析及R语言代码实现
空间组学 | 揭示小细胞肺癌肿瘤异质性和免疫群体生态位 | Cancer.Cell
◉ 图1. FU-SCLC队列中的CODEX和多组学工作流程(A) FU-SCLC队列中平行组织分析方法的描述,包括IHC染色、bulk WES和RNA测序、SMI CosMx和高维CODEX成像,以及CODEX概述。(B) CODEX面板中使用的标记,按目标细胞类型或蛋白质类别分组。(C) CODEX图像数据的代表性示例(裁剪以适应);比例尺,50 μm。(D) 一个肿瘤核心的代表性CODEX图像,叠加了六种颜色的癌症和免疫细胞谱系标记,以及相应的细胞分割掩膜图,通过颜色显示细胞身份,并叠加到掩膜上;比例尺,250 μm。(E) 热图显示所有标记在由CODEX识别的细胞表型中的平均表达。为了解释,MPTC被定义为检测到的具有共同表达两种或多种阳性转录因子的肿瘤细胞。dnT被定义为CD3+CD4−CD8−CD56− T细胞,NKT被定义为CD3+CD4−CD8−CD56+ T细胞。TC,肿瘤细胞;TH,辅助T细胞;Treg,调节性T细胞;NK,自然杀伤细胞;DC,树突状细胞。另见图S1和S2,表S1和S2。
生信菜鸟团
2025/03/28
890
空间组学 | 揭示小细胞肺癌肿瘤异质性和免疫群体生态位 | Cancer.Cell
融合基因鉴定以及GATK寻找突变
上周的癌症样本全转录组数据的融合基因鉴定中我们拿到数据进行一系列比对过滤后使用star完成了基因组比对,并通过设置参数拿到了Chimeric.out.junction文件以便star-fusion进行融合基因的鉴定
生信菜鸟团
2023/09/08
2.1K1
融合基因鉴定以及GATK寻找突变
分子分类 | CancerCell | 使用紧凑特征集对非 TCGA 癌症样本进行 TCGA 分子亚型分类
生信菜鸟团
2025/02/18
800
分子分类 | CancerCell | 使用紧凑特征集对非 TCGA 癌症样本进行 TCGA 分子亚型分类
超过3000万细胞20,000个基因的人类细胞形态全基因组图谱 | Nat.Methods
◉ 这是 PERISCOPE 筛选的实验流程。◉ 这是五种表型染色和荧光 ISS 的示例图像。◉ 这是一个示意图,展示了消色策略,以便在表型染色的荧光成像后进行 ISS。◉ SS 是二硫键连接的荧光团;SH 是还原的二硫键。◉ 这是 PERISCOPE 分析管道的概述,包括表型特征的提取、条形码的解卷积以及基因型-表型的相关性。◉ 该图是使用 BioRender.com 制作的。
生信菜鸟团
2025/03/13
520
超过3000万细胞20,000个基因的人类细胞形态全基因组图谱 | Nat.Methods
时空组学 | 食管癌发生单细胞多阶段空间演化图谱 | Cancer Cell
图片说明◉ 图1 单细胞空间转录组学分析揭示了食管癌发生过程中的动态细胞群(A)本研究中食管鳞状细胞癌时空转录组学分析示意图。(B)UMAP图显示ESCC肿瘤发生过程中样品中的细胞群。(C)点图显示标记基因在不同细胞群中的标准化RNA水平。(D)代表性视野的空间转录组学图谱。(E)箱线图显示NOR(n = 45)、LGIN(n = 25)、HGIN(n = 21)和ESCC(n = 36)阶段每个视野中不同细胞群的平均密度。箱体表示中位数(中央线)和第25至75百分位数(箱体边界),须表示1.5倍四分位距。Kruskal-Wallis检验后进行Dunn事后检验。另见图S1及表S1和S2。
生信菜鸟团
2025/03/13
2380
时空组学 | 食管癌发生单细胞多阶段空间演化图谱 | Cancer Cell
生物信息数据分析教程视频——15-clusterProfiler包+ClueGO做富集分析
生物信息数据分析教程视频——10-TCGA数据库:mi NA的表达探索
DoubleHelix
2022/12/16
2.2K0
生物信息数据分析教程视频——15-clusterProfiler包+ClueGO做富集分析
FEMS综述: 如何从微生物网络中的“毛线球”理出头绪(3万字长文带你系统学习网络)
From hairballs to hypotheses–biological insights from microbial
生信宝典
2019/05/15
7K0
FEMS综述: 如何从微生物网络中的“毛线球”理出头绪(3万字长文带你系统学习网络)
推荐阅读
微生物组—宏基因组分析专题研讨会(2020.2)
1.6K0
Nature ecDNA 系列 | ecDNA 如何促进癌症的进化
2010
245热图展示微生物组的物种和功能丰度或有无、距离矩阵
3K0
psych +igraph:共表达网络构建
2.4K0
SAHMI 单细胞宿主-微生物互作分析代码实战
1.5K1
时空月速览 |191篇文章,追踪发育/再生/进化/疾病前沿研究(2022年11月)
5070
临床生物信息学工作者需要哪些【硬技能】和【软技能】?
1310
时空月速览 | 179篇文章,追踪发育/再生/演化/疾病前沿研究(2022年12月)
4660
刷了一下历年的中国生物信息学十大进展
1.2K0
读书笔记 | 第二部分 NGS 介绍和数据分析
1680
RNA-seq这十年(3万字长文综述)
13.6K0
Nature | 代码值得学习!发现RNA剪接异常产生的新一类“公共新抗原”,公共数据挖掘
1240
Cibersort免疫浸润的在线分析及R语言代码实现
5.9K0
空间组学 | 揭示小细胞肺癌肿瘤异质性和免疫群体生态位 | Cancer.Cell
890
融合基因鉴定以及GATK寻找突变
2.1K1
分子分类 | CancerCell | 使用紧凑特征集对非 TCGA 癌症样本进行 TCGA 分子亚型分类
800
超过3000万细胞20,000个基因的人类细胞形态全基因组图谱 | Nat.Methods
520
时空组学 | 食管癌发生单细胞多阶段空间演化图谱 | Cancer Cell
2380
生物信息数据分析教程视频——15-clusterProfiler包+ClueGO做富集分析
2.2K0
FEMS综述: 如何从微生物网络中的“毛线球”理出头绪(3万字长文带你系统学习网络)
7K0
相关推荐
微生物组—宏基因组分析专题研讨会(2020.2)
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文