前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据处理经验总结·大数据文件处理参考值

数据处理经验总结·大数据文件处理参考值

作者头像
陈黎栋
发布2020-02-18 09:51:09
3610
发布2020-02-18 09:51:09
举报

打印在控制台的字符串类型如果两边带有引号的话,说明字符串存储的时候就有引号。

经验:在对大测试数据进行转化前,先自己编写样例数据文件,确保样例数据文件对所有测试对象(数据库)能跑通,本质上是确保1、原始数据能够转换出我们要的各种数据;2、转换出的各种数据能够适用各种对象,关键是1,然后再编程对大测试数据进行统一转化。

三元组语义网数据处理时间和资源估算

4g文本文件,Java按行读写进行简单处理大约需要2.5天。

4g文本文件,56GB系统内存,20GB堆内存。 全部先读入List<String[]>,一行对应一个String[],读入阶段CPU使用100%,然后所有List<String[]>里的内容进行简单处理后拼接进入一个StringBuilder(). 在整个过程的某个阶段,会OutOfMemory.

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 经验:在对大测试数据进行转化前,先自己编写样例数据文件,确保样例数据文件对所有测试对象(数据库)能跑通,本质上是确保1、原始数据能够转换出我们要的各种数据;2、转换出的各种数据能够适用各种对象,关键是1,然后再编程对大测试数据进行统一转化。
  • 三元组语义网数据处理时间和资源估算
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档