首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

NLP 民工的乐园

任务型对话英文数据集: github[97] 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。...中文NLP数据增强(EDA)工具 github[156] [ ] 英文NLP数据增强工具 github[157] [ ] 一键中文数据增强工具 github[158] 104....中文全词覆盖BERT及两份阅读理解数据 github[176] DRCD数据集由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。...新冠肺炎相关数据 新冠及其他类型肺炎中文医疗对话数据集 github[343] 清华大学等机构的开放数据源(COVID-19)github[344] 278....2004.14257 [392] github: https://github.com/google-research/tapas [393] github: https://github.com/nlpcl-lab

1.2K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    聊聊通常构建数据指标体系,告别数据初级民工

    “没有一套合理的数据指标体系,纵然你有再多的数据,分析起来根本无从下手。”做数据分析时的你是否深有同感?...因此今天我会先讲解如何构建数据指标体系,接着再谈谈数据分析方法,从这两方面分享我所掌握的数据分析有关的知识。 ? 首先是数据指标体系。...在我们日常的工作、项目中,往往已经有了一套成熟的指标体系,一般用不着我们去从零开始构建数据指标体系,但这并不意味着我们不需要这项能力,因为这是区分你和广大“数据民工”的关键所在。...下面,我把数据指标体系的构建过程分成三步: 一、分析数据组成 二、明确核心指标 三、构建数据模型 如果还想了解详细的知识和数据分析相关干货,我刚好为大家争取到一个福利,现在你可以免费报名网易云课堂的《...网易直播课内容详情 1月19日 20:00&职场晋升必备: 制作酷炫报表,4步带你学习数据可视化 场景工具:用Tableau学习如何管理数据 流程处理: 利用业务拆解找到数据指标、进行数据可视化 学习成果

    52510

    「PowerBI」从数据民工数据白领蜕变之旅(一)-工具总览

    在人人都是数据分析师的时代,没有哪个人哪个岗位可以和数据脱钩。...数据分析的前提是有干净完整规范的数据存在,为了这个前提,许多人活在数据民工的状态(天天搬砖干苦累活),将大量的时间耗费在一些无意义的、没价值的、产出低的数据处理中。...为了得到一个能够使用的数据源,需要有一个数据准备的过程,此过程专业一点来说,是数据ETL的过程(Extract 抽取,Transfrom转换、Load加载),在拿到最初的数据源用作数据分析时(甚至有时还要自己准备去做好模板去分发供生产数据环节使用...Excel催化剂现有的100+功能中,起码有90+的功能是为了服务数据ETL部分的,相信在Excel催化剂的这一系列辅助功能的支持下,数据民工的状态将得到非常大的改善。...结语 时代在进步,人的能力也被重新要求,在数据领域,数据ETL的本领的掌握,能够帮助我们从数据民工式的繁重工作中得以解脱出来,换来的是我们通过脑力的劳动,学习先进的工具,更轻松地完成数据加工、整理、处理等工作

    1.8K10

    精读《民工叔单页数据流方案》

    早期前端是没有数据流概念的,因为前端非常薄,每个页面只要展示请求数据,不需要数据流管理。...这次我们来看看民工叔徐飞在 QConf 分享的主题:单页应用的数据流方案探索。...3 精读 一切技术都要看业务场景,民工叔的 单页应用数据流方案 解决的是重前端的复杂业务场景,虽然现在前端几乎全部单页化,但单页也不能代表业务数据流是复杂的,比如偏数据展示型的中台单页应用就不适合使用这套方案...数据存储方式按照视图形态来,因为视图之间几乎毫无关联,而且特别是数据产品,后端数据量巨大,把数据处理过程搬到前端是不可能的(为了推导出一个视图形态数据,需要动辄几GB的原始数据运算,存储和性能都不适合在前端做...分形的优点 分形保证了两点: 组件和数据流融为整体,与外部数据流隔离,甚至将数据处理也融合在数据管道中,便于调试。 便于组件复用,因为数据流作为组件的一部分。

    33910

    为什么“高大上”的算法工程师变成了数据民工

    实际中的算法工程师:提出假设->收集数据->预处理->预处理->训练模型->调试->调试->重新收集数据->预处理->收集更多数据->调试->调试->调试->…->放弃。...为什么“高大上”的算法工程师实际上是个数据民工,要寻找这种理想与现实的差距的原因,首先要理解一个事实:只有人能够理解数据,机器不能。...从“IT精英”到“IT民工”或者“码农”,这种称呼上的转变并非笑谈,而是真实的反应了计算机编程领域门槛逐步降低的过程。...所以,我们应当给听上去高大上的“算法工程师”或者“数据科学家”起一个类似的外号,比如“数据民工”、“机农”或者“蒜农”之类,以免不明真相的孩子们被“高大上”的称号吸引而误入歧途。...天朝的程序员们有一种矛盾心态,一方面自称“民工”,认为编程是一种只适合30岁之前的年轻人从事的体力劳动,而另一方面却又把技术看的非常重要,甚至在业余时间也喜欢大谈技术,或者以攻击其他程序员使用的技术为乐

    2.2K90

    数据ETL」从数据民工数据白领蜕变之旅(二)-重温Excel催化剂经典

    而此插件凝聚了笔者在数据分析领域中数据ETL部分的绝大部分的场景,并让这些场景可以低门槛化让几乎只需入门级的Excel用户即可学习掌握。...在此数据ETL专题的系列中,我们一起来重温此经典,同时也让后关注者可以有更好地导读性指引。...例如本以为不太重要的地理数据采集中的两点路径规划功能,最终却是企业项目里最刚需的功能。...结语 本篇主要给大家重温Excel催化剂插件在数据ETL方面的作用和价值,在中小型数据规模下,和一些日常部门级别的数据处理、分析需求上,非常多的功能可完全匹配到位,无需成为一个多高级的Excel用户,一样可以在...笔者未来聚焦在数据领域的分享,不限于Excel,会分享更多Sqlserver、dotNET、Azure、PowerBI等话题,升级数据分析的能力,欢迎继续关注。*

    36440

    【AI的正面与侧面】披着光鲜的外衣的“数据民工

    人工智能需要数据,高质量的标注数据决定了一家人工智能公司竞争力。通常来说,数据标注得越准确、数量越多,算法模型的效果就越好,自然产品的体验也会更近一步,然而这么多结构化数据哪里来?...于是有种产业叫数据工厂。 ? 眼下这些数据工厂业务大多是标注数据,即根据项目方要求,人工为图片、视频和语音内容打标签、做标记。...小编曾采访过一家专业的数据加工平台,旗下有12家下辖数据工厂及2000余名数据操作员来支持数据的采集、清洗、标记等产品化服务。...与专业的数据标注公司业务类似的还有数据众包平台,以百度众包平台为例,号称是有10000+名专职外场数据采集员,5000+在线数据标注人员。...而在产业链的最底层是更为现实的一面,一批批身份各异,从未被提起的人们成为了新时代的数据民工。人工智能,仍需要大量的人工劳动给养,其实并不高大上。

    1.1K50

    数据ETL」从数据民工数据白领蜕变之旅(五)-使用dotNET脚本实现SSIS无限扩展

    ,给大家带来在SSIS环境下调用百度AI接口,让非结构化的数据转换为可分析的结构化数据供下游Excel、PowerBI等分析工具使用。...最后我们回到数据库中可发现,已经从我们Excel的两列数据,经过转换后,生成了其他四列的数据。此时我们已经完成了从非结构化的文本评论数据,转变为可分析的情感倾向的分析。...* 系列文章 从数据民工数据白领蜕变之旅(一)-工具总览 https://www.jianshu.com/p/2bd3f90206ec 从数据民工数据白领蜕变之旅(二)-重温Excel催化剂经典 https...://www.jianshu.com/p/cb89929bb8ae 「数据ETL」从数据民工数据白领蜕变之旅(三)-除了Excel催化剂之外PowerQuery值得期待 https://www.jianshu.com.../p/d154b09c881d 「数据ETL」从数据民工数据白领蜕变之旅(四)-有了PowerQuery还需要SSIS吗?

    2.2K10

    CSAPP lab

    CSAPP学习过程 这篇文章主要记录CSAPP书和lab的学习过程,具体某个lab的踩坑过程会分别附单独链接,本文主要是记录漫长的学习过程以及方便想学但是尚未开始学习的同学参考,以下是github的lab...image.png Todo Bilibili翻译课程 lecture 1-4 搭建实验环境 Data lab Bilibili翻译课程 lecture 5-9 Bomb lab Attack...lab 前置材料 一本CSAPP CSAPP的bilibili翻译课程 实验材料 参考经验贴1 参考经验贴2 我想做些什么 开设这个仓库是想记录我做CSAPP的lab的过程,也顺便将踩坑过程分享,帮助后人少走弯路...学习过程(以Lab为单位总结) 简单查阅别的学习经验后,大多数人的分享都说看书再多遍也不如做lab学到的多,lab是课程的精髓,我已经粗略的学过编译原理,计算机组成原理和操作系统,所以我会比较快速的过一遍网课然后开始...lab,目标3个月完成大多数的lab(也许有一些实在不感兴趣的lab会跳过) Timeline 2022-03-30 完成Datalab 2022-03-28 完成实验环境搭建 2022-03-27 完成

    1K10

    数据ETL」从数据民工数据白领蜕变之旅(六)-将Python的能力嫁接到SSIS中

    目标我们存到关系数据库中,这样数据的二次利用才更方便,并且数据库的存储数据量也可以得到保障。 最终我们的数据流任务如下图,增加加载时间,方便后期审核。...* 系列文章 从数据民工数据白领蜕变之旅(一)-工具总览 https://www.jianshu.com/p/2bd3f90206ec 从数据民工数据白领蜕变之旅(二)-重温Excel催化剂经典 https...://www.jianshu.com/p/cb89929bb8ae 「数据ETL」从数据民工数据白领蜕变之旅(三)-除了Excel催化剂之外PowerQuery值得期待 https://www.jianshu.com.../p/d154b09c881d 「数据ETL」从数据民工数据白领蜕变之旅(四)-有了PowerQuery还需要SSIS吗?...https://www.jianshu.com/p/7ca5a3785bd0 「数据ETL」从数据民工数据白领蜕变之旅(五)-使用dotNET脚本实现SSIS无限扩展 https://www.jianshu.com

    3.1K20

    数据ETL」从数据民工数据白领蜕变之旅(四)-有了PowerQuery还需要SSIS吗?

    其实,对某些数据ETL它是有缺陷的,例如不能扩展性地使用正则表达式处理字符串数据; 最后,它很大的弊端是目标数据只能进入到PowerPivot层面,不能回到关系型数据库这样更友好的数据存储区,数据处理好...控制流中的数据流任务,可以再嵌套一个循环结构的容器,就变成批量执行某个数据流任务单元了,例如抽取某个文件夹下的所有Excel文件数据数据库中,使用循环容器,就可以将任务分解成循环执行【Excel文件抽取数据数据库...首先,拖一个数据流任务出来。 双击数据流任务,或直接切换到数据流选项卡中,来到数据流任务的设计界面。...* 系列文章 从数据民工数据白领蜕变之旅(一)-工具总览 https://www.jianshu.com/p/2bd3f90206ec 从数据民工数据白领蜕变之旅(二)-重温Excel催化剂经典 https...://www.jianshu.com/p/cb89929bb8ae 从数据民工数据白领蜕变之旅(三)-除了Excel催化剂之外PowerQuery新物种同样值得期待 https://www.jianshu.com

    3.5K20

    MIT 6.830数据库系统 -- lab six

    MIT 6.830数据库系统 -- lab six 项目拉取 原项目使用ant进行项目构建,我已经更改为Maven构建,大家直接拉取我改好后的项目即可: https://gitee.com/DaHuYuXiXi...各个lab的实现,会放在lab/分支下。 ---- 引言 在本实验中,我们将要实现基于日志的中止回滚和崩溃恢复。源码中提供了定义日志格式的代码,并在事务期间的适当时间将记录附加到日志文件中。...要实现的是simpledb的日志系统,以支持回滚和崩溃恢复;在lab4事务中,我们并没有考虑事务执行过程中,如果机器故障或者停电了数据丢失的问题,bufferpool采用的是no-steal/force...byte[] oldData; } 数据页一开始的旧数据是空的,那什么时候会对旧数据进行更新呢?...tid) throws IOException { // some code goes here // not necessary for lab1|lab2

    22520

    MIT 6.830数据库系统 -- lab four

    MIT 6.830数据库系统 -- lab four 项目拉取 原项目使用ant进行项目构建,我已经更改为Maven构建,大家直接拉取我改好后的项目即可: https://gitee.com/DaHuYuXiXi...各个lab的实现,会放在lab/分支下。...---- 事务 事务是一组以原子方式执行的数据库操作(例如插入、删除和读取),也就是说,要么所有的动作都完成了,要么一个动作都没有完成,而数据库的外部观察者并不清楚这些动作不是作为单个不可分割动作的一部分完成的...两阶段锁协议的主要内容如下: 在对任何数据进行读、写操作之前,事务首先要获得对该数据的封锁。在对任何数据进行读操作之前要申请获得S锁,在进行写操作之前要申请获得X锁。...tid, boolean commit) { // some code goes here // not necessary for lab1|lab2

    27030

    MIT 6.830数据库系统 -- lab two

    MIT 6.830数据库系统 -- lab two 项目拉取 原项目使用ant进行项目构建,我已经更改为Maven构建,大家直接拉取我改好后的项目即可: https://gitee.com/DaHuYuXiXi...各个lab的实现,会放在lab/分支下。 Lab Two lab2必须在lab1提交的代码基础上进行开发,否则无法完成相应的练习。此外,实验还提供了源码中不存在的额外测试文件。...,主要负责维护Page数据组织格式和数据读写操作,其内部属性如下所示: public class HeapPage implements Page { final HeapPageId pid;...fetchNext方法这里就是Insert装饰器对象需要实现的方法,其内部调用被装饰器对象的next方法获取所有数据,然后执行insert操作,同时计算插入数据条数,最终返回的是插入的数据条数。...data.txt 2 "int,int" 接下来创建数据库目录文件catalog.txt: data (f1 int, f2 int) 该文件会告诉SimpleDB数据库中包含一个表:data,其结构为两个

    32130

    MIT 6.830数据库系统 -- lab three

    MIT 6.830数据库系统 -- lab 项目拉取 原项目使用ant进行项目构建,我已经更改为Maven构建,大家直接拉取我改好后的项目即可: https://gitee.com/DaHuYuXiXi...各个lab的实现,会放在lab/分支下。...本节理论基础可参考: CMU 15-445 – Query Optimization ---- 前言 我们应该在lab2的基础上进行开发,完成lab3的练习 下面是本实验的大纲: 实现TableStats...+ ntups(t1) x ntups(t2) //CPU cost ntups(t1)是表t1的元组数量 ---- 可选择性 可选择性如何理解: 可选择性指的是当前谓词匹配能够过滤出多少符合条件的数据或者过滤出的这批数据占总数据量比例是多少...* * This class is not needed in implementing lab1 and lab2. */ public class TableStats {

    27930

    MIT 6.830数据库系统 -- lab five

    MIT 6.830数据库系统 -- lab five 项目拉取 原项目使用ant进行项目构建,我已经更改为Maven构建,大家直接拉取我改好后的项目即可: https://gitee.com/DaHuYuXiXi...各个lab的实现,会放在lab/分支下。 ---- 引言 在本实验中,我们将会实现B+树索引用于高效查询和范围扫描。...叶子节点可以包括数据记录或者指向其他数据库文件的指针。为了简单起见,我们实现的B+树的叶子节点只包括数据记录。...B+树内部节点是不保存数据的,只作索引作用,它的叶子节点才保存数据。...---- 小结 本节详细代码可以参考仓库lab five分支,相关类核心源码注释都已给出,大部分是笔者个人拙见,难免有错,希望大家带着辩证的视角去看待。

    23410

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    热门标签

    领券