专栏首页Python与算法之美NLP算法工程师的日常以及核心竞争力

NLP算法工程师的日常以及核心竞争力

谈一下关于自己对算法工程师核心竞争力的理解

先简单自我介绍一下,我是DASOU,任职在一家社交公司,做NLP算法工程师,主要做文本分类,序列标注,问答匹配方向的工作,也做过搜索/推荐方向的需求。

工作快有一年半的时间了,在这一年半的时间里,我在工作的同时,一直都在思索,究竟什么才是算法工程师的核心竞争力,怎样才能避免刚入行就不停被灌输的那个35岁中年危机。

我看过很多别人的经验总结,结合我自己的工作经历,慢慢有了一点自己的感悟,想要分享出来,希望对大家能有帮助。

我用一句大白话说一下我自己对核心竞争力的总结就是:不同的场景,挑选合适的方法,获得最大的效果。

这句话很浅显,但是想要做到绝非没那么简单!!这需要我们长年累月的经验积累和总结。

接下来,我会模拟一个工作场景,讲讲究竟核心竞争力体现在哪些方面,以及怎么才能不断提升自己!!

0. 背景

假如现在接到了一个新的业务方的需求,你第一步要做什么?

打开冰箱,把大象...啊,不对

1. 需求定性

首先第一步,我们需要对这个需求定性,定方向,它是属于文本分类任务?命名体识别?还是机器翻译?不同的方向我们使用的方法和侧重点就会不一样。当然,很多时候一个需求不仅仅是一个任务,多数情况下是多个任务的结合,这个暂且不论。

2. 调研

好的,现在定好了方向,比如是关于一个文本分类的任务,接下来是要做调研。

调研主要是分为两个部分:数据和模型。

调研数据:对于一个算法工程师,处理数据绝对是占据一天绝大部分时间,很多人调侃自己是 SQL BOY 。但是我想要说的,数据决定模型的上限,这句话绝对是真理。只有真正的了解我们的数据,才能在接下里的任务中作出好的结果。

你需要知道你的数据量级大概是多少;不规范的数据多不多;需不需要做数据增强,针对当前这份数据哪种数据增强技术可能效果会不错;有哪些特征可能组合起来会有用等等,这些都需要在调研数据的时候值得我们仔细思考。

这里插一句,如果数据很不规范,在这个时候你就要思考是从模型下手还是从数据本身下手,各自有什么合适的方法。比如你可以看看这些不规范的数据究竟有什么特点可以利用。比如是不是可以不分词,而只是使用基于字的模型,等等吧。

在数据处理这个过程中,因为现在很多公司数据都存在 Hive 中,所以会用到 MapReduce,Hive,Spark 等等大数据开发工具,掌握这些工具绝对可以让你轻松搞定数据处理。

调研模型:宗旨就是根据不同的要求,使用合适的模型。你需要综合各方面的条件作出决策。如果业务方需要高准确度,选择什么模型能满足要求。如果业务方需要高响应速度,选择哪种模型合适。针对当前这种数据,哪种模型可能效果会不错。

还是以我们这个文本分类这个需求为例,如果看中速度,FastText会不会更好一点,或者TextCNN怎么样?如果要求精度,那么Bert可以吗?或者宽松一点 Albert怎么样,FastBert怎么样?

在这个过程中,你需要去读大量的论文和博客,看看别人的经验和总结,帮助自己作出最终的决定。

3. 训练/优化模型

模型的训练和优化,一般来说不会占据的太多的时间。有句话忘了在哪里看到的了,说是处理数据花了两周的时间,训练模型花了两个小时。听起来可能有点夸张,但是是这么个意思。在这个过程中,你的主要工作就是需要使用代码实现模型,去思考怎么样才能更高效的运行这个模型,需要去思考怎样才能获取更好结果?

比如说,使用 GPU 进行训练模型,你需要熟悉模型/数据并行化的知识。比如说,针对特定任务,修改损失函数,修改优化函数,等等吧。

4. 部署上线

我们需要为开发人员提供接口,从而可以处理数据返回结果。这个时候,你就要思考你的接口响应速度怎么样?做多可以多少并发?针对这种情况,自己做一个简单的压测就可以。一般来说,你需要掌握 grpc,kafka,flask,nginx 等常用工具。当然,这些你不需要精通,如果需求方对接口要求很高的话,你可以使用一些成熟的开源框架就可以,所以,不用太慌。

好了,大概就是这样,整个流程我们有着极强的耐心,而且要不停的从过程中积累经验。

5. 总结

总结来说,要想提高自己的核心竞争力,做到两个方面:算法+工程 。

对于算法,要深入底层,把手弄脏。算法模型重点在质量,而不是数量。既然要搞一个模型,就要彻底把它搞清楚,要把它掰开了揉碎了琢磨,不要似是而非。

对于工程,你需要有大数据开发能力和模型训练部署能力。

两个都要抓,两手都要硬,才能无往不利。其实,在这方面,我做的也很不好,人都是有惰性的,大道理说起来一套套的,做起来就是个行动的矮子...

然后我痛定思痛,想逼自己一把,于是几天前就建了两个NLP仓库。

本文分享自微信公众号 - Python与算法之美(Python_Ai_Road)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-03-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 工作几年后,前端工程师的核心竞争力是什么?

    这篇文章面向的读者是已经工作了三年以上的前端开发者。 三年以下的前端人,看了跑偏跟我没关系。 //////////// 想一个问题,前端都包括什么? 你可能会向...

    web前端教室
  • 想成为具有核心竞争力的 Python算法工程师?清华博士带你入门!

    关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 在我看来,基本上可以负责任地认为,P...

    昱良
  • 算法才是一个程序员最核心的竞争力(一)

    说到编程序,大家总是会想到各种酷炫的框架,只要掌握了新的技术框架,就觉得自己很牛了,其实真正体现一个程序牛逼的地方,就是掌握程序的灵魂:算法,今天教大家掌握一些...

    前端老鸟
  • 腾讯AI Lab与哈工大SCIR共探NLP前沿

    3月1日至3日,哈工大-腾讯联合实验室自然语言处理专题交流活动在哈尔滨工业大学顺利进行。腾讯AI Lab及腾讯高校合作团队一行九人访问哈尔滨工业大学,与社会计算...

    腾讯高校合作
  • AI校招程序员最高薪酬曝光!腾讯80万年薪领跑,还送北京户口

    作者介绍:克里斯蒂娜酱,互联网行业招聘专家,深耕技术领域,多年一线互联网公司和海外顶级人才探索经验。

    华章科技
  • 同是程序猿,看看在AI领域薪资与你差距有多大?

    如果说 2016 年是互联网 AI 领域井喷的元年,2017 年整个 AI 领域全面爆发,来潮汹涌的趋势相较 2016 年可以说是有过之而无不及。那么2018~...

    机器人网
  • Reddit大型求助现场:用机器学习去实现通用人工智能,简直就是白日梦!

    人工智能学科的核心目标是,有朝一日我们能够建造像人类一样聪明的机器。这样的系统通常被称为通用人工智能系统(AGI)。

    新智元
  • 观察|考研加分、谈薪加倍,深度学习到底有多火

    记者|白羽 国外最近的一则新闻把深度学习再次提到了风口浪尖。 文章标题“熟悉深度学习,已成为取代精通Excel,成为简历的新亮点”,着实刺激了好一轮转发。 其...

    AI科技大本营
  • 自身经历解读:2021 校招算法岗, 劝退还是继续

    其实本来想着等到忙过毕业之后再写这篇文章的,毕竟两年半学制真的伤不起呀。但考虑到今年的算法情况以及各位同学的焦虑,感觉有必要早些写一篇大致的指南来供大家参考。这...

    zenRRan
  • 【NLP】哈工大车万翔教授 -- 自然语言处理NLPer的核心竞争力是什么?19页ppt

    自然语言处理是当前人工智能研究的重要方向之一。那么从事NLP的人员如何能够不断升级,构建核心竞争力,请看哈工大SCIR车万翔教授受邀在学生研讨会上作了一场特邀报...

    zenRRan
  • 软件测试工程师承受的压力(二)

    其他两点:4.收入的压力 5.家庭的压力,因为所有职场人都会有遇到,暂时不说了。

    muntainyang
  • 专访 | 德国大神Hans Uszkoreit:语言才是AI的关键,深度学习无法解决NLP的核心问题

    德国人工智能研究中心科技总监Hans Uszkoreit博士认为:语言技术是人工智能的核心部分,但当前的深度学习方法还不足以解决NLP领域的核心问题。 在AI...

    AI科技大本营
  • CCAI 2017 | 专访德国语言技术领军者 Hans Uszkoreit:深度学习还不足以解决 NLP 核心问题

    用户1737318
  • 百度王海峰获国家级科技奖,他背后是一座中国AI的西点军校

    5月27日,首届全国创新争先奖授奖大会召开,表彰了不到300名做出突出贡献的优秀科技工作者。获奖者包括近百位两院院士在内的各行业领军人才,来自百度的王海峰博士成...

    罗超频道
  • 原创 | 本科入行可能吗?做到这3点,斩获BAT offer不是梦

    大家好,前两天有一个小伙伴加我微信咨询。他说他不想读研,想要直接本科毕业就参与工作。但是又担心自己由于没有学历优势,无法在校招当中获得机会,于是便来向我请教,能...

    TechFlow-承志
  • 哈工大车万翔教授:NLPer的核心竞争力是什么?

    【导读】自然语言处理是当前人工智能研究的重要方向之一,那么从事NLP的人员如何能够不断升级、构建核心竞争力?请看哈工大SCIR车万翔教授受邀在学生研讨会上作的一...

    Datawhale
  • 文末福利-如何构建核心竞争力? | 25位技术大咖的通关秘籍在此

    ? 核心竞争力的概念首次出现是在1990年,将其定义为“是在组织内部经过整合了的技术、知识和技能,尤其是关于怎样协调多种生产机能和整合不同技术和技能”。概括地...

    腾讯大讲堂
  • AI的数据、算法、算力“轮流坐庄”,NLP到了“数据为王”的时代

    工作人员齐整坐好,每个人都对着电脑全神贯注,一件又一件的“东西”在眼前划过,经过标准化处理就转到下一流程……这实际上是人工智能行业里的数据标注办公区一角。

    用户2908108
  • AI in 美团:吃喝玩乐背后的黑科技

    很多人都会发现日常生活已经越来越离不开美团了,这个互联网平台涵盖了吃、住、行、游、购、娱……能帮我们做很多事情,非常接地气。黄色的美团外卖骑手,橙色的摩拜单车,...

    AI科技大本营

扫码关注云+社区

领取腾讯云代金券