首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何把业务问题变成机器学习的问题?

我们认为一个机器学习的项目,无论通过合作还是使用第三方平台的方式,应该把大钱花在采集好的数据,定义好的问题上去,甚至这要超过一半的时间。而另一半的时间,才是真正做机器学习模型的时间。...开发新的数据源是有风险的。机器学习最怕的是说不清楚这是算法的问题,还是数据问题,还是问题定义的问题,所以让 MVP 环节中能出问题的环节越少越好。...前面我们介绍了问题定义的问题如何避免,而算法一般是不太容易出问题的,除非用错,而数据其实是很容易出问题的,所以我们尽量用简单、可靠、成熟的数据。 第三,我们讲到在建模的过程中,尽量使用成熟的工具。...在现实业务中,解决了一个问题,有时也会带来新的问题。...比如说新闻推荐的系统,现在点击的人多了,那么是不是由于推荐,新闻变得更加娱乐化了,是不是新闻的点击变得更集中化了,这可能并不是业务上非常希望的,需要继续想办法来优化。

75690

高端的面试技巧:把100个面试问题变成5个

“你为什么……”面试官可以一连造出100个句子来询问我们的应聘者。问题没完没了,还不包括“下水道井盖”之类的问题。 有一些专教面试的书籍会建议你把问题的答案记住并加以练习。...如果把回答修改为“我可以利用C++帮公司开发或者完善客户系统,让检索更简单”、“优化公司的管理系统,让全国的数据实现快速共享和更新”,那就截然不同。 3你是什么样的人? 这等于是在问:你了解自己吗?...你的价值观是否和我们一致?“ 你必须清楚地知道我把你招聘进来,能把你用在什么地方。”袁岳表示。...5你还有什么问题要问我吗? 通常许多学生会问工资、培训这些问题,事实上这不是最好的选择。招聘者的问题有时间顺序,从遥远的过去递进到最近、到现在、再到未来。...这个问题就是个典型的关注未来的问题,你要关注的是工作本身,而不是公司能为你提供什么。所以,“这份工作最大的挑战是什么”“如果我被公司雇佣做这份工作,我需要注意些什么”这类面试问题都是好问题。

51620
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    把你的 VS Code 一键变成国产 CEC-IDE,3 分钟解决卡脖子问题!

    今天闲逛 GitHub 时发现一个非常臊气的项目,用了这个项目之后,可以瞬间解决 IDE 的“卡脖子”问题,国产自主创新效率可以甩 CEC-IDE 几十条街!...不信看他的项目介绍(噗~) ❝一个插件,国产化你的 VS Code,来源于 CEC-IDE,有敏感词检测功能,这下自主创新了!...现在我们再来看一眼 CEC-IDE 插件: 不得不说,作者是懂我们的国情的,会员服务是国产化必不可少的核心技术。 为了使其更加显眼,作者特意将会员界面移动至侧边栏固定入口,贴心!实在是太贴心了!...相信有了会员服务,便能够保护开发者的利益,推动中华民族的经济复苏! 想想就激动,作为中华民族的一分子,我当然要激活会员推动经济复苏了。 很快啊,我啪的一下就点开了「激活会员」,结果报错了??...它以云原生的方式,抛弃了传统的云计算架构,转向以 Kubernetes 为云内核的新架构,使企业能够像使用个人电脑一样简单地使用云。

    2.3K30

    Java 通过aspose.words 把docx文件转成pdf文件后中文变成小方块,aspose转pdf乱码问题的解决方法

    Java 通过aspose.words 把docx文件转成pdf文件后中文变成小方块,aspose转pdf乱码问题的解决方法 一、问题描述 ​ 在centos服务器使用aspose.word转换word...文件为pdf的时候显示中文乱码,但是在win服务器上使用可以正常转换 二、问题原因 由于linux服务器缺少对应的字库导致文件转换出现乱码的 三、解决方式 1.将window中字体(c:\windows...\fonts)放到linux中,上传至/usr/share/fonts/chinese目录下 将本地的fonts目录拷贝到桌面,然后打包fonts.zip文件。...chinese", true); 2.登录linux服务器,查看系统中包含哪些字体 fc-list 将fonts上传到/usr/shared/fonts/chinese后,再次执行fc-list命令 刷新内存中的字体缓存

    77710

    算法专题 | 10行代码实现的最短路算法——Bellman-ford与SPFA

    今天是算法数据结构专题的第33篇文章,我们一起来聊聊最短路问题。 最短路问题也属于图论算法之一,解决的是在一张有向图当中点与点之间的最短距离问题。...所谓的邻接表也就是说我们把顶点一字排开存入数组当中,每个顶点对应一条链表。这条链表当中存储了这个点可以到达的其他点的信息。...但是也有缺点,除了实现稍稍复杂一点之外,另外一个明显的缺点就是我们没办法直接判断两点之间是否有边存在,必须要遍历链表才可以。 除了邻接矩阵和邻接表之外,还有一些其他的数据结构可以完成图的存储。...Bellman-Ford算法 刚才上面描述当中提到的算法除了floyd算法是计算的所有点对之间的最短距离之外,其他算法解决的都是单源点最短路的问题。...那有没有办法我们筛选出来可能构成新的松弛的边呢? 针对这个问题的思考和优化引出了新的算法——spfa。

    1K20

    SPFA算法详解

    0.引子 在Bellman-Ford算法中,每条边都要松弛\(n-1\)轮,还不一定能松弛成功,这实在是太浪费了。能不能想办法改进呢? 非常幸运,SPFA算法能做到这点。...2.用队列实现 我们知道了在下一轮只用这一轮松弛成功的点进行松弛,就可以把这一轮松弛成功的点放进队列里,下一轮只用从队列里取出的点进行松弛。 为什么是队列而不是其他的玄学数据结构?...)号点被松弛成功了,把它们加入到队列里。...\(3\)号点被用过了,把它扔掉。 现在队列为空(也就是能松弛的都松弛了),算法结束。 3.Code SPFA的具体实现,推荐结合上面的栗子食用。...但是SPFA非常容易被卡出翔,最坏情况下会变成\(O(nm)\)! 所以如果能用隔壁Dijkstra尽量不要用SPFA。

    1.1K20

    图详解第五篇:单源最短路径--Bellman-Ford算法

    只不过迪杰斯特拉算法每次去选到起点最短的边,然后去向外扩展更新(即对这条边的终止顶点进行松弛),直至所有的边都更新一遍就可以得到结果(因为它每次选的都是最小的); 而贝尔曼-福特算法不管边的大小,就是比较暴力的把所有的边都更新...可是最后一幅才是最终结果啊: 是的,所以我们上面也说了: Bellman-Ford算法是比较暴力的把所有的边都更新(即先后对所有的顶点的相邻顶点进行松弛),而不像Dijkstra算法的贪心那样每次选的都是最短的...因为第一轮t的最短路径更新为s->t(6)之后,后面又变成了s->y-x-t(2) 那它就可能影响它的相邻顶点的最短路径 而除了t之外的其它顶点第二轮并没有真正松弛更新,虽然进行了判断...因为如果有负权环的话,某些顶点的最小路径是可以一直往小去更新的: 比如 s->y的距离,如果走s->t->y的话是-2,但是如果从y再顺时针绕一圈就变成-3了,再绕就是-4,可以一直减小,无限制的降低总代价...那我们可以想办法检测一下这种情况: 其实很好办: 如果在进行了n-1次迭代之和还能更新,就是带负权回路的情况 因为如果不带负权回路的情况,最多迭代n-1次就可以得到最终结果 这样我们就可以通过返回值判断是否带负权环

    1.4K10

    在docker环境导入私有仓库的问题

    最近我遇到了一个在 docker 环境导入私有仓库的问题:一个 Golang 项目,使用 gitlab ci 来发布,通过 gitlab runner 调用 docker-compose 来打包,但是在构建时失败了...让我们重回案发现场,看看问题是怎么产生的: 首先是 .gitlab-ci.yml 文件,其相关代码片段内容如下: build_job: stage: build script: - make...下面看看我是如何解决问题的: 第一次尝试 既然问题出在用户名密码上,那么把仓库改成公开的不就可以了么?...git@git.domain.com:".insteadOf https://git.domain.com/ RUN go build 此方法可以解决问题,但是把敏感信息传来传去总觉得不安心,容易出问题...第三次尝试 如果不想把敏感信息传来传去,那么还有没有安全的解决方案呢?答案是肯定的!

    1.7K30

    图论--Floyd总结

    ,所有他能够找到任何边判断能否被松弛,这里是被替换。...2.传递闭包: 这里是对关系的传递,这点用起来很舒服,比如汇率问题,求一种货币能经过若干次兑换变成更多的自己,这里的话我们考虑,dis[i][j]为i与j的汇率,那么松弛时则有dis[i][k]* dis...3.Floyd 变形: 刚才也举了很多例子了,他们都是属于Floyd变形,至于为什么拿出来说是因为Floyd不可能考裸体(实在想考,那也没办法),考的都是变形题目,那么怎么变形很成问题,所以怎么变形,...怎么去找题意是解决问题的关键,出题人的想法千奇百怪,你真的想不到他会怎么考你,所以做到所有的floyd是不现实的,即使floyd不难,但是我们还是通过题目找到了规律,所有的题目的考察都是根据2,4,5所改造的...4、5.这里一起说一下,动态规划思想在这里是最小化的枚举各种松弛情况,可以理解为区间DP相似的思想,也就是说关于I J之间的关系,可以通过floyd解决,在就是插点法,在两点外插入点以获得松弛操作,比如在一个图中

    32930

    肚子上挂张画就能隐身:AI完全看不出我在哪,更看不出我是人类了 | 开源

    有没有过一个瞬间,你恨不得自己变成一团空气? 物理上做不到,真是遗憾。 但现在,你可以在AI面前练成“隐身术”,只要在肚子上贴一张图片。 虽然肉眼看得到你在挥手,目标检测算法已经当你不存在了: ?...△ YOLOv2被骗了 划重点,是隐身不是变身,AI没有把你识别成其他物件,是全然忽视你的存在,只看到旁边的兄弟。 如果,你想把隐身术传给小伙伴,把“隐身衣”递给他就好了: ?...也就是让AI给出的分类结果,分值降低,变成不太确定的分类。 那么问题来了,怎么才能让AI的检测便得不自信呢?...如果是“泰迪熊”的分值超过“人类”,就没办法推广到另外的数据集里去了。 最终,团队没有选择降低“人类”的分值,而是直接降低了目标的存在感 (Objectness) 。...如果你还有什么伟大的想法,有开源代码在这里,自己生成对抗图像: https://gitlab.com/EAVISE/adversarial-yolo 论文传送门: https://arxiv.org/abs

    54320

    “非法”开源,只有抖音才能拯救Gitee

    新粉请关注我的公众号说起开源软件,我们很容易想到的是GitHub或者GitLab这样的开源软件托管平台。GitHub是真的很方便,大大促进了软件开发和源代码的管理。这不得不说,是个壮举。...我国也有了自己的GitHub或者GitLab的替代品--Gitee。Gitee和GitHub使用体验类似,很多国内开源软件,包括个人想开源一点什么的,都上了这个平台。...然而现在字节跳动今非昔比,抖音凭借强大的人工智能和活人结合的解决方法,能够迅速有效的做好审查,已经妥妥的神一样的存在。 但是审核这种东西,一般出现在内容创作的平台上。...所以这很可能会让Gitee无法变成一个全球开发者的开源托管平台。 关于这个问题,知乎上这个话题有人提出了一个参考疫情管理,非常有中国特色的建议,颇具可行性。 也有网友表示 这话肯定也是没错的。...只不过我们有没有一个办法,可以同时兼顾到开源社区的方便性,和审核的需求呢?我想,还是赶紧把gitee卖给抖音吧。

    73910

    干货 | 基于 BDD 理念的 UI 自动化测试在携程度假的应用

    这些工具或框架可以把一些问题在开发阶段暴露出来,但是这还远远不够。那么我们的前端工程是不是也可以使用自动化测试来帮助我们提升项目质量呢 ? ?...那有没有办法能直接使用自然语言编写,让我们的测试不写一行代码,进一步降低自动化学习成本,并且还能打开真正的浏览器,去模拟用户“点点点“的行为呢? 答案自然是:有的!...DOM 元素选择器配置是按照页面维度来的: ? 如何查找元素的问题是解决了,但是不知道大家看到这里的时候有没有发现一个问题。...通知我们发布结果,并写入消息队列中 消息推送到我们自动化测试代码 GitLab 仓库,触发 GitLab CI 进行 BDD-UI-Testing 测试数据落地,自动发送测试报告邮件,生成相关测试报告并上传测试平台...平台侧流程: 用户在测试平台点击运行测试用例 调用 API 并写入消息队列 消息推送到我们自动化测试代码 GitLab 仓库,触发 GitLab CI 进行 BDD-UI-Testing 测试数据落地

    2.7K21

    一些常用的 Git 进阶知识与技巧

    然后我们可以把第一个密钥配置到公司的 Gitlab 服务器,并把相应的 Git 账号和邮箱设成全局。...修改某个历史记录的消息 假设当前分支有 a b c d 四个 commit 记录: a b c d 如果你想对 c 记录的消息进行修改。...最后用前面讲过的 git rebase 操作将 c 记录恢复到原来的位置。 这个过程的执行结果就和上图一样,这是当前分支修改后和远程分支上的对比,箭头指向的记录消息就是修改后的消息。...将 b a 记录,追加到新分支(注意,这里的 b a 提交记录是指原分支上的 commit,也就是选取原分支上的 b a 记录添加到新分支上,这样新分支上的记录就变成了 a b c,并且 c 记录的提交消息在第二步已经修改过...也就是说,执行 git reset b 后,当前的分支记录会变成 a b。执行 git revert b 后,当前的分支记录会变成 a b c b'。

    43830

    地铁换乘算法的实现

    img 图的二维数组展现 那么基础的数据结构已经设计好了,那么现在来开始讲算法吧,首先我们先把问题简化一下吧。...img 处理路径问题的时候用到的数据结构为图(Graph),那么我们来画出这个图,四个站分别为四个节点,边长代表两个节点之间的站的个数。...下图中左侧就是表达出来的图,可以看到徐家汇是没有办法直答曲阜路的(徐家汇只有1号线,9号线,11号线2;而曲阜路只有8号线和12号线),必须通过换乘地铁才可以。...2] = 7 ; dis[1] + v_matrix[1][2] + bias = 8, 可以看到在比较的时候引入一个bias值导致这次计算出来直达的7站是一个最优方案,因为换乘的边长由5变成了8。...尾巴 那么换乘算法已经有了,你有没有想过地图App是怎么确定你周围最近的地铁站的呢?没有想法的同学可以看我几年前写过的博客:周围的餐馆有哪些?

    1.2K50

    Python Algorithms - C9 Graphs

    (测试代码中10松弛,此时D[v]变成10,而它的前驱节点也变成了 u) #relaxtion inf = float('inf') def relax(W, u, v, D, P):...现在我们考虑一个问题,如果我们对图中的所有边都松弛一遍会怎样?可能部分顶点的距离估计值有所减小对吧,那如果再对图中的所有边都松弛一遍又会怎样呢?...那就想办法对图进行些预处理,使得所有边的权值都是正的就可以了,那怎么处理能够做到呢?此时可以看下前面的三角不等性质,内容如下: d(s,v) 的选择还是不选择这种策略,如果我们选择不经过节点 k 的话,那么问题变成了求从起点 u 到终点 v 只能够经过编号为(1,2,3,…,k-1)的节点的最短路径问题;如果我们选择经过节点...k 的话,那么问题变成求从起点 u 到终点 k 只能够经过编号为(1,2,3,…,k-1)的节点的最短路径问题与求从起点 k 到终点 v 只能够经过编号为(1,2,3,…,k-1)的节点的最短路径问题之和

    86920

    远程办公也可以很高效

    远程办公可能的问题 沟通协作的问题 开发人员在家的状态的问题 上面两个问题是在远程办公前最担心的两个问题,会觉得团队成员都不在一起,沟通成本会增高,一个任务多人协作时可能会出现很大的问题。...工具 以远程的方式协作来开发产品少不了工具的支持,对我们来说使用的工具很简单: GitLab Jenkins 腾讯文档 企业微信 GitLab 部署在公司外网的代码托管工具,之前考虑到开发人员可能分布在不同的地方...但仍然有一些不足之处: 任何一个人对文档做了过滤是对所有人生效; 状态需要靠人去查看,不能消息推送提醒,当然这也不是文档的职责。 新的任务系统正常完善中,期待早日能用上。...周末除了紧急事情,我没有刻意安排很多任务,但由于现在每个人都隔离在家,周末概念比较模糊,经常在周末有人问我,有没有什么任务可以安排做的。...最后 疫情期间的远程办公带来了一种新的体验,复工后,我觉得有些地方是可以取长补短的: 1、疫情期间,因为没有办法,很多事情必须通过工具来完成,这是我们值得思考的,能够使用工具的地方尽量避免人来处理,能更大提高效率和准确性

    59230

    【图论】图论基础(搜索、最短路、并查集、最小生成树、拓扑排序)

    //这两个问题//对于第一个问题:用一个数组 book来标记,如果走过,就回到上一步,避免重复走环(死循环)//第二个,更简单了直接判断数组 !...比如我们要找到1到各个点的最短路径,那我们不妨把一设为源点我们每次通过找离源点最近的其他点(贪心思想)来松弛(专业术语,你可以理解为更新)源点到其他点的最短路径。...比如像下面这个图在此之前,我们定义一个数组dis,把1到每个点的距离存进去i12345dis[i]051INFINF我们先找离1最近的点,是3通过3来松弛1->4的距离 松弛以后dis[4]=min(dis...,合并成一个集合来考虑把 1和2 合并(按照右归左的规定)如果在这个时候,我们要把3和2合并,那这个时候2到底是属于1还是属于3,但明显我们要两个都属于那么我们可以 把3和1合并也就是把祖宗指向新进来的元素试想一下...,把2和4合并和把4和2合并又该怎么做?

    1.2K53

    临时解决 LDAP 导致 GitLab Members Blocked 问题

    zhangsan1@bbb.com.cn,切换后,两个邮箱后缀的用户都可以正常使用 LDAP 认证,这就导致了上边问题的出现。...登录以后, GitLab 又存储了一次该账户信息,但是不知道为什么新账户信息中用户名称变成了 zhangsan11 (莫非是 GitLab 查询数据库已存在 zhangsan1 账户,就会自动尾数追加...,这就导致了与本地 git 账户不统一而 Clone 不了代码问题的出现。 好了,既然大概知道了原因,那么接下来就需要想办法解决掉这个问题。...不过很遗憾,修改失败,提示消息为 Username change failed - Username has already been taken,修改的用户名已存在。。。...,就会发现账户名称已经修改过来啦,本地 Clone 也是没有问题的,当然以上只是简单的临时处理下,直接去线上服务器修改数据库数据,该方式比较暴力,不太友好,建议大家如果修改 GitLab 数据库,可以提前备份数据库

    2.4K40

    信号与系统-时域分析-微分方程求解.茅塞顿开版

    齐次解往往称为自然响应,也就是系统自己带的 “初始松弛”十分形象、十分贴切,比如你要研究一个弹簧拉伸长度与受力之间的关系,通常而言,如果外力为零,弹簧就应该处于松弛的状态。...以上都叫受迫响应,下面是唐老师的 可以看到图表里面有1,2他们的形式一样 受迫响应,里面是没有指数函数的项的,就是上面图里面的不含有特征模式 这PPT有问题哇,写错了 所以设置成这样的特解 就是这样的...因为是2阶系统,所以有两个约束,也就是0和导数0 因为经典的时域办法只能处理 这样的激励项,如果这个信号变化,后面就是要重新的计算,如果初始值也变化,也就是后面的解方程也是需要在计算的,最后这就是纯纯的数学办法...因为0输入是系统蕴含的特性,所以可以使用经典时域法里面的求齐次方程解的办法。...也就是说明了,最后响应式子里面冲击信号的系数是可以通过这样前后匹配的方式求得,我觉得我讲明白了,不知道你有没有看明白,这可是最难的东西了。

    12310

    论文笔记系列-DARTS: Differentiable Architecture Search

    Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了对连续变量...Problem Statement 离散域的结构搜索问题 NAS,ENAS其本质都是在离散空间对模型进行搜索,而文中是这么diss这些方法的:那些方法 把结构搜索当做在离散域内的黑盒优化问题处理,这就导致了需要采样大量的模型进行评估才能选出合适的模型...2.之后为搜索空间引入了一个简单的连续松弛方案(continuous relaxation scheme)1,从而为结构及其权重的联合优化提供了一个可微学习的目标。...经过上面公式的松弛(relaxation)之后,模型结构搜索的任务就转变成了对连续变量\(α={α^{(i,j)}}\)的学习,那么\(α\)即为模型结构的编码(encoding)如下图所示。 ?...Evaluation 作者如何评估自己的方法,有没有问题或者可以借鉴的地方 Conclusion 贡献如下: 引入了一种适用于卷积和循环结构的可微分网络体系结构搜索的新算法。

    2.1K40
    领券