首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

想去机器学习初创公司做数据科学家?这里有最常问的40道面试题

选文/校对 | 姚佳灵 翻译 | 郭姝妤 导读 想去机器学习初创公司做数据科学家?这些问题值得你三思! 机器学习和数据科学被看作是下一次工业革命的驱动器。这也意味着有许许多多令人激动的初创公司正在起步成长、寻找专业人士和数据科学家。它们可能是未来的特斯拉、谷歌。 对于有职业抱负的你来说,看好一家好的创业公司团队后,如何能够脱颖而出,进入一家靠谱的创业团队呢? 想得到这样的工作并不容易。首先你要强烈认同那个公司的理念、团队和愿景。同时你可能会遇到一些很难的技术问题。而这些问题则取决于公司的业务。他们是咨询

05

开发 | 如何解决机器学习中的数据不平衡问题?

在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。 数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。 本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路: 1、重新采样训练集 可以使用不同的数据集。有两种方法使不平衡的数据集来建立一个平衡的数据集——欠采样和过采样。 1.1. 欠采样 欠采样是通过减少丰富类的大小来平衡

011

Neuro-Oncology:对脑胶质瘤IDH突变状态进行分类的一种新型的基于MRI的全自动深度学习算法

异柠檬酸脱氢酶(Isocitrate dehydrogenase, IDH)突变状态已成为神经胶质瘤的重要预后标志。当前,可靠的IDH突变诊断需要侵入性外科手术。该研究的目的是使用T2加权(T2w)MR图像开发高度精确的、基于MRI的、基于体素的深度学习IDH分类网络,并将其性能与基于多模态数据的网络进行比较。研究人员从癌症影像档案馆(The Cancer Imaging Archive,TCIA)和癌症基因组图谱(The Cancer Genome Atlas,TCGA)中获得了214位受试者(94位IDH突变,120位IDH野生型)的多参数脑MRI数据和相应的基因组信息。他们开发了两个单独的网络,其中包括一个仅使用T2w图像的网络(T2-net)和一个使用多模态数据(T2w,磁共振成像液体衰减反转恢复序列(FLAIR)和T1 postcontrast)的网络(TS-net),以执行IDH分类任务和同时进行单标签肿瘤分割任务。本文使用3D的Dense-UNets的架构。使用三折交叉验证泛化网络的性能。同时使用Dice系数评估算法分割肿瘤的精度。T2-net在预测IDH突变状态任务上表现出97.14%±0.04的平均交叉验证准确率,灵敏度为0.97±0.03,特异性为0.98±0.01,曲线下面积(AUC)为0.98±0.01。TS-net的平均交叉验证准确性为97.12%±0.09,灵敏度为0.98±0.02,特异性为0.97±0.001,AUC为0.99±0.01。T2-net的肿瘤分割Dice系数的平均得分为0.85±0.009,TS-net的肿瘤分割Dice系数的平均得分为0.89±0.006。

05

周志华《机器学习》第2章部分笔记

①误差(error):学习器的预测输出与样本的真实输出之间的差异 ②训练误差(training error)或经验误差(empirical error):在训练集上的误差 ③测试误差(test error):在测试集上的误差 ④泛化误差(generalization error):学习器在所有新样本上的误差 ⑤过拟合(overfitting):学习能力过于强大,把训练样本自身的一些特点当成所有潜在样本都会有的一般性质,导致泛化能力下降 ⑥欠拟合(underfitting):学习能力太差,对训练样本的一般性质尚未学好 在过拟合问题中,训练误差很小,但测试误差很大;在欠拟合问题中,训练误差和测试误差都比较大。目前,欠拟合问题容易克服,如在决策树中扩展分支,在神经网络中增加训练轮数;但过拟合问题是机器学习面临的关键障碍。 ⑦模型选择:在理想状态下,选择泛化误差最小的学习器。

03

Nature neuroscience:神经脆弱性作为癫痫发作区脑电图标志物

全世界有超过1500万癫痫患者对药物没有反应。成功的手术治疗需要完全切除或切断癫痫发作区(SOZ),即癫痫发作的脑区。然而,由于没有临床验证的SOZ生物标记物存在,手术成功率在30 - 70%之间。我们开发并回顾性验证了一种新的脑电图(EEG)标记物——神经脆弱性——在对91例患者的回顾性分析中,使用注释过的SOZ的神经脆弱性作为预测手术结果的指标。脆弱性预测了47例手术失败中的43例,总体预测准确率为76%,而临床医生的准确率为48%(成功结果)。在失败的结果中,我们确定了未得到治疗的脆弱区域。与作为SOZ标记的20种脑电图特征相比,脆弱性在预测能力和可解释性方面表现更好,这表明神经脆弱性可作为SOZ的脑电图生物标志物。本文发表在Nature neuroscience杂志。(可添加微信号siyingyxf或18983979082获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布)。

03
领券