首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

机器学习的跨学科应用——发布篇

在同行评审期刊上发表论文的基本原则是,对方法进行充分描述以确保可重现性。因此,对于基于机器学习的研究,必须提供模型和架构的完整源代码,包括数据处理,数据清洗,模型训练和模型评估的实现细节。如果可以的话,还应该在许可的或开源许可下发布源代码,以便其他人可以重复使用,改进,协作并进一步为您的工作作出贡献。 您发布的源代码必须是完整的——也就是说,其他人应该能够逐行阅读您的源代码,执行该源代码,并获得与您相同或相似的结果。您必须列举出所需的库和其他软件的依赖项,最好列出相关的版本号。理想情况下,这些依赖项将列在“环境文件”中,其他人可以使用这些文件在其他本地系统上直接创建可运行的软件环境。如果您有使用其他人开发的任何代码或者软件包,请确保遵守其许可证。您还可以考虑将代码托管在线,如版本控制的存储库中,比如著名的GitHub, GitLab, Bitbucket, DLHub 或其他类似的在线版本。 请确保源代码文件齐全,并遵循完善的代码标准。与其编写额外的注释来解释您的代码,不如考虑以某种不需要附加注释的方式来编写代码。(当然在代码中注释是相当重要的)这需要使用明确的变量名,严格遵循格式标准(例如PEP8)并编写“显式”代码。最好添加一个“README”文件,为您的读者提供有关安装、设置、使用代码以及拷贝已发布版本的说明。为了明确在任何基础系统架构上的大规模可部署性和一致性,还可以考虑使用Docker等工具将项目作为容器化的应用程序发布。

01

【译】如何提升 Rust 代码性能

性能是开发者为其应用程序选择 Rust 的首要原因之一。事实上,它是 rust-lang.org 主页上 ["为什么选择Rust?"](https://www.rust-lang.org/#:~:text=Version%201.55.0-,Why%20Rust%3F,-Performance ""为什么选择Rust?"")一节中列出的第一个原因,甚至在内存安全之前。这也是有原因的,许多基准测试表明,用Rust编写的软件速度很快,有时甚至是最快[2]的。但这并不意味着所有用Rust编写的软件都能保证快速。事实上,写低性能的Rust代码是很容易的,特别是当试图通过Clone 或Arc替代借用来""安抚""借用检查器时,这种策略通常被推荐给 Rust 新手。这就是为什么对 Rust 代码进行剖析和基准测试是很重要的,可以看到任何瓶颈在哪里,并修复它们,就像在其他语言中那样。在这篇文章中,我将根据最近的工作经验,展示一些基本的工具和技术,以提高 mongodb crate 的性能。

02

万字长文 - Nature 综述系列 - 给生物学家的机器学习指南 4 (生物应用的挑战)

也许建模生物数据的最大挑战是生物数据的多样性。生物学家使用的数据包括基因和蛋白质序列、随时间变化的基因表达水平、进化树、显微图像、3D结构和互作网络等。我们在表2中总结了特定生物数据类型的一些最佳实践和重要注意事项。由于所遇到的数据类型的多样性,生物数据通常需要一些定制的解决方案来有效地处理它们,这使得很难推荐现成的工具,甚至是通用的机器学习指南来进行模型的选择,训练程序和测试数据将在很大程度上取决于人们想要回答的确切问题。然而,为了在生物学中成功地使用机器学习,需要考虑一些常见的问题,但也需要更广泛地考虑。

02
领券