首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

18 | 使用PyTorch完成医疗图像识别大项目:理解数据

上一节我们理解了业务,也就是我们这个项目到底要做什么事情,并定好了一个方案。这一节我们就开始动手了,动手第一步就是把数据搞清楚,把原始数据搞成我们可以用PyTorch处理的样子。这个数据不同于我们之前用的图片数据,像之前那种RGB图像拿过来做一些简单的预处理就可以放进tensor中,这里的医学影像数据预处理部分就要复杂的多。比如说怎么去把影像数据导入进来,怎么转换成我们能处理的形式;数据可能存在错误,给定的结节位置和实际的坐标位置有偏差;数据量太大我们不能一次性加载怎么处理等等。今天理解数据这部分处理的就是之前整个项目框架图的第一步,关于数据加载的问题。

01

自己动手写编译器:符号表及其实现

大家如果对c, c++, java有所了解,那么就会知道作用域这个概念。所谓作用域就是变量在一个范围内起作用,一旦出了既定范围,那么它就会失效。c,c++,java用{表示作用域的起始,用}表示作用域的结束。内层作用域的变量会覆盖上一层作用域的变量。例如在上面代码中最外层定义了两个变量,分别是int类型的x,和char类型的y,在内层作用域又定义了一个bool类型的同名变量y,它会覆盖外面的char类型y,在内层作用域访问y时,我们访问的是类型为bool的y,但由于内层作用域没有定义x,因此访问x时,它对应外层作用域的x,因此我们的任务是识别作用域,同时解析出变量在不同作用域中对应的类型。

02

groupby函数详解

这是由于变量grouped是一个GroupBy对象,它实际上还没有进行任何计算,只是含有一些有关分组键df[‘key1’]的中间数据而已,然后我们可以调用配合函数(如:.mean()方法)来计算分组平均值等。   因此,一般为方便起见可直接在聚合之后+“配合函数”,默认情况下,所有数值列都将会被聚合,虽然有时可能会被过滤为一个子集。   一般,如果对df直接聚合时, df.groupby([df['key1'],df['key2']]).mean()(分组键为:Series)与df.groupby(['key1','key2']).mean()(分组键为:列名)是等价的,输出结果相同。   但是,如果对df的指定列进行聚合时, df['data1'].groupby(df['key1']).mean()(分组键为:Series),唯一方式。 此时,直接使用“列名”作分组键,提示“Error Key”。 注意:分组键中的任何缺失值都会被排除在结果之外。

01
领券