课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
15分钟

文本文件

1. numpy.genfromtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=None, replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None) :从文本文件中加载数组,通用性很强,可以处理缺失数据的情况。 loadtxt()函数只能处理数据无缺失的情况。

  • fname:指定的数据源。可以为:
    • 文件名字符串。如果后缀为gz或者bz2,则首先自动解压缩
    • 文件对象/字符串列表/其他可迭代对象:这些可迭代对象必须返回字符串(该字符串被视为一行)
  • dtype:数组的元素类型,可以提供一个序列,指定每列的数据类型
  • comments:一个字符串,其中每个字符都指定了注释行的第一个字符。注释行整体被放弃
  • delimiter:指定了分隔符。可以为:
    • 字符串:指定分隔符。默认情况下,所有连续的空白符被认为是分隔符
    • 一个整数:指定了每个字段的宽度
    • 一个整数序列:依次给出了各个字段的宽度
  • skiprows:被废弃,推荐使用skip_header
  • skip_header:一个整数,指定跳过文件头部多少行
  • skip_footer:一个整数,指定跳过文件尾部多少行
  • converters:用于列数据的格式转换。你可以指定一个字典,字典的键就是列号: converters={0: lambda s: float(s or 0),1: lambda s: int(s or 199),...}
  • missing:被废弃,推荐使用missing_values
  • missing_values:指定缺失数据。你可以自定一个字典,字典的键就是缺失位置的字符串,值就是缺失值。比如你可以指定NNNN为缺失数据,此时遇到NNNN时,numpy解析为np.nan
  • filling_values:指定缺失值的填充值。即解析到np.nan时,用什么值代替它
  • usecols:一个序列,指定了要读取那些列(列从0 计数)
  • names
    • 如果为True,则在skip_header行之后第一行被视作标题行,将从该行读取每个字段的name
    • 如果为序列或者一个以冒号分隔的字符串,则使用它作为各个字段的name
    • 如果为None,则每个dtype字段的名字被使用
  • excludelist:一个序列,给出了需要排除的字段的name
  • deletechars:A string combining invalid characters that must be deleted from the names
  • defaultfmt:A format used to define default field names, such as “f%i” or “f_%02i”.
  • autostrip:一个布尔值。如果为True,则自动移除数据中的空白符
  • replace_space:一个字符。如果变量名中有空白符,如user name,则使用该字符来替代空白符。默认为_,即变量名转换为user_name
  • case_sensitive:一个布尔值或者字符串。如果为True,则字段名是大小写敏感的。如果为False或者'upper',则字段名转换为大写字符。如果为'lower'则转换为小写字符。
  • unpack:If True, the returned array is transposed
  • usemask:If True, return a masked array
  • loose:If True, do not raise errors for invalid values
  • invalid_raise:If True, an exception is raised if an inconsistency is detected in the number of columns. If False, a warning is emitted and the offending lines are skipped
  • max_rows:一个整数,指定读取的最大行数。

2. numpy.loadtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0):它作用与genfromtxt相同,但是它只能用于规则比较简单的文件,并且它的解析速度更快。

  • ndim:一个整数。指定结果数组必须拥有不少于ndim维度。
  • 其他参数参考genfromtxt