收集正确的数据是我们完成数据分析的前提.
- 叙述特性或种类
举个例子:
◆ 定性分析:
分析: _ 知几写了很多篇文章
◆ 定量分析:
分析:_ 知几写了107篇文章。
我的理解是定量分析主要关注的是频率;定性分析关注的是意义。
<users>
<user>
<name>xsl</name>
<gender>boy</gender>
<age>23</age>
</user>
<user>
<name>xlm</name>
<gender>girl</gender>
</user>
</users>
[
user:{
name:xsl,
gender:boy,
age:12,
},
user:{
name:xsl,
gender:girl,
}
]
Key:Value
存放数据由于我们常见的数据是非结构化数据,为了进行数据分析,我们就需要从非结构化数据中挖掘数据,我们就需要先把非结构化数据转换成结构化数据,此时我们就可以使用ETL工具。
数据抽取、转换、存储过程
Python提供了默认操作文件所必需的基本功能和方法。可以使用文件对象执行大部分文件操作。
在读取或写入文件之前,需要使用Python的内置open()
函数打开文件。此函数创建一个文件对象,该对象将用于调用与其相关联的其他支持方法。
语法:
f = open(file_name [, access_mode][, buffering])
file_name
参数是一个字符串值,指定要访问的文件的名称。access_mode
确定文件打开的模式,即读取,写入,追加等。可能的值的完整列表如下表所示。 这是一个可选参数,默认文件访问模式为(r - 也就是只读)。bufferin
如果buffering值设置为0,则不会发生缓冲。 如果缓冲值buffering为1,则在访问文件时执行行缓冲。如果将缓冲值buffering指定为大于1的整数,则使用指定的缓冲区大小执行缓冲操作。如果为负,则缓冲区大小为系统默认值(默认行为)。编号 | 模式 | 描述 |
---|---|---|
1 | r | 打开的文件为只读模式。文件指针位于文件的开头,这是默认模式。 |
2 | rb | 打开仅用二进制格式读取的文件。文件指针位于文件的开头,这是默认模式。 |
3 | r+ | 打开读写文件。文件指针放在文件的开头。 |
4 | rb+ | 以二进制格式打开一个用于读写文件。文件指针放在文件的开头。 |
5 | w | 打开仅供写入的文件。 如果文件存在,则覆盖该文件。 如果文件不存在,则创建一个新文件进行写入。 |
6 | wb | 打开仅用二进制格式写入的文件。如果文件存在,则覆盖该文件。 如果文件不存在,则创建一个新文件进行写入。 |
7 | w+ | 打开写入和取读的文件。如果文件存在,则覆盖现有文件。 如果文件不存在,创建一个新文件进行阅读和写入。 |
8 | wb+ | 打开一个二进制格式的写入和读取文件。 如果文件存在,则覆盖现有文件。 如果文件不存在,创建一个新文件进行阅读和写入。 |
9 | a | 打开一个文件进行追加。 如果文件存在,则文件指针位于文件末尾。也就是说,文件处于追加模式。如果文件不存在,它将创建一个新文件进行写入。 |
10 | ab | 打开一个二进制格式的文件。如果文件存在,则文件指针位于文件末尾。 也就是说,文件处于追加模式。如果文件不存在,它将创建一个新文件进行写入。 |
11 | a+ | 打开一个文件,用于追加和阅读。 如果文件存在,则文件指针位于文件末尾。 文件以附加模式打开。 如果文件不存在,它将创建一个新文件进行阅读和写入。 |
12 | ab+ | 打开一个二进制格式的附加和读取文件。 如果文件存在,则文件指针位于文件末尾。文件以附加模式打开。如果文件不存在,它将创建一个新文件进行读取和写入。 |
write()
**方法**:将任何字符串写入打开的文件。 重要的是要注意,Python字符串可以是二进制数据,而不仅仅是文本。close()
**方法**:刷新任何未写入的信息并关闭文件对象,之后不能再进行写入操作。f =open('zj.txt', 'w') #读写模式
f.write('hello xlm') #写入 hello xlm
f.close() 关闭文件
#用with写
with open('zj.txt', 'r') as f:
print(f.read()) #全部读取
with open('zj.txt', 'r') as f:
for line in f.readlines():
print(line) #分行打印出来
print(line.strip()) #去除多余的换行
打开本地文件,可以看到hello xlm
已经写入文件