前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >C++基础——文件逐行读取与字符匹配

C++基础——文件逐行读取与字符匹配

作者头像
DechinPhy
发布2021-05-21 15:51:30
1.6K0
发布2021-05-21 15:51:30
举报
文章被收录于专栏:Dechin的专栏Dechin的专栏

技术背景

用惯了python,对其他语言就比较的生疏。但是python很多时候在性能上比较受局限,这里尝试通过C++来实现一个文件IO的功能,看看是否能够比python的表现更好一些。关于python的类似功能的实现,可以参考这一篇博客

C++读取文件

首先我们构造一个txt文件用于测试,比如以下这个名为mindspore.txt的文件(之所以取这个名字,是因为最近在研究mindspore,因此最方便拿到的数据就是mindspore的借口api文档):

代码语言:javascript
复制
MindSpore Python API
MindSpore Python API
mindspore
mindspore.common.initializer
mindspore.communication
mindspore.compression
mindspore.context
mindspore.dataset
mindspore.dataset.config
mindspore.dataset.text
mindspore.dataset.transforms
mindspore.dataset.vision
mindspore.explainer
mindspore.mindrecord
mindspore.nn
mindspore.numpy
mindspore.nn.probability
mindspore.ops
mindspore.profiler
mindspore.train
MindArmour Python API
mindarmour
mindarmour.adv_robustness.attacks
mindarmour.adv_robustness.defenses
mindarmour.adv_robustness.detectors
mindarmour.adv_robustness.evaluations
mindarmour.fuzz_testing
mindarmour.privacy.diff_privacy
mindarmour.privacy.evaluation
mindarmour.privacy.sup_privacy
mindarmour.utils
MindSpore Hub Python API
mindspore_hub
MindSpore Serving Python API
mindspore_serving
MindQuantum Python API
mindquantum

然后构造一个C++代码用于逐行读取这个文件,通过getline函数,将获取到的行字符串保存到strline中,并且每次读取一行都在屏幕上输出出来。由于这里使用的是while循环,因此采用index的方案设置了一个跳出循环的条件,只读取特定的行范围:

代码语言:javascript
复制
// iofile.cpp
#include <iostream>
#include <fstream>
#include <string>

int main()
{
    using namespace std;
    string filename="mindspore.txt";
    ifstream fin(filename.c_str());
    int index = 0;
    string strline;
    while (getline(fin, strline) && index < 20)
    {
        cout << strline << endl;
        index ++;
    }
    fin.close();
    cout << "Done!\n";
    return 0;
}

在读取完毕后,记得使用close()将文件关闭。上述代码的执行结果如下:

代码语言:javascript
复制
dechin@ubuntu2004:~/projects/gitlab/dechin/$ g++ iofile.cpp 
dechin@ubuntu2004:~/projects/gitlab/dechin/$ ./a.out
MindSpore Python API
MindSpore Python API
mindspore
mindspore.common.initializer
mindspore.communication
mindspore.compression
mindspore.context
mindspore.dataset
mindspore.dataset.config
mindspore.dataset.text
mindspore.dataset.transforms
mindspore.dataset.vision
mindspore.explainer
mindspore.mindrecord
mindspore.nn
mindspore.numpy
mindspore.nn.probability
mindspore.ops
mindspore.profiler
mindspore.train
Done!

这里我们使用的g++版本为9.3.0:

代码语言:javascript
复制
dechin@ubuntu2004:~/projects/gitlab/dechin/$ g++ --version
g++ (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0
Copyright (C) 2019 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.

因为上述案例读取的是前20行的内容,那么在Linux下我们还可以通过head来查看前20行的文件内容:

代码语言:javascript
复制
dechin@ubuntu2004:~/projects/gitlab/dechin/$ head -n 20 mindspore.txt 
MindSpore Python API
MindSpore Python API
mindspore
mindspore.common.initializer
mindspore.communication
mindspore.compression
mindspore.context
mindspore.dataset
mindspore.dataset.config
mindspore.dataset.text
mindspore.dataset.transforms
mindspore.dataset.vision
mindspore.explainer
mindspore.mindrecord
mindspore.nn
mindspore.numpy
mindspore.nn.probability
mindspore.ops
mindspore.profiler
mindspore.train

经过对比发现两个结果是一致的。

C++字符串匹配

我们假象一个这样的测试案例,在上述的txt文本中,我们想把带有字符context的那一行标记出来,使其跟其他的行不一样。这时候就需要使用到C++的字符串匹配功能,其格式为string.find("context"),返回的是一个识别码,用于标记是否存在或者是存在的位置,如果字符不存在,则返回结果等价于string::npos。按照这个思路,我们定义一个布尔值,在检索过程中如果遇到context字符就输出1,否则输出0,具体的代码实现如下:

代码语言:javascript
复制
// iofile.cpp
#include <iostream>
#include <fstream>
#include <string>

int main()
{
    using namespace std;
    string filename="mindspore.txt";
    ifstream fin(filename.c_str());
    int index = 0;
    string strline;
    while (getline(fin, strline) && index < 20)
    {
        bool exists = strline.find("context") == string::npos;
        cout << strline << '\t' << !exists << endl;
        index ++;
    }
    fin.close();
    cout << "Done!\n";
    return 0;
}

上述代码的执行结果如下所示:

代码语言:javascript
复制
dechin@ubuntu2004:~/projects/gitlab/dechin/$ g++ iofile.cpp && ./a.out
MindSpore Python API    0
MindSpore Python API    0
mindspore       0
mindspore.common.initializer    0
mindspore.communication 0
mindspore.compression   0
mindspore.context       1
mindspore.dataset       0
mindspore.dataset.config        0
mindspore.dataset.text  0
mindspore.dataset.transforms    0
mindspore.dataset.vision        0
mindspore.explainer     0
mindspore.mindrecord    0
mindspore.nn    0
mindspore.numpy 0
mindspore.nn.probability        0
mindspore.ops   0
mindspore.profiler      0
mindspore.train 0
Done!

我们可以注意到,在含有context的那一行的行末输出了一个1,其他行的行末输出的都是0.

C++运行时间统计

在python中我们常用的一个功能是导入time.time()来记录时间,然后计算两次时间之间的差值,就可以得到一个程序的精确运行时间。C++中有一个比较类似的用法是clock_t,这里为了方便测试,我们把上述用到的代码封装到一个reader函数内,然后在main函数中调用以及统计运行时间:

代码语言:javascript
复制
// iofile.cpp
#include <iostream>
#include <fstream>
#include <string>
#include <time.h>
using namespace std;
int reader()
{
    string filename="mindspore.txt";
    ifstream fin(filename.c_str());
    int index = 0;
    string strline;
    while (getline(fin, strline) && index < 20)
    {
        bool exists = strline.find("context") == string::npos;
        cout << strline << '\t' << !exists << endl;
        index ++;
    }
    fin.close();
    cout << "Done!\n";
    return 0;
}
int main()
{
    clock_t start, end;
    start = clock();
    reader();
    end = clock();
    cout << "The time cost is: " << double(end-start)/CLOCKS_PER_SEC << "s" << endl;
}

上述代码的执行结果如下所示:

代码语言:javascript
复制
dechin@ubuntu2004:~/projects/gitlab/dechin/$ g++ iofile.cpp && ./a.out
MindSpore Python API    0
MindSpore Python API    0
mindspore       0
mindspore.common.initializer    0
mindspore.communication 0
mindspore.compression   0
mindspore.context       1
mindspore.dataset       0
mindspore.dataset.config        0
mindspore.dataset.text  0
mindspore.dataset.transforms    0
mindspore.dataset.vision        0
mindspore.explainer     0
mindspore.mindrecord    0
mindspore.nn    0
mindspore.numpy 0
mindspore.nn.probability        0
mindspore.ops   0
mindspore.profiler      0
mindspore.train 0
Done!
The time cost is: 0.000245s

输出的时间表示这个函数运行时间共计0.2ms。

总结概要

本文简单的介绍了C++中的三种基础操作:逐行读取文件内容、字符串匹配以及运行时间的统计,并且通过一个简单的范例来实现了这三种基本的功能。相比于python而言,C++的代码编写量肯定要多一些,但是考虑到C++可能带来的效率增益,我们也应当了解其基本的用法以及功能实现。

版权声明

本文首发链接为:https://cloud.tencent.com/developer/article/1827481

作者ID:DechinPhy

更多原著文章请参考:https://www.cnblogs.com/dechinphy/

打赏专用链接:https://www.cnblogs.com/dechinphy/gallery/image/379634.html

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-05-20 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 技术背景
  • C++读取文件
  • C++字符串匹配
  • C++运行时间统计
  • 总结概要
  • 版权声明
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档