CSV是一种古老的数据传输格式,它的全称是Comma-Separated Values(逗号分隔值)。出生在那个标准缺失的蛮荒年代,CSV的标准一直(到2005年)是NULL——世间存在着N种CSV格式,它们自成体系,相互不兼容。比如我们从名字可以认为CSV至少是一种使用逗号分隔的格式,但是实际上,有的CSV格式却是使用分号(;)去做分隔。假如,不存在一种标准,那么这东西最终会因为碎片化而发展缓慢,甚至没落。本文讨论的CSV格式是基于2005年发布的RFC4180规范。我想,在这个规范发布之后,大家应该会更加自觉的遵从这套规范去开发——虽然这套标准依旧存在着一些致命的缺陷。(转载请指明出于breaksoftware的csdn博客)
我们可以从IETF上获得包含了CSV格式定义的文档。当然,如果你觉得看英文文档麻烦,你可以直接看我的下文。
有了以上规则,我们可以编写出相应的提取算法。以下是我在工作中编写的一套从CSV文件中提取信息的核心代码
BOOL CCSV2Json::Parse()
{
BOOL bSuc = FALSE;
do {
if ( INVALID_HANDLE_VALUE == m_hFile ) {
break;
}
OVERLAPPED ov;
memset(&ov, 0, sizeof(OVERLAPPED));
BYTE lpBuffer[BUFFERSIZE] = {0};
DWORD dwHaveRead = 0;
std::string strSingle;
BOOL bFirstDoubleQuotes = FALSE; // 第一个字符是否为"
BOOL bBeforeIsDoubleQuotes = FALSE;
BOOL bBeforeIsX0D = FALSE;
ListString Liststr;
BOOL bPairDoubleQuotes = FALSE;
while ( ReadFile(m_hFile, lpBuffer, sizeof(lpBuffer), &dwHaveRead, &ov ) ) {
ov.Offset += dwHaveRead;
for ( DWORD dwIndex = 0; dwIndex < dwHaveRead; dwIndex++ ) {
BYTE& by = *(lpBuffer + dwIndex);
if ( bFirstDoubleQuotes ) {
// 有前置"
if ( IsDoubleQuotes(by) ) {
bBeforeIsX0D = FALSE;
if ( bBeforeIsDoubleQuotes ) {
strSingle.append(1, (char)(by));
bBeforeIsDoubleQuotes = FALSE;
}
else {
bBeforeIsDoubleQuotes = TRUE;
}
}
else {
if ( bBeforeIsDoubleQuotes ) {
bFirstDoubleQuotes = FALSE;
}
bBeforeIsDoubleQuotes = FALSE;
if ( IsCRLF( by ) ){
if ( bFirstDoubleQuotes ) {
strSingle.append(1, (char)(by));
}
else if (FALSE == bBeforeIsX0D) {
Liststr.push_back(strSingle);
m_Listliststr.push_back(Liststr);
Liststr.clear();
strSingle.clear();
bFirstDoubleQuotes = FALSE;
}
bBeforeIsX0D = IsX0D(by);
}
else if ( IsSep(by) ) {
bBeforeIsX0D = FALSE;
if ( bFirstDoubleQuotes ) {
strSingle.append(1, (char)(by));
}
else {
bBeforeIsX0D = FALSE;
Liststr.push_back(strSingle);
strSingle.clear();
}
}
else {
bBeforeIsX0D = FALSE;
strSingle.append(1, (char)(by));
}
}
}
else{
// 如果无前置"
if ( IsDoubleQuotes(by) ) {
bBeforeIsX0D = FALSE;
if ( strSingle.empty() ) {
// 空串,第一个是"
bFirstDoubleQuotes = TRUE;
bBeforeIsDoubleQuotes = FALSE;
}
else {
strSingle.append(1,(char)(by));
continue;
}
}
else {
bBeforeIsDoubleQuotes = FALSE;
if ( IsCRLF( by ) ){
if (FALSE == bBeforeIsX0D) {
Liststr.push_back(strSingle);
m_Listliststr.push_back(Liststr);
Liststr.clear();
strSingle.clear();
bFirstDoubleQuotes = FALSE;
bBeforeIsDoubleQuotes = FALSE;
}
else {
// 连续\r\n不考虑设置为新的行
}
bBeforeIsX0D = IsX0D(by);
}
else if ( IsSep(by) ) {
bBeforeIsX0D = FALSE;
Liststr.push_back(strSingle);
strSingle.clear();
}
else {
bBeforeIsX0D = FALSE;
strSingle.append(1, (char)(by));
}
}
}
}
memset(lpBuffer, 0, sizeof(lpBuffer));
}
if ( false == strSingle.empty() ) {
// while ( IsCRLF(strSingle.at(strSingle.length() - 1) ) && strSingle.length() > 0) {
// strSingle = strSingle.substr(0, strSingle.length() - 1 );
// }
Liststr.push_back(strSingle);
m_Listliststr.push_back(Liststr);
Liststr.clear();
strSingle.clear();
}
bSuc = TRUE;
} while (0);
if ( NULL != m_hFile ) {
CloseHandle(m_hFile);
m_hFile = NULL;
}
return bSuc;
}
这段代码将CSV文件提取出来一个std::list<std::list<std::string>>结构。如上面名字所示,我这个功能是要将CSV文件转换为json格式,相应的我也编写了从json格式转换为CSV格式文件的代码。