matlab 使用textscan讀取帶文本的csv文件

純數值csv文件使用 csvread 直接讀取

csv文件就是comma-separated value (CSV) file。數據使以逗號相隔的形式保存在.csv文件中。
2019最新版的官方文檔不在推薦使用csvread讀取csv文檔,而是推薦使用readmatrix但是目前還是兼容。
三種方式讀取:
(1) M = csvread(filename), 文件的內容只能是數值。
(2) M = csvread(filename,R1,C1),指定從R1+1行與C1+1列開始讀其後的所有內容。
(3) M = csvread(filename,R1,C1,[R1 C1 R2 C2]),通過指定左上角開始的行列和右下角的行列讀取的範圍。

使用帶文本的csv文件使用textscan讀取

最簡單的方法是右鍵選擇matlab打開csv文件,然後拖動選擇需要的行列,點擊導入所選內容。
想要代碼的話在上圖劃紅線處點擊下三角即可生成腳本。
gen

栗子:

csv文本如下:
read-csv

(1)讀取所有內容

%% 初始化變量。
filename = 'C:\Users\siucaan\Documents\MATLAB\test.csv';
delimiter = ',';
# 不包括列的變量名
startRow = 2;

# 包括列名設爲1,或者在下面textscan()中不加HeaderLines這個參數 
# startRow = 1;

%% 將數據列作爲文本讀取:
formatSpec = '%s%s%s%s%s%s%[^\n\r]';

%% 打開文本文件。
fileID = fopen(filename,'r');

%% 根據格式讀取數據列。
dataArray = textscan(fileID, formatSpec, 'Delimiter', delimiter, 'TextType', 'string', 'HeaderLines' ,startRow-1, 'ReturnOnError', false, 'EndOfLine', '\r\n');

%% 關閉文本文件。
fclose(fileID);

%% 將包含數值文本的列內容轉換爲數值。
% 將非數值文本替換爲 NaN。
raw = repmat({''},length(dataArray{1}),length(dataArray)-1);
for col=1:length(dataArray)-1
    raw(1:length(dataArray{col}),col) = mat2cell(dataArray{col}, ones(length(dataArray{col}), 1));
end
numericData = NaN(size(dataArray{1},1),size(dataArray,2));

for col=[1,5]
    % 將輸入元胞數組中的文本轉換爲數值。已將非數值文本替換爲 NaN。
    rawData = dataArray{col};
    for row=1:size(rawData, 1)
        % 創建正則表達式以檢測並刪除非數值前綴和後綴。
        regexstr = '(?<prefix>.*?)(?<numbers>([-]*(\d+[\,]*)+[\.]{0,1}\d*[eEdD]{0,1}[-+]*\d*[i]{0,1})|([-]*(\d+[\,]*)*[\.]{1,1}\d+[eEdD]{0,1}[-+]*\d*[i]{0,1}))(?<suffix>.*)';
        try
            result = regexp(rawData(row), regexstr, 'names');
            numbers = result.numbers;
            
            % 在非千位位置中檢測到逗號。
            invalidThousandsSeparator = false;
            if numbers.contains(',')
                thousandsRegExp = '^[-/+]*\d+?(\,\d{3})*\.{0,1}\d*$';
                if isempty(regexp(numbers, thousandsRegExp, 'once'))
                    numbers = NaN;
                    invalidThousandsSeparator = true;
                end
            end
            % 將數值文本轉換爲數值。
            if ~invalidThousandsSeparator
                numbers = textscan(char(strrep(numbers, ',', '')), '%f');
                numericData(row, col) = numbers{1};
                raw{row, col} = numbers{1};
            end
        catch
            raw{row, col} = rawData{row};
        end
    end
end


%% 將數據拆分爲數值和字符串列。
rawNumericColumns = raw(:, [1,5]);
rawStringColumns = string(raw(:, [2,3,4,6]));


%% 確保包含 <undefined> 的任何文本都已正確轉換爲 <undefined> 分類值
for catIdx = [1,3]
    idx = (rawStringColumns(:, catIdx) == "<undefined>");
    rawStringColumns(idx, catIdx) = "";
end

%% 創建輸出變量
test1 = table;
test1.Challengerecordname = cell2mat(rawNumericColumns(:, 1));
test1.Database = categorical(rawStringColumns(:, 1));
test1.Originalrecordname = rawStringColumns(:, 2);
test1.Diagnosis = categorical(rawStringColumns(:, 3));
test1.Class = cell2mat(rawNumericColumns(:, 2));
test1.VarName6 = rawStringColumns(:, 4);

%% 清除臨時變量
clearvars filename delimiter startRow formatSpec fileID dataArray ans raw col numericData rawData row regexstr result numbers invalidThousandsSeparator thousandsRegExp rawNumericColumns rawStringColumns catIdx idx;

(2)指定讀取指定列

我這裏指定第一列和五列
只要修改 formatSpec = ‘%s%*s%*s%*s%s%[^\n\r]’;

完整代碼如下:

%% 初始化變量。
filename = 'F:\matlab_workspace\test.csv';
delimiter = ',';

%% 將數據列作爲文本讀取:
% 有關詳細信息,請參閱 TEXTSCAN 文檔。
formatSpec = '%s%*s%*s%*s%s%[^\n\r]';

%% 打開文本文件。
fileID = fopen(filename,'r');

%% 根據格式讀取數據列。
% 該調用基於生成此代碼所用的文件的結構。如果其他文件出現錯誤,請嘗試通過導入工具重新生成代碼。
dataArray = textscan(fileID, formatSpec, 'Delimiter', delimiter, 'TextType', 'string',  'ReturnOnError', false);

%% 關閉文本文件。
fclose(fileID);

%% 將包含數值文本的列內容轉換爲數值。
% 將非數值文本替換爲 NaN。
raw = repmat({''},length(dataArray{1}),length(dataArray)-1);
for col=1:length(dataArray)-1
    raw(1:length(dataArray{col}),col) = mat2cell(dataArray{col}, ones(length(dataArray{col}), 1));
end
numericData = NaN(size(dataArray{1},1),size(dataArray,2));

% 將輸入元胞數組中的文本轉換爲數值。已將非數值文本替換爲 NaN。
rawData = dataArray{2};
for row=1:size(rawData, 1)
    % 創建正則表達式以檢測並刪除非數值前綴和後綴。
    regexstr = '(?<prefix>.*?)(?<numbers>([-]*(\d+[\,]*)+[\.]{0,1}\d*[eEdD]{0,1}[-+]*\d*[i]{0,1})|([-]*(\d+[\,]*)*[\.]{1,1}\d+[eEdD]{0,1}[-+]*\d*[i]{0,1}))(?<suffix>.*)';
    try
        result = regexp(rawData(row), regexstr, 'names');
        numbers = result.numbers;
        
        % 在非千位位置中檢測到逗號。
        invalidThousandsSeparator = false;
        if numbers.contains(',')
            thousandsRegExp = '^[-/+]*\d+?(\,\d{3})*\.{0,1}\d*$';
            if isempty(regexp(numbers, thousandsRegExp, 'once'))
                numbers = NaN;
                invalidThousandsSeparator = true;
            end
        end
        % 將數值文本轉換爲數值。
        if ~invalidThousandsSeparator
            numbers = textscan(char(strrep(numbers, ',', '')), '%f');
            numericData(row, 2) = numbers{1};
            raw{row, 2} = numbers{1};
        end
    catch
        raw{row, 2} = rawData{row};
    end
end


%% 將數據拆分爲數值和字符串列。
rawNumericColumns = raw(:, 2);
rawStringColumns = string(raw(:, 1));


%% 將非數值元胞替換爲 NaN
R = cellfun(@(x) ~isnumeric(x) && ~islogical(x),rawNumericColumns); % 查找非數值元胞
rawNumericColumns(R) = {NaN}; % 替換非數值元胞

%% 創建輸出變量
test1 = table;
test1.Challengerecordname = rawStringColumns(:, 1);
test1.Class = cell2mat(rawNumericColumns(:, 1));

(3)讀取指定行

讀取6-12行,只要修改

startRow = 6;
endRow = 11;
dataArray = textscan(fileID, formatSpec, endRow-startRow+1, 'Delimiter', delimiter, 'TextType', 'string', 'HeaderLines', startRow-1, 'ReturnOnError', false, 'EndOfLine', '\r\n');

(4)讀取局部行列

range
指定6-12行,第2-5列,只要修改

startRow = 6;
endRow = 12;

%% 每個文本行的格式:
% 列2: 分類 (%C)
% 列3: 文本 (%s)
% 列4: 分類 (%C)
% 有關詳細信息,請參閱 TEXTSCAN 文檔。
formatSpec = ‘%*s%C%s%C%*s%[^\n\r]’;

完整代碼:

%% 導入文本文件中的數據。
%% 初始化變量。
filename = 'F:\matlab_workspace\test.csv';
delimiter = ',';
startRow = 6;
endRow = 12;

%% 每個文本行的格式:
%   列2: 分類 (%C)
%	列3: 文本 (%s)
%   列4: 分類 (%C)
formatSpec = '%*s%C%s%C%*s%[^\n\r]';

%% 打開文本文件。
fileID = fopen(filename,'r');

%% 根據格式讀取數據列。
dataArray = textscan(fileID, formatSpec, endRow-startRow+1, 'Delimiter', delimiter, 'TextType', 'string', 'HeaderLines', startRow-1, 'ReturnOnError', false, 'EndOfLine', '\r\n');

%% 關閉文本文件。
fclose(fileID);


%% 創建輸出變量
test = table(dataArray{1:end-1}, 'VariableNames', {'Database','Originalrecordname','Diagnosis'});
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章