PHP處理TXT文件向數據庫導入海量數據

有一個TXT文件,包含了10萬條記錄,格式如下:

列1       列2       列3   列4   列5
a    00003131    0    0    adductive#1 adducting#1 adducent#1
a    00003356    0    0    nascent#1
a    00003553    0    0    emerging#2 emergent#2
a    00003700    0.25    0    dissilient#1

……………………後面有10萬條………………


需求是要導入數據庫中,數據表的結構爲

word_id   自動增量

word     【adductive#1 adducting#1 adducent#1】這一個TXT記錄要轉換爲3個SQL記錄

value     =第三列-第四列;如果=0,則此條記錄略過不插入數據表


<?php
    $file = 'words.txt';//10W條記錄的TXT源文件
    $lines = file_get_contents($file); 
    ini_set('memory_limit', '-1');//不要限制Mem大小,否則會報錯 
    $line=explode("\n",$lines);
    $i=0;
    $sql="INSERT INTO words_sentiment (word,senti_type,senti_value,word_type) VALUES ";
     
    foreach($line as $key =>$li)
    {
        $arr=explode("	",$li); 
        $senti_value=$arr[2]-$arr[3];
        if($senti_value!=0)
        {
            if($i>=20000&&$i<25000)//分批次導入,避免失敗
            {
	            $mm=explode(" ",$arr[4]);	               
	                foreach($mm as $m)   //【adductive#1 adducting#1 adducent#1】這一個TXT記錄要轉換爲3個SQL記錄	                {
	                    $nn=explode("#",$m);
	                    $word=$nn[0];
	                    $sql.="(\"$word\",1,$senti_value,2),";//這個地方要注意到是 word有可能包含單引號(如jack's),因此我們要用雙引號來包含word(注意轉義)                       
	                }
            }
			$i++;
        }         
    }
    //echo $i;
    $sql=substr($sql,0,-1);//去掉最後一個逗號
    //echo $sql;
    file_put_contents('20000-25000.txt', $sql);  //批量導入數據庫,5000條一次,大概需要40秒的樣子;一次導入太多max_execution_time會不夠,導致失敗     
?>

1,海量數據導入到時候,要注意PHP的一些限制,可以臨時調整一下,否則會報錯

Allowed memory size of 33554432 bytes exhausted (tried to allocate 16 bytes)

2,PHP操作TXT文件

file_get_contents()

file_put_contents()

3,海量導入的時候,最好分批次導入,失敗的機率小一些

4,海量導入之前,腳本一定要多次測試無誤再使用,比如用100條數據來測試

5,導入之後,如果PHP的mem_limit還是不夠的話,程序仍然跑不起來

(建議用修改php.ini的方式來提高mem_limit,而不是用臨時的語句)




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章