用Perl來分析并生成中文Excel文件_PHP

用Perl來分析并生成中文Excel文件

發表于：2007-09-07來源：作者：點擊數：標簽：

最近實驗室作為自學考試的考場，需要在服務器上面為每個學生創建FTP帳號，我計劃用Perl來實現的批處理創建?？紤]到獲取的考場學生名單是存儲在Excel文件里面的，因此還需要讓Perl去分析Excel文件。通過google找到用Spreadsheet::ParseExcel以及Spreadsheet:

最近實驗室作為自學考試的考場，需要在服務器上面為每個學生創建FTP帳號，我計劃用Perl來實現的批處理創建?？紤]到獲取的考場學生名單是存儲在Excel文件里面的，因此還需要讓Perl去分析Excel文件。通過google找到用Spreadsheet::ParseExcel以及Spreadsheet::WriteExcel來讀寫Excel。在www.cpan.org上下載了相應的Module并看了文檔、范例后，終于寫出了一個程序可以讀考場學生名單，并生成密碼清單存到另一個Excel文件中。

這還只是第一步，剛寫出來的程序讀Excel文件中的中文，也無法將中文寫入Excel文件：單元格(Cell) 和工作簿(Worksheet) 中的漢字。

在找相應的幫助，得知可以用Spreadsheet::ParseExcel::FmtUnicode來處理Excel文件中的Unicode字符，其使用方法如下：
use Spreadsheet::ParseExcel::FmtUnicode;
my $oFmtJ = Spreadsheet::ParseExcel::FmtUnicode->new(Unicode_Map => CODE);
my $oBook = Spreadsheet::ParseExcel::Workbook->Parse($ARGV[0], $oFmtJ);

知道了實現的方法，但是這個CODE的值應該為多少還不知道。剛開始我猜測是'GB2312'，可是不知道是哪里其他什么地方錯了導致不成功；后來看到Manual里提到'GB2312-80'，也試了一下，還是不行。最后只好google，發現別人用的是'CP936'，這次就成功了。當成功了以后再把CODE改回'GB2312'居然也可以了。

現在讀Excel文件已經沒有問題了，可是盡管這些中文讀出來了，可是在寫Excel文件的時候并無法寫入中文。

解決方案就只有兩種了：網上搜索答案；看ParseExcel的原文件逆向處理。

首先通過看WriteExcel的Manual得知它是支持寫Unicode字符的，其中就有一個Example說明了通過write_unicode()函數來向單元格寫入日文Unicode字符?？墒荅xample里面提供的日文字符串是通過pack來生成的，本身已經是Unicode格式的了，而我們通常使用的GB2312的字符不屬于Unicode字符串，所以沒法直接寫入。那么如何轉換呢？

通過分析Spreadsheet::ParseExcel.pm和Spreadsheet::ParseExcel::FmtUnicode.pm發現：所有通過ParseExcel從Excel文件中分析出來的字符都是經過函數TextFmt()格式化過的，這個函數的定義在FmtUnicode.pm中。而TextFmt()核心是通過Unicode::Map的from_unicode()函數來將一個unicode字符串轉換為非unicode的字符串，當然在轉換之前還做了一個處理：s/(.)/\x00$1/sg。

根據這個思路，就在WriteExcel之前，創建一個Unicode::Map對象，然后調用對象里的to_unicode函數進行字符串格式轉換，最后調用write_unicode函數將中文寫入單元格(Cell) 中。下面給出一個簡單的Example：
use Unicode::Map();
my $Map = new Unicode::Map("GB2312");
$worksheet->write_unicode($iR, 2, $Map->to_unicode("考生姓名"))

單元格中的中文可以正常顯示了，可是在寫工作簿名稱的時候這個方法就不那么管用了，像$worksheet = $workbook->add_worksheet($Map->to_unicode($name)這樣進行的話，就會產生工作簿名稱非法的錯誤而退出。同樣的方法在set_header()是也不管用，盡管不會出錯可是顯示的卻是亂碼。在處理單元格的時候有分unicode的方法和非unicode的方法，為什么add_worksheet的時候沒有呢？莫非要自己去寫個函數或者加個參數來擴展？

單元格中的中文可以正常顯示了，可是在寫工作簿名稱的時候這個方法就不那么管用了，像$worksheet = $workbook->add_worksheet($Map->to_unicode($name)這樣進行的話，就會產生工作簿名稱非法的錯誤而退出。同樣的方法在set_header()是也不管用，盡管不會出錯可是顯示的卻是亂碼。在處理單元格的時候有分unicode的方法和非unicode的方法，為什么add_worksheet的時候沒有呢？莫非要自己去寫個函數或者加個參數來擴展？

再次進入源代碼Spreadsheet::WriteExcel::Workbook.pm，發現原來add_worksheet()函數還可以傳遞一個$encoding的參數的，可是這個參數僅用于判斷輸入的unicode字符是否符合長度要求，編碼轉換哪里去了？如果說要自己去補齊的話該加什么代碼呢？比較Spreadsheet::WriteExcel::Worksheet.pm中的write()（實際上最后調用的是write_string）和write_unicode()發現，后者比前者多了相應的這么一段代碼>（說相應是由于一些變量名的差異，將此代碼直接添加到前者是不能工作的）：
<

原文轉自：http://www.anti-gravitydesign.com

軟件測試 > 測試開發技術 > 軟件測試開發語言 > PHP >