| 導購 | 订阅 | 在线投稿
分享
 
 
當前位置: 王朝網路 >> perl >> 用Perl來分析並生成中文Excel文件
 

用Perl來分析並生成中文Excel文件

2008-05-30 23:00:59  編輯來源:互聯網  简体版  手機版  評論  字體: ||
 
 
  最近實驗室作爲自學考試的考場,需要在服務器上面爲每個學生創建FTP帳號,我計劃用Perl來實現的批處理創建。考慮到獲取的考場學生名單是存儲在Excel文件裏面的,因此還需要讓Perl去分析Excel文件。通過google找到用Spreadsheet::ParseExcel以及Spreadsheet::WriteExcel來讀寫Excel。在www.cpan.org上下載了相應的Module並看了文檔、範例後,終于寫出了一個程序可以讀考場學生名單,並生成密碼清單存到另一個Excel文件中。

  這還只是第一步,剛寫出來的程序讀Excel文件中的中文,也無法將中文寫入Excel文件:單元格(Cell) 和工作簿(Worksheet) 中的漢字。

  在找相應的幫助,得知可以用Spreadsheet::ParseExcel::FmtUnicode來處理Excel文件中的Unicode字符,其使用方法如下:

  use Spreadsheet::ParseExcel::FmtUnicode;

  my $oFmtJ = Spreadsheet::ParseExcel::FmtUnicode->new(Unicode_Map => CODE);

  my $oBook = Spreadsheet::ParseExcel::Workbook->Parse($ARGV[0], $oFmtJ);

  知道了實現的方法,但是這個CODE的值應該爲多少還不知道。剛開始我猜測是'GB2312',可是不知道是哪裏其他什麽地方錯了導致不成功;後來看到Manual裏提到'GB2312-80',也試了一下,還是不行。最後只好google,發現別人用的是'CP936',這次就成功了。當成功了以後再把CODE改回'GB2312'居然也可以了。

  現在讀Excel文件已經沒有問題了,可是盡管這些中文讀出來了,可是在寫Excel文件的時候並無法寫入中文。

  解決方案就只有兩種了:網上搜索答案;看ParseExcel的原文件逆向處理。

  首先通過看WriteExcel的Manual得知它是支持寫Unicode字符的,其中就有一個Example說明了通過write_unicode()函數來向單元格寫入日文Unicode字符。可是Example裏面提供的日文字符串是通過pack來生成的,本身已經是Unicode格式的了,而我們通常使用的GB2312的字符不屬于Unicode字符串,所以沒法直接寫入。那麽如何轉換呢?

  通過分析Spreadsheet::ParseExcel.pm和Spreadsheet::ParseExcel::FmtUnicode.pm發現:所有通過ParseExcel從Excel文件中分析出來的字符都是經過函數TextFmt()格式化過的,這個函數的定義在FmtUnicode.pm中。而TextFmt()核心是通過Unicode::Map的from_unicode()函數來將一個unicode字符串轉換爲非unicode的字符串,當然在轉換之前還做了一個處理:s/(.)/\x00$1/sg。

  根據這個思路,就在WriteExcel之前,創建一個Unicode::Map對象,然後調用對象裏的to_unicode函數進行字符串格式轉換,最後調用write_unicode函數將中文寫入單元格(Cell) 中。下面給出一個簡單的Example:

  use Unicode::Map();

  my $Map = new Unicode::Map("GB2312");

  $worksheet->write_unicode($iR, 2, $Map->to_unicode("考生姓名"))

  單元格中的中文可以正常顯示了,可是在寫工作簿名稱的時候這個方法就不那麽管用了,像$worksheet = $workbook->add_worksheet($Map->to_unicode($name)這樣進行的話,就會産生工作簿名稱非法的錯誤而退出。同樣的方法在set_header()是也不管用,盡管不會出錯可是顯示的卻是亂碼。在處理單元格的時候有分unicode的方法和非unicode的方法,爲什麽add_worksheet的時候沒有呢?莫非要自己去寫個函數或者加個參數來擴展?

  單元格中的中文可以正常顯示了,可是在寫工作簿名稱的時候這個方法就不那麽管用了,像$worksheet = $workbook->add_worksheet($Map->to_unicode($name)這樣進行的話,就會産生工作簿名稱非法的錯誤而退出。同樣的方法在set_header()是也不管用,盡管不會出錯可是顯示的卻是亂碼。在處理單元格的時候有分unicode的方法和非unicode的方法,爲什麽add_worksheet的時候沒有呢?莫非要自己去寫個函數或者加個參數來擴展?

  再次進入源代碼Spreadsheet::WriteExcel::Workbook.pm,發現原來add_worksheet()函數還可以傳遞一個$encoding的參數的,可是這個參數僅用于判斷輸入的unicode字符是否符合長度要求,編碼轉換哪裏去了?如果說要自己去補齊的話該加什麽代碼呢?比較Spreadsheet::WriteExcel::Worksheet.pm中的write()(實際上最後調用的是write_string)和write_unicode()發現,後者比前者多了相應的這麽一段代碼>(說相應是由于一些變量名的差異,將此代碼直接添加到前者是不能工作的):

  # Check for a valid 2-byte char string.

  croak "Uneven number of bytes in Unicode string" if $num_bytes % 2;

  # Change from UTF16 big-endian to little endian

  $str = pack "v*", unpack "n*", $str

  那麽也就是說將這段代碼加入到add_worksheet()適當的位置就可以喽?答案是令人沮喪的。爲了查找原因再次回到Spreadsheet::ParseExcel.pm,從調入Excel文件分析Excel文件開始,看看工作簿名稱是如何得到的。

  分析代碼發現,TextFmt()處理工作簿名稱時是這樣的:$sWsName = $oBook->{FmtClass}->TextFmt($sWsName, 'ucs2')。TextFmt()函數還有一部分是針對Excel文件個別類型的字符串(如header,footer,工作簿名稱等)不做上面提到的處理(s/(.)/\x00$1/sg)。可是這個不是關鍵問題,不能解釋爲什麽直接裝換爲unicode的字符不能寫入。

  進一步分析發現,相對于單元格的字符其他的特殊的字符再進行TextFmt()格式化之前都有進行類似_SwapForUnicode(\$sWsName)的調用,也就是說還有特殊處理:

  sub _SwapForUnicode(\$)

  {

  my($sObj) = @_;

  #for(my $i = 0; $i for(my $i = 0; $i<(int (length($$sObj) / 2) * 2); $i+=2) {

  my $sIt = substr($$sObj, $i, 1)

  substr($$sObj, $i, 1) = substr($$sObj, $i+1, 1);

  substr($$sObj, $i+1, 1) = $sIt

  }

  }

  根據以上所有的分析,最後得出了一個解決方案:

  my $sWsName = $Map->to_unicode($sWsName);

  &SwapForUnicode(\$name);

  my $worksheet = $workbook->add_worksheet($name, 1);

  再經曆兩天的失敗了以後,成功意外的降臨了,上面的代碼是可行的。第一行,將非Unicode的字符轉換爲Unicode的;第二行,變更其存儲格式使之符合Excel文件的要求;第三行,通過帶參數$encoding的調用,執行了相當于write_unicode()中寫入unicode字符的代碼(事實上這部分代碼所說的自行添加的部分,NOTE:修改了Module的源文件):$name = pack "v*", unpack "n*", $name;

  最後是與標題無關的總結。

  Spreadsheet這兩個模塊處理Excel的能力太過獨立,二者很難結合的很好。兩個模塊要麽只能讀,要麽只能寫,必須要一個中間的數據存儲。

  雖然說ParseExcel使用WriteExcel模塊寫了一個SaveParser,可本質上還是通過用SaveAS方法來新建了一個Excel對象並把數據複制過去,並沒有真正意義上的「Save」。

  而且SaveParser還有一個嚴重的問題:它內部同時使用了ParseExcel和WriteExcel的Workbook對象,可是卻無法將二者統一起來:兩個對象執行同一功能的函數名不同,如AddFormat()和add_format(),讓人很難確定什麽時候改用什麽;甚至很多功能函數沒有繼承下來,如keep_leading_zeros(),這給我寫「000946」帶來了很大的麻煩。

  希望以後能夠出一個Module將這二者很好的結合起來新Module。
 
 
 
上一篇《使用Perl處理電子郵件的方法的演化》
下一篇《比較:HyperLink控件、LinkButton控件 之間的異同》
 
 
 
 
 
 
日版寵物情人插曲《Winding Road》歌詞

日版寵物情人2017的插曲,很帶節奏感,日語的,女生唱的。 最後聽見是在第8集的時候女主手割傷了,然後男主用嘴幫她吸了一下,插曲就出來了。 歌手:Def...

兄弟共妻,我成了他們夜裏的美食

老鍾家的兩個兒子很特別,就是跟其他的人不太一樣,魔一般的執著。兄弟倆都到了要結婚的年齡了,不管自家老爹怎麽磨破嘴皮子,兄弟倆說不娶就不娶,老父母爲兄弟兩操碎了心...

如何磨出破洞牛仔褲?牛仔褲怎麽剪破洞?

把牛仔褲磨出有線的破洞 1、具體工具就是磨腳石,下面墊一個硬物,然後用磨腳石一直磨一直磨,到把那塊磨薄了,用手撕開就好了。出來的洞啊很自然的。需要貓須的話調幾...

我就是掃描下圖得到了敬業福和愛國福

先來看下敬業福和愛國福 今年春節,支付寶再次推出了“五福紅包”活動,表示要“把欠大家的敬業福都還給大家”。 今天該活動正式啓動,和去年一樣,需要收集“五福”...

冰箱異味産生的原因和臭味去除的方法

有時候我們打開冰箱就會聞到一股異味,冰箱裏的這種異味是因爲一些物質發出的氣味的混合體,聞起來讓人惡心。 産生這些異味的主要原因有以下幾點。 1、很多人有這種習...

《極品家丁》1-31集大結局分集劇情介紹

簡介 《極品家丁》講述了現代白領林晚榮無意回到古代金陵,並追隨蕭二小姐化名“林三”進入蕭府,不料卻陰差陽錯上演了一出低級家丁拼搏上位的“林三升職記”。...

李溪芮《極品家丁》片尾曲《你就是我最愛的寶寶》歌詞

你就是我最愛的寶寶 - 李溪芮 (電視劇《極品家丁》片尾曲) 作詞:常馨內 作曲:常馨內 你的眉 又鬼馬的挑 你的嘴 又壞壞的笑 上一秒吵鬧 下...

烏梅的功效與作用以及烏梅的食用禁忌有哪些?

烏梅,又稱春梅,中醫認爲,烏梅味酸,性溫,無毒,具有安心、除熱、下氣、祛痰、止渴調中、殺蟲的功效,治肢體痛、肺痨病。烏梅泡水喝能治傷寒煩熱、止吐瀉,與幹姜一起制...

什麽是脂肪粒?如何消除臉部脂肪粒?

什麽是脂肪粒 在我們的臉上總會長一個個像脂肪的小顆粒,弄也弄不掉,而且顔色還是白白的。它既不是粉刺也不是其他的任何痘痘,它就是脂肪粒。 脂肪粒雖然也是由油脂...

網絡安全治理:國家安全保障的主要方向是打擊犯罪,而不是處置和懲罰受害者

來源:中國青年報 新的攻擊方法不斷湧現,黑客幾乎永遠占據網絡攻擊的上風,我們不可能通過技術手段杜絕網絡攻擊。國家安全保障的主要方向是打擊犯罪,而不是處置和懲罰...

河南夫妻在溫嶺網絡直播“造人”內容涉黃被刑事拘留

夫妻網絡直播“造人”爆紅   1月9日,溫嶺城北派出所接到南京警方的協查通告,他們近期打掉了一個涉黃直播APP平台。而根據掌握的線索,其中有一對涉案的夫妻主播...

如何防止牆紙老化?牆紙變舊變黃怎麽辦?

如何防止牆紙老化? (1)選擇透氣性好的牆紙 市場上牆紙的材質分無紡布的、木纖維的、PVC的、玻璃纖維基材的、布面的等,相對而言,PVC材質的牆紙最不透氣...

鮮肌之謎非日本生産VS鮮肌之謎假日貨是謠言

觀點一:破日本銷售量的“鮮肌之謎” 非日本生産 近一段時間,淘寶上架了一款名爲“鮮肌之謎的” 鲑魚卵巢美容液,號稱是最近日本的一款推出的全新護膚品,産品本身所...

中國最美古詩詞精選摘抄

系腰裙(北宋詞人 張先) 惜霜蟾照夜雲天,朦胧影、畫勾闌。人情縱似長情月,算一年年。又能得、幾番圓。 欲寄西江題葉字,流不到、五亭前。東池始有荷新綠,尚小如...

關于女人的經典語句

關于女人的經典語句1、【做一個獨立的女人】 思想獨立:有主見、有自己的人生觀、價值觀。有上進心,永遠不放棄自己的理想,做一份自己喜愛的事業,擁有快樂和成就...

未來我們可以和性愛機器人結婚嗎?

你想體驗機器人性愛嗎?你想和性愛機器人結婚嗎?如果你想,機器人有拒絕你的權利嗎? 近日,第二屆“國際人類-機器人性愛研討會”大會在倫敦金史密斯大學落下帷幕。而...

全球最變態的十個地方

10.土耳其地下洞穴城市 變態指數:★★☆☆☆ 這是土耳其卡帕多西亞的一個著名景點,傳說是當年基督教徒們爲了躲避戰爭而在此修建。裏面曾住著20000人,...

科學家稱,人類死亡後意識將在另外一個宇宙中繼續存活

據英國《每日快報》報道,一位科學家兼理論家Robert Lanza博士宣稱,世界上並不存在人類死亡,死亡的只是身體。他認爲我們的意識借助我們體內的能量生存,而且...

《屏裏狐》片頭曲《我愛狐狸精》歌詞是什麽?

《我愛狐狸精》 - 劉馨棋   (電視劇《屏裏狐》主題曲)   作詞:金十三&李旦   作曲:劉嘉   狐狸精 狐狸仙   千年修...

 
 
 
最近實驗室作爲自學考試的考場,需要在服務器上面爲每個學生創建FTP帳號,我計劃用Perl來實現的批處理創建。考慮到獲取的考場學生名單是存儲在Excel文件裏面的,因此還需要讓Perl去分析Excel文件。通過google找到用Spreadsheet::ParseExcel以及Spreadsheet::WriteExcel來讀寫Excel。在www.cpan.org上下載了相應的Module並看了文檔、範例後,終于寫出了一個程序可以讀考場學生名單,並生成密碼清單存到另一個Excel文件中。 這還只是第一步,剛寫出來的程序讀Excel文件中的中文,也無法將中文寫入Excel文件:單元格(Cell) 和工作簿(Worksheet) 中的漢字。 在找相應的幫助,得知可以用Spreadsheet::ParseExcel::FmtUnicode來處理Excel文件中的Unicode字符,其使用方法如下: use Spreadsheet::ParseExcel::FmtUnicode; my $oFmtJ = Spreadsheet::ParseExcel::FmtUnicode->new(Unicode_Map => CODE); my $oBook = Spreadsheet::ParseExcel::Workbook->Parse($ARGV[0], $oFmtJ); 知道了實現的方法,但是這個CODE的值應該爲多少還不知道。剛開始我猜測是'GB2312',可是不知道是哪裏其他什麽地方錯了導致不成功;後來看到Manual裏提到'GB2312-80',也試了一下,還是不行。最後只好google,發現別人用的是'CP936',這次就成功了。當成功了以後再把CODE改回'GB2312'居然也可以了。 現在讀Excel文件已經沒有問題了,可是盡管這些中文讀出來了,可是在寫Excel文件的時候並無法寫入中文。 解決方案就只有兩種了:網上搜索答案;看ParseExcel的原文件逆向處理。 首先通過看WriteExcel的Manual得知它是支持寫Unicode字符的,其中就有一個Example說明了通過write_unicode()函數來向單元格寫入日文Unicode字符。可是Example裏面提供的日文字符串是通過pack來生成的,本身已經是Unicode格式的了,而我們通常使用的GB2312的字符不屬于Unicode字符串,所以沒法直接寫入。那麽如何轉換呢? 通過分析Spreadsheet::ParseExcel.pm和Spreadsheet::ParseExcel::FmtUnicode.pm發現:所有通過ParseExcel從Excel文件中分析出來的字符都是經過函數TextFmt()格式化過的,這個函數的定義在FmtUnicode.pm中。而TextFmt()核心是通過Unicode::Map的from_unicode()函數來將一個unicode字符串轉換爲非unicode的字符串,當然在轉換之前還做了一個處理:s/(.)/\x00$1/sg。 根據這個思路,就在WriteExcel之前,創建一個Unicode::Map對象,然後調用對象裏的to_unicode函數進行字符串格式轉換,最後調用write_unicode函數將中文寫入單元格(Cell) 中。下面給出一個簡單的Example: use Unicode::Map(); my $Map = new Unicode::Map("GB2312"); $worksheet->write_unicode($iR, 2, $Map->to_unicode("考生姓名")) 單元格中的中文可以正常顯示了,可是在寫工作簿名稱的時候這個方法就不那麽管用了,像$worksheet = $workbook->add_worksheet($Map->to_unicode($name)這樣進行的話,就會産生工作簿名稱非法的錯誤而退出。同樣的方法在set_header()是也不管用,盡管不會出錯可是顯示的卻是亂碼。在處理單元格的時候有分unicode的方法和非unicode的方法,爲什麽add_worksheet的時候沒有呢?莫非要自己去寫個函數或者加個參數來擴展? 單元格中的中文可以正常顯示了,可是在寫工作簿名稱的時候這個方法就不那麽管用了,像$worksheet = $workbook->add_worksheet($Map->to_unicode($name)這樣進行的話,就會産生工作簿名稱非法的錯誤而退出。同樣的方法在set_header()是也不管用,盡管不會出錯可是顯示的卻是亂碼。在處理單元格的時候有分unicode的方法和非unicode的方法,爲什麽add_worksheet的時候沒有呢?莫非要自己去寫個函數或者加個參數來擴展? 再次進入源代碼Spreadsheet::WriteExcel::Workbook.pm,發現原來add_worksheet()函數還可以傳遞一個$encoding的參數的,可是這個參數僅用于判斷輸入的unicode字符是否符合長度要求,編碼轉換哪裏去了?如果說要自己去補齊的話該加什麽代碼呢?比較Spreadsheet::WriteExcel::Worksheet.pm中的write()(實際上最後調用的是write_string)和write_unicode()發現,後者比前者多了相應的這麽一段代碼>(說相應是由于一些變量名的差異,將此代碼直接添加到前者是不能工作的): # Check for a valid 2-byte char string. croak "Uneven number of bytes in Unicode string" if $num_bytes % 2; # Change from UTF16 big-endian to little endian $str = pack "v*", unpack "n*", $str 那麽也就是說將這段代碼加入到add_worksheet()適當的位置就可以喽?答案是令人沮喪的。爲了查找原因再次回到Spreadsheet::ParseExcel.pm,從調入Excel文件分析Excel文件開始,看看工作簿名稱是如何得到的。 分析代碼發現,TextFmt()處理工作簿名稱時是這樣的:$sWsName = $oBook->{FmtClass}->TextFmt($sWsName, 'ucs2')。TextFmt()函數還有一部分是針對Excel文件個別類型的字符串(如header,footer,工作簿名稱等)不做上面提到的處理(s/(.)/\x00$1/sg)。可是這個不是關鍵問題,不能解釋爲什麽直接裝換爲unicode的字符不能寫入。 進一步分析發現,相對于單元格的字符其他的特殊的字符再進行TextFmt()格式化之前都有進行類似_SwapForUnicode(\$sWsName)的調用,也就是說還有特殊處理: sub _SwapForUnicode(\$) { my($sObj) = @_; #for(my $i = 0; $i for(my $i = 0; $i<(int (length($$sObj) / 2) * 2); $i+=2) { my $sIt = substr($$sObj, $i, 1) substr($$sObj, $i, 1) = substr($$sObj, $i+1, 1); substr($$sObj, $i+1, 1) = $sIt } } 根據以上所有的分析,最後得出了一個解決方案: my $sWsName = $Map->to_unicode($sWsName); &SwapForUnicode(\$name); my $worksheet = $workbook->add_worksheet($name, 1); 再經曆兩天的失敗了以後,成功意外的降臨了,上面的代碼是可行的。第一行,將非Unicode的字符轉換爲Unicode的;第二行,變更其存儲格式使之符合Excel文件的要求;第三行,通過帶參數$encoding的調用,執行了相當于write_unicode()中寫入unicode字符的代碼(事實上這部分代碼所說的自行添加的部分,NOTE:修改了Module的源文件):$name = pack "v*", unpack "n*", $name; 最後是與標題無關的總結。 Spreadsheet這兩個模塊處理Excel的能力太過獨立,二者很難結合的很好。兩個模塊要麽只能讀,要麽只能寫,必須要一個中間的數據存儲。 雖然說ParseExcel使用WriteExcel模塊寫了一個SaveParser,可本質上還是通過用SaveAS方法來新建了一個Excel對象並把數據複制過去,並沒有真正意義上的「Save」。 而且SaveParser還有一個嚴重的問題:它內部同時使用了ParseExcel和WriteExcel的Workbook對象,可是卻無法將二者統一起來:兩個對象執行同一功能的函數名不同,如AddFormat()和add_format(),讓人很難確定什麽時候改用什麽;甚至很多功能函數沒有繼承下來,如keep_leading_zeros(),這給我寫「000946」帶來了很大的麻煩。 希望以後能夠出一個Module將這二者很好的結合起來新Module。
󰈣󰈤
 
 
 
  免責聲明:本文僅代表作者個人觀點,與王朝網路無關。王朝網路登載此文出於傳遞更多信息之目的,並不意味著贊同其觀點或證實其描述,其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,並請自行核實相關內容。
 
 
小龍女彤彤之情溢皇都
龔潔
智能手機形象美女
崔潔彤
回家的路上----
中國一站(哈爾濱)
清明植物園的花。
桃花堤印象之豎版
 
>>返回首頁<<
 
 熱帖排行
 
 
 
 
© 2005- 王朝網路 版權所有