| 導購 | 订阅 | 在线投稿
分享
 
 
當前位置: 王朝網路 >> php >> 用PHP實現POP3郵件的解碼(二)
 

用PHP實現POP3郵件的解碼(二)

2008-12-23 08:12:50  編輯來源:互聯網  简体版  手機版  評論  字體: ||
 
 
  MIME 編碼方式簡介

  Subject: =?gb2312?B?xOO6w6Oh?=

  這裏是郵件的主題,可是因爲編碼了,我們看不出是什麽內容,其原來的文本是:「你好!」我們先看看 MIME 編碼的兩種方法。

  對郵件進行編碼最初的原因是因爲 Internet 上的很多網關不能正確傳輸8 bit 內碼的字符,比如漢字等。編碼的原理就是把 8 bit 的內容轉換成 7 bit 的形式以能正確傳輸,在接收方收到之後,再將其還原成 8 bit 的內容。

  MIME 是「多用途網際郵件擴充協議」的縮寫,在 MIME 協議之前,郵件的編碼曾經有過 UUENCODE 等編碼方式 ,但是由于 MIME 協議算法簡單,並且易于擴展,現在已經成爲郵件編碼方式的主流,不僅是用來傳輸 8 bit 的字符,也可以用來傳送二進制的文件 ,如郵件附件中的圖像、音頻等信息,而且擴展了很多基于MIME 的應用。從編碼方式來說,MIME 定義了兩種編碼方法Base64與QP(Quote-Printable) :

  Base 64 是一種通用的方法,其原理很簡單,就是把三個Byte的數據用 4 個Byte表示,這樣,這四個Byte 中,實際用到的都只有前面6 bit,這樣就不存在只能傳輸 7bit 的字符的問題了。Base 64的縮寫一般是「B」,像這封信中的Subject 就是用的 Base64 編碼。

  另一種方法是QP(Quote-Printable) 方法,通常縮寫爲「Q」方法,其原理是把一個 8 bit 的字符用兩個16進制數值表示,然後在前面加「=」。所以我們看到經過QP編碼後的文件通常是這個樣子:=B3=C2=BF=A1=C7=E5=A3=AC=C4=FA=BA=C3=A3=A1。

  在 PHP 裏,系統有兩個函數可以很方便地實現解碼:base64_decode()與quoted_printable_decode(),前者可用于base64 編碼的解碼,後者是用于 QP 編碼方法的解碼。

  現在我們再來看看Subject: =?gb2312?B?xOO6w6Oh?= 這一主題的內容,這不是一段完整的編碼,只有部分是編碼了的,這個部分用 =? ?= 兩個標記括起來,=? 後面說明的是這段文字的字符集是 GB2312 ,然後一個 ? 後面的一個 B 表示的是用的 Base64 編碼。通過這段分析,我們來看一下這個 MIME 解碼的函數:(該函數由 PHPX.COM 站長 Sadly 提供,本人將其放入一個類中,並做了少量的修改,在此致謝)

  function decode_mime($string) {

  $pos = strpos($string, '=?');

  if (!is_int($pos)) {

  return $string;

  }

  $preceding = substr($string, 0, $pos); // save any preceding text

  $search = substr($string, $pos+2); /* the mime header spec says this is the longest a single encoded word can be */

  $d1 = strpos($search, '?');

  if (!is_int($d1)) {

  return $string;

  }

  $charset = substr($string, $pos+2, $d1); //取出字符集的定義部分

  $search = substr($search, $d1+1); //字符集定義以後的部分=>$search;

  $d2 = strpos($search, '?');

  if (!is_int($d2)) {

  return $string;

  }

  $encoding = substr($search, 0, $d2); ////兩個?之間的部分編碼方式:q或b

  $search = substr($search, $d2+1);

  $end = strpos($search, '?='); //$d2+1 與 $end 之間是編碼了的內容:=> $endcoded_text;

  if (!is_int($end)) {

  return $string;

  }

  $encoded_text = substr($search, 0, $end);

  $rest = substr($string, (strlen($preceding . $charset . $encoding . $encoded_text)+6)); //+6 是前面去掉的=????=六個字符

  switch ($encoding) {

  case 'Q':

  case 'q':

  //$encoded_text = str_replace('_', '%20', $encoded_text);

  //$encoded_text = str_replace('=', '%', $encoded_text);

  //$decoded = urldecode($encoded_text);

  $decoded=quoted_printable_decode($encoded_text);

  if (strtolower($charset) == 'windows-1251') {

  $decoded = convert_cyr_string($decoded, 'w', 'k');

  }

  break;

  case 'B':

  case 'b':

  $decoded = base64_decode($encoded_text);

  if (strtolower($charset) == 'windows-1251') {

  $decoded = convert_cyr_string($decoded, 'w', 'k');

  }

  break;

  default:

  $decoded = '=?' . $charset . '?' . $encoding . '?' . $encoded_text . '?=';

  break;

  }

  return $preceding . $decoded . $this->decode_mime($rest);

  }

  這個函數用了遞歸的方法來實現一段包含有如上的 Subject 段的字符的解碼。程序中已經加上了注釋。相信有點PHP 編程基礎的人都能夠看得明白。該函數也是調用的base64_decode()與quoted_printable_decode()兩個系統函數實現的解碼,但是需要對郵件源文件進行大量的字符串的分析。不過,PHP 的字符串操作可以算是所有語言裏最爲方便自由的。函數的最後return $preceding . $decoded . $this->decode_mime($rest); 實現遞歸解碼,因爲這個函數實際上是放在後面要介紹的一個 MIME解碼的類中的,所以用了 $this->decode_mime($rest)這種形式的調用方法。

  下面我們來看正文。這裏關系到 MIME 的一些頭信息,我們先做一個簡單的介紹(如果讀者有興趣了解更多的內容,請參考 MIME 的官方文檔)。

  MIME-Version: 1.0

  表示使用的 MIME 的版本號,一般是1.0;

  Content-Type: 定義了正文的類型,我們實際上是通過這個標識來知道正文內是什麽類型的文件,比如:

  text/plain 表示的是無格式的文本正文,

  text/html 表示的 Html 文檔,

  image/gif 表示的是 gif 格式的圖片等等。

  在本文中特別要說明一下的是郵件中常用到的複合類型。multipart 類型表示正文是由多個部分組成的,後面的子類型說明的是這些部分之間的關系,郵件中用到的三個類型有,

  multipart/alternative:表示正文由兩個部分組成,可以選擇其中的任意一個。主要作用是在征文同時有 text 格式和 html 格式時,可以在兩個正文中選擇一個來顯示,支持 html 格式的郵件客戶端軟件一般會顯示其 HTML 正文,而不支持的則會顯示其 Text 正文;

  multipart/mixed :表示文檔的多個部分是混合的,指正文與附件的關系。如果郵件的 MIME 類型是

  multipart/mixed,即表示郵件帶有附件;

  multipart/related :表示文檔的多個部分是相關的,一般用來描述 Html 正文與其相關的圖片。

  這些複合類型又是可以嵌套使用的,比如說一個帶有附件的郵件,同時有 html 與 text 兩種格式的正文,則郵件的結構是:

  Content-Type: multipart/mixed

  部分一:

  Content Type : multipart/alternative:

  Text 正文;

  Html 格式的正文

  部分二:

  附件

  郵件結束符;

  由于複合類型由多個部分組成,因此,需要一個分隔符來分隔這多個部分,這就是上面的郵件源文件中的boundary="----=_NextPart_000_0007_01C03166.5B1E9510"所描述的,對于每一個Contect type :multipart/* 的內容,都會有這麽一個說明,表示多個部分之間的分隔,這個分隔符是正文中不可能出現的一串古字符的組合,在文檔中,以"--" 加上這個boundary 來表示一個部分的開始,在文檔的結束,以"--"加boundary再在最後加上 "--" 來表示文檔的結束。由于複合類型是可以嵌套使用的,因此,郵件中可能會多個boundary。

  還有一個最重要的 MIME 頭標簽:

  Content-Transfer-Encoding: base64 它表示了這個部分文檔的編碼方式,也就是我們上面所介紹的Base64或QP(Quote-Printable)。我們只有識別了這個說明,才能用正確的解碼方式實現對其解碼。

  限于篇幅,對于 MIME 的介紹就只說到這裏。下面我將給出一個解碼MIME郵件的類,並對其做簡要說明。
 
 
 
上一篇《用PHP實現POP3郵件的解碼(三)》
下一篇《用PHP實現POP3郵件的解碼(一)》
 
 
 
 
 
 
日版寵物情人插曲《Winding Road》歌詞

日版寵物情人2017的插曲,很帶節奏感,日語的,女生唱的。 最後聽見是在第8集的時候女主手割傷了,然後男主用嘴幫她吸了一下,插曲就出來了。 歌手:Def...

兄弟共妻,我成了他們夜裏的美食

老鍾家的兩個兒子很特別,就是跟其他的人不太一樣,魔一般的執著。兄弟倆都到了要結婚的年齡了,不管自家老爹怎麽磨破嘴皮子,兄弟倆說不娶就不娶,老父母爲兄弟兩操碎了心...

如何磨出破洞牛仔褲?牛仔褲怎麽剪破洞?

把牛仔褲磨出有線的破洞 1、具體工具就是磨腳石,下面墊一個硬物,然後用磨腳石一直磨一直磨,到把那塊磨薄了,用手撕開就好了。出來的洞啊很自然的。需要貓須的話調幾...

我就是掃描下圖得到了敬業福和愛國福

先來看下敬業福和愛國福 今年春節,支付寶再次推出了“五福紅包”活動,表示要“把欠大家的敬業福都還給大家”。 今天該活動正式啓動,和去年一樣,需要收集“五福”...

冰箱異味産生的原因和臭味去除的方法

有時候我們打開冰箱就會聞到一股異味,冰箱裏的這種異味是因爲一些物質發出的氣味的混合體,聞起來讓人惡心。 産生這些異味的主要原因有以下幾點。 1、很多人有這種習...

《極品家丁》1-31集大結局分集劇情介紹

簡介 《極品家丁》講述了現代白領林晚榮無意回到古代金陵,並追隨蕭二小姐化名“林三”進入蕭府,不料卻陰差陽錯上演了一出低級家丁拼搏上位的“林三升職記”。...

李溪芮《極品家丁》片尾曲《你就是我最愛的寶寶》歌詞

你就是我最愛的寶寶 - 李溪芮 (電視劇《極品家丁》片尾曲) 作詞:常馨內 作曲:常馨內 你的眉 又鬼馬的挑 你的嘴 又壞壞的笑 上一秒吵鬧 下...

烏梅的功效與作用以及烏梅的食用禁忌有哪些?

烏梅,又稱春梅,中醫認爲,烏梅味酸,性溫,無毒,具有安心、除熱、下氣、祛痰、止渴調中、殺蟲的功效,治肢體痛、肺痨病。烏梅泡水喝能治傷寒煩熱、止吐瀉,與幹姜一起制...

什麽是脂肪粒?如何消除臉部脂肪粒?

什麽是脂肪粒 在我們的臉上總會長一個個像脂肪的小顆粒,弄也弄不掉,而且顔色還是白白的。它既不是粉刺也不是其他的任何痘痘,它就是脂肪粒。 脂肪粒雖然也是由油脂...

網絡安全治理:國家安全保障的主要方向是打擊犯罪,而不是處置和懲罰受害者

來源:中國青年報 新的攻擊方法不斷湧現,黑客幾乎永遠占據網絡攻擊的上風,我們不可能通過技術手段杜絕網絡攻擊。國家安全保障的主要方向是打擊犯罪,而不是處置和懲罰...

河南夫妻在溫嶺網絡直播“造人”內容涉黃被刑事拘留

夫妻網絡直播“造人”爆紅   1月9日,溫嶺城北派出所接到南京警方的協查通告,他們近期打掉了一個涉黃直播APP平台。而根據掌握的線索,其中有一對涉案的夫妻主播...

如何防止牆紙老化?牆紙變舊變黃怎麽辦?

如何防止牆紙老化? (1)選擇透氣性好的牆紙 市場上牆紙的材質分無紡布的、木纖維的、PVC的、玻璃纖維基材的、布面的等,相對而言,PVC材質的牆紙最不透氣...

鮮肌之謎非日本生産VS鮮肌之謎假日貨是謠言

觀點一:破日本銷售量的“鮮肌之謎” 非日本生産 近一段時間,淘寶上架了一款名爲“鮮肌之謎的” 鲑魚卵巢美容液,號稱是最近日本的一款推出的全新護膚品,産品本身所...

中國最美古詩詞精選摘抄

系腰裙(北宋詞人 張先) 惜霜蟾照夜雲天,朦胧影、畫勾闌。人情縱似長情月,算一年年。又能得、幾番圓。 欲寄西江題葉字,流不到、五亭前。東池始有荷新綠,尚小如...

關于女人的經典語句

關于女人的經典語句1、【做一個獨立的女人】 思想獨立:有主見、有自己的人生觀、價值觀。有上進心,永遠不放棄自己的理想,做一份自己喜愛的事業,擁有快樂和成就...

未來我們可以和性愛機器人結婚嗎?

你想體驗機器人性愛嗎?你想和性愛機器人結婚嗎?如果你想,機器人有拒絕你的權利嗎? 近日,第二屆“國際人類-機器人性愛研討會”大會在倫敦金史密斯大學落下帷幕。而...

全球最變態的十個地方

10.土耳其地下洞穴城市 變態指數:★★☆☆☆ 這是土耳其卡帕多西亞的一個著名景點,傳說是當年基督教徒們爲了躲避戰爭而在此修建。裏面曾住著20000人,...

科學家稱,人類死亡後意識將在另外一個宇宙中繼續存活

據英國《每日快報》報道,一位科學家兼理論家Robert Lanza博士宣稱,世界上並不存在人類死亡,死亡的只是身體。他認爲我們的意識借助我們體內的能量生存,而且...

《屏裏狐》片頭曲《我愛狐狸精》歌詞是什麽?

《我愛狐狸精》 - 劉馨棋   (電視劇《屏裏狐》主題曲)   作詞:金十三&李旦   作曲:劉嘉   狐狸精 狐狸仙   千年修...

 
 
 
MIME 編碼方式簡介   Subject: =?gb2312?B?xOO6w6Oh?=   這裏是郵件的主題,可是因爲編碼了,我們看不出是什麽內容,其原來的文本是:「你好!」我們先看看 MIME 編碼的兩種方法。   對郵件進行編碼最初的原因是因爲 Internet 上的很多網關不能正確傳輸8 bit 內碼的字符,比如漢字等。編碼的原理就是把 8 bit 的內容轉換成 7 bit 的形式以能正確傳輸,在接收方收到之後,再將其還原成 8 bit 的內容。   MIME 是「多用途網際郵件擴充協議」的縮寫,在 MIME 協議之前,郵件的編碼曾經有過 UUENCODE 等編碼方式 ,但是由于 MIME 協議算法簡單,並且易于擴展,現在已經成爲郵件編碼方式的主流,不僅是用來傳輸 8 bit 的字符,也可以用來傳送二進制的文件 ,如郵件附件中的圖像、音頻等信息,而且擴展了很多基于MIME 的應用。從編碼方式來說,MIME 定義了兩種編碼方法Base64與QP(Quote-Printable) :   Base 64 是一種通用的方法,其原理很簡單,就是把三個Byte的數據用 4 個Byte表示,這樣,這四個Byte 中,實際用到的都只有前面6 bit,這樣就不存在只能傳輸 7bit 的字符的問題了。Base 64的縮寫一般是「B」,像這封信中的Subject 就是用的 Base64 編碼。   另一種方法是QP(Quote-Printable) 方法,通常縮寫爲「Q」方法,其原理是把一個 8 bit 的字符用兩個16進制數值表示,然後在前面加「=」。所以我們看到經過QP編碼後的文件通常是這個樣子:=B3=C2=BF=A1=C7=E5=A3=AC=C4=FA=BA=C3=A3=A1。   在 PHP 裏,系統有兩個函數可以很方便地實現解碼:base64_decode()與quoted_printable_decode(),前者可用于base64 編碼的解碼,後者是用于 QP 編碼方法的解碼。   現在我們再來看看Subject: =?gb2312?B?xOO6w6Oh?= 這一主題的內容,這不是一段完整的編碼,只有部分是編碼了的,這個部分用 =? ?= 兩個標記括起來,=? 後面說明的是這段文字的字符集是 GB2312 ,然後一個 ? 後面的一個 B 表示的是用的 Base64 編碼。通過這段分析,我們來看一下這個 MIME 解碼的函數:(該函數由 PHPX.COM 站長 Sadly 提供,本人將其放入一個類中,並做了少量的修改,在此致謝)   function decode_mime($string) {    $pos = strpos($string, '=?');    if (!is_int($pos)) {      return $string;    }    $preceding = substr($string, 0, $pos); // save any preceding text    $search = substr($string, $pos+2); /* the mime header spec says this is the longest a single encoded word can be */    $d1 = strpos($search, '?');    if (!is_int($d1)) {      return $string;    }    $charset = substr($string, $pos+2, $d1); //取出字符集的定義部分    $search = substr($search, $d1+1); //字符集定義以後的部分=>$search;    $d2 = strpos($search, '?');    if (!is_int($d2)) {      return $string;    }    $encoding = substr($search, 0, $d2); ////兩個? 之間的部分編碼方式 :q 或 b     $search = substr($search, $d2+1);    $end = strpos($search, '?='); //$d2+1 與 $end 之間是編碼了 的內容:=> $endcoded_text;    if (!is_int($end)) {      return $string;    }    $encoded_text = substr($search, 0, $end);    $rest = substr($string, (strlen($preceding . $charset . $encoding . $encoded_text)+6)); //+6 是前面去掉的 =????= 六個字符    switch ($encoding) {    case 'Q':    case 'q':      //$encoded_text = str_replace('_', '%20', $encoded_text);      //$encoded_text = str_replace('=', '%', $encoded_text);      //$decoded = urldecode($encoded_text);    $decoded=quoted_printable_decode($encoded_text);      if (strtolower($charset) == 'windows-1251') {      $decoded = convert_cyr_string($decoded, 'w', 'k');      }      break;    case 'B':    case 'b':      $decoded = base64_decode($encoded_text);      if (strtolower($charset) == 'windows-1251') {      $decoded = convert_cyr_string($decoded, 'w', 'k');      }      break;    default:      $decoded = '=?' . $charset . '?' . $encoding . '?' . $encoded_text . '?=';      break;    }    return $preceding . $decoded . $this->decode_mime($rest);   }   這個函數用了遞歸的方法來實現一段包含有如上的 Subject 段的字符的解碼。程序中已經加上了注釋。相信有點PHP 編程基礎的人都能夠看得明白。該函數也是調用的base64_decode()與quoted_printable_decode()兩個系統函數實現的解碼,但是需要對郵件源文件進行大量的字符串的分析。不過,PHP 的字符串操作可以算是所有語言裏最爲方便自由的。函數的最後return $preceding . $decoded . $this->decode_mime($rest); 實現遞歸解碼,因爲這個函數實際上是放在後面要介紹的一個 MIME解碼的類中的,所以用了 $this->decode_mime($rest)這種形式的調用方法。   下面我們來看正文。這裏關系到 MIME 的一些頭信息,我們先做一個簡單的介紹(如果讀者有興趣了解更多的內容,請參考 MIME 的官方文檔)。   MIME-Version: 1.0   表示使用的 MIME 的版本號,一般是1.0;   Content-Type: 定義了正文的類型,我們實際上是通過這個標識來知道正文內是什麽類型的文件,比如: text/plain 表示的是無格式的文本正文, text/html 表示的 Html 文檔, image/gif 表示的是 gif 格式的圖片等等。   在本文中特別要說明一下的是郵件中常用到的複合類型。multipart 類型表示正文是由多個部分組成的,後面的子類型說明的是這些部分之間的關系,郵件中用到的三個類型有, multipart/alternative:表示正文由兩個部分組成,可以選擇其中的任意一個。主要作用是在征文同時有 text 格式和 html 格式時,可以在兩個正文中選擇一個來顯示,支持 html 格式的郵件客戶端軟件一般會顯示其 HTML 正文,而不支持的則會顯示其 Text 正文; multipart/mixed :表示文檔的多個部分是混合的,指正文與附件的關系。如果郵件的 MIME 類型是 multipart/mixed,即表示郵件帶有附件; multipart/related :表示文檔的多個部分是相關的,一般用來描述 Html 正文與其相關的圖片。   這些複合類型又是可以嵌套使用的,比如說一個帶有附件的郵件,同時有 html 與 text 兩種格式的正文,則郵件的結構是:   Content-Type: multipart/mixed    部分一:    Content Type : multipart/alternative:    Text 正文;    Html 格式的正文    部分二:    附件   郵件結束符;   由于複合類型由多個部分組成,因此,需要一個分隔符來分隔這多個部分,這就是上面的郵件源文件中的boundary="----=_NextPart_000_0007_01C03166.5B1E9510"所描述的,對于每一個Contect type :multipart/* 的內容,都會有這麽一個說明,表示多個部分之間的分隔,這個分隔符是正文中不可能出現的一串古字符的組合,在文檔中,以 "--" 加上這個boundary 來表示一個部分的開始,在文檔的結束,以"--"加boundary再在最後加上 "--" 來表示文檔的結束。由于複合類型是可以嵌套使用的,因此,郵件中可能會多個 boundary 。   還有一個最重要的 MIME 頭標簽:   Content-Transfer-Encoding: base64 它表示了這個部分文檔的編碼方式,也就是我們上面所介紹的Base64或QP(Quote-Printable)。我們只有識別了這個說明,才能用正確的解碼方式實現對其解碼。   限于篇幅,對于 MIME 的介紹就只說到這裏。下面我將給出一個解碼MIME郵件的類,並對其做簡要說明。
󰈣󰈤
 
 
 
  免責聲明:本文僅代表作者個人觀點,與王朝網路無關。王朝網路登載此文出於傳遞更多信息之目的,並不意味著贊同其觀點或證實其描述,其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,並請自行核實相關內容。
 
 
暖暖的午後美女(2)
一個人的生活
妩媚動人的女生
秀氣迷人的模特
巧合的對稱
擁抱明天
十二月,有陽光
董子讀書台
 
>>返回首頁<<
 
 
 
 熱帖排行
 
 
 
 
© 2005- 王朝網路 版權所有