PALMisLIFE 討論區

標題: 關於二手區的RSS [列印本頁]

作者: saintk    時間: 2010-7-22 16:19
標題: 關於二手區的RSS
最近寫了機器人去解析二手區的RSS
今天發現RSS會解析錯誤
找好久以後發現是因為字碼誤判導致結尾字元跟前面被切斷的字碼合而為一
主要發現是<description>

正常看應該是
   
  1. <description><![CDATA[文章內容]]></description>
複製代碼

結果會變成

   
  1. <description><![CDATA[文章內容]></description>
複製代碼

因為少一個中括號而讓解析器判斷有問題就跳掉

以下為實例
  1. <description><![CDATA[Innergie 筆電....
  2. ...
  3. ...適用於各也]></description>
複製代碼


目前想到的解法是
可否能的話修改讓
<description>內的文字內容在開始即結束的位置都加一個空白字元
我猜想可能就能解決這個問題
當然這個並非常常發生(我想久久才發生一次吧...)
其實有改跟沒改...都可以拉~XD

作者: 阿輝    時間: 2010-7-22 16:54
今天晚上我先修一下
看來好像應該還是要 UTF8 化才是永久正解?

2GB 以上的 Big5 SQL 是要我怎麼辦... (惡夢)
作者: 阿輝    時間: 2010-7-22 20:32
修改好了,請協助幫忙測試看看
作者: saintk    時間: 2010-7-25 17:43
本來以為已經好了
但剛剛又發現又有同樣的狀況
給您參考

  1. <item>
  2.       <title>7200rpm 2.5&quot;硬碟、DDR2-800記憶體</title>
  3.       <link>http://forum.palmislife.com/viewthread.php?tid=102326</link>
  4.       <description><![CDATA[1.Seagate ST9500420AS-3Y/P 500GB/16MB Buffer/7200rpm/SATA 2 筆電用2.5吋硬碟,聯強代理,全部未拆品,2400元。><br />
  5. 2.金士頓 2GB DDR2-800 SODIMM 記憶體,聯強代理,全新盒裝未拆品,1200元。<br />
  6. 以上是新品<br />
  7. <br />
  8. 3.創見JetRam 2GB DDR2-800 SODIMM記霄]></description>
  9.       <category>會員二手交易園地</category>
  10.       <author>baijee</author>
  11.       <pubDate>Thu, 22 Jul 2010 09:10:11 +0000</pubDate>
  12.     </item>
複製代碼





歡迎光臨 PALMisLIFE 討論區 (http://f.pil.tw/) Powered by Discuz! X2.5