欢迎您来到素材猫
充值

SimpleXMLElement解析报错解决方案:剔除字符串中错误字符-素材猫

  • 时间:: 编辑:素材猫 来源:素材猫 阅读:108
  • 扫一扫,手机访问
摘要:符 实在不愿意写关于PHP乱码方面的东西了,今天再次遇到了一个很郁闷的问题,字符串中含有错误的字码(内码)。 报错: Warning: SimpleXMLElement::__construct() [function.SimpleXMLElement---constru...

实在不愿意写关于PHP乱码方面的东西了,今天再次遇到了一个很郁闷的问题,字符串中含有错误的字码(内码)。

报错:

Warning: SimpleXMLElement::__construct() [function.SimpleXMLElement—construct]:
input conversion failed due to input error, bytes 0xC2 0x2E 0x20 0x20 in
E:\www\alsobuy.php on line 47

PHP在解析XML文档时发生错误,这个问题很常见,主要是由于在xml文档中含有头部声明编码以外的字符,而php严格按照头部声明的编码来解析xml文档。通常都是GB2312编码发生此情况,我一般是使用正则来修改文档头部编码声明来避免。如下:

$xml = preg_replace(“/(^<\?xml.*encoding.*)GB2312(.*\?>)/iU” ,
‘${1}GBK${2}’ , $xml );

一般将其修改为GBK即可,GB2312包含的汉字实在太少了。

今天却不好使,纳闷了,后来终于发现,该XML文档中含有一个错误字符,根本无法解析。

而在使用正则等处理字符串时,里面含有乱码一般不会报错,估计SimpleXmlElement()是堆栈来完成xml文档解析的,遇到错误字符就挂了。

解决方案:根据具体编码,确定字符内码的范围,遍历一遍,剔除错误的字符。

下面是根据GBK编码范围来剔除的,效果很好。

代码:
<?php
//含有两个错误的字符
$str = “我\x97\x7f骁ㄅㄈ是德\x82\x09文”;

$len = strlen($str);//长度
$new_str = “”;

for($i=0; $i <= $len-1 ;$i++) { $s_hex = ord($str[$i]); if( $s_hex <= 0x7f && $s_hex >=0x00 )
{
//ACSII
$new_str .= $str[$i];
}
else if( $s_hex >= 0x81 && $s_hex <=0xfe )
{
//双字节
if( $i == $len-1 ) break;
$i++;
$s_hex = ord($str[$i]);
if( $s_hex >= 0x40 && $s_hex <= 0xfe && $s_hex != 0x7f)
{
$new_str .= $str[$i-1];
$new_str .= $str[$i];
}
}
}
echo $str.'<br/>’;
echo $new_str.'<br/>’;
?>

效果图:

方便看代码:
  • 全部评论(0)
上一篇:已是第一篇内容
下一篇:已是最后一篇内容
最新发布的资讯信息
【计算机/互联网|】Proxmox Linux 测试架设流程(2020-06-06 18:01)
【技术支持|】720云VR全景系统网站源码安装说明(2020-06-06 17:48)
【计算机/互联网|】Python 直接嵌入到 Linux 内核还感觉有些惊讶(2020-06-06 17:30)
【技术支持|】CRMEB商城搭建说明(2020-06-06 16:14)
【技术支持|】免xp框架监听短信使用教程(2020-06-05 10:51)
【计算机/互联网|】eps免费版详细装说明(2020-05-27 12:04)
【计算机/互联网|】在 Tomcat 里面部署 Web 项目的几种方式(2020-05-24 11:14)
【技术支持|】PHP设计模式-仓库模式Repository(2020-05-24 11:08)
【计算机/互联网|】MAC 使用XAMPP 建立PHP 开发环境教学(2020-05-24 11:03)
【好东西分享|】方便你备份重要资料的免费工具:AnyBackup 1.8(2020-05-23 12:05)
联系我们
工作时间:8:00-23:30
客服 QQ:116622333
邮 箱:sucaimao#qq.com