这篇文章主要为大家详细介绍了PHP利用通过中文字符比率来判断垃圾评论的简单示例,具有一定的参考价值,可以用来参考一下。
感兴趣的小伙伴,下面一起跟随四海网的小玲来看看吧!
最近一段时间常常出现这类垃圾评论:一大段英文字符里夹杂一两个生僻汉字,包含了中文字符,而且又没包含啥中文的敏感词,所以就堂而皇之的通过了评论过滤。对这类评论的处理可以采取判断中文字符的比率来确认,但是也会存在一定的误判。
要用到php的两个函数strlen和mb_strlen,strlen会把单个汉字长度认定为3,mb_strlen单个汉字长度为1。同一段字符通过两个函数取得的长度之差就是实际汉字字符数的二倍,除以二就得到实际的字符数,在与mb_strlen取得的长度求比值就得到汉字占总字符数的比率。
代码如下:
$len_all = strlen($comment['text']);
$len_st = mb_strlen($comment['text'], 'UTF-8');
if(($len_all-$len_st)/(2*$len_st) < 0.5){
$error = "中文字符少于百分之五十";
}
如果在评论中贴代码的话,就会造成中文字符比率低,需要过滤掉代码字段再来判断。
希望本文所述对大家的PHP程序设计有所帮助。
本文来自:http://www.q1010.com/173/17818-0.html
注:关于PHP利用通过中文字符比率来判断垃圾评论的简单示例的内容就先介绍到这里,更多相关文章的可以留意四海网的其他信息。
关键词:
四海网收集整理一些常用的php代码,JS代码,数据库mysql等技术文章。