有几种不同的方法可以从Cocoa
的NSString
中删除HTML tags
.
One way是将字符串渲染为NSAttributedString
,然后获取渲染的文本.
Another way表示使用NSXMLDocument's
-objectByApplyingXSLTString
方法来应用执行此操作的XSLT
转换.
不幸的是,iPhone不支持NSAttributedString
或NSXMLDocument
.有太多的边缘 case 和格式错误的HTML
个文档让我不习惯使用regex或NSScanner
.有人有解决这个问题的办法吗?
一个建议是简单地寻找开始和结束标记字符,除了非常琐碎的情况外,这种方法不起作用.
例如,这些 case (来自同一主题的Perl Cookbook章节)会 destruct 此方法:
<IMG SRC = "foo.gif" ALT = "A > B">
<!-- <A comment> -->
<script>if (a<b && a>c)</script>
<![INCLUDE CDATA [ >>>>>>>>>>>> ]]>