博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HtmlEntities
阅读量:5329 次
发布时间:2019-06-14

本文共 3405 字,大约阅读时间需要 11 分钟。

#region GetOnlyTextFromHtmlCode + RemoveHtmlChars + RemoveTagFromHtmlCode        ///         /// http://www.codeproject.com/script/Content/ViewAssociatedFile.aspx?rzp=%2FKB%2Fedit%2FZetaHtmlEditControl%2F%2FZetaHtmlEditControl-Source.zip&zep=Control%2FHtmlEditControl.cs&obid=43954&obtid=2&ovid=13        ///         ///         /// 
private static string getOnlyTextFromHtmlCode(string htmlCode) { //
htmlCode = htmlCode.Replace("\r\n", @" "); htmlCode = htmlCode.Replace("\r", @" "); htmlCode = htmlCode.Replace("\n", @" "); htmlCode = htmlCode.Replace(@"

", Environment.NewLine + Environment.NewLine); htmlCode = htmlCode.Replace(@"

", Environment.NewLine + Environment.NewLine); //html comment htmlCode = Regex.Replace( htmlCode, @"
", string.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); //

htmlCode = Regex.Replace(htmlCode, @"

]*>", Environment.NewLine, RegexOptions.Singleline | RegexOptions.IgnoreCase); //tags htmlCode = removeTagFromHtmlCode(@"style", htmlCode); htmlCode = removeTagFromHtmlCode(@"script", htmlCode); //html htmlCode = Regex.Replace( htmlCode, "<(.|\n)+?>", string.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); //umlaute htmlCode = unescapeHtmlEntities(htmlCode); //whitespaces htmlCode = Regex.Replace( htmlCode, @" +", @" ", RegexOptions.Singleline | RegexOptions.IgnoreCase); return htmlCode; } ///

/// http://dev.w3.org/html5/html-author/charref /// /// ///
private static string unescapeHtmlEntities(string htmlCode) {

      htmlCode = htmlCode.Replace(@"&nbsp;", @" ");

      htmlCode = htmlCode.Replace(@"&Auml;", @"ä");

      htmlCode = htmlCode.Replace(@"&absp;", @"");
      htmlCode = htmlCode.Replace(@"&obsp;", @"");
      htmlCode = htmlCode.Replace(@"&Obsp;", @"");
      htmlCode = htmlCode.Replace(@"&ubsp;", @"");
      htmlCode = htmlCode.Replace(@"&Ubsp;", @"");
      htmlCode = htmlCode.Replace(@"&szlig;", @"ß");

      htmlCode = htmlCode.Replace(@"&pound;", @"£");

      htmlCode = htmlCode.Replace(@"&sect;", @"§");
      htmlCode = htmlCode.Replace(@"&copy;", @"©");
      htmlCode = htmlCode.Replace(@"&reg;", @"®");
      htmlCode = htmlCode.Replace(@"&micro;", @"µ");
      htmlCode = htmlCode.Replace(@"&para;", @"¶");
      htmlCode = htmlCode.Replace(@"&Oslash;", @"Ø");
      htmlCode = htmlCode.Replace(@"&oslash;", @"Ø");
      htmlCode = htmlCode.Replace(@"&divide;", @"÷");
      htmlCode = htmlCode.Replace(@"&times;", @"×");

return htmlCode;        }        private static string removeTagFromHtmlCode(            string tag,            string htmlCode)        {            return Regex.Replace(                htmlCode,                string.Format(@"<{0}.*?
", tag, tag), string.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); } #endregion

  

转载于:https://www.cnblogs.com/geovindu/p/4310328.html

你可能感兴趣的文章
题1简化版
查看>>
linux清空日志文件内容 (转)
查看>>
jsp中对jstl一些标签的引用方式
查看>>
100. Same Tree
查看>>
mkdir命令(转)
查看>>
安卓第十三天笔记-服务(Service)
查看>>
css3学习笔记之背景
查看>>
Servlet接收JSP参数乱码问题解决办法
查看>>
【bzoj5016】[Snoi2017]一个简单的询问 莫队算法
查看>>
[dpdk] 熟悉SDK与初步使用 (二)(skeleton源码分析)
查看>>
Ajax : load()
查看>>
分布式版本控制系统
查看>>
HTML5学习笔记简明版(1):HTML5介绍与语法
查看>>
使用IntelliJ IDEA 配置Maven
查看>>
java 设计模式
查看>>
计时器setInterval()、setTimeout()
查看>>
讲解浏览器 三次握手四次挥手。
查看>>
实验室专利撰写相关
查看>>
hdu 4928 Series 2 (优化+模拟)
查看>>
weblogic宕机crash问题解决分享
查看>>