在线word或excel转html工具清除垃圾代码
2010724~ 2010724 feilong.org1、飞龙提示:打开ie内核浏览器,比如ie、Maxthon、QQ浏览器、360浏览器。如果是Firefox、opera、chrome、Safari,请换。
如果你是一位网站编辑,你会经常需要把word文档转为html文档。你可以用word自带的转格式命令:另存为网页—>筛选过的网页。但是这样把word转html格式有个问题,那就是垃圾代码多多。如何把word转html后的那些垃圾代码清除干净?
一、比如word的垃圾代码:有ms特殊内联样式或其它形式样式,比如align、height、width,有字体加粗、颜色、字号,等。其实学过网页制作的朋友都知道,这些外观都可以通过外联的css样式表来控制,不必使用word自动生成的那些无用的垃圾的冗长的特色代码。
记得飞龙以前清除word无用代码,是用记事本或“自动文本整理器”过滤所有的非文本信息,只留下纯文本。嗯,对于文本类信息,我们当然可以用记事本或文字整理工具来过滤。但是新问题出来了,table表格怎么过滤?把表格复制粘贴到记事本或整理器,表格不见了啊!只剩下很不直观的文本。
当然你可以把表格式的资料整理成一段一段的纯文本,那样对搜索引擎来说是件好事。但是万一我们需要用表格呢?表格比文字表现更直观啊!
二、因此我们把word转html,其实最关键就是:把table表格转为html,去掉垃圾代码,只留下纯净表格。那么我们如何清除table表格里的垃圾代码呢?
飞龙以前用EditPlus的查找替换功能,手工清楚table源代码里面的垃圾代码,那样比较费时间,有时还不如重新制作表格来得快!那么有没有自动把table表格里的无用代码清除干净的方法呢?我们要的知识纯净的table表格。
三、飞龙分析了一下,最纯净的table表格,应该包括哪些标签:table、td、th,然后是单元格td或th里面的colspan属性与rowspan属性。也就是说,一个最基本简洁的表格大概是这样:
表头 | 横表头 | 横表头 |
---|---|---|
竖表头 | 列内容 | 列内容 |
竖表头 | 列内容 | 列内容 |
三、现在我们需要将word、excel或其它来源的垃圾表格转html格式,清除垃圾、又能保留原来的表格划分和数据。本文谈谈word或excel表格转html、正则表达式清除无用垃圾代码,更新地址:http://feilong.org/purify-table 2010年7月24日16:20飞龙第4次修订。
飞龙在网上寻找到一个word转html工具或软件,可以把word批量或单个的转html,比如wordcleaner,可惜只能试用15天,收费的。然后还查到asp或php下转word为html、java转word为html、正则表达式清除html之类的代码,可以实现批量转换和净化htl源代码。
飞龙查阅了很多资料,没找到最终的答案。不过飞龙感觉:用正则表达式清除html垃圾代码的方法,最为可行。可惜飞龙对正则表达式知之甚少,和大家一样看到正则表达式就退避三舍呵呵。
今天飞龙查阅了正则表达式入门知识,然后不断尝试,终于制作成了上面的这个在线工具:净化word或其它垃圾表格。主要功能:清除所有垃圾代码,剩下table、th、td、colspan、rowspan,当然还有表格里面的纯净文本。你不妨试试,word或excel或网上的表格,复制,然后点击粘贴按钮,哈所有的垃圾代码都不见了!飞龙提示:ie内核浏览器下使用。
五、不过,净化后的table表格,没有任何外观效果,你可以在css样式表里自主控制。飞龙提供一套最简洁table css样式示例:http://feilong.org/css-for-purified-table
六、感谢:new_shx、蓝色理想、正则表达式实验室、百度百科等
bbs.blueidea.com/thread-2967396-1-1.html
deerchao.net/tutorials/regex/regex.htm
www.regexlab.com/zh/regref.htm
baike.baidu.com/view/94238.htm