搜索
bottom↓
回复: 10

正则表达式中的条件替换换行符的表达式如何写?

[复制链接]

出0入0汤圆

发表于 2016-8-21 11:33:04 | 显示全部楼层 |阅读模式
我想用DELPHI XE8 提取ASP网页的查询结果,之前用 WEBBROWSER 比较好处理,直接读TABLE中的内容就可以了,由于WEBBROWSER占用资源较多, 现在相改用 TIDHTTP来处理,要想在TIDHTTP里提取TABLE里的数据似乎除了正则表达式也没有什么其他好办法,但是在我要提取数据的网页中有些字段会从中间换行(好象字符串中有空格就会变成换行),HTML源代码摘录如下:
  1. <a id="GridViewleft_LinkButton1_10" href="javascript:__doPostBack('GridViewleft$ctl12$LinkButton1','')">SMD-101-01</a>

  2.                             </td><td>碳膜电阻</td><td>100R,0603,误差1%</td><td>0.000</td><td>pcs</td><td>委外加工</td><td>2016/01/22</td><td>成品仓</td><td>&nbsp;</td><td>需要且檢查庫存量</td><td>&nbsp;</td>
  3.                 </tr><tr style="background-color:White;">
  4.                         <td>

  5. <a id="GridViewleft_LinkButton1_11" href="javascript:__doPostBack('GridViewleft$ctl13$LinkButton1','')">SMD-101-02</a>

  6.                             </td><td>碳膜电阻</td><td>100R,0603,误差5%</td><td>1.000</td><td>pcs</td><td>委外加工</td><td>2016/01/22</td><td>成品仓</td><td>&nbsp;</td><td>不需要</td><td>&nbsp;</td>
  7.                 </tr><tr style="background-color:#E3EAEB;">
  8.                         <td>

  9. <a id="GridViewleft_LinkButton1_12" href="javascript:__doPostBack('GridViewleft$ctl14$LinkButton1','')">SMD-101-03</a>

  10.                             </td><td>碳膜电阻</td><td>100R,0603,
  11. 误差10%</td><td>3.000</td><td>pcs</td><td>委外加工</td><td>20160309</td><td>成品仓</td><td>&nbsp;</td><td>不需要</td><td>&nbsp;</td>
  12.                 </tr><tr style="background-color:White;">
  13.                         <td>

  14. <a id="GridViewleft_LinkButton1_13" href="javascript:__doPostBack('GridViewleft$ctl15$LinkButton1','')">SMD-102-01</a>
复制代码

如上面代码中的第三条记录从一个字段中间换行了,现在的想法是利用正则表达式,检查每行结尾是不是字符 “>”,如果不是,就把换行符替换成空格,请问这个条件替换表达式要如何写?或者有其它更好的办法?谢谢各位了。

阿莫论坛20周年了!感谢大家的支持与爱护!!

知道什么是神吗?其实神本来也是人,只不过神做了人做不到的事情 所以才成了神。 (头文字D, 杜汶泽)

出0入0汤圆

发表于 2016-8-21 14:33:03 | 显示全部楼层
据我所知posix正则是行内操作的
试试在字符串里直接加入换行符

出110入26汤圆

发表于 2016-8-21 15:51:41 | 显示全部楼层
>\r
这个是匹配行末的>号

出0入0汤圆

发表于 2016-8-21 16:08:43 | 显示全部楼层
先把换行换掉就好了

出0入70汤圆

发表于 2016-8-21 16:22:16 | 显示全部楼层
先用Str := stringreplace(Str, #13#10, '', [rfReplaceAll]);替换掉所有换行,  然后再用正则处理...

出0入0汤圆

发表于 2016-8-21 11:33:05 | 显示全部楼层
楼主要的正则表达式就是 [^>]\n 或者 [^>]\n\r 看楼主换行符是哪种类型了
建议用RegexBuddy 4测试你的表达式

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出30入25汤圆

发表于 2016-8-25 12:53:30 | 显示全部楼层
题外话

原则上来讲,不要使用正则表达式处理HTML

在形式语法的理论中,正则的语法层级,比XML/HTML的语法层级要低,即必然存在一部分XML结构,用正则的匹配能力不足以匹配到
另外正则也难以收拾HTML当中林林总总的转义问题

不知道delphi下有什么正规的html解析库可以用

出350入477汤圆

发表于 2016-8-25 13:19:56 来自手机 | 显示全部楼层
shamiao 发表于 2016-8-25 12:53
题外话

原则上来讲,不要使用正则表达式处理HTML

上面的webbrowser控件就行。它其实就是系统里ie的核心。

出0入0汤圆

发表于 2016-8-27 15:13:51 | 显示全部楼层
\n 匹配一个换行符。等价于 \x0a 。
\r 匹配一个回车符。等价于 \x0d 。

出0入0汤圆

 楼主| 发表于 2016-8-27 20:32:53 | 显示全部楼层
KuJJ 发表于 2016-8-21 16:26
楼主要的正则表达式就是 [^>]\n 或者 [^>]\n\r 看楼主换行符是哪种类型了
建议用RegexBuddy 4测试你的表达 ...

我下载了RegexBuddy测试了,换行符用 [^>]\n 可以匹配到,但我想要的是:  不等于 " >"字符 + 换行符 , 是不等于

出0入0汤圆

发表于 2016-8-28 17:38:22 | 显示全部楼层
dglb73 发表于 2016-8-27 20:32
我下载了RegexBuddy测试了,换行符用 [^>]\n 可以匹配到,但我想要的是:  不等于 " >"字符 + 换行符 , 是 ...

^这个符号就是不等于的意思
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片。注意:要连续压缩2次才能满足要求!!】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2024-7-23 07:20

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表