当前位置:百问十五>百科知识>heritrix抓取整个页面后如何得到想要的数据

heritrix抓取整个页面后如何得到想要的数据

2024-06-06 15:46:52 编辑:join 浏览量:589

heritrix抓取整个页面后如何得到想要的数据

需要用正则表达式来过滤到你不想要的东西,抓取和过滤的原理是一样的,就是具有共性的头和尾,把中间部分抓出来.

正则表达式在抓取中应用比较多,也可以称之为一种规则,你抓取内容要按照一定的规则来抓取,无用的你还得按照一定的规则过滤.

标签:heritrix,抓取,页面

版权声明:文章由 百问十五 整理收集,来源于互联网或者用户投稿,如有侵权,请联系我们,我们会立即处理。如转载请保留本文链接:https://www.baiwen15.com/article/136196.html
热门文章