url绝对路径处理 – 七月时光

之前写过一个php版本的爬虫，其中有一个对路径的处理，即相对路径转化为绝对路径，可以在这里查看。

今天用nodejs爬虫时，又js重新对其实现了一次，和之前的实现方式有些不同。

这里使用了url模块对url链接进行解析，使用npm install --save url进行安装。

详见代码

var _url = require('url')

function array_remove_null(array) {
    for (var i = 0; i < array.length; i++) {
        if (array[i] === '') {
            array.splice(i, 1)
            i--
        }
    }
    return array
}

/**
 * 路径处理
 * @param {string} url 待解析的url
 * @param {string} cur_url 来源页面url
 */
function format_path(url, cur_url) {
    cur_url = cur_url || init_base_url
    var cur_url_parse = _url.parse(cur_url)
    var cur_host = cur_url_parse.host
    var cur_port = cur_url_parse.port
    var cur_protocol = cur_url_parse.protocol
    var cur_hostname = cur_url_parse.hostname
    var cur_pathname = cur_url_parse.pathname
    var cur_pathname_objs = array_remove_null(cur_pathname.split('/'))
    var cur_url_base_path = ''
    if (cur_pathname[cur_pathname.length - 1] === '/')
        cur_url_base_path = '/' + cur_pathname_objs.join('/') + '/'
    else
        cur_url_base_path = '/' + cur_pathname_objs.splice(0, cur_pathname_objs.length - 1).join('/') + '/'
    var cur_base_url = cur_protocol + "//" + cur_hostname + (cur_port ? ':' + cur_port : '') + cur_url_base_path
    //形如 /about.html
    if (url[0] === "/")
        return init_base_url + url
    var url_parse = _url.parse(url)
    //形如 http://www.baidu.com
    if (url_parse.protocol && url_parse.hostname) return url
    var url_objs = url.split('/')
    //形如 about/abc.html
    if (!url_parse.protocol && !url_parse.hostname && url_parse.pathname && url_objs[0] !== '.' && url_objs[0] != '..')
        return cur_url + "/" + url
    //形如 ../../a/c/v/a.html
    if (url_objs[0] === '.')
        url = url.substring(2)
    url_objs = url.split('/')
    var cur_url_pathname = cur_url_base_path
    var cur_main_url = cur_url.split(cur_url_pathname)[0]
    var cur_url_objs = array_remove_null(cur_url_pathname.split('/'))
    var url_after = []
    for (var i = 0; i < url_objs.length; i++) {
        if (url_objs[i] === '..') {
            cur_url_objs.splice(cur_url_objs.length - 1, 1)
        } else {
            url_after.push(url_objs[i])
        }
    }
    cur_url_pathname = (cur_url_objs.length > 0) ? ('/' + cur_url_objs.join('/')) : ''
    var url_after_pathname = (url_after.length > 0) ? ('/' + url_after.join('/')) : ''
    return cur_main_url + cur_url_pathname + url_after_pathname
}

你可能感兴趣的文章

如果您觉得本文对您有用，欢迎捐赠或留言~

本博客所有文章除特别声明外，均可转载和分享，转载请注明出处！
文章标签：
- javascript
- nodejs
本文地址：https://www.leevii.com/?p=750

你可能感兴趣的文章

相关文章

pnpm提示ERR_PNPM_NO_MATCHING_VERSION_INSIDE_WORKSPACE错误

Jenkins中shell执行异常

有用的.npmrc文件

怎么检查站点更新？

Failed to execute ‘toDataURL’ on ‘HTMLCanvasElement’: Tainted canvases may not be exported错误原因

怎么指定下载文件名？

浏览器中的剪贴板

关于ts中的可选链

说说TS中的Record

关于tabindex

关于localeCompare中文排序不准确的问题

精确处理小数位保留

发表评论 取消回复

发表评论取消回复