URL 源码分析

需要了解的知识点: URI、 URL 和 URN 的区别 URI 源码分析

URL 和URI的最大区别是: URL可以定位到一个资源,也就是说,URL类可以访问URL指定的资源信息。 URI只是标识一个对象,所以URI类无法获取URI标识的对象。

下面通过源码来分析URL类的实现细节:

构造

public URL(String spec);
public URL(String protocol, String host, String file);
public URL(String protocol, String host, int port, String file)
public URL(String protocol, String host, int port, String file,
               URLStreamHandler handler);
public URL(URL context, String spec);
public URL(URL context, String spec, URLStreamHandler handler);

URL提供了6种不同的构造方法,使用那个构造方法取决你有那些信息以及信息形式。

  1. 根据一个字符串形式的URL,来构建URL对象。
  2. 根据 协议、主机名、文件来构造一个URL。 使用该协议默认的端口,并且file参数应当以斜线开头,包括文件路径、文件名称和片段。
  3. 根据 协议、主机名、端口、文件来构造一个URL。
  4. 根据 协议、主机名、端口、文件和URLStreamHandler来构造一个URL。 URLStreamHandler:主要是用来读取指定的资源,并返回该资源的一个流。
  5. 根据一个基础URL和一个相对URL来构建一个绝对URL。
  6. 根据一个基础URL和一个相对URL来构建一个绝对URL,并传入一个URLStreamHandler对象。

解析URL

URL主要是通过7部分组成,如下图:

URL格式

  1. 获得URL的协议 public String getProtocol()
  2. 获得授权机构信息(包括用户信息、主机和端口) public String getAuthority()
  3. 获得用户信息(用户名和密码) public String getUserInfo()
  4. 获取主机地址(域名或ip地址) public String getHost()
  5. 获得端口 public int getPort()
  6. 获得文件信息(路径、文件名和查询参数) public String getFile()
  7. 获得路径信息(路径、文件名) public String getPath()
  8. 获取查询参数信息 public String getQuery()
  9. 获得片段信息 public String getRef()
  10. 获得该协议默认端口 public int getDefaultPort()

解析URL 示例

URL url = new URL("http://user:pass@localhost:8080/infcn/index.html?type=type1#aaa");
System.out.println("protocol   :\t"+url.getProtocol());
System.out.println("authority  :\t"+url.getAuthority());
System.out.println("userinfo   :\t"+url.getUserInfo());
System.out.println("host       :\t"+url.getHost());
System.out.println("port       :\t"+url.getPort());
System.out.println("file       :\t"+url.getFile());
System.out.println("path       :\t"+url.getPath());
System.out.println("query      :\t"+url.getQuery());
System.out.println("ref        :\t"+url.getRef());
System.out.println("defaultport:\t"+url.getDefaultPort());

URL 解析

URL 获取数据

从概念上区分:URI只是标识一个资源,而URL可以定位一个资源。 所以java总URI只负责解析URI功能,而URL有解析URL的功能,还有获取URL指定资源的数据。

可以通过以下5个方法来获取URL指定的资源数据 public URLConnection openConnection(); public URLConnection openConnection(Proxy proxy); public final InputStream openStream(); public final Object getContent(); public final Object getContent(Class[] classes);

openConnection()方法

public URLConnection openConnection() throws java.io.IOException {
    return handler.openConnection(this);
}

直接调用URLStreamHandler.openConnection()方法获取URLConnection对象。URLConnection 对象可以获取原始的文档(如:html、纯文本、二进制图像等),还可以获取访问这个协议指定的所有的元数据(如:http协议的请求头信息)。URLConnection 对象除了从URL中读取资源外,还允许向URL中写入数据。(如:http post提交表单数据,mailto 发送电子邮件等)

URLStreamHandler可以让系统根据当前URL协议来选择响应的Handler,也可以使用扩展URLStreamHandler类来自定义实现相应资源的获取,也可以扩展协议。

URLStreamHandler 类结构

public abstract class URLStreamHandler{
    abstract protected URLConnection openConnection(URL u) throws IOException;

    protected URLConnection openConnection(URL u, Proxy p) throws IOException {
        throw new UnsupportedOperationException("Method not implemented.");
    }

    protected void parseURL(URL u, String spec, int start, int limit){
        ...
    }
    protected int getDefaultPort() {
        return -1;
    }

    protected boolean equals(URL u1, URL u2) {
        String ref1 = u1.getRef();
        String ref2 = u2.getRef();
        return (ref1 == ref2 || (ref1 != null && ref1.equals(ref2))) &&
               sameFile(u1, u2);
    }

    protected int hashCode(URL u){
        ...
    }

    protected boolean sameFile(URL u1, URL u2) {
        // Compare the protocols.
        if (!((u1.getProtocol() == u2.getProtocol()) ||
              (u1.getProtocol() != null &&
               u1.getProtocol().equalsIgnoreCase(u2.getProtocol()))))
            return false;

        // Compare the files.
        if (!(u1.getFile() == u2.getFile() ||
              (u1.getFile() != null && u1.getFile().equals(u2.getFile()))))
            return false;

        // Compare the ports.
        int port1, port2;
        port1 = (u1.getPort() != -1) ? u1.getPort() : u1.handler.getDefaultPort();
        port2 = (u2.getPort() != -1) ? u2.getPort() : u2.handler.getDefaultPort();
        if (port1 != port2)
            return false;

        // Compare the hosts.
        if (!hostsEqual(u1, u2))
            return false;

        return true;
    }

    ......
}

由此类可以看出,子类必须覆盖的方法是openConnection(URL u)方法,如果该协议支持代理模式,则也需要覆盖openConnection(URL u, Proxy p)方法。

URLStreamHandler 实例化

如果用户传过来的URLStreamHandler 实例,则需要验证安全性问题。比如:applet程序是在客户的浏览器端运行的java程序,他如果读取服务器上jar文件的时候就可以通过,如果读取客户端本地磁盘中的文件则不允许访问。代码如下图:

安全检查

如果用户没有指定URLStreamHandler实例,则通过protocol协议来决定使用哪个协议的URLStreamHandler的实例。代码如下:

Paste_Image.png

jdk的sun.net.www.protocol包中默认支持以下几种协议,当然用户也可以扩展URLStreamHandler实例,来实现自定义的协议。 java中默认支持的协议如下图:

Paste_Image.png

openConnection(Proxy proxy) 方法

public URLConnection openConnection(Proxy proxy) throws java.io.IOException {
    if (proxy == null) {
        throw new IllegalArgumentException("proxy can not be null");
    }

    // Create a copy of Proxy as a security measure
    Proxy p = proxy == Proxy.NO_PROXY ? Proxy.NO_PROXY : sun.net.ApplicationProxy.create(proxy);
    SecurityManager sm = System.getSecurityManager();
    if (p.type() != Proxy.Type.DIRECT && sm != null) {
        InetSocketAddress epoint = (InetSocketAddress) p.address();
        if (epoint.isUnresolved())
            sm.checkConnect(epoint.getHostName(), epoint.getPort());
        else
            sm.checkConnect(epoint.getAddress().getHostAddress(), epoint.getPort());
    }
    return handler.openConnection(this, p);
}

可以通过URL对象设置的代理来获取URLConnection对象。

openStream() 方法

public final InputStream openStream() throws java.io.IOException {
    return openConnection().getInputStream();
}

直接获取URL指定资源的流InputStream对象,该方法无法向URL中写如数据,也无法访问这个协议的所有的元数据(如:html协议的请求头)。

getContent() 方法

public final Object getContent() throws java.io.IOException {
    return openConnection().getContent();
}

getContent() 方法返回由URL引用的数据,尝试由它建立某种类型的对象。如果URL指定的资源是文本类型(如:html、asciii 文件),返回的就是InputStream对象。如果URL指定的资源是图片则返回java.awt.ImageProducer对象。

getContent(Class[] classes) 方法

final Object getContent(Class[] classes) throws java.io.IOException {
    return openConnection().getContent(classes);
}

该方法允许用户选择希望将内容作为那个类型返回。 例如,如果首先将HTML文件作为一个String返回,而第二个选择是Reader,第三个选择是InputStream,就可以编写一下代码:

URL u = new URL("http://www.jijianshuai.com");
Class<?> types = new Class[3];
types[0] = String.class;
types[1] = Reader.class;
types[2] = InputStream.class;
Object obj = u.getContent(types);

equals 方法

URL类的equals方法是调用URLStreamHandler对象的equals方法。

protected boolean equals(URL u1, URL u2) {
    String ref1 = u1.getRef();
    String ref2 = u2.getRef();
    return (ref1 == ref2 || (ref1 != null && ref1.equals(ref2))) &&
           sameFile(u1, u2);
    }

equals方法会对比 URL指向的主机、端口、文件路径和片段标识。当所有的都一样才会返回true,但equals方法也会尝试解析DNS,来判断两个主机是否相同。如:可以判断http://localhost:8080/index.htmlhttp://127.0.0.1:8080/index.html 两个URL是相等的。 equals方法底层是调用了sameFile()方法。

注意: 因为equals方法有解析DNS的功能,解析DNS是一个阻塞IO操作!所以应当避免URL存储在依赖equals()的数据结构中,如HashMap。如果要存储最后是使用URI来进行存储。URI的equals方法是不会解析DNS的。

sameFile(URL u1, URL u2) 方法

该方法作用和equals基本相同,这里也包括DNS解析,不过sameFile()不考虑片段标识问题。下面通过代码来解析sameFIle的实现。

protected boolean sameFile(URL u1, URL u2) {
    if (!((u1.getProtocol() == u2.getProtocol()) ||
          (u1.getProtocol() != null &&
           u1.getProtocol().equalsIgnoreCase(u2.getProtocol()))))
        return false;

    if (!(u1.getFile() == u2.getFile() ||
          (u1.getFile() != null && u1.getFile().equals(u2.getFile()))))
        return false;

    int port1, port2;
    port1 = (u1.getPort() != -1) ? u1.getPort() : u1.handler.getDefaultPort();
    port2 = (u2.getPort() != -1) ? u2.getPort() : u2.handler.getDefaultPort();
    if (port1 != port2)
        return false;

    if (!hostsEqual(u1, u2))
        return false;

    return true;
}
  1. 判断两个URL的协议是否一致
  2. 判断两个URL的获得文件信息是否一致。文件信息包括:路径、文件名和查询参数
  3. 判断两个URL的端口是否一致
  4. 判断host是否一致。调用hostsEqual方法来判断。

hostsEqual(URL u1, URL u2) 方法

protected boolean hostsEqual(URL u1, URL u2) {
    InetAddress a1 = getHostAddress(u1);
    InetAddress a2 = getHostAddress(u2);
    // if we have internet address for both, compare them
    if (a1 != null && a2 != null) {
        return a1.equals(a2);
    // else, if both have host names, compare them
    } else if (u1.getHost() != null && u2.getHost() != null)
        return u1.getHost().equalsIgnoreCase(u2.getHost());
     else
        return u1.getHost() == null && u2.getHost() == null;
}

该方法使用两个URL的host来构造InetAddress对象,调用InetAddress对象的getHost() 方法 来判断两个host是否一致。 InetAddress.getHost()可以通过DNS解析域名,来获取域名绑定的ip地址。


本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java呓语

DataBinding·常用注解说明

Observable接口提供给开发者添加/移除监听者的机制。为了使开发更便捷,我们创建了BaseObservable类,它已经实现了Observable接口中的...

1314
来自专栏清晨我上码

spring boot 使用ReloadableResourceBundleMessageSource的坑

所以我们重点关注的AbstractMessageSource的getMessage方法。以其中一个为例分析

4272
来自专栏Java编程技术

SpringBoot之class is not visible from class loader

最近在搭建SpringBoot的新应用,遇到个有意思的问题,如题就是在加载某一个类时候抛出了class is not visible from class lo...

1162
来自专栏编码小白

ofbiz中FreeMarkerWorker的makeConfiguration方法

            这个方法是说明了为什么在ftl中可以使用一些java方法             1.代码展示 public static Confi...

3727
来自专栏Java架构师学习

带你深入了解Java线程中的那些事

引言 说到Thread大家都很熟悉,我们平常写并发代码的时候都会接触到,那么我们来看看下面这段代码是如何初始化以及执行的呢? public class Thre...

3318
来自专栏Python研发

Django之Model世界

django为使用一种新的方式,即:关系对象映射(Object Relational Mapping,简称ORM)

1242
来自专栏coolblog.xyz技术专栏

Dubbo 源码分析 - 服务引用

在上一篇文章中,我详细的分析了服务导出的原理。本篇文章我们趁热打铁,继续分析服务引用的原理。在 Dubbo 中,我们可以通过两种方式引用远程服务。第一种是使用服...

1083
来自专栏犀利豆的技术空间

徒手撸框架--实现 RPC 远程调用

微服务已经是每个互联网开发者必须掌握的一项技术。而 RPC 框架,是构成微服务最重要的组成部分之一。趁最近有时间。又看了看 dubbo 的源码。dubbo 为了...

1482
来自专栏hotqin888的专栏

bootstrap treeview 增删改的正确姿势

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hotqin888/article/det...

4313
来自专栏知了

ijst:基于反射的 C++ JSON 反序列化库

ijst (iJsonStruct) 一个是 C++ Json 序列化/反序列化库:

3015

扫码关注云+社区

领取腾讯云代金券