Data Structures with Java—table(1)

昨天实现MVC那个小程序里,建模javaBean的时候用了HashMap.晚上回去的时候看了一下,一点都不难,印象是有点象sql里面的table.想到这里,突然觉得自己的横向思维比逻辑思维要强一点,这样也许不好.

table 是一种容器型数据结构,一个很好的类比就是字典里面的单词和对其详细的解释.表是序偶序列,序偶的第一部分为key,索引,相当于数组里的下标.第二部分是对应的value.table 也称做关联数组, 可以用两个并列的数组来实现,一个保存key,一个保存value.其中java.util 的Map 接口定义了4个实现(not JDK5.0),AbstractMap, HashMap, TreeMap , WeakHashMap.

Map map=new HashMap();

map.put("a", "day");

map.put("b", "month");

map.put("c", "year");

map.put("d", "min");

map.put("e", "second");

map.put("f", "hour");

System.out.println("map=\t"+map); //toString() method.

System.out.println("map.size=\t"+map.size());

System.out.println("map.keySet=\t"+map.keySet());

System.out.println("map.values=\t"+map.values());

System.out.println("map.get(\"c\")=\t"+map.get("c"));

System.out.println("map.remore(\"c\")=\t"+map.remove("c"));

System.out.println("map=\t"+map);

System.out.println("map.size=\t"+map.size());

run result:

map={d=min, a=day, c=year, f=hour, b=month, e=second}

map.size=6map.keySet=[d, a, c, f, b, e]

map.values=[min, day, year, hour, month, second]

map.get("c")=year

map.remore("c")=year

map={d=min, a=day, f=hour, b=month, e=second}

map.size=5

HashMap里的key/value 存储顺序取决于table 的容量和这些对象的hashcode

public static void main(String[] args)

{

printHashCode("abc");

printHashCode("def");

printHashCode("ghi");

printHashCode("jkl");

printHashCode("abc");

}

public static void printHashCode(String word)

{

System.out.println(word+":"+word.hashCode());

}

Run result:

abc:96354

def:99333

ghi:102312

jkl:105291

abc:96354

Hash table是一种类型, 它使用一个特别的函数从key 计算出数据值来确定存储位置,这个特别的函数称为Hash函数.

private static final int MASK=0x7FFFFFFF; //2^32-1

private static final int CAPACITY=11; //capacity is 11

public HashCode()

{

}

public static void main(String[] args)

{

printHashCode("Ohr");

printHashCode("Tor");

printHashCode("Hut");

printHashCode("Rad");

printHashCode("Tag");

printHashCode("Uhr");

}

public static void printHashCode(String word)

{

System.out.println(word+":"+ hash(word));

}

public static int hash(String object)

{

return (object.hashCode()&MASK)%CAPACITY;

}

Run result:

Ohr:73

Tor:45

Hut:13

Rad:99

Tag:4

Uhr:82

这里, (object.hashCode()&MASK)%CAPACITY;

private static final int MASK=0x7FFFFFFF; //2^32-1

private static final int CAPACITY=11; //capacity is 11

capacity is 11, mask=2^32-1=2 147 483 647

object.hashCode()&MASK 是将符号去掉,否则,除余后也是负数.这个程序里,return 的结果必在0~10之间.

Rad:3

Tag:3 出现冲突,最常用的方法就是:

把Tag放在最后(程序举例问题,把上面程序里的abc也改成这里的).这种冲突消除算法的名字是:线性探测算法

如果把capacity 改为101,则return 的结果为0~100, 和我们建立HashMap 对象后的顺序相同(改一前面的程序),我测试了一下,看到结果不同,但起码说明了这个原理(可能是JDK版本不同的原因?)

如果用容量为10的hash table存储6个元素,性能可以的,但是我们如果用6个存取6个呢?

衡量Hash table 的拥挤程度,负载系数(load factor):

实际元素/CAPACITY

如果实际等于容量,则系数是100%,如果系数大于容量,则?

容量的缺省值是100,默认的负载系数为75%.如果超过负载系数,则增大它的容量.

HashMap(int initialCapacity, float loadFactor)

Constructs an empty HashMap with the specified initial capacity and load factor.

线性探测的原理是当一个元素被hash 函数定位到一个已经使用的位置的时候,算法将递增位置索引直到找到一个空位置,如果到了hash表的最后,就跳到初始位置.

平方探测

public static int hash(String object)

{

++size;

int h= (object.hashCode()&MASK)%CAPACITY;

int jump=1;

while(used[h])

{

int g=h;

System.out.print(h+",");

h=(g+jump*jump)%CAPACITY;

jump++;

}

在探测的时候会跳过很多元素,重而位置比较均匀.性能比较高

独立链:

避免冲突,允许Hash每个空位可以放置多个元素,这一方法使用链表来存放多个元素,表的空位被称做吊桶.

Java.util.HashMap 类就是使用的对立链.