分享
 
 
 

Eclipse 的字符串分区共享优化机制

王朝java/jsp·作者佚名  2006-01-09
窄屏简体版  字體: |||超大  

原文:http://www.blogcn.com/User8/flier_lu/blog/6018564.html

在 Java/C# 这样基于引用语义处理字符串的语言中,作为不可变对象存在的字符串,如果内容相同,则可以通过某种机制实现重用。因为对这类语言来说,指向内存中两块内存位置不同内容相同的字符串,与同时指向一个字符串并没有任何区别。特别是对大量使用字符串的 XML 文件解析类似场合,这样的优化能够很大程度上降低程序的内存占用,如 SAX 解析引擎标准中就专门定义了一个 http://xml.org/sax/features/string-interning 特性用于字符串重用。

在语言层面,Java/C# 中都直接提供了 String.Intern 的支持。其中 C# 中优化的相关信息,可以参考我另外一篇文章《CLR中字符串不变性的优化》

而对 Java 来说,实现上的非常类似。由 String.intern 方法,将当前字符串以内容为键,对象引用为值,放入一个全局性的哈希表中。

java代码:

//

// java/lang/String.java

//

public final class String

{

//...

public native String intern(); // 使用 JNI 函数实现以保障效率

}

//

// hotspot/src/share/vm/prims/jvm.cpp

//

JVM_ENTRY(jstring, JVM_InternString(JNIEnv *env, jstring str))

JVMWrapper("JVM_InternString");

if (str == NULL) return NULL;

oop string = JNIHandles::resolve_non_null(str); // 将引用解析为内部句柄

oop result = StringTable::intern(string, CHECK_0); // 进行实¼实淖址® intern 操作

return (jstring) JNIHandles::make_local(env, result); // 获取内部句柄的引用

JVM_END

//

// hotspot/src/share/vm/memory/symbolTable.cpp

//

oop StringTable::intern(oop string, TRAPS)

{

if (string == NULL) return NULL;

ResourceMark rm(THREAD); // 保护线程资源区域

int length;

Handle h_string (THREAD, string);

jchar* chars = java_lang_String::as_unicode_string(string, length); // 获取实际字符串内容

oop result = intern(h_string, chars, length, CHECK_0); // 完成字符串 intern 操作

return result;

}

oop StringTable::intern(Handle string_or_null, jchar* name, int len, TRAPS)

{

int hashValue = hash_string(name, len); // 首先根据字符串内容计算哈希值

stringTableBucket* bucket = bucketFor(hashValue); // 根据哈希值获取目标容器

oop string = bucket->lookup(name, len); // 然后检测字符串是否已经存在

// Found

if (string != NULL) return string;

// Otherwise, add to symbol to table

return basic_add(string_or_null, name, len, hashValue, CHECK_0); // 将字符串放入哈希表

}

对全局字符串表中的字符串,是没有办法显式手动清除的。只能在不使用此字符串后,由垃圾回收线程在进行不可达对象标记时进行分析,并最终调用 StringTable::unlink 方法去遍历清除。

java代码:

//

// hotspot/src/share/vm/memory/genMarkSweep.cpp

//

void GenMarkSweep::mark_sweep_phase1(...)

{

//...

StringTable::unlink();

}

//

// hotspot/src/share/vm/memory/symbolTable.cpp

//

void StringTable::unlink() {

// Readers of the string table are unlocked, so we should only be

// removing entries at a safepoint.

assert(SafepointSynchronize::is_at_safepoint(), "must be at safepoint")

for (stringTableBucket* bucket = firstBucket(); bucket <= lastBucket(); bucket++) {

for (stringTableEntry** p = bucket->entry_addr(); *p != NULL;) {

stringTableEntry* entry = *p;

assert(entry->literal_string() != NULL, "just checking");

if (entry->literal_string()->is_gc_marked()) { // 字符串对象是否可达

// Is this one of calls those necessary only for verification? (DLD)

entry->oops_do(&MarkSweep::follow_root_closure);

p = entry->next_addr();

} else { // 如不可达则将其内存块回收到内存池中

*p = entry->next();

entry->set_next(free_list);

free_list = entry;

}

}

}

}

通过上面的代码,我们可以直观了解到,对 JVM (Sun JDK 1.4.2) 来说,String.intern 提供的是全局性的基于哈希表的共享支持。这样的实现虽然简单,并能够在最大限度上进行字符串共享;但同时也存在共享粒度太大,优化效果无法度量,大量字符串可能导致全局字符串表性能降低等问题。

为此 Eclipse 舍弃了 JVM 一级的字符串共享优化机制,而通过提供细粒度、完全可控、可测量的字符串分区共享优化机制,一定程度上缓解此问题。Eclipse 核心的 IStringPoolParticipant 接口由使用者显式实现,在其 shareStrings 方法中提交需要共享的字符串。

java代码:

//

// org.eclipse.core.runtime.IStringPoolParticipant

//

public interface IStringPoolParticipant {

/**

* Instructs this participant to share its strings in the provided

* pool.

*/

public void shareStrings(StringPool pool);

}

例如 MarkerInfo 类型实现了 IStringPoolParticipant 接口,在其 shareStrings 方法中,提交自己需要共享的字符串 type,并通知其下级节点进行相应的提交。

java代码:

//

// org.eclipse.core.internal.resources.MarkerInfo

//

public class MarkerInfo implements ..., IStringPoolParticipant

{

public void shareStrings(StringPool set) {

type = set.add(type);

Map map = attributes;

if (map instanceof IStringPoolParticipant)

((IStringPoolParticipant) map).shareStrings(set);

}

}

这样一来,只要一个对象树各级节点选择性实现 IStringPoolParticipant 接口,就可以一次性将所有需要共享的字符串,通过递归提交到一个字符串缓冲池中进行复用优化。如 Workspace 就是这样一个字符串共享根入口,其 open 方法在完成工作区打开操作后,将需要进行字符串共享优化的缓存管理对象,加入到全局字符串缓冲区分区优化列表中。

java代码:

//

// org.eclipse.core.internal.resources

//

public class Workspace ...

{

protected SaveManager saveManager;

public IStatus open(IProgressMonitor monitor) throws CoreException

{

// 打开工作空间

// 最终注册一个新的字符串缓冲池分区

InternalPlatform.getDefault().addStringPoolParticipant(saveManager, getRoot());

return Status.OK_STATUS;

}

}

对需要优化的类型 SaveManager 来说,只需要实现 IStringPoolParticipant 接口,并在被调用的时候提交自己与子元素的需优化字符串即可。其子元素甚至都不需要实现 IStringPoolParticipant 接口,只需将提交行为一级一级传递下去即可,如:

java代码:

//

// org.eclipse.core.internal.resources.SaveManager

//

public class SaveManager implements ..., IStringPoolParticipant

{

protected ElementTree lastSnap;

public void shareStrings(StringPool pool)

{

lastSnap.shareStrings(pool);

}

}

//

// org.eclipse.core.internal.watson.ElementTree

//

public class ElementTree

{

protected DeltaDataTree tree;

public void shareStrings(StringPool set) {

tree.storeStrings(set);

}

}

//

// org.eclipse.core.internal.dtree.DeltaDataTree

//

public class DeltaDataTree extends AbstractDataTree

{

private AbstractDataTreeNode rootNode;

private DeltaDataTree parent;

public void storeStrings(StringPool set) {

//copy field to protect against concurrent changes

AbstractDataTreeNode root = rootNode;

DeltaDataTree dad = parent;

if (root != null)

root.storeStrings(set);

if (dad != null)

dad.storeStrings(set);

}

}

//

// org.eclipse.core.internal.dtree.AbstractDataTreeNode

//

public abstract class AbstractDataTreeNode

{

protected AbstractDataTreeNode children[];

protected String name;

public void storeStrings(StringPool set) {

name = set.add(name);

//copy children pointer in case of concurrent modification

AbstractDataTreeNode[] nodes = children;

if (nodes != null)

for (int i = nodes.length; --i >= 0;)

nodes[i].storeStrings(set);

}

}

所有的需优化字符串,都会通过 StringPool.add 方法提交到统一的字符串缓冲池中。而这个缓冲池的左右,与 JVM 级的字符串表略有不同,它只是在进行字符串缓冲分区优化时,起到一个阶段性的整理作用,本身并不作为字符串引用的入口存在。因此在实现上它只是简单的对 HashMap 进行包装,并粗略计算优化能带来的额外空间,以提供优化效果的度量标准。

java代码:

//

// org.eclipse.core.runtime.StringPool

//

public final class StringPool {

private int savings;

private final HashMap map = new HashMap();

public StringPool() {

super();

}

public String add(String string) {

if (string == null)

return string;

Object result = map.get(string);

if (result != null) {

if (result != string)

savings += 44 + 2 * string.length();

return (String) result;

}

map.put(string, string);

return string;

}

// 获取优化能节省多少空间的大致估算值

public int getSavedStringCount() {

return savings;

}

}

不过这里的估算值在某些情况下可能并不准确,例如缓冲池中包括字符串 S1,此时提交一个与之内容相同但物理位置不同的字符串 S2,则如果 S2 被提交多次,会导致错误的高估优化效果。当然如果需要得到精确值,也可以对其进行重构,通过一个 Set 跟踪每个字符串优化的过程,获得精确优化度量,但需要损失一定效率。

在了解了需优化字符串的提交流程,以及字符串提交后的优化流程后,我们接着看看 Eclipse 核心是如何将这两者整合到一起的。

前面提到 Workspace.open 方法会调用 InternalPlatform.addStringPoolParticipant 方法,将一个字符串缓冲池分区的根节点,添加到全局性的优化任务队列中。

java代码:

//

// org.eclipse.core.internal.runtime.InternalPlatform

//

public final class InternalPlatform {

private StringPoolJob stringPoolJob;

public void addStringPoolParticipant(IStringPoolParticipant participant, ISchedulingRule rule) {

if (stringPoolJob == null)

stringPoolJob = new StringPoolJob(); // Singleton 模式

stringPoolJob.addStringPoolParticipant(participant, rule);

}

}

//

// org.eclipse.core.internal.runtime.StringPoolJob

//

public class StringPoolJob extends Job

{

private static final long INITIAL_DELAY = 10000;//five seconds

private Map participants = Collections.synchronizedMap(new HashMap(10));

public void addStringPoolParticipant(IStringPoolParticipant participant, ISchedulingRule rule) {

participants.put(participant, rule);

if (sleep())

wakeUp(INITIAL_DELAY);

}

public void removeStringPoolParticipant(IStringPoolParticipant participant) {

participants.remove(participant);

}

}

此任务将在合适的时候,为每个注册的分区进行共享优化。

StringPoolJob 类型是分区任务的代码所在,其底层实现是通过 Eclipse 的任务调度机制。关于 Eclipse 的任务调度,有兴趣的朋友可以参考 Michael Valenta (IBM) 的 On the Job: The Eclipse Jobs API 一文。

这里需要了解的是 Job 在 Eclipse 里,被作为一个异步后台任务进行调度,在时间或资源就绪的情况下,通过调用其 Job.run 方法执行。可以说 Job 非常类似一个线程,只不过是基于条件进行调度,可通过后台线程池进行优化罢了。而这里任务被调度的条件,一方面是任务自身的调度时间因素,另一方面是通过 ISchedulingRule 接口提供的任务资源依赖关系。如果一个任务与当前正在运行的任务传统,则将被挂起直到冲突被缓解。而 ISchedulingRule 接口本身可以通过 composite 模式进行组合,描述复杂的任务依赖关系。

在具体完成任务的 StringPoolJob.run 方法中,将对所有字符串缓冲分区的调度条件进行合并,以便在条件允许的情况下,调用 StringPoolJob.shareStrings 方法完成实际工作。

java代码:

//

// org.eclipse.core.internal.runtime.StringPoolJob

//

public class StringPoolJob extends Job

{

private static final long RESCHEDULE_DELAY = 300000;//five minutes

protected IStatus run(IProgressMonitor monitor)

{

//copy current participants to handle concurrent additions and removals to map

Map.Entry[] entries = (Map.Entry[]) participants.entrySet().toArray(new Map.Entry[0]);

ISchedulingRule[] rules = new ISchedulingRule[entries.length];

IStringPoolParticipant[] toRun = new IStringPoolParticipant[entries.length];

for (int i = 0; i < toRun.length; i++) {

toRun[i] = (IStringPoolParticipant) entries[i].getKey();

rules[i] = (ISchedulingRule) entries[i].getValue();

}

// 将所有字符串缓冲分区的调度条件进行合并

final ISchedulingRule rule = MultiRule.combine(rules);

// 在调度条件允许的情况下调用 shareStrings 方法执行优化

try {

Platform.getJobManager().beginRule(rule, monitor); // 阻塞直至调度条件允许

shareStrings(toRun, monitor);

} finally {

Platform.getJobManager().endRule(rule);

}

// 重新调度任务自己,以便进行下一次优化

long scheduleDelay = Math.max(RESCHEDULE_DELAY, lastDuration*100);

schedule(scheduleDelay);

return Status.OK_STATUS;

}

}

StringPoolJob.shareStrings 方法只是简单的遍历所有分区,调用其根节点的 IStringPoolParticipant.shareStrings 方法,进行前面所述的优化工作,并最终返回分区的优化效果。而缓冲池本身,只是作为一个优化工具,完成后直接被放弃。

java代码:

private int shareStrings(IStringPoolParticipant[] toRun, IProgressMonitor monitor) {

final StringPool pool = new StringPool();

for (int i = 0; i < toRun.length; i++) {

if (monitor.isCanceled()) // 操作是否被取消

break;

final IStringPoolParticipant current = toRun[i];

Platform.run(new ISafeRunnable() { // 安全执行

public void handleException(Throwable exception) {

//exceptions are already logged, so nothing to do

}

public void run() {

current.shareStrings(pool); // 进行字符串重用优化

}

});

}

return pool.getSavedStringCount(); // 返»赜呕Чû

}

}

通过上面的分析我们可以看到,Eclipse 实现的基于字符串缓冲分区的优化机制,相对于 JVM 的 String.intern() 来说:

1.控制的粒度更细,可以指定要对哪些对象进行优化;

2.优化效果可度量,可以大概估算出优化能节省的空间;

3.不存在性能瓶颈,不存在集中的字符串缓冲池,因此不会因为大量字符串导致性能波动;

4.不会长期占内存,缓冲池只在优化执行时存在,完成后中间结果被抛弃;

5.优化策略可选择,通过定义调度条件,可选择性执行不同的优化策略

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有