我之前了解了一下,龙星计划今年是第四届了是吧?是2002年开始第一届的吧?
对,对
您第一年的时候就会来讲学了是吗?
对,第一年我是在北大,也是和这个安排差不多,在北大讲了一个星期的课,但是那次时间比较紧张一些,没有机会去其他地方,因为当时紧接着就有一个国际会议,在北大讲完差不多就去参加会议了。
那您是不是每一年都回来讲学了呢?
也没有,我好几年没有回来过了,这是第二次。
这个龙星计划好像是您和赵伟教授和李明教授三个人发起的吧?
也不是,主要是赵伟发起的,当时我们几个在一起说好了,有6、7个教授,咱们牵个头。赵伟当时是副校长,主要是负责research,负责科研的副校长,当时咱们几个在一起,赵伟就说要想加强交流可以设立一个program,让在美国大学的一些教授,把一些研究生的课程搬到中国来讲,这就是龙星计划被提出来的原因。
噢,是为了把美国的一些研究生课程引入到中国来,那您觉得现在中国和美国在研究生的研究领域内,在研究前沿或超前性上,是不是美国稍微要领先一些呢?
对,美国的科研力量都在大学,它不像中国有中科院、研究所,美国的研究所都在大学,所以这是他的主要研究力量。所以有很多研究生的课比较接近前沿的,所以一般美国学校里的有些研究生的水平可以达到很好。
您这一次讲课据说是把研究生16周的课程浓缩到一个星期来讲,您觉得我们这边的研究生能够消化吗?
我觉得能够接受,因为我出过一本书,这本书也有翻译版,这些听课的同学多多少少学过一点,而且很多是外地来的同学,他们一般都看过,我所讲的很多是书上的内容还有一些前沿的内容。我觉得他们大部分同学消化的挺好的。
那您自己感觉怎么样呢,您这一个星期都排满了讲学阿,讲课阿,一定感觉很累吧?
还好,我这次讲一个星期的课,因为很多同学是从外地过来的,我觉得如果讲两个星期太松了,也可能耽误这些外地同学的自己的功课或其他什么事情。所以我就安排差不多一天从早讲到晚,大概五六个小时吧。
对阿,您一整天都在讲,我自己也去听过一次课,您正好在讲聚类,聚类分析,不过很可惜我是本科生课程安排不如研究生那么活,所以很多时候都没有办法来听。那您觉得如果一个本科生来听这门课的话,会不会觉得有点困难呢?
我觉得还可以,我教这门课吧,也不光是研究生在念,这么课差不多是第一年的研究生和最后一年级的本科生交叉着在念,所以在美国其实最后一年的本科生也可以选这门课,研究生也可以选这门课。所以我觉得本科生听这门课也不是很难的。而且我还建议把这么课“下放”到本科生去教,因为它用的数学知识等,也不是非常深的,所以本科生也可以学。
您的这本书其实我也看过第一章和第二章,每次我去图书馆想借着看都已经被借光了,只能在馆内看那本不能被借出去那一本。我当时是再跟着陈红教授作项目,她研究数据仓库,她建议我去读您的这本书,我当时负责的是实体化视图那一部分,感觉看您的书很容易懂,思路很清晰,一下就懂了。
他笑
那您觉得本科生做项目怎么样?
其实呢,很多本科生都想做项目,但是老师可能就没那么多精力,因为在美国那些比较好的大学,博士生是重点,老师带很多博士生,所以可能就没那么多辅导本科生,所以本科生教育就比较标准化,做作业、project等,除了个别一两个可能特别突出的本科生老师比较感兴趣以外,一般都没那么多精力。而且本科生有些基础课也没有学完,所以老师对本科生的指导就比较泛一点,所以老师就做一点比较general的,比较原则的,真正做研究就少一点。真正有本科生很想做的,我们可以推荐他和PhD研究生组成一个小组,一块儿做。
呵呵,我就是这样一个非常想做的学生,和他们研究生在一起做。
这样的学生一般都是比较杰出的学生。
那您觉得本科生参与项目对他个人的提升有什么好处?您觉得本科生的研究深入程度能够到多少呢?
我觉得本科生和研究生没有绝对的界限,比如做一个数学题吧,其实高一的学生和高二高三的学生,差别也不是那么大,有的高一学生也可以做得比高三的还好,就是这个道理。
本科生除了项目以外平常也就是上上课做做作业,那您觉得作为本科生,应该怎样学习来提高自己呢?
其实本科生要是想做一些研究可以自己去上一些研究生的课,要多上,但不要太泛,假如你一下子铺开去,学10几门课,你可能也学不到什么东西,倒不如把本科课程学好,如果对一门课感兴趣,就对这一门一直研究上去,说不定就能从课上表现出来,或许还会比研究生还强。
也就是精力是有限的,应该专攻一门了。
对阿,要想成为专家,就是要钻研一点,其实专家呢和平常人区别也不是很大对不对?他也就是专在一点,铺开了看,专家考试的时候也许还不如一般人呢!(笑)
数据库是一门很有趣的课阿,尤其是在人大以数据库见长,有这么多好老师,非常容易激起我对数据库的兴趣。
是啊,数据库真的很有趣,你的环境也挺好的(笑)
那您现在的研究方向是什么呢?
我主要还是在数据挖掘上,不过现在也在逐渐拓宽了,因为学生兴趣也挺广泛,也不应该让他们集中在一点上,可能一个人研究一门课程,那我的十几个研究生也就研究了十几门课程。
您的数据挖掘还是注重于理论吗?
我专注的是算法,因为数据挖掘呢算法是一个主要的方向,其他理论的部分呢有时也做一些,不过更多的还是注重与应用。
实际应用,我看您的书上也提到了关于数据挖掘的应用,有金融方面、生物信息学等,那您关注的应用有哪些呢?
我主要关注的一个是生物信息学,像蛋白质、DNA分子结构非常复杂,我现在在研究network和图方面。另一个应用的方面就是web上的挖掘。
我感觉您和我感兴趣的好像阿!我也对生物信息学很感兴趣,因为我自己想去英国留学,所以也查过英国那边的专业,不过似乎英国研究生物信息学的并不多,在这一方面美国是不是要更多一些?
我认为美国总的来说学校比较多,研究也比较活跃,美国研究生物信息的也很多,几乎每个系都有研究生物信息学的。
Web的挖掘现在也很热门,似乎现在网络之争就是搜索引擎之争。
对,对,搜索引擎就是从不同的角度看了,有人是从web的page角度,有人把page进一步细分成block,object这样也很好。
我刚才说到出国留学的事情,您以前是79年开始就在美国留学了,是吧?您觉得在国外学习怎么样呢?
我觉得在国外学习挺好的,不但可以接触世界各国的研究生,思路可以更加开阔一点,而且还可以增广见识。我觉得你出去留学很不错的。
网上都说您在国外读书的时候被誉为明星学生,……
没有没有,(笑)我没有觉得特别出色的,比我出色的外国学生挺多的。
您当时就是学的数据挖掘方面吗?
不,我是学的数据库方面的,当时还没有数据挖掘呢。
噢,对,您是这一科目的创始人呢。
呵呵,创始人说不上,做研究比较早罢了。
您说您现在关注的是算法,好像现在很多人工智能里的算法被引入到数据挖掘中,比如神经网络阿,遗传算法阿。
对,不但有人工智能中的算法,还有很多比如统计学阿,等等,其实很多算法、data structure都能在数据挖掘中用到。
您在计算行业研究了很多年了,那您觉得在未来哪些科目可能是热门呢?
生物信息、Web,Mining等都是这样,我觉得判断一个东西是否热门就看它未来是不是有用,就比如生物信息学,现在有很多的data,其中大部分还是待分析的,那么就知道肯定有用,这就需要一些新的算法出现,所以你要找到很多新的生长点新的方向并不需要特别大的天才,就是大家讨论,哪些部分现在有什么需要,将来长期发展来看用处比较大。
嗯,非常谢谢您今天这么忙还抽空出来接受采访。
呵呵,没什么。