依照自己兴趣拒绝了院长,投靠了刘青老师名下,做web data mining。实际上我自己想在tdrd的数据基础上自己独立作,所以没有参加小组的统一分配任务,挂在小组名下,有不会的还能请教老师。
中心想法是通过观测tdrd用户之间的联系,发掘出共同兴趣群体、朋友圈子、名人。天地人大用户之间能够发生联系的途径只有很有限的几种:浏览共同版面、回帖、站内信件、站内msg、查看资料。我们可以在web层面上通过php程序记录每一次用户的这些动作,入mysql。以供以后分析挖掘。
1。从浏览共同版面,可以挖掘共同兴趣群体。其实这个功能现在很普遍了,smth的系统本身也有这个功能,天地人大没有。我是想自己动手做一下,熟悉一下聚类算法,为后面的工作练手。
2。从回帖、站内信件、msg、看资料这些用户之间的相互行为,可以找出朋友圈子。这是一个没有对象自身特征值直接用联系强度矩阵来计算的聚类算法。之后可以通过向用户信件问卷的形式来评估结果是否准确。
3。从刚才提到的用户相互联系之中可以找出天地人大“名人”。聚类算法要求双方都发生频繁的联系才算强联系,如果有一个人并没有对等的关注那些关注他的人,那么这就有可能是一个“名人”,大家都关注他但是他不关注那些人。这看来需要用pagerank办法,将这些用户发生的有指向的联系看作link
4。如果还有时间,我想讨论一下smth的mainpage页面15分钟静态生成一次是否合理。也就是说,通常网站为了减缓某个动态页面被反复大量并发访问造成的页面动态解析压力和数据库查询压力,采取的做法是定时从动态页面(一般包括数据库查询)生成静态页面(采用解释器输出重定向的方法)。那么这个时间间隔是如何决定的?和哪些因素有关?我大致想了一下,和这些因素有关:数据库本身更新的频率,页面的并发访问量,用户对数据的实时期待范围(延迟多长时间我可以接受)。我们需要找出一个从这些因素决定静态生成时间间隔的函数,至少是经验公式,来合理的决定时间间隔,而不是凭程序员的估计和想象。这其中应该涉及到数据采集、问卷调查、多维曲线拟合等,而且后两个因素之间是否有联系,相关系数是多少,等等,都需要考量。这个问题貌似比较复杂,可以长期思考。而且还没有查阅论文,不知道有没有现成的一些结论。