在计算机领域做研究的一些想法
没找到来源。。。
不过本文关于米国CS计算机的介绍实在是太可爱了,不得不收藏,感谢 Xi Tan
# 前言 #
1. 讨论一下计算机领域的牛圈和‘带头大哥’;
2. 讨论一下科研方法;
3. 讨论一下计算机领域的学术论文(会议、期刊);
# 第一章 #
计算机的大牛90%以上都在美国,所以只讲讲美国的CS。别的国家没什么太大的参考意义(英国、法国、匈牙利、日本、香 港、新加坡、大陆、加拿大),不过 还是说两句:第一句是,美国以外的地方CS和美国有差距,主要是没钱;第二句是,搞科研也讲‘近亲繁殖’,美国以外的其他地方很明显‘人手不够’。没钱的 问题看大陆就知道,高性能计算、硬件、网络。。统统没办法干。当年人家Stanford跑一个粒子加速器就几百万美金,中国哪个高校有这资金。人手问题也 很明显,像Stanford的Dan同学,以前在Cololado Boulder,后来不也被挖走了?像以前呆在加拿大一个人闷做研究的Han Jiawei老大,不也被UIUC挖走了?为什么呢。说白了还是资源。Han Jiawei 02年被UIUC从加拿大的SFU拎到UIUC,转年就成了IEEE的FELLOW。为什么。说白了就是‘近亲繁殖’。直到现在美国相当数量的大学(就不 说全部了)都非常认可同行的推荐。学校要各个同行评分,发paper也是同行review,nominate也要同行,甚至PhD的 application也相当依赖reference letter。另外呢,就是这些资源相当丰富的地方容易产‘奶牛’。当年吴健雄也才第九名考进的中央大学,可是人家一跑美国去就成了实验物理大牛,还当了 美国协会的会长。物以类聚,人以群分。你说90%的老大都在美国,你呆在印度做CS,有啥意思。不管是Science还是Engineering,还得靠 inspiration。Inspiration靠什么?显然是要以Group为研究的基本单位,像Dan Jurafsky和Jiawei Han那样的人毕竟是少数。最好不还是被几个牛棚给挖走了?这玩意真没办法,是趋势。不说废话了,来扯美国的CS。
美国CS首当其冲的就是“五大牛棚”:MIT,Stanford,Berkeley,UIUC,和CMU。其他的牛校像 Washington,Princeton,Cornell,Wisconsin等等都是非常不错的,只不过可能光芒还不够。而且还有很重要的一点,就是 这些学校的faculty好多都是‘五大牛棚’出来的,自然地位也就低一些。尤其是Princeton和Cornell这类学校(其他还包括 JHU,Maryland,Duke,甚至综合排名非常靠后的Amhest),好多Professor都是牛棚混出来然后过来独当一面的。特殊点的就是 Washington和Wisconsin,还有诸如Caltech这类学校,他们的Alumni也出过不少人才。
首先是MIT。我脑子里(或者说几乎所有工科学生的脑子里)可能下意识地定死了MIT是工科最牛查查的学校。甚至我一直认 为(至今仍然),MIT的脑袋都 是畸形,整个MIT不是牛棚,而是一个ZOO。MIT简直就是发了战争财。开始做雷达,整的它的无线电啊,EE什么的巨牛无比。然后就是冷战,国防部投了 好多美金做乱七八糟的东西。CSAIL还没有合并的时候,MIT的计算机实验室叫AI实验室。就是这个实验室,早期做了很多开拓性的工作。主要是冷战的时 候(90年代以前),美国国防部投资了无数的资金,狂搞AI的项目。很多学校在那个时候得到了很大的发展,譬如Texas Austin,譬如UMass Amherst,他们的CS系便是那个时代的产物。可是后来AI的投入没有打到预期的产出,糟蹋了好多国防部美好的愿景,项目一个接一个的流产,大师也一 个接一个的归隐。看看MIT那些早年毕业的大牛(50-60年代左右),基本都有深厚的物理背景,这就意味着他们不仅数学知识扎实,而且具有深厚的电子电 气的背景。这些“牛群”在冷战后奔向各个其他的institution,自然就成了领军人物。好多人说,MIT虽然没有做什么牛哄哄的东西,可是任何一个 人都可以证明,其他institution都是他在学术上的孙子的孙子。Orz. (麻教主千秋万代,一统江湖!! o(∩_∩)o...)事实上的确,比较一下MIT的PHD毕业生,在学术上是其他学校无法超越的。至少去年我在港中文‘打杂工’的时候,我们组的‘带头 大哥’Professor Helen M. Meng就是在MIT拿的BS,MS和PHD;然后中大做Vision的老大Professor Xiaoou Tang,也是MIT的PHD。这两人明显带有MIT培养出来的严谨风格,而且学术嗅觉非常之好。记得我给Helen做presentation的时候, 她问过我好些问题,都是一语中的的。而且她还鼓励我做Vision和Speech的数据融合,事实证明也是很好的思路。Helen在MIT是 Stephanie和Victor的学生,Stephanie又和我们剑桥的Steve有很好的合作项目和官方渠道(例如CAM-MIT)。这两个组一直 都在联合做Spoken Language Dialog System的项目。又一次雄伟而彪悍无比地证明了我说的‘近亲繁殖’理论。。。娃哈哈~ MIT的老师我只接触过CSAIL的老大Professor Victor Zue,语音组的老大Professor Stephanie和Vision组的几个Professor。首先感觉是都很NICE,说话都很客气。尤其是Victor,记得去年在上海参加MIT面 试的时候和Victor聊天,他老是笑呵呵的,想来脾气应该很好。虽然去年没有去成MIT的Vision组,可是总能感觉到MIT那种技术的金属质感给我 带来的吸引和震撼。希望今年能去MIT念Stephanie的PHD啊~~ Bless...
然后扯一下Stanford。其实我原来对Stanford感觉蛮好的(现在感觉也不错),我在LA认识的朋友也应该是最 多的(最多又是 Stanford,然后才是Berkeley,UCLA和Caltech。SYF小朋友啊~ 嗯,我在Stanford最好的几个朋友之一了。SYF,看到这个帖子给师傅留个Message哈。嘿嘿)。可是因为种种原因,以前就压根没有打算过去斯 坦福念书(主要是MWJ小朋友不让我去。我又乖又听话,所以就没申请了)。Stanford给我的感觉就是超级大,而且几乎没有什么软肋。历数美国诸多 CS高校中,唯一能在AI方面和MIT抗衡的就数斯坦福了。而MIT现在AI仿佛有走下坡路的趋势,而斯坦福倚其地理优势和财政强势,迅速崛起。 Sorry,不应该是崛起,是第二波浪潮~~ 斯坦福的AI,诸如视觉,语音和自然语言,机器人等等,都有大牛撑腰。然后在体系结构和数据库方面又依赖硅谷的强大应用平台,有着得天独厚的发展资源。 AI作为CS的灵魂,斯坦福已经有了;体系结构和数据库这些应用背景很强的领域,硅谷也给斯坦福与生俱来的优势。当然,那帮学生也不是省油的灯,好多 PHD没念完就跑了。什么GOOGLE啊,YAHOO啊,通通都迅速崛起了。另一方面也反应了斯坦福的学生商业头脑很好,很灵活,不像书呆子(譬如 MIT,譬如Caltech。哈哈)。真没什么说的,牛哄哄的。对了,补充一点,斯坦福坐拥硅谷的土地,真是巨有钱啊。。。望尘莫及。
第三头大牛要数Berkeley。好多人和我讨论,和我争辩,到底是Berkeley厉害还是MIT厉害。我觉得没什么好 比较的。因为每个学校发展的方向 都不太一样,CS和CS没法比,可以比的只是某个组,譬如MIT的AI就比Berkeley的好,Berkeley的网络就比MIT好。Berkeley 的传统优势就是网络,操作系统等等。早期Berkeley的CS毕业生好多去各个高校当教授,大多也做的是网络和操作系统这一块的东西。现在 Berkeley的AI也发展了起来,诸如图形图像,语音语言都有了很大的发展。Berkeley作为公立学校的老大,收费低,又地处LA,开个什么国际 会议啊,养个老啊,都挺好的。UC系统又联系广泛,而且Berkeley还和诸如Stanford,UCLA和Caltech这样的牛校贴得这么近,不做 点东西出来真是对不起这地理位置。想想我本科毕业的学校‘西北工业大学’,其实计算机在中西部应该是最强的,在全国我觉得某些领域也能在前五(譬如计算机 应用)。可是相比起同是国防科工委的北航,就没有了地理优势。西安显然没有北京有钱,地理位置显然没有北京好,而且显然也没有清华北大这样的学校和他交 流,甚至连北邮北理北工大这样的学校在西安都没有。哦,对了,有个西电。Sorry,西电也是巨牛无比的。我甚至觉得在很多领域西电比西工大牛多了。记得 我在CUHK的时候,看过几篇文章都是西电的老师和港中文的老师一起写的(譬如那篇影响我很大的Xiaou文章,就是和西电的老大一起写的)。然而,西工 大的老师是和蔼可亲的。以前给予我诸多帮助的WQ老师,ZYN老师我感觉在学术上都是可以独树一帜的人。事实上也的确给了我很多启发和思考的灵感。当然还 有我们更加和蔼可亲的XL老师。真是又是老师又是朋友。想起在清华-港中文做RA的那段日子,的确教会了我很多东西。北航的老师我只和LW校长聊过天。 LW老师做的好像是软件理论,也是英国毕业的(好像是爱丁堡)。虽然LW老师都是校长了,可是那时候和我聊天一点都没有什么架子(5年前了),和蔼可亲的 很。哎,大凡大牛都是和蔼可亲型的啊。扯着这么远,无非就是要说Berkeley有多么好的地理优势,把UC其他几个学校远远抛在了脑后(至少CS是这 样)。譬如UCSD,譬如UCI,甚至UCLA也远不及Berkeley。去年我给UCSD的Alon做presentation,人家好像才40岁,就 已经是IEEE的FELLOW了,这样下去怎么得了。Alon虽然是做Information Theory的,但是却为我的project提了一个非常好的建议,取得了很大的突破。这才让我感觉到IEEE Fellow的威力。我那时就想,要是Alon也跑到berkeley去,那该有多猛啊。。。。(插播广告:英语语法)'Had Professor Alon joined Berkeley, he would have already made far greater contribution to the information industry.' EAP没白来。。o(∩_∩)o...哈哈~ Berkeley的教授我就不认识几个,不过有几位朋友在那,传说没有Stanford漂亮。呵呵~
第四头大牛是UIUC。我对UIUC的印象最开始来自高我几级的SZ。SZ和我一样都是做OI出身,然后保送到了清华。据 说在清华学习十分猛,老是系里前 5名,后来又考了老高的GT,结果就去UIUC了。我当时十分郁闷,因为我那时候不是很清楚UIUC在CS领域里是个什么地位。我说怎么这么好一孩子不去 Stanford和Berkeley,非跑到‘玉米地’去了?不过这以后UIUC这个名字我就记下来了,这是第一印象。然后一个比较深刻的印象就是 Jiawei han。我当年读Jiawei Han的书时,他还在加拿大。我也纳闷,我说怎么写了这么牛哄哄的书的人,倒喜欢做武林蒙面大侠了?莫非又是一‘隐藏关卡的BOSS'?没想到Han老爷 子02年的时候果真就被UIUC挖走了。这时候我才念起UIUC的好,觉得实属牛棚一个了。以前那些虚幻的带有主观臆断的想法通通成了幼稚的偏见。 UIUC是干嘛的?回答其实很明确,如果说MIT是为AI而生的话,UIUC就是为硬件和超级计算机而生的。It is UIUC that 当年改良了计算机中的晶体管、集成电路和ALU的好多东西。Intel和AMD,还有早期做chip的Motorola等等,我想都大多受惠于UICU的 faculty。自然,这些老faculty拿这些技术继续做硬件和超级计算机便有如鱼得水之势了。所以,包括硬件逻辑电路设计、计算机算术、机器结构和 数值分析领域,UIUC都是独执牛耳的领军人物。UIUC的CS相来比较扎实,生源和师资都非常好,自然声誉也很高。尤其是硬件。早期的超级计算机大多出 自UIUC之手,譬如ILLIAC的1、2、3、4代以及后来的一些超级计算机,都是这一领域的大手笔。UIUC的这些理论和工业成果和成功,对并行计算 机的发展历程做出了不可磨灭的贡献。UIUC的老教授David Kuck就是并行处理的先驱,原来是NASA第一部超级计算机的首席设计师。属于在并行处理这个领域挖了一个坑然后等着后人来’建设社会主义美好家园式‘ 的人物。UIUC早期的发展有很多历史佐证,譬如美国国家超级计算及应用中心(NCSA)在UICU的建立,譬如Marc Andreessen在UIUC读本科大四的时候在NCSA主持编写的Mosaic。无一不是一个又一个翔实的历史介绍。可惜,后来(85年-2000年 左右),UIUC的硬件学术队伍老化,没有形成良好的学术梯队,硬件队伍失去了很多元老级的人物,新的professor呢,又无心做这些东西,大多又开 始弄软件去了。把UIUC的传统和家业整个换了个门面。不过,正式由于这个原因,UIUC的CS系以拥有众多充满活力的世界级青年学者。例如Josep Torrellas (其弟子有在Cornell ECE,Georgia Tech CS任教的),Klara Nahrstedt (其弟子有在Cornell ECE,Purdue CS,Toronto ECE任教的),还有稍老一些的Gerald DeJong (其弟子有在UW-Madison,UT-Austin任教的)等等。前几年刚被Duke挖走的Herbert Edelsbrunner,由于对计算几何的根本性贡献,1991年拿了个Waterman Award,成为历史上第一位获此殊荣的计算机科学家。UIUC的校友也有很多有名的,譬如写了Mosaic并成立了netscape的marc Andreessen,譬如David Kuck的学生陈世卿(Steve Chen),譬如Lotus Notes的老大Ray Ozzie等等。UIUC CS 的学生毕业后去学术界的不少,Stanford,Princeton,Cornell,UT-Austin。。。都有UIUC的博士挑大梁。在U Michigan CS和UCLA CS,UIUC CS出身的教授更随处可见。在仅有的18名华裔ACM Fellow中,就有6名是UIUC的。另外一个不得不讲得人当然是我们可亲可爱的‘刘爷爷’。当年我拿到‘蒋震海外研究生奖学金’的时候,还是刘爷爷给 我面试的,还要我背唐诗宋词。吓得我当时很紧张,竟然把沁园春雪给背错了几句,刘爷爷还很机敏地当即纠正了我的错误。哎,仍然记忆犹新啊。刘爷爷的确是个 非常(N次幂,N > 3)的人,至少一点架子都没有,和蔼可亲得很。连我当年去MIT的推荐信也是刘爷爷亲手执笔的。可恨的是当年没有申Princeton,要不然panel 一看是刘爷爷的亲笔推荐信,肯定就把我给收了。。。哈哈哈~ Professor C.L.Liu是属于桃李满天下的那种人。在国内最有名的当然要数Professor Andrew Yao了,人家在哈佛念完物理就跑到UIUC去念计算机了,当年的导师就是我们可爱的‘刘爷爷’。后来姚老大成了世界上第一位拿过图灵奖的华人,当然,现 在还是唯一一人。可以想象,当时我和图灵奖的导师聊天的时候有多紧张。。。可惜本人实在愚钝,在CS领域也毫无建树,刘爷爷把Victor从美国请过来给 我面试去MIT我最后都没有如他老爷子的愿,跑到剑桥这地方天天骑自行车看康河来了。。。哎~ 真是惭愧。另外关于UIUC不得不说当然是他的发展‘现象’。为什么说是‘现象’呢?因为UIUC是有名的‘玉米地’,常年面临加州等地名校的“挖人”威 胁。尽管不少教授在成名以后离开,UIUC计算机系仍然凭借着为中青年人才的成长营造最好氛围,在小地方办成了世界一流的研究重镇。我想,UIUC可能是 惟一几个不靠地理位置发财的CS牛棚吧。这个‘现象’值得很多学校借鉴,譬如西工大,西电,譬如中科大等等。
最后呢,当然是牛哄哄的CMU了。事实上,CMU的CS应该比UIUC要稍微好一些。因为CMU貌似就只有一个CS在撑门 面,所以它的CS硕大无比,几乎 没有弱项。尤其厉害的是它的vision和robotics,当然还有software。CMU的Robotics实在是名气太响了,‘附送’的 Vision也沾了很大的光,导致CMU在AI领域的大哥地位也无人能撼。我的本科学校去年就走了一个师兄去CMU,貌似就是做ROBOTICS的。什么 FIFA CUP之类的足球机器人啦,CMU最喜欢招这些人了。其实我当年准备去CMU的VISION组的,可惜我当年实在是迷恋MIT,就没有申请CMU,现在想 起来,如果当年能去CMU也是个不错的选择。对了,我一位很好的朋友现在就在CMU。可爱的CX小朋友。这哥们是少年班的天才,在CMU跟随图灵奖大师做 ‘玄学’(他自己如是说的),哈哈哈。CX绝对属于天才型的,几十位图灵奖的逸闻趣事他都知道。引用我们JK同学的话叫‘简直太神奇了’。我们漂亮的JK 小同学如今在MIT做EE,所以高智商夸赞高智商总是很有分量。CX做事很踏实,也很有目的性,他就只跟图灵奖做理论计算机的研究。当时把我佩服得直咂 舌。不过,现在终于如愿以偿了,人家以后可是图灵奖的弟子啊。。。哎~~ 和我的Professor Steve Young不是一个级别的。可爱的Steve,您啥时候也拿个图灵奖让俺们沾沾光啊。CX同学,过几年回西安的时候记得再吃饭聚一聚~(看到这个给我留言 哈)。CMU不仅Robotics好,Software也是技术一流。据说现在微软招得最多的软件开发员工都是CMU毕业的。某种程度上说,CMU的老大 们挣了我们不少钱。哼哼~ 另据CX小朋友介绍,CMU的CS系实在是过于庞大了。。。巨多教授。哥们,这还真够挤的~~ 好了,牛棚都介绍完了。都是我印象中的东西,肯定有很多不准确的数据和理解。不过应该大致差不多。够了~
# 第二章 #
1.Introduction
选好一个学术方向后,对此方向上的已有成果进行阅读,分析,分类, 搞清楚已解决的问题是什么,现存的难点是什么,热点是什么, 写出综述报告。其实就是literature review啦。在CUHK LAB的时候,XL老师和Helen老师老是和我提这个词,我已经比较熟悉了。另外呢,刚入门的人应该看看Journal上的东西,毕竟那是沉淀了之后的 东西。然后才可以慢慢看看conference的东西练内功。
2. Problem formulation
把所要研究的具有实际工程背景的学术问题进行描述,并转化成数学问题。数学一直都是最强有力的描述工具,当然,也是最正统 的科学工具。
3. Main contributions
找到适当的数学工具,给出上述问题的理论上的解决方案,得到理论上的结果, 并用定理的形式进行阐述。还是数学,科学家和工程师只相信数学和事实。
4. Simulations or experiments
通过计算机仿真或实验研究进行上述理论成果的验证。CS,计算机科学与技术,首先是科学,是理论;可是最后终归要转化成实 际的产品,不像做Pure mathematics的人,整天只要YY就可以了。。。-_-
5. Conclusions
给出一般性的结论,以及需要进一步研究的问题。有头有尾的事情。一次不可能把问题都解决好,总有可以瞻望的地方,可以改进 的嘎吱角落弯。
哎,扯期刊和会议。其实这是最没意思的东西了。想当年,我刚了解SCI和EI,整天琢磨着怎么在线看Nature和 Science等等。其实,CS里面根 本不是这么回事。CS是一个日新月异的领域,各种技术都在以不可预测的速度在发展和变化。这和基础科学有着太大的不同了。所以,什么物理化学生物一个实验 做好多年,最后发到Nature和Science上面,真正上conference上发表的东西其实没有什么特别大的价值,都是只言片语,远远没有期刊的 威力来得大。所以无聊的美国人加菲猫同学(哈哈~ Garfield有一个多好记的名字),弄了个SCI来做索引。弄了个IF把整个学术界搞得乌烟瘴气,尤其是大陆还有亚洲一些国家,整天就想着弄几篇高 IF的牛paper。可是,CS压根就不是这个形式。CS的publication最大特点在于:极度重视会议,而期刊则通常只用来做re- publication。大部分期刊文章都是会议论文的扩展版,首发就在期刊上的相对较少。也正因为如此,计算机期刊的影响因子都低到惊人的程度,顶级刊 物往往也只有1到2左右—-被引的通常都是会议版论文,而不是很久以后才出版的期刊版。因此,要讨论计算机科学的publication,首先就压根和 IF无关。另外一个现象就是CS的会议规模都很有限,有时候只登十来篇甚至三四篇论文,有的还是季刊或双月刊。很多好的会议每年只录用三四十篇甚至二十篇 左右的论文。所以,CS的几乎每个领域都有好几种顶级刊物和好几个顶级会议。
最牛哄哄的当然是‘Journal of the ACM(JACM)’了,ACM的官方学刊。可是,这个鸟刊只刊登那些对计算机科学有长远影响的论文,因此其不可避免地具有理论歧视。事实上确实如此:尽 管JACM征稿范围包括了计算机的绝大部分领域,然而其刊登的论文大部分都是算法、复杂度、图论、组合数学等纯粹理论的东西,其它领域的论文要想进入则难 如登天。这让我想到了两件事情:一件是meritocracy;一件是GRE填空里面的一道讲专家如何鄙视layman的题目。哎~ 罢了。另外一个就是‘Communications of the ACM (CACM)’了。从某种意义上来说,CACM比JACM要像Nature/Science很多。JACM上登的全是长篇大论,满纸的定义、定理和证明, 别说一般读者没法看,就连很相近的领域的专家都未必能看懂。而CACM则是magazine,既登高水平的学术论文和综述,也登各种科普性质的文章和新 闻。即便是论文,CACM也要求文章必须通俗易懂,不追求数学上的严格证明,而追求易于理解的直觉描述。在十几二十年前,CACM的文章几乎都是经典。但 最近几年,由于CACM进一步通俗化,其学术质量稍有下降。
除了ACM老大的东西外,就是IEEE的了。‘IEEE Transaction on Computers’是IEEE在计算机方面最好的刊物。但由于IEEE的特点,其更注重computer engineering而非computer science。换句话说,IEEE Transaction on Computers主要登载systems, architecture, hardware等领域的东西,尽管它的范围已经比大部分刊物要广泛。就刊物的质量而言,ACM Transactions系列总体来讲都高于IEEE Transactions系列,不过也不可一概而论。大部分ACM Transactions都是本领域最好的刊物或最好的刊物之一。大部分IEEE Transactions都是本领域很好的刊物,但也有最好的或者一般的。然而,非ACM/IEEE的刊物中,也有好的甚至最好的。例如,SIAM Journal on Computing被认为是理论方面最好的期刊之一。CS方面的会议论文事实上起着比刊物论文更大的作用。大部分会议都是每年一次,偶尔也有隔年一次的。 正规的会议论文需要经过2-4个甚至更多个审稿人的双向或单向匿名评审,并且所有被接收的论文会被结集正式出版。大部分ACM的会议都是本领域顶级的或很 好的会议。大部分IEEE的会议都是本领域很好的会议,但也有顶级的或者一般的。会议的档次通常可以通过论文录用率表现出来。顶级会议通常在20%左右或 更低,有时能达到10%左右。我所知道的最低的录用率为7%。很好的会议通常在30%左右。达到40%以上时,会议的名声就很一般了。60%以上的会议通 常很难受到尊敬。但也有例外。大名鼎鼎的STOC(ACM Symposium on Theory of Computing)录用率就达到30%以上,但它毫无疑问是理论方面最好的会议。造成这样的情形,主要是因为理论方面的工作者不多,而大部分人对 STOC又有一种又敬又怕的心理。
下面列一些CS的顶级会议和期刊,有些是网上查到的,有些是某些人用SCI的IF排序做出来的:
Computer Vision
Conf.:
Jour.:
Network
Conf.:
Jour.:
A.I.
Conf.:
Jour.:
OS,System
Database
Conf.:
Security
Web
Theory
Graphics
CAD
SE
呼呼呼~~ 终于写完了。弄了我1、2个小时~~ FT~ 以上言论大多为个人关于CS的一些不成熟想法,并不代表本台观点。通俗一点说就是:‘纯属扯淡’。不要当真。25岁以下的儿童须在女朋友的指导下完成阅 读。钦此。 By Xi Tan. 2007.10.6 于英国剑桥大学三一学院 绿野猪楼 R10 ~ :-)