Walk in Boston– part 1

Technically speaking, Boston is the third city I’ve been in US, since I stopped at one of the airports of New York in this August, in order to transfer to Providence by air. (之所以用英文开头是因为个人以为“technically speaking”不容易译成中文,但却是一个很形象的表达,呵呵)
 
在美国的第一个thanksgiving vacation基本上被GIS那门课的term project给destroyed。我原计划周四晚餐前搞定这个project的,然后开开心心的去third world center享受thanksgiving dinner;周五动工方法课的term paper。周三晚上我就逐渐意识到这个计划似乎impossible了。
 
先是从US Census Bureau的官方网站下载数据并导入ArcGIS消耗的时间大大超过我的预计,因为其中有很多tricks。然后是在census bureau的公开数据与1%PUMS数据之间反复徘徊,前者基本与geographic dimension吻合,block、tract、group block、city、county、state、region、nation各个水平的数据都有,而且有与之匹配的shp格式的地图,这可是ArcGIS的标准文件格式之一啊!可这些都是summary数据,每份数据只测量一个变量,如果不整合起来就没有什么可分析的了;可是每份数据的变量的测量单位不尽相同,有的是household,有的是family,有的是individual,所以又难以整合起来。1%PUMS数据的优点是它是micro data,每个观测值就是一个individual,基本上囊括了各种social,demographic,economic变量,甚至有个变量是每个individual所属的household serial number;但致命的是这数据惟独没有与census的地理单位,比如tract衔接!可能是出于对privacy保护的考虑,在census bureau和PUMS的官方网站上找不到匹配household serial number与census tract number的code book之类的东西,换言之,尽管1%PUMS把这些individuals的各种特征说的一清二白,可我无法确定他们的家在地图上的哪个block,tract….所以我就没法绘制他们在城市中的地理分布,这就不符合这个GIS project的基本要求了——老师要求我们必须绘制地图!
 
可悲的是我花了好多时间在网上搜索所谓的能把1%PUMS的household serial number与census bureau的某个地理变量联系起来的code book。在我对找到这个code book抱有幻想的同时,我尝试着把1%PUMS中分成多个的种族变量合并成一个,以便把种族作为一个单独的控制变量(PUMS里的编码是每个种族一个变量,用1和2来标记“是”与“不是”);可悲的是我用spss重新编码时不知为何新变量的每个category的观测数居然与原始数据不符!我花了半个小时没搞明白问题何在,于是把它归因于spss is stupid,于是我改用SAS。更可悲的是sas重编码后问题依旧,我检查了代码20遍,最后决定把原始数据按种族变量的数量拆分成相应的多个sas dataset,每个dataset重编码,再重新把这些dataset合并。观测数不匹配的问题解决了,但这时我也意识到找不到那个code book了。于是我放弃了PUMS!血的教训呀:尽量不要采取多线程的工作方式!
 
收集完数据后,自己都搞不清楚因变量、自变量了,因为我原来是想用种族做控制变量来研究旧金山的人口居住分布是否有种族差异,可census bureau中的macro data无法实现这种控制。我彻底懵了,只好向高手求救。高手不愧是高手,一语道破迷津(实际当然不止“一语”啦,呵呵)!在遭遇数据不完整等其他问题之后,总算在昨晚,也就是周六晚完成了这个project的主体部分。工期彻底延误,计划彻底被打乱,于是我开始犹豫今天还要不要去Boston了,尽管我和Heleneke在周二就相约今天Boston见了。欲知后事如何,且听下回分解。

About Hongwei Xu

I'm a social demographer, a single-child, a husband, and a father.
This entry was posted in 未分类. Bookmark the permalink.

4 条 Walk in Boston– part 1 的回复

  1. Yin说道:

    严重文不对题,这前戏也太长了吧

  2. Yin说道:

    不知为何我这里老师都用stata,我不得不从头学这个

  3. Hongwei说道:

    唉,写着写着就越来越想发泄不爽的情绪了,一不留神就长了,这也反映了为什么骂人的词汇常常比赞人的词汇丰富得多。n多人夸stata好用啊

  4. hou说道:

    哈哈,强烈推荐STATA!偶们的挚爱!!!你说的那种PUMS偶也是用过滴~~~我感觉用STATA可能会比较容易解决你提到的那个问题,具体的操作方法我记不大清了,只是隐约记得是用里面的dictionary function.感兴趣的话不妨找一个装上,30M左右吧我记得.真的粉好用~~~

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s