H1B数据挖掘,看到H1B全面真实数据及对比

作者:@舒眉的年月 和 @企鹅
发布在一亩三分地

欢迎大家点击左下角“阅读原文”到原帖与作者交流讨论哦!

近期因为有了可怕的新H1B规定所以又燃起了对H1B数据进一步探索的热情。花了十几个小时做了两个Jupyter notebook放在了github上。有些文件太大,需要拆分或者压缩。熟悉数据分析的人应该一看就知道怎么用。做的同时也学习了用folium画地图和用OpenStreetMapAPI直接搜索地址的GPS位置。大多数时间还是花在了清理数据上,由此可见kaggle上一些没有做数据清理的data challenge结果可能并不合理。

https://anonymous.4open.science/r/004a5090-eeeb-4778-8872-63cc81a95c05/

整体上看H1B的base像是log-normal,中间大约是7w5到10w之间。比较起来美国整体的median wage只有5w多,household income的median不到7w。雇来的外国人还是比美国人挣得多。仔细看h1b的job title会发现有很多奇奇怪怪的你以为不会要外国人的职位(不点出来了以防被喷),还有飞行员和模特。

这里就能看到各个职位的median income,前面几位都是医疗相关的,中间CEO乱入,然后是软件和其他administrative的职位以及更多工程师相关职位。挣得最少的(2w~3w)是farm workers,artists,厨师,作家等。

从地区方面来看湾区按照zipcode画出来的整体图是这样。很明显的是Palo Alto和周边地区工资最高。远处深山里不太知道是有什么工作。

相比之下纽约用zipcode就不太能显示出来具体情况了,毕竟各个厂都集中在一个zipcode里。但是依然能看出来有几个区的median工资比其他区域高

用github里面的数据应该还可以画出来任意地区的zipcode图,在此就不赘述了。

最大的雇主来说,感觉网上英语评论区以及Kaggle里都会说Google Facebook Apple等录用大量H1B员工,但是远没有外包厂们的人多。这里前几名是Cognizant, InfoSys和TATA,然后才是Google。EY,Capgemini和Deloitte怕也是有大量外包业务。Tech厂自然占领了后面不少位置,不过都是几千人的数量级,远不如外包厂上万人的数量级。即便这样,85%的申请人还是“其他”(>6)厂。注意这里parse的数据是Certified而且没有用年份filter,所以一共有近60w条数据。理论上说应该用提交年份进行申请,但是h1b的原始数据是按照处理年份提供的所以这里包括了大量积压(我个人是这样理解的,欢迎指点)

不知大家是不是好奇哪些律师所承接了业务们。Tech大厂似乎都是Fragomen和Ogletree。下面的pie chart就能看出来移民律所了。很多很多case都是个人承办的所以69%都是”Other” 。这些律所打字也都不认真,导致要清理大量数据以删掉LLP L.L.P.这种其实是一个意思的名字。

同样可以看到每个公司用了哪家律所。NVIDIA(这只是for example, 我用A卡打游戏)用的是Fragomen。然后Fragomen最大的客户是亚马逊,然后是HLC和TATA

话又说回来,

那么H1B里面最多的工作自然是软件以及软件相关。这个pie chart看起来五颜六色但是都是软件。然后还有statistician,operations research和mechanical engineer和accountant。比较典型的Google有66%的h1b是SWE然后带了一些其他designer。FB有44%是SWE然后有好多computer scientists。外包厂自然是99%各类SWE。Citadel这样的hedge fund就有risk management specialist和operation research analyst,软件的比例就小了很多。按照地区作图的话其实各类SWE站有大约50%然后是各种analyst。

就工资来说,我虽然没有用prevailing wage,但是SWE的工资和其他美国人应该没有太大差距。下图的红线分别是17, 45和90 percentile。这样看起来西塔图的45th percentile竟然比湾区要高。不过这里的湾区不包括SF,只有RWC向下。纽约大量SWE都是10w base,值得进一步挖掘。

就同一家公司在不同地区的工资来说,Google似乎控制的很好,各处的17th和45th都是一样的,90th可能因为比较senior所以variance大一些。目测我们看到的两个spike分别对应了lvl3和lvl4工资。

下面是DS的图,看起来其实和SWE没有太大差距,只是数量少了很多。

教授和”post-secondary teacher”的图也很有意思。在学术圈的朋友们要努力了呀。

下面是我花了最多时间画的针对所有work site的图。先前的以及其他人的分析都是对地区或者公司进行了aggregation,可能是因为针对地址分析过于繁琐。而且有些公司只是把员工注册在了同一个地方(比如Google的1600 amphitheatre parkway)。不过如果你好奇公司里有什么外包的话,这就非常有用了,比如1600 amphitheatre parkway并不都是Google员工,而是还有几十家外包厂和Alphabet的子孙们。湾区这里的数字是number of worksites,所以可以看出湾区有几千个地址都有H1B的员工。Facebook在1 Hacker Way有56个不同的公司在这里注册,除了FB自己之外自然就是各种consultancy,各种staffing公司(HR似乎很多都是contractor),而且发现Facebook Payments和Facebook不是一家公司。每一个pin都可以看到这个公司在这个地点的员工分配,比如我点开了Facebook的popup。同样也可以看到斯坦福大学在450 Serra Mall都注册了什么人。

再或者说,在纽约One World Trade Center附近长这个样子。然后Goldman在200 West Street这里有81个Lvl2的Financial Specialists。不如顺手来个纽约周边地区的截图好了。

可能有人已经想问,为什么不直接显示人。毕竟按照worksite来看就会有很多很多外包厂。但是…我比较笨,还没研究出来如何能让Folium不显示和人一样多数量的pin。这里的数据只有>50个人的地址(OpenStreetMap的API有query限制,昨天可能是query太多现在来不上了hhhh)所以没有见到纽约Two Sigma的情况(100th Avenue)但是看到了Citadel在601 Lexington的office。

总体来说的,h1b的数据需要大量的清理。写了三四个小时清理地址和公司名称的regex。以后有机会可以增加对往年数据的支持,parse更多的地址,然后提供更modular的作图功能们。还有就是PERM的数据其实和H1B长得一样,下一步也可以考虑支持。Github里的代码需要解压,有兴趣的朋友可以自己搞,有bug的话欢迎提问。欢迎fork或者直接PR。如果有知道怎么能放在Colab里的话就更好了。这都是后话了…赶紧做社畜去。

祝大家身体健康,希望赶紧把order给block了别惹事。真的是弄的天怒人怨,还让不让人好好干活了….. 能投票的朋友一定记得投票

大家如果还有相关的问题和看法,欢迎点击“阅读原文”到一亩三分地讨论