MENU

满江结婚

两个室友都结婚了,一个我喝得不省人事,一个当了估计唯一一次伴郎。和这群人认识已经快13年了,当初的意气风发,现在都是半个油腻大叔,从一个个为了拼酒喝到吐到现在看着一个个体检指标箭头都改喝饮料,感觉时间太快,看着ktv 里唱着聊着的各位,感谢那五年的一起学习生活相处,期待下个十年二十年。
Happy wedding !

帕累托累积分布

前两天实验室师妹来问平时我们计算腹地的前百分之多少的人怎么定这个到底怎么计算,以及每次都要数据库到处数据excel算这个问题,想想自己也需要tableau连接数据库做可视化后挑选出相应的分段值,就想着写个脚本来实现。花了半个小时写了个直接读取csv输出最靠近10,20....90%分段值的数,查了下还是没搞明白是不是叫帕累托累积分布,不过应该是一种累积分布。

后续需要修改的就是让python直接读取postgresql数据库,然后在排序计算分段值,而且要提高下效率,现在的计算效率不是很高,不过现在能用就行(此处要配个罗玉龙那个又不是不能用的牌子233)。

顺便学了下github,把代码也放了上去,以后代码也都放github上。

https://github.com/imcake/pareto


#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2018-11-01
# @Author  : imcake (likaike@gmail.com)
# @Link    : https://github.com/imcake

##############################################
# 计算累积频率分段值(帕累托图)
# 输入带有需要累积的值的csv文件和该值的字段名
# 输出百分之10-90对应的最相近数值
# 输出结果为字典,10:xxx, 20:xxx, ..., 90:xxx
#############################################
import pandas as pd


def get_pareto_penct(csv_name, value_column):
    data_df = pd.read_csv(csv_name, header=0)
    pencentList = []
    pencentage = 0
    for i in range(len(data_df)):
        rawList = data_df[value_column].tolist() # change colume to list
        rawList.sort(reverse=True)
        pencent = float(rawList[i]) / sum(rawList) * 100
        pencentage = pencentage + pencent # calculate the accumulated pencentage
        pencentList.append(pencentage)
    # add pencentage and raw date to a dict
    dictionary = dict(zip(pencentList, rawList))
    init_penct = [10, 20, 30, 40, 50, 60, 70, 80, 90]
    value = []
    for j in init_penct:
        # get the closest raw date of certain pencentage
        dict_key = min(pencentList, key=lambda x: abs(x - j))
        value.append(dictionary.get(dict_key))
    result_dict = dict(zip(init_penct, value))
    return result_dict


if __name__ == '__main__':
    csv_name = 'pareto.csv' # csv文件名
    value_column = 'TOTAL' # 需要累积的字段名
    print get_pareto_penct(csv_name, value_column)

Earth Porn预告

这是个容易被屏蔽的标题。

今天在google earth看到了原来自己做过项目的基地,顺便去看了别的项目基地,有些建了,有些还空着。

想来从11年开始工作已经6年了,中间三年读研,也已经做了一些项目,跟踪下这些曾经做过各种分析的地块这些年的变化也算是件有趣的事情。

记不清楚earth porn是北美贴吧reddit上的一个板块还是ins上的一个标签,觉得这个标签还是很适合我这个想法的,就用这个来做一个系列,不限于我做过的项目,也可以是我去过的地方。

就预告下,今天家里翻墙不给力,果然不能只备一个梯子!

新的开始

前段时间忙着准备博士考试,月初发现网站已经被hacked挂上了也不知是穆斯林抱怨政府还是啥的视频,索性全部都删了,换了个博客系统。

博士考上了,感觉纯属运气,等最后学校的通知,也不是为了在学术上一定要有多大成就,最大的动力可能就是Doctor这个title,感觉很酷。在职读不容易,有心理准备,至少别拖到被劝退的时间,最好能出去交流个一年半载,然后能研究出点东西来,这是博士期间的最低要求吧。

开始申报点院里的课题骗点钱,生活确实不容易,坐电脑前画图和几十年前车间看机器的车间工人没啥区别,一直想着逃离,逃离这行业,逃离上海。但是现在又考上这个专业博士了,在上海又买了房,真是够矛盾的。一直想有一天一定会离开上海的,去个绍兴一样的小城市生活,每天不用那么累那么大压力,也不用天天觉得时间不够用,能每天看看书到处走走,这是理想。

现实就是明天还要加班。T_T

十一在家

十一不去凑热闹,在家陪老爸

其实家门口的鉴湖风景也还不错,“山阴道上行 如在镜中游”不是只是说说的,手机随便一拍然后调个色什么的也很好看了