Mudux Blog

我究竟拿时间换了什么

CS231n assignment1

CS231n assignment

主要是总结几个函数 np.bincount 在knn分类时,先找到k近邻,根据k近邻标签中的多数赋予测试样本。其实就是一个k近邻标签的众数,但numpy没有现成的众数函数。在这里采用np.bincount函数。 1 y_pred[i] = np.argmax(np.bincount(closest_y)) 根据文档解释: Count nu...

python脚本发布

python script package

python属于解释性语言,如果想在别人的电脑上运行自己的脚本,还得要先装上python环境以及相关的包,费时费力。在最近的一个 项目中,恰好遇到了这种需求,要把自己的程序发布,借助pyinstaller可以解决。 pyinstaller安装 1 pip install pyinstaller 或者去网站下载到本地安装。 pyinstaller使用 命令格式 命令为 1 py...

数据挖掘比赛特征工程技巧

data mining feature engineering

Feature Engineering More data beats clever algorithms, but better data betas more data - by Peter Norving 1. 类别特征 Onehot encoding 适用于线性模型,稀疏,极大扩充数据维度。在本次比赛中,采用lgb分类,为非线性树模型,所以没用onehot。 skl...

数据挖掘比赛常用函数

data mining function

设种子 种子保证了实验结果的可重复性,便于前后比较 1 2 3 4 def seed_everything(seed=0): random.seed(seed) os.environ['PYTHONHASHSEED'] = str(seed) np.random.seed(seed) 数据压缩 数据压缩能缩小数据占用空间,加快运行速度,常用的一个函数如下: 1 2 ...

IEEE Fraud Detection Top team guide

ieee fraud detection

1st place solution discussion1 link-discussion 第一名在discussion中提出了几个重点: 时间不是最重要的 因为欺诈行为的特征不会短时间内随时间变化,而是欺诈的人在随着时间变换。训练集、Public LB和Private LB在时间上是分离的,从下图可见,在Private LB中仅有16.4%的clients在训练集中出现过,68.2...

VSCODE C++ 配置

vscode

reference:https://www.zhihu.com/question/30315894/answer/154979413 -thx to 谭九鼎 安装扩展 我安装的扩展为 C/C++ Tools Coder Runner Markdown All in One Markdown Preview Github Styling One Dark Pro...

My First Kaggle Competition Top 3%

First Blood

IEEE-CIS Fraud Detection 写在前面:初次参加kaggle比赛,取得了top 3%的成绩,好于预期。在接近一个半月的比赛中,学到了许多之前光做理论没有机会接触的东西,也发现了一些不足,总体来说,收获很大。大佬们的开源共享精神让人心生敬仰。感谢队友clancy的交流进步。 1 比赛介绍 1.1 比赛背景 IEEE与Vesta联合举办信用卡交易欺诈检测, 为经...