0%

自从好久没写Java web之后,脑子只有一个印象,对于搭建一个简单站点,使用现成的SSM框架,应该很快就能搞定,但是殊不知,其中的环境配置、包依赖、数据库等配置如果不熟悉会非常麻烦。折腾了我n个小时,还没搞定。随后放弃。由于目前多用Python开发,转念一想,要不试试Python。事实证明,我的决策是正确的,从接触学习,到完成开发,总共耗时也不到3小时。

阅读全文 »

基础知识

模型容量 VC维度量二元分类器的容量。VC维定义为该分类器能够分类的训练样本的最大数目。统计学习理论中最重要的结论阐述了训练误差和泛化误差之间差异的上界随着模型容量增长而增长,但随着训练样本增多而下降。

机器学习研究的目标不是找一个通用学习算法或是绝对最好的学习算法,而是理解什么样的分布与人工智能获取经验的“真实世界”相关,以及什么样的学习算法在我们关注的数据生成分布上效果最好。

自从开始写博客以后,在每年的这个时候都会回顾一下上一个整年的情况,记录自己的所思所想。
首要要批评一下自己,不管什么原因,这一年写的文章真的是太少了。
这一年,我毕业了,从此正式的步入社会大门。

阅读全文 »

之前一直以为udf是一个很高深很复杂的东西,但是经过实际编写后,发现它其实很简单。掌握这几个的特性,对写sql、抽样本、提特征会提升不少效率。

UDF为输入几个字段,返回一个值,比如trimlength等函数;UDAF为聚合函数,如minmax,而UDTF则是拆成多行的函数,例如explode函数。

阅读全文 »

众所周知,Latex编译工具可以让我们专注于写作本身,而不用在排版与格式上花费过多的时间。出于此考虑,在本次毕设中我采用了校研究生院提供的Latex模板进行毕设写作,其中遇到了不少坑,现记录如下。

阅读全文 »

在一般的机器学习任务中,已经有很多的数据预处理方法。本文要介绍的数据预处理方法是针对聚类算法。

在聚类中,通常将样本的所有特征数据组合成一个数值,然后计算两个样本之间的相似性。组合数据要求不同的特征具有相同的量纲。本文将讨论如何规范化、转换和创建分位数(normalizing, transforming, and creating quantiles),并讨论为什么分位数是转换任何数据分布的最佳默认选择。有了默认选项,就可以在不检查数据分布的情况下转换数据。

本文主要内容翻译自谷歌机器学习教程Clustering in Machine Learning-PrepareData

阅读全文 »

服务器需要安装oracle jdk,但是目前找到的下载网站只有oracle的官网,下载的时候需要先点击接受协议,然后才能下载。

阅读全文 »