南山小马

我的2022

发表于 2023-01-03 分类于生活记录 Disqus：

回看年度总结，上一次还是2019刚毕业那会儿写的，转眼间就到了2022年，中间断了两年

阅读全文 »

论文笔记-HGT Heterogeneous graph transformer

发表于 2021-06-12 更新于 2022-11-07 分类于研究 Disqus：

核心思想：利用异构图的元关系来参数化异构相互注意力、消息传递和传播步骤的权重矩阵，从而获取不同类型节点的表示。

阅读全文 »

flask_python web框架

发表于 2020-09-05 更新于 2022-09-11 分类于应用开发 Disqus：

自从好久没写Java web之后，脑子只有一个印象，对于搭建一个简单站点，使用现成的SSM框架，应该很快就能搞定，但是殊不知，其中的环境配置、包依赖、数据库等配置如果不熟悉会非常麻烦。折腾了我n个小时，还没搞定。随后放弃。由于目前多用Python开发，转念一想，要不试试Python。事实证明，我的决策是正确的，从接触学习，到完成开发，总共耗时也不到3小时。

阅读全文 »

GitHub福利HNS空投白嫖5000K

发表于 2020-03-14 更新于 2022-05-09 分类于应用开发 Disqus：

对于白嫖这件事，我一直都深表怀疑，况且还是价值几千的生意。但这一次突破了我的认知，也让我进入了币圈这个坑。

阅读全文 »

深度学习学习笔记

发表于 2020-01-28 更新于 2022-05-09 分类于算法 Disqus：

基础知识

模型容量 VC维度量二元分类器的容量。VC维定义为该分类器能够分类的训练样本的最大数目。统计学习理论中最重要的结论阐述了训练误差和泛化误差之间差异的上界随着模型容量增长而增长，但随着训练样本增多而下降。

机器学习研究的目标不是找一个通用学习算法或是绝对最好的学习算法，而是理解什么样的分布与人工智能获取经验的“真实世界”相关，以及什么样的学习算法在我们关注的数据生成分布上效果最好。

这不是我的2019总结

发表于 2020-01-01 更新于 2022-05-09 分类于生活记录 Disqus：

自从开始写博客以后，在每年的这个时候都会回顾一下上一个整年的情况，记录自己的所思所想。
首要要批评一下自己，不管什么原因，这一年写的文章真的是太少了。
这一年，我毕业了，从此正式的步入社会大门。

阅读全文 »

ODPS Hive UDF UDAF UDTF 编写

发表于 2019-08-30 更新于 2020-01-02 分类于应用开发 Disqus：

之前一直以为udf是一个很高深很复杂的东西，但是经过实际编写后，发现它其实很简单。掌握这几个的特性，对写sql、抽样本、提特征会提升不少效率。

UDF为输入几个字段，返回一个值，比如trim，length等函数；UDAF为聚合函数，如min，max，而UDTF则是拆成多行的函数，例如explode函数。

阅读全文 »

西电latex模板问题（踩坑历程）

发表于 2019-05-23 更新于 2022-11-07 分类于其他 Disqus：

众所周知，Latex编译工具可以让我们专注于写作本身，而不用在排版与格式上花费过多的时间。出于此考虑，在本次毕设中我采用了校研究生院提供的Latex模板进行毕设写作，其中遇到了不少坑，现记录如下。

阅读全文 »

聚类算法中的数据预处理

发表于 2019-05-14 更新于 2022-11-07 分类于算法 Disqus：

在一般的机器学习任务中，已经有很多的数据预处理方法。本文要介绍的数据预处理方法是针对聚类算法。

在聚类中，通常将样本的所有特征数据组合成一个数值，然后计算两个样本之间的相似性。组合数据要求不同的特征具有相同的量纲。本文将讨论如何规范化、转换和创建分位数（normalizing, transforming, and creating quantiles），并讨论为什么分位数是转换任何数据分布的最佳默认选择。有了默认选项，就可以在不检查数据分布的情况下转换数据。

本文主要内容翻译自谷歌机器学习教程Clustering in Machine Learning-PrepareData

阅读全文 »

使用wget下载jdk

发表于 2019-05-12 更新于 2022-11-07 分类于应用开发 Disqus：

服务器需要安装oracle jdk，但是目前找到的下载网站只有oracle的官网，下载的时候需要先点击接受协议，然后才能下载。

阅读全文 »