1前言
本篇博客主要是记录自然语言处理中的文本分类任务中常见的基础模型的使用及分析。Github上brightmart
大佬已经整理出很完整的一套文本分类任务的基础模型及对应的模型代码实现。网上也有部分博客将brightmart
写的模型实现步骤进行翻译整理出来了。本着尊重原创的原则,后面都列出了参考链接,在此也感谢参考链接上的作者。本文将对之前文本分类基础模型的博客和文献进行整理,此外再加上自己的一部分模型分析。毕竟还是需要有自己的东西在这里的,这样才能做到又学到了又进行思考了。
本篇博客主要是记录自然语言处理中的文本分类任务中常见的基础模型的使用及分析。Github上brightmart
大佬已经整理出很完整的一套文本分类任务的基础模型及对应的模型代码实现。网上也有部分博客将brightmart
写的模型实现步骤进行翻译整理出来了。本着尊重原创的原则,后面都列出了参考链接,在此也感谢参考链接上的作者。本文将对之前文本分类基础模型的博客和文献进行整理,此外再加上自己的一部分模型分析。毕竟还是需要有自己的东西在这里的,这样才能做到又学到了又进行思考了。
信息熵是信息论和机器学习中非常重要的概念,信息是一个很抽象的概念,如何量化信息呢?香农提出了‘信息熵’概念来解决了这个问题。本篇博客主要是详细记录信息熵中的一些概念 (自信息,熵,交叉熵,相对熵,互信息,决策树中相关的熵),以方便自己日后回顾,所以不免从书上或者各篇博客中收集了素材,但是本着尊重原创,后面都列出了参考链接,在此也感谢参考链接上的作者。
本篇博客主要记录的是使用Tensorflow搭建Seq2Seq模型,主要包括3个部分的叙述:第一,Seq2Seq模型的训练过程及原理。第二,复现基于SouGouS新闻语料库的文本摘要的应用。第三,Seq2Seq模型中存在的问题及相应的Trick。
许久没有更新博客了,主要是忙于考试周和最近参加的一个蚂蚁金融的NLP比赛——文本语义相似度赛题。话不多说,直奔主题。本篇博客主要记录的是自己入门NLP以来第一次参加NLP性质的赛题的详细解题过程。接下来将分成三个部分进行叙述:赛题描述、解题思路及相关代码实现、赛题总结.
本篇博客主要详细介绍两种具有一定相似性的机器学习算法——感知机Perceptron和支持向量机SVM,该两种算法都是在特征空间中寻找划分平面从而对数据集进行划分的思想,但寻找划分平面的算法不同。划分平面的定义也有差距。本篇博客主要叙述思路为算法模型,代价函数,学习算法,最后的算法模型使用实例介绍。
本篇博客作为前两篇XGBoost的原理与分析的续作三,主要记录的是使用XGBoost对kaggle中的初级赛题Titanic: Machine Learning from Disaster进行预测的实例,以此来加深自己对XGBoost库的使用。
本篇博客主要记录的是XGBoost在构建决策树结构时,知道如何评定划分点的好坏的情况下,如何遍历查找出该树结构的切分点。前篇博客决策树相关算法——XGBoost原理分析及实例实现(一)介绍的是贪心查找算法,逐步遍历特征和特征取值,比较切分前后的平方误差的大小,获得最佳切分点。本篇主要介绍的是近视查找算法和稀疏感知的划分查找。