NLP系列之文本分类

发表于 2019-01-12 | 分类于 NLP | Views:

| 字数统计: 6,618 | 阅读时长 ≈ 28 分钟

1前言

本篇博客主要是记录自然语言处理中的文本分类任务中常见的基础模型的使用及分析。Github上brightmart大佬已经整理出很完整的一套文本分类任务的基础模型及对应的模型代码实现。网上也有部分博客将brightmart写的模型实现步骤进行翻译整理出来了。本着尊重原创的原则，后面都列出了参考链接，在此也感谢参考链接上的作者。本文将对之前文本分类基础模型的博客和文献进行整理，此外再加上自己的一部分模型分析。毕竟还是需要有自己的东西在这里的，这样才能做到又学到了又进行思考了。

阅读全文 »

机器学习中你需要了解的各种熵

发表于 2018-09-28 | 分类于 ML&DL | Views:

| 字数统计: 2,155 | 阅读时长 ≈ 8 分钟

1前言

信息熵是信息论和机器学习中非常重要的概念，信息是一个很抽象的概念，如何量化信息呢？香农提出了‘信息熵’概念来解决了这个问题。本篇博客主要是详细记录信息熵中的一些概念 (自信息，熵，交叉熵，相对熵，互信息，决策树中相关的熵)，以方便自己日后回顾，所以不免从书上或者各篇博客中收集了素材，但是本着尊重原创，后面都列出了参考链接，在此也感谢参考链接上的作者。

阅读全文 »

Seq2Seq的那些事

发表于 2018-07-18 | 分类于 NLP | Views:

| 字数统计: 4,867 | 阅读时长 ≈ 19 分钟

1前言

本篇博客主要记录的是使用Tensorflow搭建Seq2Seq模型，主要包括3个部分的叙述:第一，Seq2Seq模型的训练过程及原理。第二，复现基于SouGouS新闻语料库的文本摘要的应用。第三，Seq2Seq模型中存在的问题及相应的Trick。

阅读全文 »

蚂蚁金融NLP竞赛——文本语义相似度赛题总结

发表于 2018-07-13 | 分类于 NLP | Views:

| 字数统计: 4,708 | 阅读时长 ≈ 18 分钟

1前言

许久没有更新博客了，主要是忙于考试周和最近参加的一个蚂蚁金融的NLP比赛——文本语义相似度赛题。话不多说，直奔主题。本篇博客主要记录的是自己入门NLP以来第一次参加NLP性质的赛题的详细解题过程。接下来将分成三个部分进行叙述：赛题描述、解题思路及相关代码实现、赛题总结.

阅读全文 »

Spark环境搭建及相关工作流程介绍

发表于 2018-05-26 | 分类于大数据 | Views:

| 字数统计: 3,311 | 阅读时长 ≈ 15 分钟

1前言

本篇博客主要记录的是Spark的3种运行模式及对应的模式环境搭建过程和流程介绍。3种模式都是经过实践记录详细的操作过程和注意事项。

阅读全文 »

Hadoop环境搭建及相关组件的工作流程介绍

发表于 2018-05-23 | 分类于大数据 | Views:

| 字数统计: 4,940 | 阅读时长 ≈ 21 分钟

1前言

本篇博客主要是记录Hadoop环境配置包括单机伪分布环境搭建，分布式环境搭建和Hadoop相关组件的工作流程介绍，包括HDFS读写流程，YARN的资源调度流程，MapReduce工作流程。

阅读全文 »

机器学习算法——逻辑斯谛回归模型&最大熵模型

发表于 2018-05-15 | 分类于 ML&DL | Views:

| 字数统计: 2,855 | 阅读时长 ≈ 11 分钟

1前言

本篇博客主要记录两个分类模型(逻辑斯谛回归模型和最大熵模型)原理及模型的代码实现，将这两个模型放一块的原因是这两个模型都是对数线性模型，都是由条件概率分布表示P(Y|X).

阅读全文 »

机器学习算法——感知机&支持向量机

发表于 2018-05-05 | 分类于 ML&DL | Views:

| 字数统计: 5,608 | 阅读时长 ≈ 20 分钟

1前言

本篇博客主要详细介绍两种具有一定相似性的机器学习算法——感知机Perceptron和支持向量机SVM，该两种算法都是在特征空间中寻找划分平面从而对数据集进行划分的思想，但寻找划分平面的算法不同。划分平面的定义也有差距。本篇博客主要叙述思路为算法模型，代价函数，学习算法，最后的算法模型使用实例介绍。

阅读全文 »

决策树相关算法——XGBoost原理分析及实例实现(三)

发表于 2018-05-02 | 分类于 ML&DL | Views:

| 字数统计: 4,802 | 阅读时长 ≈ 22 分钟

1前言

本篇博客作为前两篇XGBoost的原理与分析的续作三，主要记录的是使用XGBoost对kaggle中的初级赛题Titanic: Machine Learning from Disaster进行预测的实例，以此来加深自己对XGBoost库的使用。

阅读全文 »

决策树相关算法——XGBoost原理分析及实例实现(二)

发表于 2018-04-27 | 分类于 ML&DL | Views:

| 字数统计: 2,170 | 阅读时长 ≈ 8 分钟

1前言

本篇博客主要记录的是XGBoost在构建决策树结构时，知道如何评定划分点的好坏的情况下，如何遍历查找出该树结构的切分点。前篇博客决策树相关算法——XGBoost原理分析及实例实现(一)介绍的是贪心查找算法，逐步遍历特征和特征取值，比较切分前后的平方误差的大小，获得最佳切分点。本篇主要介绍的是近视查找算法和稀疏感知的划分查找。

阅读全文 »

ComeOnJian

生活不能等待别人来安排，要自己去争取与奋斗！

GitHub CSDN