Valuebai

往后余生 冬雪是你 春华是你 夏雨也是你 秋黄是你 四季冷暖是你 目光所致 也是你

极简NLP-分词技术

填写副标题

一句话说明 本质是什么 可以用来干嘛 主要的技术 Hello Mr.Lucky 注意点: 1、复制图片过来,要先等一会!要先等一会!!要先等一会!!!让小书匠保存成github的图床图片,先不要保存到github上的文章,不然图片获取用的是:(./images/1561707358500.png),会导致复制到CSDN上无法使用 2、复制图片过来先保存一遍,不然容易出现(./ima...

NLP-情感分析-以豆瓣电影评论为例的详细记录

爬虫获取豆瓣影评+深度学习对评论内容进行情感分类

学习参考的资料 https://github.com/aakaking/Sentiment-Analysis https://nbviewer.jupyter.org/github/Computing-Intelligence/assignment2-Project2/blob/master/Assignment2%E4%B8%8EProject2%E7%9A%84%E5%AE%...

NLP-Jieba分词性能问题,每次请求都要加载模型1s左右

在flask中使用的时候应该在初始化app文件中初始化jieba,然后其他程序再调用初始化后的

性能问题——加载jieba分词的model需要1s左右 性能指标:在初次打开阶段时间较长,后续逐渐变好,所以这是为啥呢? ——已经定位原因,首次加载jieba分词时loading了1.309s导致的 Building prefix dict from the default dictionary ... Dumping model to file cache C:\Users\AppDa...

NLP-数据清洗常见步骤——以去哪儿网训练数据为例

数据清洗的常见步骤

1、导入相关的依赖包 import pandas as pd import numpy as np 2、读取数据 df = pd.read_csv(‘./input/qunar_freetrip.csv’, index_col=0) index_col 默认值(index_col = None)——重新设置一列成为index值 index_col=False——重新设置一列...

NLP-语料数据集

记录收藏各大语料数据集

funNLP各种语料集合 https://github.com/fighting41love/funNLP 中文停用词 # 加载停用词表 stopwords1 = [line.rstrip() for line in open(os.path.join(stop_words_path, '中文停用词库.txt'), 'r', encoding='utf-8')] stopword...

浅谈 NLP 中的 Attention 机制

Google 某种程度上体现了“大道至简”的理念,的确是 NLP 中不可多得的精品。

【原文地址】:https://xiaosheng.me/2018/01/13/article121/ LSTM 网络原理,https://xiaosheng.me/2017/09/16/article95/ Seq2Seq 模型入门,https://xiaosheng.me/2019/09/08/article165/ ,NLP 与深度学习结合的经典之作 背景 2017 年中...

BERT 浅析

从Word2Vec到Elmo,再到BERT,最后用Keras快速上手

2018 年 10 月 11 日,Google AI Language 发布了论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,其中提出的 BERT 模型在 11 个 NLP 任务上的表现刷新了记录,在自然语言处理学界以及工业界都引起了不小的热议。BERT 的出现,彻底改变...

ML-机器学习应用开发的7大步骤

使用机器学习的七大步骤,用思维导图写方便自己看

1 数据采集和标记 2 数据清洗 3 特征选择 4 模型选择 5 模型训练和测试 6 模型性能评估和优化 7 模型保存加载使用 【Me】https://github.com/Valuebai/

详解使用sklearn做特征工程

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。

1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换   2.6 回顾 3 特征选择   3.1 Filter     3.1.1 方差选择法     3.1.2 相关系数法   ...

NLP主题模型:LDA-隐含狄利克雷分布-用Python+sklearn实现

LDA是一种统计模型,用于标记出现在文档集合中的抽象主题,这些主题最能代表这个文档集合中的信息。

Introduction Topic Models, in a nutshell, are a type of statistical language models used for uncovering hidden structure in a collection of texts. In a practical and more intuitively, you can think...