当前位置:乐求学 >

好好学习 >毕业论文 >

基于自编码神经网络建立的搜索信息模型

基于自编码神经网络建立的搜索信息模型

摘 要:根据用户搜索历史,将用户关注的信息按标题分类,通过自编码神经网络提取特征值。设定学习样本标题最多为25个汉字,编码方式采用汉字机内码(GBK码)。使用MATLAB工具进行深度学习,将样本在原空间的特征表示变换到一个新的特征空间。

基于自编码神经网络建立的搜索信息模型

关键字:文本特征;自编码神经网络;深度学习;Matlab

基于自编码神经网络建立搜索信息模型的目的是根据用户搜索信息的历史,推断出网页中的内容是用户关注的信息并即时显示。首先将用户关注的历史信息按标题分类,通过自编码神经网络建立标题特征值数据库。当自编码神经网络搜索信息模型工作时,按照用户提供的关键词顺序,打开用户经常浏览的网页,读入标题文本,若具有数据库中的标题特征,则将该标题的文本内容即时显示。

直接解析网页中的标题文本,面临的基本问题是文本的表示。如果把标题文本所有的词都作为特征项,那么太多的特征向量维数导致计算量太大。例如50个标题,每个标题25个汉字,特征项将有50×25=1250个。如果将标题中的某个关键词作为特征词,将会有几千个包含关键词的标题,从而导致读入分析量过于巨大。本文采用自编码神经网络,用映射变换的方法把原始文本特征变换为较少的新特征,提高信息搜索效率。

1 自编码神经网络

1.1 自编码神经网络理论

Auto-Encoder(自编码)[1],自编码算法是一种基于神经网络算法的无监督学习算法,与神经网络算法的不同之处是将输入值作为输出节点的输出。自编码算法的另一个特征是隐藏层节点的个数一般少于输入输出节点的个数。这样的意义是将输入的特征通过神经网络的非线性变换到节点数更少的隐藏层。因此,可以通过自编码神经网络对给定的样本进行训练学习,从而得到输入数据降维后的特征,即为隐藏层的节点数,省去了人工特征提取的麻烦。

自编码神经网络结构示意图如图1所示[2]。这是一种深度学习的神经网络,包含了多个隐含层,整个网络是一种对称的结构,中心层的神经元的个数最少。网络通过对样本的训练可以得到一组权值系数,而输入数据通过这组权值系数表达成低维形式,从而达到了用降维后的特征表示出输入的数据。

图1 自编码神经网络的结构

Fig.1 The structure of auto-encoder neural network

1.1.1 预训练

(1) 输入参数的确定:标题是作者给出的提示文章内容的短语,标题一般都简练、醒目,有不少缩略语,与报道的主要内容有着重要的联系。如登陆我的钢铁网站,搜索钢管热点资讯,显示的标题有“我国自主研制*****油管成功替代进口”,学习样本选择50组标题,每个标题不超过25个汉字,如表1所示。

表1 学习样本

Tab. 1 Learning samples

1

我国自主研制高端耐热钢无缝钢管成功替代进口

2

我国自主研制K55石油套管成功替代进口

3

我国自主研制J55稠油热采套管成功替代进口

4

我国自主研制专用耐高温防火船舶用套管成功替代进口

5

我国自主研制20G高压锅炉管成功替代进口

6

我国自主研制特殊用途低温用管成功替代进口

7

我国自主研制起重机臂架无缝钢管成功替代进口

8

我国自主研制精密合金4J36船用管材成功替代进口

9

我国自主研制高强韧性高抗挤毁套管成功替代进口

10

我国自主研制三种极限规格管线管成功替代进口

……

50

我国自主研制医药化工用管成功替代进口

(2) 语句预处理[3]:学习样本句子进行预处理是把句子中的每一个汉字变换成自编码神经网络模型能接受的数字化形式。为了使神经网络能接受外部数据,首先要对句子中的汉字进行编码,编码方式是采用汉字的计算机内码(GBK码)。每个汉字机内码有16位二进制,如:“我国自主研制”的二进制码为

1100111011010010 我(GBK码)

1011100111111010 国(GBK码)

1101011111010100 自(GBK码)

1101011011110111 主(GBK码)

1101000111010000 研(GBK码)

1101011011000110 制(GBK码)

将16位二进制数转换为十进制数并进行线性变换,映射到实数[0 1]之间,作为输入神经元初值。变换公式如下:

式中:maxi和mini;tmax和tmin分别为x(p)i,t(p)量程范围的最大值和最小值。

(3)预训练:几个独立的RBM构成“堆栈”构成了预训练部分,而RBM是BM (boltzmannmachine)的一种特殊连接方式。图2即为RBM的网络构成。它是一种隐含层神经元无连接,并且只有可见层和隐含层两层神经元。

图2 RBM网络构成

Fig. 2 Construction of restricted boltzmannmachine

BM的权值调整公式为[4]

(1)

式中:在第t步时神经元i、j间的连接权值为wij(t);η为学习速率;T为网络温度;+、-分别为正向平均关联和反向平均关联。

在RBM中,可见层神经元的输出和隐含层神经元输出的乘积即为平均关联。系数ε由η和T统一合并而成,迭代步长即由权值调整公式ε表示。

图3 RBM网络结构图

Fig. 3 RBM network structure diagram

(4)MATLAB实现:

本文建立的BP神经网络模型结构为

[25,15,25],[15,12,15],[12,10,12],[10,8,10],[8,5,8]

设定网络隐含层的激活函数为双曲正切S型函数tansig,输出层的激活函数为线性激活函数purelin,网络的训练函数为Levenberg-Marquardt算法训练函数trainlm。因此对应的MATLAB神经网络工具箱的程序语句为

net=newff(minmax(P),[25,25],{‘tansig’,’purelin’}, ’trainlm’);

  • 文章版权属于文章作者所有,转载请注明 https://m.leqiuxue.com/bylwwx/v3jj9l.html