The embodiment of the invention provides a method and apparatus in the web page text extraction, the method comprises the following steps: loading to extract pages; determine the label elements corresponding to the title page of the title of the article; to label the corresponding elements as a reference point, gets the tag title page elements before the label after the element list the title and the title of the article list; label elements based on the correspondence, from the title of the article before the tag element tag element after the list and the title of the article list, determine the page in the page text block on the label element; the page block text page block corresponding tag elements identified in the corresponding content as the page text extraction. By determining the text label, to determine the location, can achieve rapid and accurate determination of the purpose of the text, and only need to request a static page, without rendering of the page, so reduce the deployment complexity, the implementation is relatively simple.
【技術(shù)實(shí)現(xiàn)步驟摘要】
網(wǎng)頁(yè)中的頁(yè)面正文提取方法和裝置
本專(zhuān)利技術(shù)涉及數(shù)據(jù)處理
,具體涉及一種網(wǎng)頁(yè)中的頁(yè)面正文提取方法和裝置。
技術(shù)介紹
目前,在互聯(lián)網(wǎng)中,會(huì)產(chǎn)生海量的頁(yè)面,然而,頁(yè)面之間的排版布局往往是不同的,如果從頁(yè)面中快速準(zhǔn)確提取出正文,一直都是個(gè)比較困難的問(wèn)題。現(xiàn)有的方式主要有:1)通過(guò)下載靜態(tài)頁(yè)面,然后分析各個(gè)頁(yè)面塊的文本密度值,將文本密度最大的頁(yè)面快作為該頁(yè)面的正文;2)通過(guò)網(wǎng)頁(yè)渲染的方式,對(duì)網(wǎng)頁(yè)進(jìn)行分析劃分,通過(guò)網(wǎng)頁(yè)塊的劃分結(jié)果,來(lái)獲取正文。然而,上述兩種方式都存在一定的問(wèn)題,通過(guò)文本密度進(jìn)行正文提取的方法,識(shí)別準(zhǔn)確率較低,且對(duì)復(fù)雜一點(diǎn)的網(wǎng)頁(yè),適應(yīng)能力較差。通過(guò)網(wǎng)頁(yè)渲染進(jìn)行正文提取的方法,正文提取速度較慢,且對(duì)渲染引擎要求比較高,應(yīng)用部署相對(duì)復(fù)雜。針對(duì)上述問(wèn)題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)思路
本專(zhuān)利技術(shù)實(shí)施例提供一種網(wǎng)頁(yè)中的頁(yè)面正文提取方法和裝置,以提高正文提取的準(zhǔn)確性,且部署起來(lái)較為簡(jiǎn)單。一方面,本專(zhuān)利技術(shù)實(shí)施例提供了一種網(wǎng)頁(yè)中的頁(yè)面正文提取方法,包括:加載待提取的頁(yè)面;確定所述頁(yè)面中的文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素;以所述文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素作為基準(zhǔn)點(diǎn),獲取所述頁(yè)面中所述文章標(biāo)題之前的標(biāo)簽元素列表和所述文章標(biāo)題之后的標(biāo)簽元素列表;基于所述文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素,從所述文章標(biāo)題之前的標(biāo)簽元素列表和所述文章標(biāo)題之后的標(biāo)簽元素列表中,確定出所述頁(yè)面中的正文頁(yè)面塊對(duì)應(yīng)的標(biāo)簽元素;將確定出的正文頁(yè)面塊對(duì)應(yīng)的標(biāo)簽元素對(duì)應(yīng)的頁(yè)面塊中的內(nèi)容作為頁(yè)面正文提取。在一個(gè)實(shí)施方式中,確定所述頁(yè)面中的文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素,包括:通過(guò)識(shí)別所述頁(yè)面中的文章信息數(shù)據(jù),確定文章信息數(shù)據(jù) ...
【技術(shù)保護(hù)點(diǎn)】
一種網(wǎng)頁(yè)中的頁(yè)面正文提取方法,其特征在于,包括:加載待提取的頁(yè)面;確定所述頁(yè)面中的文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素;以所述文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素作為基準(zhǔn)點(diǎn),獲取所述頁(yè)面中所述文章標(biāo)題之前的標(biāo)簽元素列表和所述文章標(biāo)題之后的標(biāo)簽元素列表;基于所述文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素,從所述文章標(biāo)題之前的標(biāo)簽元素列表和所述文章標(biāo)題之后的標(biāo)簽元素列表中,確定出所述頁(yè)面中的正文頁(yè)面塊對(duì)應(yīng)的標(biāo)簽元素;將確定出的正文頁(yè)面塊對(duì)應(yīng)的標(biāo)簽元素對(duì)應(yīng)的頁(yè)面塊中的內(nèi)容作為頁(yè)面正文提取。
【技術(shù)特征摘要】
1.一種網(wǎng)頁(yè)中的頁(yè)面正文提取方法,其特征在于,包括:加載待提取的頁(yè)面;確定所述頁(yè)面中的文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素;以所述文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素作為基準(zhǔn)點(diǎn),獲取所述頁(yè)面中所述文章標(biāo)題之前的標(biāo)簽元素列表和所述文章標(biāo)題之后的標(biāo)簽元素列表;基于所述文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素,從所述文章標(biāo)題之前的標(biāo)簽元素列表和所述文章標(biāo)題之后的標(biāo)簽元素列表中,確定出所述頁(yè)面中的正文頁(yè)面塊對(duì)應(yīng)的標(biāo)簽元素;將確定出的正文頁(yè)面塊對(duì)應(yīng)的標(biāo)簽元素對(duì)應(yīng)的頁(yè)面塊中的內(nèi)容作為頁(yè)面正文提取。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定所述頁(yè)面中的文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素,包括:通過(guò)識(shí)別所述頁(yè)面中的文章信息數(shù)據(jù),確定文章信息數(shù)據(jù)所在的標(biāo)簽元素;將所述文章信息數(shù)據(jù)所在的標(biāo)簽元素之前的各標(biāo)簽元素中,第一個(gè)滿(mǎn)足預(yù)設(shè)的標(biāo)題特征的標(biāo)簽元素作為所述文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述文章信息數(shù)據(jù)至少包括以下數(shù)據(jù)之一:文章來(lái)源、文章作者、文章日期、文章字體和文章作者。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述預(yù)設(shè)的標(biāo)題特征至少包括以下特征之一:沒(méi)有孩子節(jié)點(diǎn)、節(jié)點(diǎn)內(nèi)容不為空、不是時(shí)間格式的文本、文本含有最多一個(gè)字符。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述文章標(biāo)題對(duì)應(yīng)的標(biāo)簽元素,從所述文章標(biāo)題之前的標(biāo)簽元素列表和所述文章標(biāo)題之后的標(biāo)簽元素列表中,確定出所述頁(yè)面中的正文頁(yè)面塊對(duì)應(yīng)的標(biāo)簽元素,包括:對(duì)所述文章標(biāo)題之前的標(biāo)簽元素進(jìn)行遍歷:計(jì)算各個(gè)標(biāo)簽元素與所述文章標(biāo)題所對(duì)應(yīng)的標(biāo)簽元素之間的距離;刪除距離大于第一預(yù)設(shè)閾值的標(biāo)簽元素;對(duì)于未刪除的標(biāo)簽元素,根據(jù)各個(gè)標(biāo)簽元素的標(biāo)簽字符串比、和各個(gè)標(biāo)簽元素與所述文章標(biāo)題所對(duì)應(yīng)的標(biāo)簽元素之間的距離,計(jì)算各個(gè)標(biāo)簽元素的特征值;選取特征值最大的標(biāo)簽元素,作為第一標(biāo)簽元素;對(duì)所述文章標(biāo)題之后的標(biāo)簽元素進(jìn)行遍歷:計(jì)算各個(gè)標(biāo)簽元素與所述文章標(biāo)題所對(duì)應(yīng)的標(biāo)簽元素之間的距離;刪除距離小于第二預(yù)設(shè)閾值的標(biāo)簽元素;對(duì)于未刪除的標(biāo)簽元素,根據(jù)各個(gè)標(biāo)簽元素的標(biāo)簽字符串比、和各個(gè)標(biāo)簽元素與所述標(biāo)題所對(duì)應(yīng)的標(biāo)簽元素之間的距離,計(jì)算各個(gè)標(biāo)簽元素的特征值;選取特征值最大的標(biāo)簽元素,作為第二標(biāo)簽元素;比較所述第一標(biāo)簽元素的特征值和所述第二標(biāo)簽元素的特征值,將特征值較大的標(biāo)簽元素作為所述頁(yè)面中的正文頁(yè)面塊對(duì)應(yīng)的標(biāo)簽元素。6.根據(jù)權(quán)利要求5所述的方法,其特...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:鄢軍,佟京,劉城,孫政,
申請(qǐng)(專(zhuān)利權(quán))人:微夢(mèng)創(chuàng)科網(wǎng)絡(luò)科技中國(guó)有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:北京,11
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。