Python을 이용한 한글 명사별 분류(Code)

Konlpy를 이용하여 크롤링한 데이터를 명사별로 분류하고자 한다.

https://sports.news.naver.com/news.nhn?oid=139&aid=0002124617

모리뉴 “1위 팀 우리 꺼릴 것” vs 사리 “모리뉴 만나고 싶다”

[스포탈코리아] 허윤수 기자= 유럽축구연맹(UEFA) 챔피언스리그 16강 진출팀이 모두 정해진 가운데 유벤투스의 마우리치오 사리 감독이 만나고 싶은 팀을 밝혔다.‘야후 스포츠’는 13일(한국시간) “사리 감독은 토트넘 홋스퍼와의 만남을 환영할 것이다. 그는 특별한 모리뉴 감독과 만날 수 있다”라고 전했다.조별리그를 1위로...

sports.news.naver.com

우선 크롤링을 하여 본문을 긁어온다.

1
2
3
4
5
6

import requests
import re
url = "https://sports.news.naver.com/news.nhn?oid=139&aid=0002124617"
req = requests.get(url)
content = req.text.split('"newsEndContents">')[1].split('</div>')[0]
print(content)
 


긁어온 본문은 다음과 같다

필요없는 html 정보 (br, span) 등을 제거하는 방법은 다음과 같다

content = re.sub('<.+?>', '', content, 0).strip()

이제 konlpy를 설치해야 한다.

konlpy 설치 방법은 pip3 install konlpy(python 3 기준)이다.

그 다음 아래 소스와 같이 konlpy를 Import 하고, Kkma 모델을 가져온다.

Kkma말고도 Twitter 등이 있다고 한다.

1
2
3
4
5
6
7
8
9
10
11
12

import requests
import re
from konlpy.tag import Kkma
from konlpy.utils import pprint
url = "https://sports.news.naver.com/news.nhn?oid=139&aid=0002124617"
req = requests.get(url)
content = req.text.split('"newsEndContents">')[1].split('</div>')[0]
content = re.sub('<.+?>', '', content, 0).strip()
nlpy = Kkma()
noun = nlpy.nouns(content)
print(noun)
 
 

그 다음, nlpy.nouns 를 이용하여 content로 부터 명사 단위로 쪼갠다.

결과이다.

딥러닝을 잠깐이나마 공부한 사람들은 알겠지만, 명사를 문장 내에서 인식하여 쪼갠다는 것은 매우 어려운일이다.

특히 한글의 경우, 구조상으로 영어보다 훨씬 더 예측하기 어렵다고 한다.

'Programming > Python' 카테고리의 다른 글

Python을 이용한 롤 전적검색 사이트 만들기 4 (0)	2020.02.10
Python을 이용한 롤 전적검색 사이트 만들기 3 (0)	2020.02.06
Python을 이용한 롤 전적검색 사이트 만들기 2 (1)	2020.01.26
Python을 이용한 롤 전적검색 사이트 만들기 1 (0)	2020.01.17

Dev Roooookie

Python을 이용한 한글 명사별 분류(Code)

'Programming > Python' 카테고리의 다른 글

티스토리툴바

Python을 이용한 한글 명사별 분류(Code)

'Programming > Python' 카테고리의 다른 글

'Programming/Python' Related Articles

티스토리툴바