yangbeom @yangbeomsu - Tumblr Blog

2016을 돌아보며

커뮤니티를 혹은 플랫폼을 운영해보고 싶어 개발하던 도중 몇가지 일이 터졌는데 내가 생각한 유저와 실제 사용할 만한 유저가 많이 다르다는 것을 느끼고 접게 되어 아쉬웠다.

공채 코딩테스트를 몇번 보게 되었는데 다 끝나고 나면 아 이렇게 하면 더 효율이 좋은 소스가 됐을텐데.... 하는게 많아서 아쉬웠다.

계획은 2016년엔 취업하는 것이였는데 취업은 하지 못했다.

첫 외주를 했다.

이것 저것 간단한 것이지만 오픈소스프로젝트에 참여를 하기 시작했다.

내가 필요했던 것만 개발을 했는데 여럿이 사용할 수 있는 것을 만들어 보았다.

이것저것 아쉬움이 많이 남는 해였던것 같다. 2017에는 아쉬움이 아닌 만족스러운 한해를 보내도록 노력해야겠다.

BugsElectronPlayer v1.1.0

스트리밍으로 Bugs 사용중에 windows는 Bugs에서 전용 플레이어가 있고

macOS는 전용플레이어는 아니지만 사용자가 비슷하게 만든 플레이어가 있는데

사용중인 리눅스에서는 이런게 왜!!!

그 동안 웹플레이어를 사용하면서

단축키가 있었으면 좋겠다.

Bugs Web Player를 쓰다가 인터넷창을 끄다가 동시에 다 꺼져버린적이 많다.

뭔가 학습 할게 필요하다.

이 셋이 겹쳐 Bugs Web Player에 단축키를 포함한 BugsElectronPlayer를 만들어 보았습니다.

잘 만들어진 것은 아니지만 필요하신 분들이 있을까 생각하여 공개해 보았습니다.

v1.1.0 버전은 기본 플레이어에 어디서든 MediaPlayPause , MediaNextTrack , MediaPreviousTrack 세 키가 가능하게 해두었습니다.

또한 재시작시 스킨과 볼륨이 이전 설정을 유지되게 하였습니다.

현재 알려진 오류로는

linux에서 시스템에 해당 단축키가 등록되어 있으면 우선 순위에 밀려 shortcut이 작동되지 않습니다.

사용은 BugsElectronPlayer Release 에서 맞는 버전을 다운받아 압축해제하여 사용하는 방법과 BugsElectronPlayer에서 소스를 다운받아 실행하는 법이 있습니다.

#BugsElectronPlayer #Bugs #벅스 #벅스뮤직 #electron

BugsElectronPlayer v1.0.2

스트리밍으로 Bugs 사용중에 windows는 Bugs에서 전용 플레이어가 있고

macOS는 전용플레이어는 아니지만 사용자가 비슷하게 만든 플레이어가 있는데

사용중인 리눅스에서는 이런게 왜!!!

그 동안 웹플레이어를 사용하면서

단축키가 있었으면 좋겠다.

Bugs Web Player를 쓰다가 인터넷창을 끄다가 동시에 다 꺼져버린적이 많다.

뭔가 할게 필요하다.

이 셋이 겹쳐 Bugs Web Player에 단축키를 포함한 BugsElectronPlayer를 만들어 보았습니다. 잘 만들어진 것은 아니지만 필요하신 분들이 있을까 생각하여 공개해 보았습니다.

v1.0.2 버전은 기본 플레이어에 MediaPlayPause , MediaNextTrack , MediaPreviousTrack 세 키가 가능하게 올려두었습니다.

현재 알려진 오류로는

스킨및 볼륨에 대한 설정 값이 저장되지 않습니다.

linux에서 시스템에 해당 단축키가 등록되어 있으면 우선 순위에 밀려 shortcut이 작동되지 않습니다.

사용은 BugsElectronPlayer Release 에서 맞는 버전을 다운받아 압축해제하여 사용하는 방법과 BugsElectronPlayer에서 소스를 다운받아 실행하는 법이 있습니다.

#BugsElectronPlayer #v1.0.2 #electron #Bugs #벅스 #벅스뮤직

Telegram Bot Inline Message

Inline Message를 전송했을때 Telegram Bot이 Webhook을 받는다면 설정해 둔 주소로 다음과 같은 Json이 도착하게된다.

{'update_id': 677165716, 'inline_query': {'offset': '', 'from': {'first_name': 'xx', 'username': 'xx', 'id': 123456789}, 'query': '', 'id': '12342342351'}}

#telegrambot #텔레그램봇 #inlinemessage

팟수봇 공개 후 2주일

팟수봇을 공개 후 2주일이 지났습니다.

사실 나중에 안 사실이지만 휴대폰에 다음팟TV App을 설치하고 즐겨찾기를 하면

원하는 PD가 방송을 하면 알림을 주게 되어있더군요.

App을 설치하지 않고 PC로만 보던 저는 알지 못해 만든 팟수봇이였습니다.

10월 10일기준 팟수봇 사용자는 현재 38분이 이용하고 계시고 있습니다.

또한 38분이 등록해둔 PD의 총수는 48명입니다.

키덜트리포트_본방 : 4명

이민우 : 4명

PD요인 : 3명

똘똘똘이(원조집) : 3명

두릅! : 2명

다음과 같이 다섯 PD분들은 인기가 있으신 PD분들이신지 여러분들이 알림을 받고 계시네요.

사실 이 글을 쓰는 이유는 대략적으로 어느 PD의 알림을 많이 받는지 비교해 보기 위해서 적기 시작했습니다.

하지만 대다수 PD의 방송 알림을 한분만 받는 일이 많아서 실패한 글입니다.

#팟수봇 #PotSuBot #telegrambot

Django 특정 view에서 csrf사용 안하기

views.py 에 다음과 같이 추가해준후 데코레이터를 붙이면 해당 View에서는 csrf를 사용하지 않게 된다.

from django.views.decorators.csrf import csrf_exempt ... @csrf_exempt def view(request): ...

#django #python #csrf

Django 에 postgresql 연결하기

python3.5/ubuntu 16.04LTS/Django1.10 에서 사용후 작성하는 문서입니다.

Psycopg2 설치

pip install psycopg2

이때 설치가 안된다면 다음과 같이 추가로 설치 후 다시 설치해 주면 됩니다.

sudo apt install python3-dev libpq-dev

Django 설정 변경하기

psycopg2가 설치가 되었다면 다음과 같이 settings.py중 databases를 수정해 주면 됩니다.

DATABASES = { 'default': { 'ENGINE': 'django.db.backends.postgresql', ... } }

다른 블로그에 보면 django.db.backends.postgresql_psycopg2로 적혀있는 곳이 많이 있습니다. Django Doc 1.10에 보면 1.9이전의 django.db.backends.postgresql_psycopg2가 django.db.backends.postgresql로 바뀌었다고 적혀있습니다.

여전히 django.db.backends.postgresql_psycopg2는 작동 하지만 아마 차후에 사라지지 않을까 생각 됩니다. 따라서 django.db.backends.postgresql로 설정후 사용하는게 좋다고 생각 됩니다.

#python3 #django1.10 #django #python #postgresql

Ubuntu 16.04에 Mariadb설치 후 Django에 연결하기

sudo apt-get install mariadb-server

을 입력하면 Ubuntu에 가장 최신 버전을 설치하게 된다.

Django에서 이용하기 위해서 설치를 하였는데

타 블로그에서 mariadb는 libmariadbclient-dev를 설치하라고 적혀있었으나

Ubuntu 16.04 LTS에서 아직 libmariadbclient-dev 설치하지 못하여 libmysqllient-dev로 설치하여 mysqlclient를 설치하였다.

pip install mysqlclient

Django에서 이용하기 위해서

settings.py에 다음과 같이 수정해 준다.

'default': { 'ENGINE': 'django.db.backends.mysql', 'HOST' : 'localhost', 'USER' : 'USERNAME', 'NAME' : 'DATABASENAME', 'PASSWORD' : 'PASSWORD', 'PORT' : 3306, }

이때 ENGINE 을 제외한 나머지는 각자 세팅에 맞게 설정해주면 된다.

#ubuntu #mariadb #django

Django manage.py loaddata

python manage.py loaddata 파일명

위와 같이 Django를 이용하여 json 으로된 파일을 DB에 한번에 때려박을수 있는데 이때 json 형식은

[{"model":"모델명","fields":{컬럼명:값}}, ... ]

과 같다.

#django #loaddata #python3

cmd utf-8로 보기

cp949가 기본 인코딩인 cmd창에서 cmd 창에서 chcp 65001을 치면 utf-8로 볼수있다.

#cmd #utf-8 #chcp65001

python으로 Clien 로그인하여 글남기기(1차수정)

지난 강좌를 보시고 한분이 website에 로그인후 글을 남기는 과정을 웹 브라우저가 아닌 python만을 사용하여 처리할수 있는지 쪽지를 보내주신 분이계셔서 답장을 해드렸었습니다. 개인적으로 만들고 있는것에 웹로그인이 필요하여 겸사겸사 간단하게 강좌를 작성해봅니다.

Clien 로그인하기

우선 로그인 전에 Cookie와 SSL에 대해서 알아보겠습니다.

Cookie란?

사용자에 대한 정보를 사용자 PC에 보관하기 위해서 웹 사이트에 웹 브라우저로 전송하는 정보입니다. 웹 사이트에 접속하면 웹 사이트는 PC에 저장된 쿠키의 내용을 읽고, 이용자의 정보를 얻을 수 있습니다. 간편히 말해 Cookie는 사용자의 신분증과 같은것으로 생각 하시면 되겠습니다. Cookie와 비슷한 Session이란것도 있는데요 Session 은 사용자의 PC에 저장을 하는 것이 아니라 서버에 저장합니다.

SSL이란?

Secure socket layer의 약자로 정보를 암호화하여 송/수신하는 프로토콜입니다. 간단히 말하면 SSL을 적용을 안했을때는 사용자가 로그인을 할때 서버로 패킷을 전송할때 사용자의 아이디와 비밀번호가 그대로 노출이 되게 됩니다. 하지만 적용을 하였을땐 아이디와 비밀번호가 암호화 되어 전송이 되기에 악의적인 사용자로부터 사용자의 아이디와 비밀번호가 조금 더 안전하다고 보시면 됩니다.

※저는 python 3.4버전을 사용하고 있습니다.

import requests login_info = { 'mb_id' : "Clien id",# clien id를 적습니다. 'mb_password' : "Clien password"# password를 적습니다. } header = {"User-agent":'Mozilla/5.0'} write_info = { 'bo_table':'park', 'wr_subject':"python으로 모두의 공원 글쓰기 test입니다.", 'wr_content':"테스트 후 정리하여 팁과 강좌에 글올리겠습니다.\n 글은 곧 삭제됩니다.\n yangbeom", 'wr_ccl_nc':"nc", 'wr_ccl_nd':"nd" } with requests.Session() as s: r = s.post("https://clien.net/cs2/bbs/login_check.php", data = login_info, headers=header) r = s.post("http://www.clien.net/cs2/bbs/write_update.php",data=write_info)

이전과 달리 requests에서 Session을 쉽게 관리해줍니다. 따라서 로그인후의 세션이 자동으로 s에 저장이 되어있는것이죠.

Clien에 글올리기

모두의 공원과 아이포니앙에 대해서 확인 해보았더니

#모두의 공원 Content-Disposition: form-data; name="bo_table"(게시판 이름) park Content-Disposition: form-data; name="wr_subject"(제목) python으로 모두의 공원 글쓰기 test입니다. Content-Disposition: form-data; name="wr_content"(내용) 테스트후 정리하여 팁과강좌에 글올리겠습니다.\n글은 곧 삭제됩니다.\nyangbeom Content-Disposition: form-data; name="wr_ccl_nc"(ccl영리목적) nc Content-Disposition: form-data; name="wr_ccl_nd"(ccl 변경) nd #아이포니앙 Content-Disposition: form-data; name="bo_table"(게시판이름) cm_iphonien Content-Disposition: form-data; name="ca_name"(카테고리) [잡담] Content-Disposition: form-data; name="wr_subject" python으로 아이포니앙에 글쓰기 test입니다. Content-Disposition: form-data; name="wr_content" 테스트 후 정리하여 팁과 강좌에 글올리겠습니다.\n 글은 곧 삭제됩니다.\n yangbeom

와 같이 전송을 해주면 올라가게 되어있습니다. 따라서 다음과 같이 작성을 해주었습니다. 다른 게시판의 경우 아래 write_info에서 bo_table을 변경해주시면 전송이 될 것으로 보입니다.

write_info = { 'bo_table':'park', 'wr_subject':"python으로 모두의 공원 글쓰기 test입니다.", 'wr_content':"테스트 후 정리하여 팁과 강좌에 글올리겠습니다.\n 글은 곧 삭제됩니다.\n yangbeom", 'wr_ccl_nc':"nc", 'wr_ccl_nd':"nd" }

짧은 시간내에 request를 보내게 된다면 모든 글이 올라가지 않을수 있습니다.

#python3 #clien

python을 이용한 클리앙 파서만들기 - BeautifulSoup 사용편(1차 수정)

from bs4 import BeautifulSoup import requests from requests.compat import urljoin base_url = "http://www.clien.net/cs2/bbs/board.php?bo_table=lecture" header = {'User-Agent': 'Mozilla/5.0'} r = requests.post(base_url,headers=header) r.encoding = "utf-8" bs4_clien = BeautifulSoup(r.text,"html.parser") find_mytr = bs4_clien.find_all("tr",attrs={'class':"mytr"}) for t in find_mytr: try: print(t.find('td',attrs={'class':'post_category'}).get_text()) print("제목 : {}".format(t.find('td',attrs={'class':'post_subject'}).get_text())) print("url : {}".format(urljoin(base_url,t.find('td',attrs={'post_subject'}).a.get('href')))) print("글쓴이 : {}".format(t.find('td',attrs={'class' : 'post_name'}).get_text())) except AttributeError: continue

이전 BeautifulSoup 사용법 보다 짧은 코드로 수정해 보았습니다. 이전과의 차이점은 파이썬 내장 urllib가아닌 requests를 사용하였습니다. <td class="mytr">을 가져와 그안에 있는 category,subject,post_name 그리고 url 을 출력하는 예제입니다.

내용은 이전과 같으며 소스만 수정해보았습니다.

#python3 #clien #parser #BeautifulSoup4 #bs4

re(Regular Expression) 사용하기

re(Regular Expression)이란?

특정한 패턴을 정의하여 문자열에서 그 패턴을 찾아내는 것이다.

re를 사용하기 위해서는 패턴을 만드는 법을 알아야한다

re 문법

. 는 \n 즉 newline 을 제외한 모든 문자를 의미한다.

^ 는 문자열의 가장 앞부분을 의미한다.

$ 는 문자열의 맨 뒷부분을 의미한다.

* 는 앞패턴이 0번 이상 반복됨을 의미한다.

? 는 앞패턴이 0번 혹은 1번이 반복됨을 의미한다 ab? 를 사용한다면 a 또는 ab를 검색하게 된다.

+ 는 앞패턴이 1번 이상 반복됨을 의미한다.

{m} 는 앞패턴이 m번 반복됨을 의미힌다.

{m,n} 는 앞패턴이 m번 이상 n번 이하가 반복됨을 의미한다. 이때 n은 적지 않아도 무방하다.

\ 는 다른 곳에서와 마찬가지로 speial characters를 적을때 사용된다. ex) ., \^, \$ 등등

[] 는 문자열을 정의 할때 사용된다. a부터 f까지만을 정의 하고싶다면 [a-f] 와 같은 방법으로 정의한다

| 는 앞 혹은 뒤에 있는 패턴을 의미한다. 즉 a|b라면 a또는 b를 가져오게된다.

(?P<name>...)는 해당 패턴을 name이라는 이름으로 그룹화를 시킨다.

\w 는 word 한글자를 의미합니다.

\W 는 word가 아닌 한글자를 의미합니다.

\d 는 숫자 한글자를 의미합니다.

\D 는 숫자가 아닌 한글자를 의미합니다.

\s 는 whitespace 한글자를 의미합니다.

\S 는 whitespace가 아닌 한글자를 의미합니다.

이는 python doc re를 기반으로 작성하였습니다.

#re #regular expression #python #파이썬 #정규식

Telegram Bot SetWebhook

https://api.telegram.org/bot<token>/setWebhook?url=주소

를 사용하여 세팅을 하게 되는데 주소는 https:// 이후의 주소를 적어주어야 적용이된다.

이후 봇으로 메세지를 보내게되면 세팅한 곳으로

{'message': {'message_id': 140, 'chat': {'id': 148xxxxxx, 'username': 'username', 'first_name': 'first_name', 'type': 'private'}, 'date': 1453006866, 'from': {'id': 148xxxxxx, 'username': 'username', 'first_name': 'first_name'}, 'text': 'text'}, 'update_id': 893xxxxxx}

와 같은 json 형태를 POST로 전송해 준다.

getupdates 를 사용하여 얻은 것과의 차이점은 result안의 내용값만 전송되어 진다는 점이다.

#telegrambot #텔레그램 #텔레그램봇 #setWebhook

Notepad

nodtepad Write api

BOOL WINAPI WriteFile( _In_ HANDLE hFile, _In_ LPCVOID lpBuffer, _In_ DWORD nNumberOfBytesToWrite, _Out_opt_ LPDWORD lpNumberOfBytesWritten, _Inout_opt_ LPOVERLAPPED lpOverlapped );

lpBuffer에 들어있는 값들이 저장이 된다. Write되는 내용을 변경/암호화를 원한다면 lpBuffer를 변경하면 된다.

notepad using data api

LPVOID WINAPI MapViewOfFileEx( _In_ HANDLE hFileMappingObject, _In_ DWORD dwDesiredAccess, _In_ DWORD dwFileOffsetHigh, _In_ DWORD dwFileOffsetLow, _In_ SIZE_T dwNumberOfBytesToMap, _In_opt_ LPVOID lpBaseAddress );

메모리의 시작점lpBaseAddress부터 dwNumberOfBytesToMap 만큼 읽어오게 된다. Read시 내용을 복호화를 하고싶다면 변경하면 될것같다.

#notepad

python으로 Clien 로그인하여 글남기기

지난 강좌를 보시고 한분이 website에 로그인후 글을 남기는 과정을 웹 브라우저가 아닌 python만을 사용하여 처리할수 있는지 쪽지를 보내주신 분이계셔서 답장을 해드렸었습니다. 개인적으로 만들고 있는것에 웹로그인이 필요하여 겸사겸사 간단하게 강좌를 작성해봅니다.

Clien 로그인하기

우선 로그인 전에 Cookie와 SSL에 대해서 알아보겠습니다.

Cookie란?

사용자에 대한 정보를 사용자 PC에 보관하기 위해서 웹 사이트에 웹 브라우저로 전송하는 정보입니다. 웹 사이트에 접속하면 웹 사이트는 PC에 저장된 쿠키의 내용을 읽고, 이용자의 정보를 얻을 수 있습니다. 간편히 말해 Cookie는 사용자의 신분증과 같은것으로 생각 하시면 되겠습니다. Cookie와 비슷한 Session이란것도 있는데요 Session 은 사용자의 PC에 저장을 하는 것이 아니라 서버에 저장합니다.

SSL이란?

Secure socket layer의 약자로 정보를 암호화하여 송/수신하는 프로토콜입니다. 간단히 말하면 SSL을 적용을 안했을때는 사용자가 로그인을 할때 서버로 패킷을 전송할때 사용자의 아이디와 비밀번호가 그대로 노출이 되게 됩니다. 하지만 적용을 하였을땐 아이디와 비밀번호가 암호화 되어 전송이 되기에 악의적인 사용자로부터 사용자의 아이디와 비밀번호가 조금 더 안전하다고 보시면 됩니다.

※저는 python 3.4버전을 사용하고 있습니다.

import http.cookiejar #Cookie를 관리하기 위해 사용합니다. import urllib import ssl #ssl을 적용합니다. cj = http.cookiejar.CookieJar() #Cookie 적용 https_sslv23_handler = urllib.request.HTTPSHandler(context=ssl.SSLContext(ssl.PROTOCOL_SSLv23)) #python의 ssl protocol_SSLv23을 적용하기 위한 handler opener = urllib.request.build_opener(https_sslv23_handler,urllib.request.HTTPCookieProcessor(cj))#SSL과 Cookie를 사용하는 opner를 만듭니다. opener.addheaders=[('User-agent','Mozilla/5.0'),('Accept-Language', 'ko-KR')] #Header에 필요한 것들을 추가 시켜줍니다. urllib.request.install_opener(opener)#urllib에 생성해둔 opner를 만들어둡니다. login_url = "https://clien.net" #login시 ssl을 이용하기에 https를 사용하는 주소를 적어두었습니다. url = "http://clien.net" #login을 제외한 데이터는 http를 이용하여 사용합니다. login_info = { 'mb_id' : "Clien ID",#clien id를 적습니다. 'mb_password' : "Clien Password"#password를 적습니다. } login_request = urllib.parse.urlencode(login_info) req = urllib.request.Request(login_url+'/cs2/bbs/login_check.php',login_request.encode('UTF-8')) res = urllib.request.urlopen(req)

다음은 python의 ssl 프로토콜입니다. 저는 SSLv23을 적용시켜두었는데요 다른의미는 없고 SSLv23이 서버의 SSLv2를 제외한 남머지를 다 지원해주기에 SSLv23을 적용하였습니다.

login_info의 mb_id는 홈페이지의 아이디입력하는 text창의 id이며 mb_password는 패스워드를 입력하는 곳의 text창입니다. 저곳을 확인 하는 방법은 전에 BeautifulSoup을 이용할때 확인했던 방법으로 찾으시면 됩니다.

login_request는 login_info를 바탕으로 Request를 날릴수있게 변환하여 주는 과정입니다.

이제 패킷을 날리기 위한 준비가 다 끝이났습니다. ullib.request.Request()함수를 사용하여 Request를 생성하고 urlopen을 통하여 Request를 전송하면 로그인이 끝나게 됩니다.

Clien에 글올리기

모두의 공원과 아이포니앙에 대해서 패킷을 확인 해보았더니

#모두의 공원 Content-Disposition: form-data; name="bo_table"(게시판 이름) park Content-Disposition: form-data; name="wr_subject"(제목) python으로 모두의 공원 글쓰기 test입니다. Content-Disposition: form-data; name="wr_content"(내용) 테스트후 정리하여 팁과강좌에 글올리겠습니다.\n글은 곧 삭제됩니다.\nyangbeom Content-Disposition: form-data; name="wr_ccl_nc"(ccl영리목적) nc Content-Disposition: form-data; name="wr_ccl_nd"(ccl 변경) nd #아이포니앙 Content-Disposition: form-data; name="bo_table"(게시판이름) cm_iphonien Content-Disposition: form-data; name="ca_name"(카테고리) [잡담] Content-Disposition: form-data; name="wr_subject" python으로 아이포니앙에 글쓰기 test입니다. Content-Disposition: form-data; name="wr_content" 테스트 후 정리하여 팁과 강좌에 글올리겠습니다.\n 글은 곧 삭제됩니다.\n yangbeom

와 같이 전송을 해주면 올라가게 되어있습니다. 따라서 다음과 같이 작성을 해주었습니다. 다른 게시판의 경우 bo_table을 변경해주시면 전송이 될 것으로 보입니다.

write_info = {} write_info[0] = { 'bo_table':'park', 'wr_subject':"python으로 모두의 공원 글쓰기 test입니다.", 'wr_content':"테스트 후 정리하여 팁과 강좌에 글올리겠습니다.\n 글은 곧 삭제됩니다.\n yangbeom", 'wr_ccl_nc':"nc", 'wr_ccl_nd':"nd" } write_info[1] = { 'bo_table':"cm_iphonien", 'ca_name':"[잡담]", 'wr_subject':"python으로 아이포니앙에 글쓰기 test입니다.", 'wr_content':"테스트 후 정리하여 팁과 강좌에 글올리겠습니다.\n 글은 곧 삭제됩니다.\n yangbeom" }

위에 로그인과 다른점은 Request를 보내야할곳이 /cs2/bbs/login_check.php이 아닌 /cs2/bbs/write_update.php 이란것입니다.

강좌를 위해 for문을 이용하여 모두의 공원가 아이포니앙에 글을 올려보도록하겠습니다.

for i in range(0,2): write_request = urllib.parse.urlencode(write_info[i]) req = urllib.request.Request(url+"/cs2/bbs/write_update.php",write_request.encode('UTF-8')) res = urllib.request.urlopen(req)

실행결과는 다음과 같습니다.

짧은 시간내에 request를 보내게 된다면 모든 글이 올라가지 않을수 있습니다.

#python3.4 #python #web_login #clien #클리앙 #로그인 #파이썬

python을 이용한 클리앙 파서만들기 - BeautifulSoup 사용편

지난 HTML 분석편에서 확인했듯이 우리는 <td class="mytr">을 가져와 category,subject,post_name 이 3가지를 출력하려고 합니다. 우선 BeautifulSoup를 설치해야겠지요?

pip install BeaautifulSoup4

BeautifulSoup에선 third-party Python parser인 lxml과 html5lib도 지원하지만 저는 Python의 기본 내장 파서를 사용하려고합니다.

from bs4 import BeautifulSoup from urllib.request import Request,rulopen from urllib.paarse import urljoin

첫 from bs4 import BeautifulSoup은 BeautifulSoup를 사용하기 위해 추가해주는것이며 from urllib.request importRequest,urlopen 은 url을 이용하여 해당 페이지에 접속하기 위해 추가해 줍니다. 마지막 from urllib.parse import urljoin은 다음과 같이 해당 글의 url을 상대경로로 표시되어있습니다. 이를 절대경로로 변경하여 주기 위하여 추가해 줍니다.

clien 팁과강좌 게시판 접속하기

우선 clien 팁과강좌 게시판을 여는 코드를 작성해 보겠습니다.

base_url = "http://www.clien.net/cs2/bbs/board.php?bo_table=lecture" url_request = Request(base_url,headers={'User-Agent': 'Mozilla/5.0'}) clien_tip_board = urlopen(url_request).read()

Request의 headers={'User-Agent': 'Mozilla/5.0'}는 적어주시지 않으면 봇으로 간주하여 해당 페이지를 열수 없게 하는경우가 있기에 User-Agent를 조작하여 접속을 하게 됩니다.

이곳까지 작성하였다면 우리는 clien 팁과강좌 게시판을 가져오는데 성공하였습니다 : ^)

BeautifulSoup을 이용하여 원하는 부분 출력하기

이제 본격적으로 BeautifulSoup을 이용하여 원하는 부분들만 가져와서 출력을 하면됩니다.

bs4_clien = BeautifulSoup(clien_tip_board,"html.parser") find_mytr = bs4_clien.find_all("tr",attrs={'class':"mytr"}) for t in find_mytr: print(t.find('td',attrs={'class':'post_category'}).get_text(strip=True)) print("제목 : "+t.find('td',attrs={'class':'post_subject'}).get_text(strip=True).encode('cp949','ignore').decode('cp949')) print("url : "+urljoin(base_url,t.find('td',attrs={'post_subject'}).a.get('href'))) print("글쓴이 : "+t.find('td',attrs={'class' : 'post_name'}).get_text(strip=True))

우선은 find_all()함수를 사용할 것인데요. bs4_clien.find_all() 함수는 find_all 말그대로 bs_clien에서 해당하는것들을 모두 가져 오는 함수입니다. 우리는 1페이지의 모든 </td><tr class="mytr">을 가져오기로 했었습니다. 따라서 다음과 같은 코드가 필요합니다.

find_mytr = bs4_clien.find_all("tr",attrs={'class':"mytr"})

다음은 이제 mytr을 가져왔으니 그안에 있는 post_category,post_subject,post_name을 가져 와보도록 하겠습니다.

for t in find_mytr: print(t.find('td',attrs={'class':'post_category'}).get_text(strip=True)) print("제목 : "+t.find('td',attrs={'class':'post_subject'}).get_text(strip=True).encode('cp949','ignore').decode('cp949')) print("url : "+urljoin(base_url,t.find('td',attrs={'post_subject'}).a.get('href'))) print("글쓴이 : "+t.find('td',attrs={'class' : 'post_name'}).get_text(strip=True))

다 공통된 부분인데요 find()함수는 해당하것을 가져오는 함수입니다. find_all()함수와는 다르게 첫번째것만을 가져오기때문에 첫번째것 하나만 필요하게 되면 훨씬 효율적인 코드가 되겠지요.

<td class="post_category">를 가져오기위하여

find('td',attrs={'class':'post_category'})

를 사용하였습니다. 그뒤 .get_text(strip=True)는 해당태그 안에있는 텍스트를 가져오는 함수인데요 strip=True는 앞뒤공백문자를 지워주는 옵션입니다.

</td><td class="post_subject"> 도 마찬가지로 find()함수와 get_text()함수를 사용하여 가져옵니다.

url주소는 </td><td class="post_subject"> 태그 안에있는 <a href=""> 에 존재하고있습니다. 따라서 t.find('td',attrs={'post_subject'}).a.get('href')이러한 방법으로 url 주소를 가져오게 됩니다. find함수로 </a></td><td class="post_subject">를 가져오고 그안에 있는 a 태그의 href를 가져오는 방법입니다. 위에서 말했듯 이곳엔 상대경로인 ../~로 시작된 주소가 포함되어있는데요. 이것을 절대경로 즉 우리가 접속하는 주소로 바꿔주는 함수가 바로 처음에 추가해주었던 urljoin()함수입니다.

자 이제 Clien 팁과강좌 게시판을 파싱하는 법이 끝났습니다. 전에 올린 트위터강좌와 연계하여 사용한다면 자신이 원하는 글이 올라오면 Twitter를 통하여 DM으로 받을 수 있겠네요.

제목부분에 encode후 decode를 하였는데요. 사실 이것때문에 BeautifulSoup편 강좌가 늦어졌습니다. 저는 윈도우를 사용하기때문에 cmd창에서 cp949를 사용하여 출력을하는데 한분이 강좌를 올려주신 글에 cp949에서 없는 글자인지 자꾸 오류를 뿜더군요. 그래서 cp949로 인코딩을 하며 없는 문자는 그냥 제거를 해버렸습니다.

#python3 #BeautifulSoup4 #Clien #웹파싱 #파이썬 #웹파서

Trending Blogs

Recently Viewed Blogs

yangbeom