티스토리 뷰
반응형
크롤링 , 파싱
크롤링은 웹이라는 바다에서 여기저기 그물로 펼쳐서 낚시한다고 생각하시면 되고요
파싱은 그 바다에서 그물에서 잡혀진 것중에서 내가 잡아야하는 어종만 추리는 거라고 말하면 될까요? ㅎ
보통 흔히 섞어서 쓰기 때문에 별 차이는 없습니다.
여기서는 기본적인 소스를 보여드리는 것보다는
(소스는 어디서든 흔히 찾을 수 있으니까요)
보드별로 파싱을 하는 방법에 대해서 정리해드리려고 합니다..
우선은 제일 쉽게 이해하시려면요
우선 타겟 사이트에서 가져온 html 데이타가 있습니다
긴 소스로 되어있는 데이타인데
여기서 필요한 정보들을 추리겠죠
보통 제목이나 내용일거구요.
추가적으로 작성날짜, 작성자, 조회수, 등등이 있겠죠
이건 처음 가져온 html 데이타에 있으면 매우 좋구요..
ajax같은것으로 따로 가져오게 되면 좀 복잡해지죠..
아무튼 우선 타겟 주소에서 내가 원하는 데이타들을 가져왔을 경우에서 설명드리자면
이것을 각각 어떻게 저장할것인가 고민되죠
제일 기본은
각 보드의 write.에 관련된 소스를 보시면 됩니다.
그럼 보드에 게시물을 쓸때 실행되는 함수 및 저장되는 값들을 보게 되는데요
이것을 이용해서 각종 보드로 삽입되는 소스를 작성해주시면 됩니다.
물론 가장 기본적인 툴 하나를 만든후
그것을 각종 보드로 저장되는 타입을 만들어도 됩니다만...
국산은 그누보드가 제일 흔합니다.
글 내용을 작성하면 글이 써진 다음. 새글 추가. 관리자 알림, 메일전송, 등의 기능이 추가로 실행되죠
그부분을 파악하셔야 합니다.
반응형
'웹' 카테고리의 다른 글
비트 코인 API 소스/예제 (0) | 2017.11.06 |
---|---|
Windows7 빌드 7601 - (오류: 0xC004D307 최대 허용 다시 설치 횟수가 초과되었습니다. 설치를 다시 시도하기 전에 OS를 다시 설치해야 합니다.) (0) | 2017.10.24 |
코드이그나이터 에서 파싱 셋팅하기. (0) | 2017.09.18 |
xe 제로보드 /xe 폴더 위로 또는 호스팅 옮길때 주의할것 (0) | 2017.09.11 |
바트 파싱기 정규식 작성 할때 팁. (0) | 2017.09.09 |
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 에러
- Cloudflare
- 아파치
- 루팅
- Fullcalendar
- 텔레그램
- php8
- Apache
- 워드프레스
- 회원가입
- 아미나
- 그누보드
- SSL
- 윈도우
- xe
- 텔레그램봇
- 파이선
- lsposed
- 그누보드5
- 유튜브
- Magisk
- 클라우드플레어
- python
- 오토셋
- 파이썬
- 멀티계정
- 제로보드
- php
- .htaccess
- 셀레니움
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함