티스토리 뷰

반응형

크롤링 , 파싱 


크롤링은 웹이라는 바다에서 여기저기 그물로 펼쳐서 낚시한다고 생각하시면 되고요


파싱은 그 바다에서 그물에서 잡혀진 것중에서 내가 잡아야하는 어종만 추리는 거라고 말하면 될까요? ㅎ


보통 흔히 섞어서 쓰기 때문에 별 차이는 없습니다. 


여기서는 기본적인 소스를 보여드리는 것보다는

(소스는 어디서든 흔히 찾을 수 있으니까요)


보드별로 파싱을 하는 방법에 대해서 정리해드리려고 합니다..




우선은 제일 쉽게 이해하시려면요


우선 타겟 사이트에서 가져온 html 데이타가 있습니다


긴 소스로 되어있는 데이타인데 


여기서 필요한 정보들을 추리겠죠


보통 제목이나 내용일거구요.  


추가적으로 작성날짜, 작성자, 조회수, 등등이 있겠죠 

이건 처음 가져온 html 데이타에 있으면 매우 좋구요.. 


ajax같은것으로 따로 가져오게 되면 좀 복잡해지죠..


아무튼 우선 타겟 주소에서 내가 원하는 데이타들을 가져왔을 경우에서 설명드리자면


이것을 각각 어떻게 저장할것인가 고민되죠




제일 기본은 


각 보드의 write.에 관련된 소스를 보시면 됩니다.


그럼 보드에 게시물을 쓸때 실행되는 함수 및 저장되는 값들을 보게 되는데요


이것을 이용해서 각종 보드로 삽입되는 소스를 작성해주시면 됩니다.


물론 가장 기본적인 툴 하나를 만든후 


그것을 각종 보드로 저장되는 타입을 만들어도 됩니다만...


국산은 그누보드가 제일 흔합니다.




글 내용을 작성하면 글이 써진 다음. 새글 추가. 관리자 알림, 메일전송, 등의 기능이 추가로 실행되죠 


그부분을 파악하셔야 합니다.




반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함