Blog Archive

2006-06-06

W3C의 semantic data extractor

오래간만에 페이지의 문법 검사(markup validation check)를 하다가 tip으로 semantic data extractor(시맨틱/의미적 데이터 추출기?)라는 것을 알게 되었다. 아주 오래 전에 만들어진 것인데 왜 아직까지 몰랐을까 생각이 들었다. HTML 페이지의 주소를 입력하면 페이지의 각종 메타 데이터(제목, 저자, 요약, 연락처, 저작권, 언어, HTML Profile 등), 관계된 자원(도움말, 다음/이전 문서 등 관계된 다른 페이지, 다른 언어 페이지, RSS 피드용 페이지, 북마크가 가능한 링크 등), 정의된 용어들, 인용된 부분, 그리고 페이지의 논리적 구조 등을 보여준다. 여기에서 많은 데이터들이 제대로 추출이 된다는 것은 그만큼 페이지가 의미적으로 잘 만들어졌다는 뜻이고, 그것은 곧 검색 엔진에 제대로 노출된 확률이 크고, 기계적인 처리가 용이하다는 뜻이며, 나아가 의미적인 요소에 크게 의존하는 장애인용 보조 기술을 써서도 페이지를 잘 볼 수 있다고 해도 될 것 같다.

웹 접근성 쪽 관계자들과 가끔 만나 이야기를 하다 보면, 의외로 접근성 기술 지침에 나온 문자 그대로의 내용에 매달린 나머지, 진짜 중요한 의미 위주의 코딩(semantic markup)에 대해서 별 생각이 없는 경우를 많이 보아왔다. 그러나 장애인의 접근성과 향후 웹의 내용이 제대로 된 데이터가 되어 기계적인 처리가 원활하게 되는 것은 거의 동격이라고 해도 될 만큼 밀접한 관련이 있다. 현재에 W3C의 semantic data extractor 말고도 문서의 의미와 논리적인 구조가 제대로 작성되었는지 확인할 수 있는 방법은 몇 가지가 더 있다. 예를 들면, 오페라와 모질라, 아마야 브라우저에서는 link rel을 분석해서 표시해주거나 아예 문서의 구조적인 요소(element)들만 따로 추출해서 보여주는 기능이 있고, 파이어폭스용 확장 중에 웹 개발자용 도구모음(web developer toolbar)이나, 익스플로러용으로 나온 웹 접근성 도구모음(web accessibility toolbar)에서도 문서의 구조적인 정보를 정리해서 보여주는 기능이 있다. 하지만 semantic data extractor가 보여주는 내용은 이들과는 달리 몇 가지 범주로 나누어 상당히 많은 정보를 보여주는 것 같다. 이런 툴(tool)들이 많이 퍼졌으면 좋겠다.

댓글 2개:

  1. 최동찬7/14/2006

    오랜만에 KADO 포럼에서 신형의 활동을 보고 글을 올립니다.

    그동안 접근성과 장애인의 문제에 관심을 갖고 활동하면서

    여러사람들을 만났지만 새로운 사람이 별로 없어 흥미가 없어졌읍니다. 술취한 사람처럼 한 이야기 하고 또하는 것이

    장님 코끼리 다리 이야기 같읍니다.

    이 글처럼 어떠한 기술이 도움이 되는지를 알았으면 합니다.

    국내기업이나 대학등 3년정도 된것 같읍니다.

    2년전에 PROJECT에 참여한 계기로 좋은 기술이구나를 알았읍니다.

    연락 한번 부탁드립니다.

    답글삭제
  2. 최원장님, 안녕하세요. 잘 지내시죠? 저는 요즘 회사일이 바빠서 사실 아무것도 못하고 게으름 피우는 중입니다.^^ 기지개를 펴고 다시 일어나면 또 뵙지요. 그럼 건강하세요.

    답글삭제